DE69730811T2 - Anlage zur Bilderkennung - Google Patents

Anlage zur Bilderkennung Download PDF

Info

Publication number
DE69730811T2
DE69730811T2 DE69730811T DE69730811T DE69730811T2 DE 69730811 T2 DE69730811 T2 DE 69730811T2 DE 69730811 T DE69730811 T DE 69730811T DE 69730811 T DE69730811 T DE 69730811T DE 69730811 T2 DE69730811 T2 DE 69730811T2
Authority
DE
Germany
Prior art keywords
local
image
module
modules
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69730811T
Other languages
English (en)
Other versions
DE69730811D1 (de
Inventor
Hiroshi 1-4-1 Chuo Tsujino
Edgar 1-4-1 Chuo Koerner
Tomohiko 1-4-1 Chuo Masutani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Application granted granted Critical
Publication of DE69730811D1 publication Critical patent/DE69730811D1/de
Publication of DE69730811T2 publication Critical patent/DE69730811T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung betrifft Künstliche-Intelligenz-Systeme zur Bilderkennung. Insbesondere ist die vorliegende Erfindung ein Bildinformationsverarbeitungssystem, in dem auf der Basis einer Hypothese bezüglich des Grundschemas visueller Informationsverarbeitung, die einem echten biologischen Sehsystem angenähert ist, verschiedenerlei Bildinformationseingabe durch eine Kamera oder eine ähnliche optische Vorrichtung quantifiziert wird und einem Berechnungsprozess in einem Computer unterzogen wird, um die Erkennung von Objekten in dem Bild zu ermöglichen. Das System verwendet ferner automatische Selbsterlernung von Objektmodellen zum effizienten Erkennen von Bildern.
  • Da die physiologischen Funktionen biologischer Bilderkennung im Stand der Technik weiter aufgeklärt worden sind, sind Modelle mittels Computern und dgl. aufgestellt worden, um diese Erkennungsfunktionen anzunähern, und es gab Bestrebungen, um künstliche Intelligenz auf der Basis visueller Lernsysteme aufzubauen. Bei solchen visuellen Lernsystemen wird eine visuelle Szene, die zum Beispiel über eine Videokamera eingegeben wird, als nummerischer Wert ausgedrückt, und auf der Basis einer Analyse davon wird ein Bildobjekt aus innerhalb der visuellen Szene erkannt, spezifiziert und/oder klassifiziert. Insbesondere wird in solchen Systemen ein analytischer Prozess unternommen, um die Übereinstimmung zwischen einem eingegebenen Bildmuster und einem Bildmuster eines durch Erlernen akkumulierten erkannten Objekts zu erkennen.
  • Die eingegebene Szene wird in einen nummerischen Wert umgewandelt, wie etwa einen Spannungswert, der der Intensität von das Bild aufbauenden Pixeln entspricht, und wird als Vektor ausgedrückt. Zum Beispiel wird im Falle einer Bildgröße, die einen Bereich von 27 × 27 Pixeln belegt, ein 729 dimensionaler Vektor in der Form einer Varianz (Streuung) in einem orthogonalen axialen Raum ausgedrückt. Insofern ist eine analytische Verarbeitung einer so großen Datenmenge und eine Unterscheidung eines Zielbildmusters daraus, auch mit den Möglichkeiten gegenwärtiger Computer, nahezu unmöglich.
  • Um daher diese Analyse zu erleichtern, gibt es Bedarf nach einem Prozess, der durchgeführt werden soll, um das eingegebene Bildmuster, das das Erkennungsobjekt ist, in komprimierte Daten umzuwandeln, die die Charakteristika davon ausdrücken, wodurch dann ein Vergleich mit akkumulierten gelernten Mustern relativ leicht unternommen werden kann.
  • Zum effizienten Analysieren der Daten ist es erwünscht, den Datenraum in einen sogenannten Teilraum aufzuteilen, um den Datenraum auf seine am meisten charakteristischen Bereiche zu begrenzen.
  • Eine bekannte Methode, die diesen Bedarf erfüllt, ist die Haupt-Komponenten-Analyse (PCA). Gemäß diesem Verfahren wird die Verteilung der Objektbilddaten eines mehrdimensionalen Bildraums in einen Merkmalsraum umgewandelt, und die Hauptkomponenten von Eigenvektoren, die zum Kennzeichnen dieses Raums dienen, werden verwendet. Insbesondere werden die Eigenvektoren jeweils durch den Änderungsbetrag in der Pixelintensität dazu gebracht, Änderungen in der Bildgruppe zu entsprechen, und lassen sich daher als charakteristische Achsen zum Erläutern des Bilds denken.
  • Die jeweiligen Vektoren, die dem Objektbild entsprechen, enthalten jene, die stark zu den Eigenvektoren beitragen, sowie jene, die nicht so stark beitragen. Das Objektbild wird durch eine starke Änderung der Bildgruppe hervorgerufen und kann zum Beispiel auf der Basis der Ansammlung von Hauptkomponenten von Eigenvektoren mit großen Eigenwerten angenähert ausgedrückt werden.
  • Anders ausgedrückt, ist eine große Anzahl von Eigenvektoren erforderlich, um ein Zielbild sehr genau wiederzugeben. Wenn man jedoch lediglich den Wunsch hat, die Eigenschaften des äußeren Erscheinungsbilds eines Objektbilds auszudrü cken, können diese mittels einer kleineren Anzahl von Eigenvektoren ausreichend ausgedrückt werden. Ein System, das die oben beschriebene Eigenraummethode zum Erkennen menschlicher Gesichter verwendet, ist in dem US-Patent Nr. US-A-5,164,992 offenbart, dessen Offenbarung explizit in die vorliegende Beschreibung unter Bezugnahme aufgenommen wird. Diese Technologie wird nun kurz zusammengefasst.
  • Zuerst werden die Gesichtsbilder einer Mehrzahl zuvor bekannter Personen erlernt. Wenn N die Anzahl von das Gesichtsbild aufbauenden Pixeln ist, dann werden M Gesichtsbilder durch die jeweiligen Vektoren Γ1, Γ2, Γ3 ... Γn jeweils in der Länge N2 ausgedrückt.
  • Wenn man die Differenz zwischen dem Vektor jedes Gesichts einer Person und dem Durchschnittswert (Φi = Γ1 – Durchschnittsvektor) nimmt, resultiert dies in M Vektorgruppen. Wenn eine Vektorgruppe A definiert ist durch A = (Φi... ΦM), wird durch Berechnen eines Vektors νk und einer skalaren Größe λk als Eigenvektoren bzw. Eigenwerte der kovarianten Matrix C = AAT von A ein Eigenraum des Gesichts bestimmt.
  • Im Falle eines aus N × N Pixeln aufgebauten Bilds hat die Matrix C N2 Eigenvektoren und Eigenwerte. Wenn jedoch die Gesichtsdatenmenge M kleiner als die N2 Dimensionen des gesamten Bildraums ist (d. h. M << N2), die nicht nur Gesichtsdaten, sondern auch Hintergrunddaten enthält, ist es zum Erkennen des Gesichtsbilds akzeptabel, nur die Eigenvektoren einer M × M dimensionalen Matrix ATA zu berechnen. Der Vektorraum ut = Aνi kann aus den M Eigenvektoren νi der Matrix L bestimmt werden.
  • Daher werden die Daten entsprechend der obigen Analyse komprimiert, wodurch die Anzahl der erforderlichen Berechnungen beträchtlich reduziert wird.
  • Das eingegebene Gesichtsbild wird durch eine einfache Operation in die Komponenten des Gesichtsraums umgewandelt (d. h. auf einen Eigenraum des Gesichts projiziert), wie folgt: ωk = uk T(Γ – Ψ) Ψ: Durchschnittsvektor,die in einer Bildverarbeitungsvorrichtung ausgeführt wird.
  • Zweitens drückt ein Vektor ΩT = (ω1, ω2 ... ωM) als Gewichtung den Grad aus, mit dem jeder Gesichtseigenraum zu dem eingegebenen Bildmuster beiträgt. Der Vektor Ω wird als Standardmustererkennung verwendet.
  • Der Euclid'sche Abstand ε zwischen dem eingegebenen Bild Φ = T – Ψ und den durch Gleichung (1) definierten Gesichtseigenraum Φf wird aus Gleichung (2) bestimmt, wobei beide Gleichungen unten gezeigt sind. Wenn ε innerhalb eines gegebenen Schwellenwerts liegt, wird das eingegebene Bild als zu Φf zugehörig
    Figure 00040001
    ε2 = ||Φ – Φf||2 (2)
  • Anders ausgedrückt, können aus innerhalb einer gesamten Bildszene durch Bestimmung eines Vektors, der die Verteilung der Gesichtsbilder darin am besten auswertet, die Daten auf den Teilraum des Gesichtsbilds begrenzt werden. Dementsprechend wird die Datenmenge beträchtlich reduziert, und man kann sich auf einen einzigen Datensatz konzentrieren, der auf jene begrenzt ist, die die Gesichtscharakteristika aufbauen.
  • Sobald der Auswertungsvektor bestimmt worden ist, können die eingegebenen Bilder in solche klassifiziert werden, die Gesichter darin aufweisen oder nicht, und wenn gewertet wird, dass ein Gesicht vorhanden ist, kann ein bestimmtes individuelles Gesicht durch Vergleich mit den gesammelten Daten von Gesichtsmustern von vorher bekannten Einzelpersonen erkannt werden. Pentland et al, die Erfinder in dem oben identifizierten US-Patent, haben eine Hauptkomponentenana lyse an erlernten Bildern von 128 Gesichtsbildern durchgeführt, und in einem in tatsächlicher Praxis vorgenommenen Gesichtserkennungstest unter Verwendung von 20 essenziellen Eigenvektoren waren die Erfinder in der Lage, eine 95%ige Erkennungsrate in Bezug auf 200 Gesichtsbilder zu erreichen.
  • Die Eigenraummethode der Bilderkennung ist effizienter als die Standarderkennungstechniken, die einen Schablonenabgleich oder standardisierte Korrelationsbeziehungen verwenden. Jedoch müssen im Falle von Bildern, die durch hochmultidimensionale Vektoren ausgedrückt werden, die Teile der Bildmerkmale, die nicht gut erläutert werden, vermutet werden, und wenn keine Inferenztechniken zum Weglassen der Bildverarbeitungsberechnungen vorliegen, dann wird es notwendig, erweiterte Berechnungen in Bezug auf alle Vektoren durchzuführen, was in der tatsächlichen Praxis unmöglich ist.
  • Zusätzlich sind die strukturellen Beschreibungen der Kenntnis in Bezug auf Bildinformation mittels nur der Eigenraummethode kompliziert, und es ist problematisch, wenn diese auf das Verständnis von Bildern im Allgemeinen angewendet werden. Wenn sie auf das Erkennen von Bildern angewendet werden, die in der Realität existieren, müssen Methoden etabliert werden, um fehlerhafte Verarbeitungsergebnisse zu korrigieren, die ständig auftreten. Dementsprechend ist eine neue Systemlogik unabkömmlich, um die Anwendbarkeit der Eigenraummethode auf verschiedene Arten der Bilderkennung auszudehnen.
  • Die EP 0 733 989 offenbart eine Vorrichtung und ein Verfahren zur Bilderkennung, die eine Skaleninvarianz ermöglicht und die Karhunen-Loeve-Transformation verwendet. Der unabhängige Anspruch ist gegenüber diesem Dokument gekennzeichnet worden.
  • Die vorliegende Erfindung hat zur Aufgabe, ein Bilderkennungssystem anzugeben, wie es im unabhängigen Anspruch 1 aufgeführt ist und in der Lage ist, eine Erkennung von Objektbildern durchzuführen. Eine Ausführung der Erfindung enthält einen globalen Bildprozessor zum Durchführen einer Bildinformationsverarbeitung eines globalen Bilds eines Erkennungsobjekts, das über ein optisches Mittel eingegeben wird, sowie einen lokalen Bildprozessor zur Durchführung einer Bildinformationsverarbeitung eines lokalen Bilds, das ein Teilbild ist, welches die Charakteristiken des globalen Bilds ausdrückt, worin jeder der vorgenannten Bildprozessoren Funktionen hat, um Charakteristiken des eingegebenen Bilds zu extrahieren und die Konsistenz des Bilds auszuwerten (abzugleichen). Auf der Basis der Auswertung dieser Konsistenz werden die Verarbeitungsfunktionen anderer Bildinformationsverarbeitungsvorrichtungen aktiviert oder deaktiviert, wodurch eine Erkennung des Objektbilds durchgeführt wird, indem authentische Bilderkennung ausgewertet und von einer nicht-authentischen Bilderkennung unterschieden wird.
  • Eine weitere Aufgabe ist, ein System anzugeben, das in der Lage ist, die Rechenlast an einem Computer zu reduzieren, sowie auch eine Bilderkennung in einer kürzeren Zeit zu ermöglichen, als dies mit gegenwärtig bekannten Bilderkennungssystemen möglich ist, indem ein Modell der visuellen Informationsverarbeitungsmechanismen des zerebralen Cortex biologischer Wesen angewendet wird, wie beschrieben in "A processing control scheme derived from a bottom up flow of image information in which final recognized images are arrived at from recognition of simple forms, and a top down flow of image information in which, conversely, simple initial form recognition is reached from final recognized images" (Koerner, Tsujino, Masutani, "A Cortical-Type Modular Network for Hypothetical Reasoning", Neural Network, vol. 10, no. 5, pp. 791–810, 1997).
  • Eine noch weitere Aufgabe der vorliegenden Erfindung ist es, ein Bilderkennungssystem anzugeben, das ein System verwendet, in dem ein globales Bild, das das Erkennungsobjekt ist, und ein charakteristisches lokales Bild, das einen Teil des Objekts bildet, einer parallelen Bildverarbeitung unterzogen werden und automatisch verglichen werden, während inkonsistente Annahmen deaktiviert werden und konsistente Annahmen aktiviert werden, worin durch Selbstlernen der Gewissheitsgrad in Erkennungsbildern verbessert wird.
  • Zur Lösung der oben genannten Aufgabe gibt das Bilderkennungssystem der vorliegenden Erfindung ein System zur Durchführung von Bilderkennung eines Ob jekts an, unter Verwendung eines globalen Bildverarbeitungsmittels und eines lokalen Bildverarbeitungsmittels, die parallele Prozesse an einem globalen Bild des Erkennungsobjekts, das von einer Kamera oder einer anderen optischen Aufnahmevorrichtung eingegeben ist, und an charakteristischen lokalen Bildern durchführt, und aufgebaut ist durch ein globales Bildverarbeitungsmittel zur Durchführung eines analytischen Prozesses an einem globalen Bild, das ein Mittel zum Extrahieren einer globalen Charakteristik eines eingegebenen globalen Bilds sowie ein Mittel zum Auswerten der Konsistenz der extrahierten globalen Charakteristik aufweist, und ein lokales Bildverarbeitungsmittel zur Durchführung eines analytischen prozesses an einer Mehrzahl lokaler Bilder. Jedes lokale Bildverarbeitungsmittel ist aus einer Mehrzahl lokaler Module jeweils entsprechend jedem lokalen Bild aufgebaut. Jedes der lokalen Module weist ein Mittel zum Extrahieren einer Charakteristik eines eingegebenen lokalen Bilds sowie ein Mittel zum Auswerten der Konsistenz der extrahierten Charakteristik mit dem zu erkennenden Bild auf. Das globale Bildverarbeitungsmittel ist gekennzeichnet durch den Empfang eines eingegebenen Bilds und Eingaben von den lokalen Modulen und deaktiviert Funktionen der lokalen Module, die mit der globalen Charakteristik inkonsistent sind, und aktiviert Funktionen der lokalen Module, die mit der globalen Charakteristik konsistent sind.
  • Das Bilderkennungssystem der vorliegenden Erfindung ist ferner bevorzugt durch einen lokalen Bildprozessor gekennzeichnet, der aus einem drei Submodule aufweisenden lokalen Modul aufgebaut ist, worin das erste Submodul eine Funktion zum Extrahieren von Charakteristika des lokalen Bilds aufweist, das zweite Submodul die Kenntnis des Eigenraums des lokalen Bilds enthält und das dritte Submodul eine Funktion zum Auswerten der Konsistenz aufweist.
  • Das lokale Modul des lokalen Bildprozessors ist bevorzugt ferner dadurch gekennzeichnet, dass jede charakteristische Lokalität einer eingegebenen Topologie entspricht und mit dieser angeordnet ist.
  • Der lokale Bildprozessor umfasst ferner eine Mehrzahl lokaler Module, in denen die charakteristischen Lokalitäten davon dieselben sind, worin die Funktionen je des lokalen Moduls durch ein Steuersignal auf der Basis der an jedem lokalen Modul durchgeführten Auswertungen wechselseitig aktiviert und gesteuert werden.
  • Der lokale Bildprozessor kann ferner eine Mehrzahl lokaler Module aufweisen, die unterschiedliche charakteristische Lokalitäten aufweist, worin die Funktionen jedes lokalen Moduls durch ein Steuersignal auf der Basis der in jedem lokalen Modul durchgeführten Auswertungen wechselseitig aktiviert und gesteuert werden.
  • Das Bilderkennungssystem der vorliegenden Erfindung ist ferner bevorzugt durch einen globalen Bildprozessor gekennzeichnet, der aus einem drei Submodule aufweisenden Modul aufgebaut ist, worin das erste Submodul eine Funktion zum Extrahieren von Charakteristika des globalen Bilds hat, das zweite Submodul Kenntnis des Eigenraums enthält und das dritte Submodul eine Funktion zum Auswerten der Konsistenz aufweist.
  • Das Bilderkennungssystem der vorliegenden Erfindung ist ferner dadurch gekennzeichnet, dass der globale Bildprozessor eine Eingabe von dem lokalen Bildprozessorempfängt und auf der Basis davon die Funktion der lokalen Module, die mit den globalen Charakteristiken inkonsistent sind, deaktiviert werden, und das ferner Mittel zum Ausgeben von Steuersignalen aufweist, um die Funktionen des lokalen Bildprozessors zu aktivieren, die mit den globalen Charakteristiken konsistent sind.
  • Das Bilderkennungssystem der vorliegenden Erfindung ist ein solches, in dem die Erkennung eines Objekts auf der Basis der Erkennung eines globalen Bilds des Objekts zusammen mit der Erkennung charakteristischer lokaler Bilder, die einen Teil des globalen Bilds aufbauen, durchgeführt wird. Dementsprechend kann in diesem System eine genaue Bilderkennung durchgeführt werden, und die mehreren lokalen Module haben die Fähigkeit, Sequenz suchende Operationen parallel durchzuführen. Auch werden auf der Basis der Konsistenz mit globalen Charakteristiken in dem globalen Bildprozessor und Deaktivierungssignalen auf der Basis der Auswertungen des lokalen Bildprozessors Funktionen des lokalen Bildprozessors, die als inkonsistent bestimmt werden, schnell deaktiviert, so dass die Zeit, die zum Erreichen der letztendlichen Bilderkennung erforderlich ist, verkürzt werden kann und die Belastung des Computers reduziert werden kann.
  • Ferner empfängt in dem Bildverarbeitungssystem der vorliegenden Erfindung, gleichzeitig mit der Anfangsanalyse der lokalen Bildverarbeitung in dem lokalen Bildprozessor, der globale Bildprozessor gleichermaßen ein eingegebenes globales Bild und unternimmt eine analytische Verarbeitung davon. Da die analytische Verarbeitung des globalen Bildprozessors rasch fortschreitet, wird es möglich, die Funktionen jedes Submoduls des lokalen Bildprozessors zu steuern. Ferner wird, um den Genauigkeitsgrad der Erkennung weiter zu verbessern, auf der Basis des Auswertungsergebnisses jedes Submodul des lokalen Moduls aktiviert, und kann aus dem Auswertungsergebnis bestätigt werden.
  • Die Merkmalsextraktionsfunktion des lokalen Moduls, das den lokalen Bildprozessor in der vorliegenden Erfindung aufbaut, kann auf einem Durchschnittsvektor erlernter lokaler Bilder des Objekts und/oder Hauptkomponentenanalyse (PCA) beruhen. Für den anfänglichen analytischen Prozess können Merkmale in der Form einfacher Formen, Umrisse oder Flecken extrahiert werden.
  • Die Funktionen für die Datenverarbeitung der Bilder in der vorliegenden Erfindung werden zwischen drei Submodulen aufgeteilt, und die Vorrichtung ist derart strukturiert, dass die Funktionen in der Ebene jedes Submodul deaktiviert oder aktiviert werden. Somit werden unnötige Berechnungen in einer kurzen Zeitdauer unterdrückt, was die Ausführung einer sequentiellen Suchbilderkennungsmethode ermöglicht.
  • Ferner bewirken die Funktionen jedes der Submodule einen Berechnungsprozess auf der Basis der Eigenraummethode, um hierdurch die Möglichkeit für die Berechnung aus komprimierten Daten bereitzustellen und die Rechenlast des Computers zu verringern.
  • In der vorliegenden Erfindung sind lokale Module, die zusammen Lokalitäten mit ähnlichen Formen entsprechen oder in denen deren Eingabetopologien eng bei einander liegen, als benachbarte lokale Module zusammengruppiert. Ferner werden in Bezug auf ein eingegebenes lokales Bild nur jene lokalen Module einer gegebenen lokalen Modulgruppe gleichzeitig betrieben, um hierdurch eine schnelle Bilderkennung zu ermöglichen, während die Rechenlast verringert wird.
  • Die obigen und andere Ziele, Merkmale und Vorteile des visuellen Erkennungssystem der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich, die bevorzugte Ausführungen der Erfindung als Beispiel veranschaulichen.
  • 1 ist eine Ansicht zum Beschreiben der gesamten Systemstruktur der vorliegenden Erfindung.
  • 2 ist eine Ansicht, die spezifische Steuersignale aufzeigt, die durch die das lokale Modul bildenden Submodule eingegeben/ausgegeben werden, und erläutert ferner das ranghöhere Modul (AIT) und das rangniedrigere Modul (Eingabe/Ausgabesteuermittel).
  • 3 stellt den gesamten Bildverarbeitungsfluss in dem lokalen Modul dar.
  • 4 stellt den Bildanalyseprozessfluss des Gesamtsystems dar.
  • 5a und 5b sind beide Ansichten zur Darstellung eines Simulationsergebnisses der vorliegenden Erfindung, durchgeführt unter Verwendung eines menschlichen Gesichts als Objekt zur Bilderkennung.
  • Wie in 1 gezeigt, wird visuelle Bildinformation, die ein Bild eines zu erkennenden Objekts enthält, über ein geeignetes optisches Mittel, wie etwa eine Videokamera 10, eingegeben und wir digital als Pixel-Frame entsprechend bekannten herkömmlichen Techniken abgespeichert. Ein Steuergerät 12 ist an der Kamera 10 angebracht, so dass die Kamera so angesehen werden kann, dass sie den Funktionen des menschlichen Auges analoge Funktionen aufweist, worin dessen Brennweite auf einen Teil des Bilds eingestellt wird, und die Kamera 10 so betrie ben wird, dass sie separat auf einen bestimmten festen Abschnitt nur des Bilds separat ausgerichtet wird.
  • Um selektiv das Bild des zu erkennenden Objekts von der gesamten Bildinformation abzugrenzen, wird die eingegebene Bildinformation in einem Vormerk-Verarbeitungsmittel 13 verarbeitet. Das Vormerk-Verarbeitungsmittel 13 kann Mittel zur Durchführung von Filterung enthalten, wie etwa einen Tiefpassfilter oder Farbfilter, oder kann in Abhängigkeit von den Umständen Bewegungserfassungsmittel enthalten, um ein Objekt aus innerhalb des Gesamtbilds zu spezifizieren, oder ein anderes Verarbeitungsmittel zum Normalisieren des Maßstabs des Objekts.
  • Das Vormerk-Verarbeitungsmittel enthält ferner Mittel zur Prozessausführung zum Normalisieren des Kontrasts, um Änderungen des eingegebenen Bilds zu kompensieren, die durch Änderungen in der Beleuchtung während der Kameraeingabe einhergehen, oder um Änderungen des eingegebenen Bilds zu kompensieren, die durch lineare Antwortcharakteristiken einer verwendeten CCD-Kamera einhergehen.
  • Obwohl in den Figuren nicht gezeigt, umfasst die Gesamtstruktur des Systems zusätzlich eine Grafik- oder Bildverarbeitungsplatine, zusammen mit einer Tastatur und/oder einer Maus, um dem Verwender Zugang zu dem System zu ermöglichen. Diese Vorrichtungen und ihre Verwendung sind in dem relevanten technischen Gebiet natürlich bekannt.
  • Bildinformation, die wie oben beschrieben vorverarbeitet und digitalisiert ist, wird in einen Speicherbereich eines Frontmoduls 11 eingegeben, das ein Speichermittel enthält, sowie ein Prozessormittel zum Durchführen der Hauptkomponentenanalyse.
  • Die in den Speicher des Frontmoduls 11 eingegebene Bildinformation kann auf Bildinformation des zu erkennenden Objekts begrenzt werden, z. B. durch Vormerk-Verarbeitung begrenzt, oder wenn der Hintergrund wichtige Information zum Erkennen des Objekts bildet, kann auch die gesamte Bildinformation eingegeben werden.
  • Mittels Betriebsbefehlen wird die in das Speichermittel des Frontmoduls 11 eingegebene Bildinformation zu einem Analysesystem geliefert, worin das Analysesystem, wie es im Konzept in 1 dargestellt ist, aus zwei Subsystemen 14 und 15 aufgebaut ist, die im Detail weiter unten erläutert werden.
  • Das erste Subsystem ist ein lokales Bildverarbeitungsmittel 15 (nachfolgend als PIT abgekürzt, in Bezug auf den posterioren inferioren Temporalbereich des menschlichen Gehirns), und das zweite Subsystem ist ein globales Bildverarbeitungsmittel 14 (nachfolgend als AIT abgekürzt, in Bezug auf den anterioren inferioren Temporalbereich des menschlichen Gehirns). Das AIT und PIT sind jeweilige Verarbeitungsbereiche, die einen Teil der visuellen Bahnen darstellen, die für die visuelle Wahrnehmung im menschlichen Gehirn verantwortlich sind. Der Bezug des AIT und PIT zur biologischen visuellen Verarbeitung ist weiter im US-Patent Nr. 5,675,663 von Koerner et al erläutert, dessen volle Offenbarung ebenfalls in die vorliegende Beschreibung unter Bezugnahme explizit aufgenommen wird.
  • Das PIT-Subsystem 15 ist für die analytische Verarbeitung lokalisierter Bilder (lokaler Icons) verantwortlich, die zu erkennende Teile des Bilds aufbauen, und umfasst mehrere Module zur Durchführung der analytischen Verarbeitung entsprechend dem lokalen Bild, das Charakteristika besitzt, die zur Erkennung des gesamten Bilds nützlich sind (globales Icon). Diese analytischen Verarbeitungsmodule werden nachfolgend als lokale Module 21 bezeichnet.
  • Die lokalen Module 21 sind zur Entsprechung mit einer lokalen Topologie in Bezug auf das globale Bild konfiguriert, worin die Topologie-entsprechende Bildinformation von dem Speichermittel des Frontmoduls zu den jeweiligen entsprechenden lokalen Modulen 21 geliefert wird.
  • Bevorzugt ist, dass die in die lokalen Module 21 eingegebene Bildinformation extrem komprimierte Information aufgrund des PCA-Prozesses und dgl. in dem Frontmodul 11 ist. Insbesondere ist die in jedes lokale Modul 21 eingegebene Information eine Information, die einfache Formen oder Flecken repräsentiert, worin auf der Basis dieser Information alle oder bestimmte benachbarte lokale Module 21 Charakteristika der eingegebenen Information gleichzeitig parallel extrahieren. Die extrahierten Charakteristiken assoziieren Module 21, die mit Modulen 21, die spezifische erlernte Bilder aufweisen, am nächsten konsistent sind, und arbeiten ferner gemeinsam mit dem AIT-Subsystem 14, worin letztendlich ein konsistentes lokales Bild spezifiziert wird.
  • In das AIT-Subsystem 14 wird globale Bildinformation von dem Frontmodul 11 eingegeben, und es extrahiert globale Charakteristika des zu erkennenden globalen Bilds, wobei es einen analytischen Prozess zur Auswertung der Konsistenz davon ausführt. In das AIT-Subsystem 14 werden ferner lokale Bilder von dem PIT-Subsystem 15 eingegeben, und es wertet die Konsistenz davon mit dem globalen Bild aus, um hierdurch letztendlich die Erkennung des eingegebenen Bilds aus allen Charakteristiken durchzuführen, die gegenseitig konsistent sind.
  • Wenn zum Beispiel das Erkennungsobjekt von innerhalb der eingegebenen Kameraszene ein Gesicht oder ein Automobil ist, wird im Falle eines Gesichts ein Ort durch einen begrenzten Teil von innerhalb des Gesichts definiert, wobei zum Beispiel die Augen, die Nase, der Mund oder der Gesichtsumriss als der Ort genommen werden kann, und im Falle eines Automobils kann auch ein Frontblech, eine Seitenform oder die Radform so definiert werden.
  • In der vorliegenden Erfindung werden, auf der Basis der oben beschriebenen Systemstruktur bei Beginn der Bildverarbeitung, Merkmalsinformationen eingegebener Bilder, die aus Bildinformation einfacher Formen oder Flecken erzeugt sind, die noch nicht vollständig ausgewertet sind, durch Hypothese angenommen, worin mittels Multiagent-Berechnungen, die allmählich eine Interpretation der Gesamtkonsistenz in analoger Weise bilden, zwischen Modulen 21 und/oder während der Kommunikation mit dem AIT-Subsystem 14 eine Bilderkennung auf der Basis hypothetischer Ableitungen durchgeführt wird.
  • Das PIT-Subsystem 15 ist aus einer Anordnung mehrerer lokaler Module 21 aufgebaut, die den Lokalitäten des zu erkennenden Bilds entsprechen, worin jedes lokale Modul 21 unter einer Bedingung angeordnet wird, in der die Position seines betreffenden lokalen Bildbereichs einer eingegebenen Topologie als Hauptmessung davon zugeordnet wird.
  • Das AIT-Subsystem 14 ist als Modul zur Bearbeitung des globalen Bilds aufgebaut. Weil es globale Charakteristiken des Bilds handhabt, gibt es keine Beziehung zur eingegebenen Topologie, wie im Falle des PIT-Subsystems 15.
  • Die Struktur und Funktionen jedes lokalen Moduls 21 des PIT-Subsystems 15 werden nun in Bezug auf 2 erläutert. Um die Erläuterung zu erleichtern, werden Elemente des Systems zusammen mit anderer relevanter Terminologie wie folgt definiert.
  • Jedes lokale Modul 21 ist aus drei Submodulen R0, R1 und R2 aufgebaut. Insbesondere ergibt der folgende Bildverarbeitungsweg, wie unten aufgezeigt:
    Kamera → Frontmodul → R0 → R1 → AIT.
  • Jedes Modul wirkt als Agent zur Bildverarbeitung, wobei jeder jeweilige Eingabedaten interpretiert und somit mit dem Begriff "Agenten" ausgedrückt werden kann. Ein Agent, der einer Eingabe zu einem ersten Agenten benachbart und der als Standard dient, wird als "rangniedriger" Agent bezeichnet. Ferner wird ein Agent, der dem AIT näher ist als der Standardagent, als "ranghöherer" Agent bezeichnet.
  • Ein Agent eines anderen lokalen Moduls, der die gleiche Position wie der Standardagent hat, wird als "rangleicher" Agent bezeichnet. Insbesondere ist für ein bestimmtes lokales Modul das Frontmodul 11 ein rangniedriger Agent, ist das das AIT-Subsystem 14 aufbauende Modul ein ranghöherer Agent, und die anderen lokalen Module des PIT 14 können als ranggleiche Agenten angesehen werden.
  • Ferner sind die lokalen Module 21 so strukturiert, dass sie zusammen Posten gruppieren, deren Topologie ähnlich ist, oder Posten, die einander in der Form ihrer gegebenen lokalen Bilder ähneln. Agenten, die Mitglieder derselben Gruppe wie der Standardagent sind, werden als "benachbarte" Agenten bezeichnet.
  • Ferner wird bei der Bildinformationsverarbeitung gemäß der vorliegenden Erfindung ein "Bottom-up-Prozess" ausgeführt, in dem Information von rangniedrigeren Agenten zu ranghöheren Agenten hin, in Richtung der oben gezeigten Pfeile, fortschreitet; auch wird der umgekehrte Fluss, nämlich "Top-down-Prozess" ausgeführt, in dem Information von ranghöheren Agenten zu rangniedrigeren Agenten hin gesteuert wird.
  • In 2 hält das R0-Submodul 22 Information eines Durchschnittsvektors Ψ erlernter Bilder eines gegebenen Orts. Im Falle eines menschlichen Gesichts, wie im Fall der später zu beschreibenden Simulation der vorliegenden Erfindung durchgeführt, werden für einen Durchschnittsvektor Ψ des Submoduls R0 eines Nasenreferenz-Lokalmoduls, N-dimensionale Ortsdaten M aus M Bildern, die aus der Nase zentriert sind, gesammelt, und die jeweiligen Daten werden mit einem normalisierten N-dimensionalen Vektor Γi summiert (1 ≤ i ≤ M), um hierdurch einen Durchschnittsvektor Ψ aus der folgenden Gleichung (3) zu bestimmen.
  • Figure 00150001
  • Die Aktivität des R0-Submoduls 22 ist ein "Hypothesensteueragent", der die Stärke der Hypothese ausdrückt. In Bezug auf normalisierte neue Bildinformation ΓNEU, die eingegeben wird, wird der Anfangswert davon ein Vektorwert ΓNEU·Ψ, der als Anfangshypothese betrachtet wird. Der Wert des R0-Submoduls 22 wird durch Steuersignale von benachbarten oder ranghöheren Agenten gesteuert, um anschließend eine Ausgabe auszugeben, die zur global konsistenten Bilderkennung hin fortschreitet.
  • Das R1-Submodul 23 besitzt die Kenntnis U des Eigenraums eines Objektbilds, das von einem gegebenen Objekt erlernt ist. Der Eigenraum wird durch den unten beschriebenen Prozess bestimmt. Nimmt man die am besten passende Verteilung kleinsten Quadrats eines Vektors Φ, der durch Subtrahieren des Durchschnittsvektors Ψ von dem N-dimensionalen Vektor Γi der lokalen Bilddaten erhalten ist (ΦI = ΓI – Ψ), wird ein orthonormaler Vektor uk, wie durch die Gleichungen (4-1) gezeigt, sequentiell von k = 1 bis k = M' summiert (M' ≤ M).
    Figure 00160001
    uT luk = δlk = 1 (wenn k = 1) = 0 (andernfalls) (4-2) worin der mit k subskribierte Vektor uk ausgewählt wird, um die Gleichung (4-1) unter der Bedingung von Gleichung (4-2) zu maximieren.
  • Der Vektor uk und die skalare Größe λk werden jeweils der Eigenvektor und Eigenwert der kovarianten Matrix C, die durch die Gleichung (5) unten ausgedrückt ist. Der von dem Vektor uk ableitbare Raum wird als der Eigenraum dieser Lokalität bezeichnet.
  • Figure 00160002
  • Der Vektor ΓNEU – Ψ, der die Charakteristiken des eingegebenen Bilds ΓNEU ausdrückt, die durch das R0-Submodul 22 extrahiert sind, wird auf den Eigenraum U projiziert, der separate Charakteristiken des erlernten lokalen Bilds in dem R1-Submodul 23 ausdrückt, um hierdurch den projizierten Abstand zu dem Eigenraum des Eingabevektors zu berechnen (nachfolgend als "Abstand von dem Merkmalsraum" oder DFFS bezeichnet).
  • Die lokale Bildinformation, die in das R1-Submodul 23 durch einen Schalter SW2 eingegeben wird, der bei der Auswertung der Charakteristiken in dem R0-Submodul aktiviert wird, kann hoch zuverlässige Information sein, die von dem Speicher des Frontmoduls 11 eingegeben wird.
  • Ferner wird in dem R1-Submodul 23 auf der Basis eines durch einen ranghöheren Agenten ausgegebenen Signals eine Top-down-Steuerung durchgeführt, um den rangniedrigeren Agenten durch Rückwärts-Mapping zu steuern, wodurch der Eigenraumvektor U auf den eingegebenen lokalen Bildvektor projiziert wird.
  • In dem R2-Submodul 24 wird der projizierte Abstand (DFFS) zu dem Eigenraum des Eingabevektors als Hauptinformation verwendet, um die Konsistenz zwischen dem eingegebenen lokalen Bild und dem projizierten Eigenraum auszuwerten.
  • Die Erkennung des eingegebenen lokalen Vektors ΓNEU erfolgt auf der Basis des projizierten Abstands DFFS zu dem Eigenraum U des eingegebenen lokalen Vektors ΓNEU hin, wie aus dem skalaren Produkt des Merkmalsvektors ΓNEU – Ψ und dem Eigenvektor uk bestimmt.
  • Ferner empfängt, auf der Basis der Top-down-Steuerung von dem AIT-Subsystem, das ein ranghöherer Agent ist, das R2-Submodul Steuerungen betreffend die Auswertung der Konsistenz des eingegebenen lokalen Bilds auf der Basis des Bottom-up-Prozesses, wie oben diskutiert.
  • Das AIT-Subsystem 14 ist aus einem Modul zur Durchführung eines analytischen Prozesses des globalen Bilds aufgebaut. Das Modul kann in der gleichen Weise wie das zuvor beschriebene lokale Modul 21 konstruiert sein. Insbesondere ist es aus Submodulen R0, R1 und R2 konstruiert, und die jedes Submodul besitzenden Kenntnisse und Funktionen sind vollständig die gleichen, wie oben beschrieben, abgesehen davon, dass das Bildobjekt anstelle eines lokalen Bilds ein globales Bild wird.
  • 2 stellt mittels Pfeilen Steueroperationen der Submodule 22, 23 und 24 dar, wobei diese Steueroperationen unten beschrieben werden. Als Hauptsteueroperationen gibt es vier Typen von Steueroperationen zwischen lokalen Modulen, während es zwei Typen von internen Steueroperationen zwischen den Submodulen desselben lokalen Moduls gibt.
  • Zuerst werden Steueroperationen zwischen lokalen Modulen oder zwischen den lokalen Modulen und ranghöheren oder rangniedrigeren Agenten beschrieben.
  • ➀ Lokale Aktivierungssteuerung, Typ A (mit Pfeilen A gezeigt)
  • Wenn in dem PIT 15 aus einer Mehrzahl lokaler Module 21, die mit Eingabebildern unterschiedlicher Topologien einer gegebenen charakteristischen Lokalität belastet sind, ein Submodul 22 eines lokalen Moduls 21 aktiviert ist, werden Ausgaben an die R0-Submodule 22 der anderen lokalen Module ausgegeben, die mit dem gleichen charakteristischen lokalen Bild belastet sind, um diese zu aktivieren. Im Ergebnis werden die R0-Submodule aller lokaler Module 21, die mit der betreffenden charakteristischen Lokalität belastet sind, aktiviert, und die Bildverarbeitung des eingegebenen Bilds schreitet fort. Wenn man z. B. annimmt, dass unter einer Mehrzahl lokaler Module, die mit der Bildverarbeitung einer Nase belastet sind, das R0-Submodul 22 eines lokalen Moduls 21, in das eine bestimmte Topologieinformation eingegeben ist, aktiviert wird, dann werden die R0-Submodule aller lokalen Module, die mit der Bildverarbeitung der Nase belastet sind, aktiviert, um hierdurch zu bewirken, dass die Bildverarbeitung der Nase fortschreitet.
  • Insbesondere können von den benachbarte Agenten bildenden lokalen Modulen, als Ergebnis dieser Steuerung, Vermutungen in Bezug auf die Charakteristiken lokaler Bilder ähnlicher Bilder, oder ob sie ähnliche Topologien haben, in einer verkürzten Zeitdauer formuliert werden.
  • ➁ Lokale Deaktivierungssteuerung, Typ B (mit Pfeilen B gezeigt)
  • Für den Fall, dass mehrere lokale Module 21, die mit lokalen Bildern unterschiedlicher Charakteristiken belastet sind, Bildinformationen von Regionen mit ähnlich Topologie empfangen, werden, wenn das R0-Submodul 22 eines spezifischen lokalen Moduls 21 aktiviert wird, Deaktivierungssignale an die R0-Submodule der lokalen Module ausgegeben, die mit anderen charakteristischen lokalen Bildern be lastet sind. Im Ergebnis wird ein Wettbewerb zwischen mehreren Hypothesen verhindert, die auf Bildinformation von Regionen ähnlicher Topologie gerichtet sind.
  • ➂ Top-down-Steuerung, Typ C (mit Pfeilen C gezeigt)
  • Die Top-down-Steuerung ist eine Steuerung, die auf rangniedrigere Agenten gerichtet ist, wodurch die aktivierten Agenten selbst Eingaben empfangen. In einem lokalen Modul 21 wird lokale Bildinformation, für die eine Konsistenz bestimmt worden ist, auf der Basis einer Schablone nachausgewertet, um die Konsistenz des lokalen Bilds auszuwerten, das in dem AIT-Subsystem 14 vorgesehen ist. Wenn in dem AIT-Subsystem ein inkonsistenter Zustand festgestellt wird, wird die Operation des betreffenden lokalen Moduls 21 durch ein Deaktivierungssignal angehalten.
  • Wenn in dem R0-Submodul des lokalen Moduls 21 eine Inkonsistenz festgestellt wird, wird ein Deaktivierungssignal zu dem rangniedrigeren Agenten des Frontmoduls 11 geschickt, wodurch die Eingabe der Bildinformation zu dem betreffenden lokalen Modul 21 gesteuert wird.
  • Ferner wird auf der Basis eines Auswertungsergebnisses der Konsistenz durch die globale Bildverarbeitung in dem AIT-Subsystem 14 ein Aktivierungssignal an lokale Module 21 ausgegeben, die sich gegenseitig in einem deaktivierten Zustand befinden und die mit charakteristischen lokalen Bildern des betreffenden globalen Bilds belastet sind, um hierdurch die Operation dieser lokalen Module anzufordern.
  • ➃ Bottom-up-Steuerung, Typ D (mit Pfeilen D gezeigt)
  • Wenn ein ausgewerteter Wert, der als Hauptinformation den projizierten Abstand DFFS in dem R2-Submodul 24 jedes lokalen Moduls 21 nimmt, größer als ein Schwellenwert ist, wird der Schalter SW1 geschlossen, und es wird eine Ausgabe an das AIT-Subsystem als lokale Bildinformation ausgegeben, die die Konsistenz mit der Eigenrauminformation in dem R1-Submodul 23 anzeigt.
  • Wenn festgestellt wird, dass der ausgewertete Wert des R2-Submoduls 24 einen Schwellenwert überschreitet, basierend auf der Bottom-up-Bildverarbeitung in dem lokalen Modul 21, kann, wenn das eingegebene Bild aus der in jedem lokalen Modul 21 erhaltenen Information ausreichend beschrieben wird, eine Konsistenz auch auf der Basis eines Top-down-Prozesses (Typ C) von dem AIT-Subsystem 14 und aus Bildinformation der aktivierten lokalen Module 21 bestätigt werden.
  • Das Folgende soll nun die zwei Typen von Steueroperationen beschreiben, die zwischen den R0, R1 und R2-Submodulen vorgenommen werden, die die lokalen Module aufbauen.
  • ➀ Interne Top-down-Steuerung des lokalen Moduls, Typ E (mit Pfeilen E gezeigt)
  • Wenn festgestellt wird, dass ein Auswertungswert, in dem R2-Submodul 24, das das lokale Modul 21 bildet, einen Schwellenwert überschreitet, deaktiviert das R2-Submodul 24 das R0-Submodul 22 desselben lokalen Moduls 21. Wenn der Auswertungswert des R2-Submoduls größer als der Schwellenwert wird, wird, basierend auf der oben erwähnten Bottom-up-Steuerung (Typ D), Information in dem R1-Submodul 23 an das AIT-Subsystem durch den Schalter SW1 ausgegeben, und, sollte dies eine Konsistenz anzeigen, wird die Erkennung des lokalen Bilds abgeschlossen.
  • Für den Fall, dass die Aktivierung des R0-Submoduls weiter geht, basierend auf der vorgenannten lokalen Deaktivierungssteuerung (Typ B), bleiben die R0-Submodule 22 unterschiedlicher lokaler Module 21, in die Bildinformation ähnlicher Topologie eingegeben worden ist, deaktiviert. Dies bewirkt, dass die Sequenzsuchoptionen verengt werden, wenn sich die Erkennung des lokalen Bilds noch in einem unbestätigten Zustand befindet. Auf der Basis der Deaktivierung der R0-Submodule lokaler Module, für die eine Erkennung bereits abgeschlossen worden ist, wird es möglich, dass andere lokale Module 21, die benachbarte Agenten bilden, aktiviert werden.
  • ➁ Interne Submoduleingabesteuerung des lokalen Moduls, Typ F (mit Pfeilen F gezeigt)
  • In dem lokalen Modul 21 wird, solange der Wert des R0-Submoduls 22 den Schwellenwert nicht überschreitet, der Schalter SW2 nicht geschlossen, und die Bildinformation wird in das R1-Submodul 23 nicht eingegeben. Wenn festgestellt wird, dass der Pegel der extrahierten Charakteristiken von dem R0-Submodul 22 größer als der Schwellenwert ist, schließt der Schalter SW2, und Bildinformation, die von dem Frontmodul 11 auf den Eigenraum des R1-Submoduls 23 projiziert wird, wird eingegeben.
  • Im Ergebnis dieser Steuerung werden unnötige Berechnungen vermieden und wird die Computerlast verringert, zusammen mit der Verbesserung der Qualität der Bildinformation, die durch das R1-Submodul 23 projiziert wird, während auch Rauschen minimiert wird, das ranghöheren Agenten beizuordnen ist.
  • Ähnlich wird, bis der Wert des R2-Submoduls auch einen Schwellenwert überschreitet und seine Konsistenz ausgewertet ist, die Steuerung durch den Schalter SW1 derart durchgeführt, dass Bildinformation von dem R1-Submodul 23 nicht auf das AIT-Subsystem 14 übertragen wird.
  • 3 stellt den gesamten Bildverarbeitungsfluss in dem PIT-Subsystem 15 dar.
  • Die folgenden Erläuterungen werden anhand eines Beispiels in Bezug auf eine echte Simulation gemäß den Lehren der vorliegenden Erfindung dargeboten, die zur Erkennung eines menschlichen Gesichts durchgeführt wurde. Jedoch ist das menschliche Gesicht ein Beispiel eines Objektbilds, das aus verschiedenen Komponenten durch Subdesignation aufgebaut ist und das für eine solche strukturell designierte Beschreibung geeignet ist. Die Anwendung der vorliegenden Erfindung ist keineswegs auf die Erkennung von Gesichtern beschränkt, und die Techniken hierin sind auf jeden Typ der Bilderkennung anwendbar, in dem die Erken nung eines eingegebenen globalen Bilds auf der Basis der Rekonstruktion des globalen Bilds aus mehreren lokalen Bildern durchgeführt wird.
  • Die Simulation des vorliegenden Systems wurde mittels einer Sun SS 10-Workstation ausgeführt, die in einem GNU C++-Code programmiert war.
  • Die in Schritt 101 bereitgestellten Daten sind Bilddaten eines abgetasteten Pixelbereichs aus einem Aufmerkfenster, das aus innerhalb einer globalen Bildeingabe von einer Kamera optional gesetzt ist. In Schritt 102 werden eine notwendige Vormerk-Verarbeitung, wie etwa Normalisierungsprozesse zum Kompensieren von Schwankungen der eingegebenen Bilddaten, die durch Beleuchtungsschwankungen an der Kameraeingabe einhergehen, oder Schwankungen in den Eingabebilddaten, die durch lineare Antwortcharakteristiken einer CCD-Kamera einhergehen, oder Maßstabnormalisierungsprozesse und dgl. durchgeführt, und danach werden die Daten in einem Speicherbereich des Frontmoduls 11 gespeichert.
  • Auf der Basis der Abtastpositionsinformation des Aufmerkfensters wird die in dem Speicher gespeicherte Bildinformation jeweils in die R0-Submodule der lokalen Module entsprechend der eingegebenen Topologie eingegeben. Es kann auch eine geeignete PCA-Verarbeitung an der eingegebenen Bildinformation durch das Frontmodul 11 durchgeführt werden.
  • Das R0-Submodul 22 ist durch einen Durchschnittsvektor aller Lokalitäten entsprechend der Pixelposition definiert, genommen aus mehreren Bilddaten, die aus dem Erlernen in Bezug aller lokaler Bilder gewonnen werden. In der vorliegenden Simulation wurde ein Durchschnittsvektor eines 200 dimensionalen Vektors von Hauptkomponenten, in Bezug auf die linken und rechten Augen, die Nase und den Mund sowie 12 Typen bestimmter Gesichtsumrisse verwendet.
  • In Schritt 103 führen die R0-Submodule 22 jedes lokalen Moduls 21 einen Musterabgleich durch, unter Verwendung des Durchschnittsvektors von den eingegebenen lokalen Bilddaten als Schablone, und geben ein analoges Signal aus, das dem Abstand davon entspricht.
  • Das R0-Submodul kann eine Umgebung (3 × 3 Pixelbereich) des eingegebenen lokalen Bilds abtasten und das eingegebene lokale Bild auswählen, das die größte Aktivität aufzeigt.
  • Weil jedoch die Mustererfassungsfähigkeit, wenn ein solcher Durchschnittsvektortyp einer Schablonierung unterzogen wird, niedrig ist und Vieldeutigkeiten erzeugt, kann das R0-Submodul auch als Hypothesengenerator betrachtet werden.
  • Die das R0-Submodul besitzende Kenntnis als Durchschnittsvektor ist für die künftige Extraktion der eingegebenen Bildinformation zweckmäßig, und extrahierte Charakteristiken können an das R1-Submodul 23 ausgegeben und auf den Eigenraum projiziert werden. Wenn man jedoch berücksichtigt, dass das R0-Submodul ein Hypothesengenerator ist, wie oben beschrieben, kann in dem Fall, dass Bildinformationausgabe an das R1-Submodul derart aufgebaut ist, dass entsprechend dem Grad der Aktivität des R0-Submoduls 22 sehr hochdimensionale Bilddaten von dem Speicher des lokalen Moduls 11 eingegeben werden, eine einfache Schablone aus relativ wenigen Hauptkomponentenvektoren als Kenntnis des R0-Submoduls 22 verwendet werden.
  • In Schritt 104 wird das Ergebnis der oben beschriebenen Konsistenzbestimmung als Verifikationsschätzwert spezifiziert. In der vorliegenden Ausführung erfolgt die Auswertung der Konsistenz in dem R0-Submodul 22 durch das R2-Submodul 24. Insbesondere ist das R2-Submodul 24 als ein Modul konstruiert, um die Auswertung der Bildinformationsverarbeitung des R0-Submoduls 22 und des R1-Submoduls 23 durchzuführen.
  • In Schritt 104 werden auf der Basis von Aktivierungseingaben (Pfeil C) von dem oben genannten AIT-Subsystem 14, Deaktivierungs-(Pfeil B)- und Aktivierungs-(Pfeil A)-Signaleingaben von anderen lokalen Modulen 21 und Deaktivierungssignaleingaben (Pfeil E) von dem R2-Submodul 24 des lokalen Moduls 21 selbst Steuerungen empfangen. Für den Fall, dass Deaktivierungssignale nicht einge geben werden und eine Aktivierung beibehalten wird, wird die Auswertung mittels einer R0-Funktion durchgeführt, und auf der Basis des Ergebnisses dieser Auswertung werden Ausgaben zu anderen Agenten durchgeführt. Die R0-Funktion wird durch die folgende Gleichung (6) ausgedrückt: R0[k][y][x](t) = f(der Wert auf der Basis des Abstands zwischen der Schablone K und der lokalen Eingabe) + lokale Aktivierungssteuerung von einem unterschiedlichen benachbarten lokalen Modul, Typ A – lokale Deaktivierungssteuerung, Typ B + Top-down-Steuerung des rangniedrigeren Agenten, Typ C – interne Top-down-Steuerung des lokalen Moduls, Typ E – Normalisierung auf der Basis der gesamten R0 Aktivität = f(template[k]·localinput[y][x](t – 1) + w_Neighbor_Act*Σneighbor yy,xxR0[k][yy][xx](t – 1) – maxkk≠kR0[kk][y][x](t – 1) + w_Next_Feedback_Act*ACT_NextR1[k][y][x](t – 1) – R2[kk][y][x](t – 1) – max(Σkk,yy,xxR0[kk][yy][xx](t – 1) – INH_NextR2(t – 1, 0)) (6)worin k ein Suffix ist, das lokale Charakteristiken ausdrückt, y und x Suffixe sind, die die Spaltenposition ausdrücken, t eine Zeitstufe des Punktoperators ist, mit w beginnende Koeffizienten Wichtungen repäsentieren, so dass w_Neighbor_Act = 0,5 und w_Next_Feedback_Act = 0,2 auf diese Werte in alle R0-Submodule 22 gesetzt werden, f die monoton ansteigende Funktion f ∈[0, 1] ist, template[k] der M dimensionale Vektor für die Schablone ist und localinput [y][x] der M dimensionale Vektor der Eingabebilddaten ist, die in das R0-Submodul eingegeben werden.
  • In dem R0-Submodul 22 wird, wie durch die Posten der vorgenannten Steueroperationen beschrieben, auf der Basis der Steuersignale der lokalen Aktivierungs steuerung (Pfeil A) oder der lokalen Deaktivierungssteuerung (Pfeil B) von dem R0-Submodul des anderen Agenten, die Aktivierungs- oder Deaktivierungssteuerung empfangen, und ferner wird die Top-down-Steuerung von dem R2-Submodul 24 und dem AIT-Subsystem 14 empfangen. Die Top-down-Steuerung (Pfeil E) von dem R2-Submodul 24 ist eine Deaktivierungssteuerung; und daher wird die Bildverarbeitung in Bezug auf Hypothesen, die bereits durch die ranghöheren Agenten in Bezug auf den Signalverarbeitungspegel des R0-Submoduls 22 interpretiert worden sind. angehalten.
  • Die AIT-Subsystem-Top-down-Steuerung (Pfeil C) beinhaltet sowohl Aktivierung als auch Deaktivierung. Das lokale Modul 21 führt eine Bildverarbeitung durch, und die lokale Bildverarbeitung, für die eine Konsistenz ausgewertet worden ist, wird auf das globale Bild in dem AIT projiziert, worin auf der Basis des nachausgewerteten Ergebnisses die Funktionen des lokalen Moduls der Top-down-Steuerung unterzogen werden. In Schritt 105 (gemäß der vorliegenden Ausführung wird Schrit 105 in dem R2-Submodul 24 ausgeführt), wird die lokale Bildinformation aus dem Speicher des Frontmoduls 11 zu dem R1-Submodul 23 desselben lokalen Moduls ausgegeben, wenn ein Wert f auf der Basis eines Abstands zwischen der Schablone k und dem eingegebenen Bilddatenvektor oberhalb eines gegebenen Schwellenwerts liegt.
  • Ferner werden auf der Basis der Auswertung in Schritt 104 Steuersignale vom A-Typ und B-Typ an die R0-Submodule der anderen lokalen Module ausgegeben.
  • Die R1-Submodule 23 enthalten Eigenraumkenntnis auf der Basis erlernter individueller Bildinformation jedes lokalen Bilds. In der echten Gesichtssimulation wurden, aus einem 200 dimensionalen Vektor erlernter Bildinformation, Vektoren, die aus 20 großwertigen ranghöheren Komponenten zusammengesetzt waren, als Hauptkomponenten verwendet, und die individuellen Eigenräume der lokalen Bilder wurden erzeugt.
  • Wenn in Schritt 106 das R0-Submodul 22 des lokalen Moduls 21 aktiviert wird, wird Bildeingabeinformation der betreffenden Lokalität von dem Speicher des Frontmoduls 11 an das R1-Submodul 23 ausgegeben.
  • Die eingegebene lokale Bildinformation ΓNEU ist ein Vektor, der von dem Durchschnittsvektor subtrahierte Charakteristika ausdrückt, worin ein Hauptkomponentenvektor, der aus 20 ranghöheren Komponenten des betreffenden Vektors zusammengesetzt ist, auf die individuellen Eigenräume projiziert wird, die die R1-Submodule 23 besitzen. Die R1-Funktion wird konkreter durch Gleichung (7) ausgedrückt: R1[k][y][x][j](t) = PC[k][j]·(localinput[y][x](t – 1) – Mean[k]) (wenn R0[k][y][x](t – 1) ≥ R0_Schwellenwert, worin die Hypothese erzeugt wird), oder = R1[k][y][x][j](t – 1) (wenn R0[k][y][x](t – 1)R0_Schwellenwert, worin die Aktivierung vorübergehend beibehalten wird) (7)worin die Suffixe k, y, x und t die gleichen sind wie jene für R0 in Gleichung (6), j ein Suffix des Eigenvektors ist, PC [k][j] der j-te Eigenvektor der Lokalität k ist, Mean [k] der Durchschnittsvektor der Lokalität k ist und localinput [y][x] der M-dimensionale Vektor für die in R1 eingegebene lokale Vektorinformation ist.
  • Der eingegebene lokale Bildvektor in dem R1-Submodul 23 und der projizierte Eigenraumabstand DFFS, der als Information in dem R1-Submodul 23 enthalten ist, werden zur Bilderkennungsauswertung verwendet, worin diese Auswertung durch das R2-Submodul 24 in Schritt 107 vorgenommen wird.
  • Das R2-Submodul, das die Auswertung in Schritt 107 durchführt, empfängt die Top-down-Steuerung (Typ C) von dem AIT-Subsystem, das ein prioritätsbetriebenes lokales Modul 21 aktiviert, auf der Basis eines globalen Bildverarbeitungsergebnisses in dem AIT-Subsystem 14, das als ranghöherer Agent dient.
  • Auf der Basis dieser Steuersignale wird eine unnötige Verarbeitung in dem R2-Submodul 24 deaktiviert, worin eine Verarbeitungszeit zur Bilderkennung des Geamtsystems verkürzt wird.
  • Die Gleichung (8) unten drückt die Auswertung in dem R2-Submodul 24 aus. R2[k][y][x][j](t) = 1,0(Normalisierungsfaktor) + ||R1[k](t – 1)||2 (R1 Aktivierung und Bildinformation für das AIT-Subsystem, Steuerung Typ F) – Mean[k] – localinput[y][x](t – 1)||2 (Abstand zwischen Eingabebild und Durchschnittsvektor) – maxR2[kk][y][y](t – 1)(Lokalmodul-Deaktivierung, Steuerung Typ E) + ACT_NextR1[k][y][x](t – 1)(AIT-Top-down, Steuerung Typ C) (8)
  • Wenn in der in Schritt 107 durchgeführten Auswertung in dem R2-Submodul 24 der Auswertungspegel oberhalb eines Schwellenwerts liegt, wird die lokale Bildinformation des R1-Submoduls 23 an das AIT-Subsystem 14 ausgegeben, das als ranghöherer Agent dient (Pfeil D).
  • Ferner gibt das R2-Submodul des lokalen Moduls, das die Top-down-Steuerung Typ C von dem AIT-Subsystem 14 empfängt und hierdurch aktiviert wird, ein Rückwärts-Mapping, das einer Projektion des Eigenraums in dem R1-Submodul 23 auf den eingegebenen Bildvektor ist, als Top-down-Hypothese aus (Pfeil R0).
  • Wenn in dem R2-Submodul 24 eine Auswertung der Konsistenz, die den projizierten Abstand DFFS als Hauptinformation nimmt, einen Schwellenwert überschreitet und das eingegebene Bild erkannt wird, wird ein Selbstdeaktivierungs-Steuersignal (Pfeil E) an das R0-Submodul ausgegeben.
  • Das AIT-Subsystem 14 ist als Modul zur analytischen Verarbeitung von Bildinformation des globalen Bilds konstruiert, in das globale Bildinformation von dem Fontalmodul 11 und lokale Bildinformation, die durch jedes lokale Modul 21 von dem PIT-Subsystem 15 verarbeitet ist, eingegeben wird, um hierdurch die Erkennung des globalen Bilds durchzuführen, das mit jedem lokalen Bild konsistent ist.
  • Die AIT-Subsystem-14-Module sind ähnlich den oben beschriebenen lokalen Modulen 21 und den R0, R1 und R2-Submodulen konstruiert. Die Funktionen davon und die Funktionen der relevanten Submodule dieser lokalen Module 21 sind im Wesentlichen die gleichen. Insbesondere besitzen die R0-Submodule Kenntnis des Durchschnittsvektors erlernter globaler Bilder, sowie eine Schablonenfunktion zum Extrahieren der Charakteristiken des eingegebenen globalen Bilds. Die R1-Submodule besitzen Information individueller Eigenräume erlernter globaler Bilder und eine Funktion zum Projizieren der globalen Bildinformation auf den Eigenraum auf der Basis der Auswertung von einer Schablone des eingegebenen globalen Bilds in das R0-Submodul. Die R2-Submodule besitzen Kenntnis eines Schwellenwerts des projizierten Abstands DFFS und führen mittels des ausgedrückten Werts des R1-Submoduls Auswertungen durch, um die Konsistenz auf der Basis des DFFS zu bestimmen.
  • Bei der Simulation zur Erkennung menschlicher Gesichter gemäß der vorliegenden Erfindung wurde der Durchschnittsvektor in dem R0-Submodul des AIT-Subsystems 14 durch einen Durchschnittsvektor von Bilddaten definiert (105 × 105 Pixelpositionen × 3 Hauptkomponentenvektoren), der geeignet zentriert war und aus globalen Bildern (128 × 128 Pixelpositionen × 200 Hauptkomponentenvektoren) der Gesichter von 35 Menschen aus 105 erlernten Gesichtsbildern von Individuen ausgewählt wurde.
  • Die 105 × 105 Pixelpositionen definieren einen Pixelbereich, der ein Aufmerkfenster 203 aufbaut, wie in 4 gezeigt. Die Position des Gesichts kann aus dem eingegebenen Bild einer echten Kamera nicht spezifiziert werden; und daher wird auf der Basis einer Anweisung von dem AIT-Subsystem 14 die Kamera abgetastet, worin auf der Basis von Schablonenabgleich in dem R0-Submodul 204 die Position des Aufmerkfensters bestimmt wird.
  • Das AIT-Subsystem 14 besitzt ferner eine Schablone in Bezug auf lokale Bildinformation, die von lokalen Modulen 21 des PIT-Subsystems 15 eingegeben wird. Anfänglich ist die Schablone der gleiche Durchschnittsvektor wie jener des R0-Submoduls 22 des lokalen Moduls 21 des PIT-Subsystems 15. Die Schablone kann aber auch, in Abhängigkeit von den Umständen, auf der Basis einer Auswertung des globalen Bilds in dem AIT-Subsystem 14 ein Eigenraum sein, der aus einem hochmultidimensionalen Vektor abgeleitet ist, als eine Schablone in Bezug auf Bildinformation von dem lokalen Modul 21 des PIT-Subsystems 15, das top-down aktiviert worden ist.
  • Die Größe des durch das AIT-Subsystem 14 definierten Aufmerkfensters ist 105 × 105 Pixel, während das lokale Bild, das von dem PIT-Subsystem 15 in das AIT-Subsystem 14 eingegeben ist, durch 35 × 35 Pixelpositionen × 16 Lokalitäten definiert ist. In der tatsächlichen Simulation wurde, unter Berücksichtigung der Rechenleistung des Computers, ein Vektor verwendet, der durch 12 × 12 Pixelpositionen × 16 Lokalitäten × 20 Komponenten definiert war.
  • In Bezug auf das in 4 gezeigte Flussdiagramm des Gesamtsystems der Erfindung soll nun ein Ausführungsbeispiel auf der Basis einer Gesichtssimulation beschrieben werden.
  • Eine Bildeingabe durch die Kamera wird in einem Speicherbereich 202 des Frontmoduls 11 als globales Bild gespeichert, das aus digitalen Daten besteht, die dem vorgenannten Normalisierungsprozess unterzogen worden sind. In der vorliegenden Simulation wurde ein 128 × 128 Pixelbereich, 256 Tondichten-Bild verwendet.
  • Über eine globale Bilddatenbank 300 wird das Bild in das AIT-Subsystem 204 eingegeben. Das globale Gesichtsbild (3 Hauptkomponentenvektoren) wird durch Schablonenabgleich in dem R0-Submodul 204 ausgewertet, um festzustellen, ob es sich um ein menschliches Gesicht handelt oder nicht, und die Merkmale des eingegebenen Gesichtsbilds werden mittels einer Durchschnittsvektorschablone extrahiert. Nach der Auswertung in dem R0-Submodul 204 wird das Gesichtsbild auf die Eigenräume von Gesichertn von 105 Individuen in dem R1-Submodul 205 projiziert.
  • In den R2-Submodulen 206 des AIT-Subsystems 14 werden DFFS-Werte bestimmt und gegenüber einem Schwellenwert verglichen. Durch Auswertung in dem R2-Submodul 206 kann für den Fall, dass ein DFFS vom Eigenraum durch den Schwellenwert spezifiziert wird, das eingegebene Gesichtsbild als individuelles Gesicht erkannt werden, das durch diesen Eigenraum spezifiziert ist. Jedoch können im Hinblick auf das Erfordernis, die Berechnung zu vereinfachen, und die Rechengeschwindigkeit nur wenige Hauptkomponentenvektoren abgetastet werden, und zur Durchführung der obigen Bildinformationsverarbeitung können mehrere Eigenräume in der Auswertung des R2-Submoduls 206 spezifiziert werden.
  • Auf diese Weise wird ein Aktivierungssignal als Top-down-Steuerung an lokale Module des PIT-Subsystems ausgegeben, das mit lokalen Bildern belastet ist, die zu dem Gesicht (globalen Bild) der mehreren spezifizierten Eigenräume gehört.
  • Andererseits wird das eingegebene globale Bild durch ein Aufmerkfenster 204 abgetastet, das auf der Basis von Topologieinformation lokaler Module des PIT-Subsystems gesetzt ist, und wird in entsprechende lokale Module auf der Basis einer Datenbank 300 eingegeben, die durch lokale Bilder des Munds, der Nase, der linken und rechten Ohren und durch 12 Gesichtsumrisssegmente gebildet ist.
  • Zum Beispiel wird für eine lokale Bilddateneingabe zu einem Nasen-Lokalmodul der erlernte Durchschnittsvektor der Nase in dem R0-Submodul 208 als Schablone verwendet, um hierdurch zu ermöglichen, dass die Daten als Nasenbild erkannt werden, und gleichzeitig werden die Charakteristiken des eingegebenen Nasenbilds extrahiert.
  • Sobald das eingegebene lokale Bild als Nase ausgewertet ist, werden Komponentenvektoren, die durch das R0-Submodul 208 extrahierte Charakteristiken ausdrücken, auf den Eigenraum der Nase in dem R1-Submodul 209 projiziert. Alternativ wird hochdimensionale Eingabebildinformation von dem Speicher des Frontmoduls 202 eingegeben und auf dem Eigenraum der Nase in dem R1-Submodul 209 projiziert. Der projizierte Abstand DFFS, das als Ergebnis dieser Projektion erhalten ist, wird auf der Basis eines Schwellenwerts in dem R2-Submodul 210 ausgewertet, und wenn eine Konsistenzfeststellung auftritt, wird eingegebene Bildinformation des R1-Submoduls 209 durch das AIT-Subsystem 300 ausgegeben, worin eine Konsistenz mit dem globalen Bild auf der Basis einer Schablone in dem AIT-Subsystem ausgewertet wird.
  • In diesem Fall kann anstelle der eingegebenen Bildinformation des R1-Submoduls hochdimensionale Eingabeinformation von dem Speicher des Frontmoduls 202 in das AIT-Subsystem eingegeben werden. Sollte dies der Fall sein, kann eine hochpräzise Bilderkennung erreicht werden, indem Bildinformation höherdimensionaler Hauptkomponenten auf den Eigenraum projiziert wird.
  • Wenn in dem R0-Submodul 208 des PIT-Subsystems die Tatsache eines Nasenbilds erkannt worden ist, werden Steuersignale vom Typ B an andere benachbarte lokale Module ausgegeben, welche den Betrieb der anderen lokalen Module steuern, die die gleiche lokale Bildinformation besitzen. Auch werden Aktivierungssteuersignale vom Typ A an die R0-Submodule unterschiedlicher lokaler Module ausgegeben, die mit der Verarbeitung anderer lokaler Bilder mit ähnlichen Topologien belastet sind, um hierdurch die Prozesse darin zu fördern.
  • Wenn eine Konsistenz durch die Auswertung in dem R2-Submodul 210 bestätigt wird, werden Steuersignale vom Typ E an das R0-Submodul 208 desselben lokalen Moduls ausgegeben, um die Operation davon zu deaktivieren.
  • Auf der Basis einer Konsistenzauswertung durch die globale Bildverarbeitung in dem AIT-Subsystem ist es in den lokalen Modulen des PIT-Subsystems, die durch Top-down-Steuerung aktiviert werden, im Hinblick auf die lokale Bildinformation, die durch die R0-Submodule darin ausgewertet ist, auch akzeptabel, wenn nur der projizierte Abstand DFFS zwischen den betreffenden lokalen Bildern von Individuen, die in dem AIT-Subsystem erkannt sind, und dem Eigenraum ausgewertet wird.
  • In dem Fall, wo mehrere Individuen durch Top-down-Steuerung hypothetisiert werden und als lokale Module genommen werden, wird während der Auswertung des R2-Submoduls, wenn das lokale Bild eines solchen Individuums erkannt wird, auf dieser Ebene das globale Bild spezifiziert und erkannt.
  • Wenn das eingegebene Bild jenes eines ungelernten Objekts ist, ist die Erkennung zum Spezifizieren des eingegebenen Bilds als Ergebnis ebenfalls möglich. Im Falle solcher noch unerlernter Eingabebilder kann ein zum Selbstlernen fähiges System erhalten werden, indem Funktionen etabliert werden, um diese Bildverarbeitungsinformation zu der Kenntnis der Submodule jedes Subsystems automatisch zu addieren. Ferner können durch Abspeichern erkannter Bilder, die mit Merkmalen von Eingabebildinformation konsistent sind, für die die Bilderkennung einmal durchgeführt worden ist, oder durch Abspeichem von Eigenräumen jedes Subsystems, für das Konsistenz bestätigt worden ist, Module, die Information von Eigenräumen entsprechend den Eingabebildcharakteristiken besitzen, in Priorität aktiviert werden, was zu einem System mit hoher Lerneffizienz führt.
  • 5 zeigt visuell den Fortschritt der Bildverarbeitung in lokalen Modulen in der Simulation. Genauer gesagt, zeigt 5(a) einen Fall, in dem ein Top-down-Prozess von dem AIT-Subsystem nicht durchgeführt wird, wohingegen 5(b) den Fall zeigt, der das gleiche Eingabebild erkennt, wobei aber noch der Top-down-Prozess von dem AIT-Subsystem ausgeführt wird. In den Figuren sind Zeitschritte (ein Schritt = 5 Millisekunden) in der Spaltenrichtung dargestellt, während die Zeile 1 einen Fortschritt der globalen Bildverarbeitung in dem AIT-Subsystem zeigt.
  • Zeile 2 zeigt den Aktivierungszustand der R2-Submodule von 16 lokalen Modulen des PIT-Subsystems. Die Zeilen darunter zeigen in Zeitserien die Aktivierungszustände der R0-Submodule von fokalen Modulen für das rechte Auge, das linke Auge, die Nase bzw. den Mund.
  • Für das in 5 gezeigte Eingabebild wurden ungelernte Bilder verwendet. Im Falle von 5(a), in dem die Top-down-Steuerung nicht durchgeführt wurde, wurde zuerst der Gesichtsumriss erkannt, und unmittelbar danach wurden beide Augen und die Nase erkannt. Weil jedoch ein Durchschnittsvektor als Schablone für das R0-Submodul verwendet wurde, resultierten zahlreiche Fehler bei der Erkennung der linken und rechten Augen, und ferner konnte, bis zu neun Schritten, der Mund noch nicht erkannt werden.
  • In dem in 5(b) gezeigten Fall, in dem die Top-down-Steuerung von dem AIT-Subsystem durchgeführt wurde, war die Erkennung des Gesichtsumrisses, beider Augen und der Nase ähnlich dem Fall von 5(a). Jedoch wurde in Schritt 5 auch der Mund erkannt. Aus dem Vergleich des Aktivitätszustands des R0-Submoduls in den 5(a) und 5(b) kann gewertet werden, dass die Aktivierung in dem R0-Submodul weniger war, wenn die Top-down-Steuerung durchgeführt wurde. Dies demonstriert, dass, aufgrund der Top-down-Steuerung, die Aktivitäten inkonsistenter Submodule unterdrückt wurden, und es ist ferner verständlich, dass aus weniger Aktivitätsinformation die am meisten konsistenten Daten in dem R2-Submodul ausgewählt wurden.
  • Wie ferner aus den Zeitsequenzvariationen der globalen Bildverarbeitung in dem AIT-Subsystem verständlich, wie in Zeile 1 gezeigt, war sie zuerst schwach und grob, wurde aber allmählich detaillierter. Dementsprechend versteht es sich, dass die Top-down-Steuerung über die Zeit detaillierter und präziser wird.
  • Das Diagramm 1 zeigt Erkennungsraten für Lokalitäten der Augen, der Nase und des Munds in Bezug auf 105 Gesichtsbilder, die in der Simulation verwendet wurden. Aus dem Diagramm lässt sich entnehmen, dass auch im Vergleich zu der Erkennungsrate mittels der herkömmlichen Eigenräume-Methode, die Bilderkennungsmethode gemäß der vorliegenden Erfindung eine wesentliche Verbesserung in der Erkennungsleistung bietet.
  • Figure 00340001
    Diagramm 1 Erkennungsrate für lokale Charakteristiken (Zahl erkannt/Zahl der Fälle)
  • In dem Bilderkennungssystem gemäß der vorliegenden Erfindung werden Erkennungsprozesse eines globalen Bilds und lokaler Bilder gleichzeitig parallel durch mehrere Module durchgeführt, deren Funktionen verteilt sind. Ferner werden Prozesse, die inkonsistent sind, durch Deaktivierungssignale zwischen Verarbeitungsmodulen schnell deaktiviert, und ferner wird es aufgrund der Funktionen, für welche die zur Erkennung des globalen Bilds erforderliche Bildverarbeitung in lokalen Modulen unterstützt wird, möglich, die Rechenlast zu reduzieren, während noch immer eine Bilderkennung in einer verkürzten Zeitdauer möglich ist.
  • Ferner bietet die Bildverarbeitung gemäß der vorliegenden Erfindung, als Ergebnis der obigen Struktur, ein System, in dem zu Beginn der Bildverarbeitung global konsistente erkannte Formen durch Multiagenten-Berechnungen auf der Basis von Bilderkennungshypothesen aus hochkompnmierten Daten realisiert werden. Dementsprechend sind Wahrscheinlichkeitsauswertungen nicht erforderlich, die komplizierte Gleichungen benötigen, wie Maximale-Wahrscheinlichkeit-Analyse, wie im Stand der Technik.
  • Ferner führen in der Bilderkennung gemäß der vorliegenden Erfindung mehrere lokale Module sequentielle Prozesse von Eingabebildern durch, die sowohl einen Bottom-up-Prozessfluss besitzen, der die Erkennung eines globalen Bilds erreicht, sowie auch einen Top-down-Prozessfluss, in dem durch lokale Modulverarbeitung eine aus einem globalen Bild erhaltene hypothetische Erkennung bestätigt wird. In Prozessagenten, die in Übereinstimmung mit diesen zwei Typen von Prozessflüssen sind, kann an dem Punkt, an dem eine Konsistenz ausgewertet wird, eine Bilderkennung in einer schnellen Zeitdauer erreicht werden, weil berücksichtigt werden kann, ob eine wahre Erkennung des globalen Bilds stattgefunden hat.

Claims (9)

  1. Bilderkennungssystem zum Erkennen eines Objekts unter Verwendung eines globalen Bildverarbeitungsmittels (14) und eines lokalen Bildverarbeitungsmittels (15), die parallele Prozesse an einem globalen Bild eines Erkennungsobjekts, das von einer Kamera oder einer anderen optischen Aufnahmevorrichtung (10) eingegeben ist, und an charakteristischen lokalen Bildern durchführt, umfassend: ein globales Bildverarbeitungsmittel (14) zur Durchführung eines analytischen Prozesses an einem globalen Bild, das ein Mittel (204) zum Extrahieren einer globalen Charakteristik eines eingegebenen globalen Bilds sowie ein Mittel (206) zum Auswerten der Konsistenz der extrahierten globalen Charakteristik aufweist; ein lokales Bildverarbeitungsmittel (15) zur Durchführung eines analytischen Prozesses an einer Mehrzahl lokaler Bilder, wobei das lokale Bildverarbeitungsmittel (15) aus einer Mehrzahl lokaler Module (21) jeweils entsprechend jedem lokalen Bild aufgebaut ist, wobei jedes der lokalen Module (21) ein Mittel (208) zum Extrahieren einer Charakteristik eines eingegebenen lokalen Bilds sowie ein Mittel (210) zum Auswerten der Konsistenz der extrahierten Charakteristik mit dem zu erkennenden Bild aufweist, und das dadurch gekennzeichnet ist, dass: das globale Bildverarbeitungsmittel (14) sowohl ein eingegebenes Bild als auch Eingaben von den lokalen Modulen (21) empfängt und Funktionen der lokalen Module (21), die mit der globalen Charakteristik inkonsistent sind, deaktiviert, während es Funktionen der lokalen Module (21), die mit der globalen Charakteristik konsistent sind, aktiviert.
  2. Bilderkennungssystem nach Anspruch 1, worin jedes der lokalen Module (21), die das lokale Bildverarbeitungsmittel (15) aufbauen, eine Mehrzahl lokaler Module (21) aufweist, die unterschiedlichen Topologien desselben lokalen Bilds entsprechen und durch lokale Bilder bestimmt sind, deren Örtlichkeit einander entspricht.
  3. Bilderkennungssystem nach Anspruch 1, worin jedes der lokalen Module (21), die das lokale Bildverarbeitungsmittel (15) aufbauen, eine Mehrzahl lokaler Module (21) umfasst, die unterschiedlichen Topologien desselben lokalen Bilds entsprechen und durch lokale Bilder bestimmt sind, deren Form einander entspricht.
  4. Bilderkennungssystem nach Anspruch 1, 2 oder 3, worin jedes der lokalen Module (21), die das lokale Bildverarbeitungsmittel (15) aufbauen, umfasst: ein erstes Submodul (R0), das ein Mittel zum Extrahieren einer Charakteristik eines eingegebenen lokalen Bilds umfasst; ein zweites Submodul (R1), in dem die Kenntnis eines Eigenraums eines gegebenen lokalen Symbols eines zuvor erlernten Erkennungsobjekts gespeichert ist; und ein drittes Submodul (R2), das ein Mittel zur Konsistenzauswertung auf der Basis eines projizierten Abstands von einem Ergebnis der Projektion der Bildinformation des eingegebenen lokalen Bilds, das die durch das erste Submodul (R0) extrahierte Charakteristik aufweist, auf einen in dem zweiten Submodul (R1) gespeicherten Eigenraum umfasst.
  5. Bilderkennungssystem nach Anspruch 4, worin in dem ersten Submodul (R0) die Kenntnis eines durchschnittlichen Vektors eines gegebenen lokalen Bilds des zuvor erlernten Erkennungsobjekts gespeichert ist.
  6. Bilderkennungssystem nach Anspruch 4 oder 5, worin eines der Mehrzahl lokaler Module (21), das mit dem selben lokalen Bild belastet ist, ein Signal zum Aktivieren des ersten Submoduls (R0) eines anderen lokalen Moduls (21) ausgibt, um einen analytischen Prozess an einer unterschiedlichen Topologie desselben lokalen Bilds zu bewirken.
  7. Bilderkennungssystem nach Anspruch 4, 5 oder 6, worin unter mehreren lokalen Modulen (21), in die Bildinformation von benachbarten Bereichen eingegeben wurde und die mit unterschiedlichen lokalen Bildern belastet sind, ein lokales Modul, in dem sich ein aktiviertes erstes Submodul (R0) befindet, ein Signal zum Deaktivieren des ersten Submoduls (R0) eines anderen lokalen Moduls (21), das mit einem unterschiedlichen lokalen Bild belastet ist, ausgibt.
  8. Bilderkennungssystem nach einem der Ansprüche 4 bis 7, worin, wenn eine Konsistenz auf der Basis einer Auswertung des dritten Submoduls (R2) eines der lokalen Module (21) bestätigt wird, das erste Submodul (R0) desselben lokalen Moduls (21) deaktiviert wird.
  9. Bilderkennungssystem nach einem der Ansprüche 4 bis 8, worin die Bildinformation in das zweite Submodul (R1) eines der lokalen Module (21) nur dann eingegeben wird, wenn das erste Submodul (R0) oberhalb eines vorbestimmten Schwellenwerts aktiviert ist.
DE69730811T 1996-12-17 1997-12-16 Anlage zur Bilderkennung Expired - Lifetime DE69730811T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP33668996 1996-12-17
JP33668996 1996-12-17

Publications (2)

Publication Number Publication Date
DE69730811D1 DE69730811D1 (de) 2004-10-28
DE69730811T2 true DE69730811T2 (de) 2005-02-03

Family

ID=18301797

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69730811T Expired - Lifetime DE69730811T2 (de) 1996-12-17 1997-12-16 Anlage zur Bilderkennung

Country Status (3)

Country Link
US (1) US6185337B1 (de)
EP (1) EP0849699B1 (de)
DE (1) DE69730811T2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE48056E1 (en) 1991-12-23 2020-06-16 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
USRE46310E1 (en) 1991-12-23 2017-02-14 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
USRE47908E1 (en) 1991-12-23 2020-03-17 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
KR100343223B1 (ko) * 1999-12-07 2002-07-10 윤종용 화자 위치 검출 장치 및 그 방법
JP4483042B2 (ja) * 2000-07-12 2010-06-16 コニカミノルタホールディングス株式会社 影成分除去装置および影成分除去方法
US6529620B2 (en) 2000-09-11 2003-03-04 Pinotage, L.L.C. System and method for obtaining and utilizing maintenance information
US20030215128A1 (en) * 2001-09-12 2003-11-20 Pinotage Llc System and method for obtaining and utilizing maintenance information
DE10045360A1 (de) * 2000-09-14 2002-03-28 Giesecke & Devrient Gmbh Verfahren zur Klassifizierung von Dokumenten
US7398256B2 (en) * 2001-02-23 2008-07-08 The Trustees Of The University Of Pennsylvania Dynamical brain model for use in data processing applications
JP2002358523A (ja) * 2001-05-31 2002-12-13 Canon Inc パターン認識処理装置及びその方法、画像入力装置
JP3885999B2 (ja) * 2001-12-28 2007-02-28 本田技研工業株式会社 物体検出装置
JP3979894B2 (ja) * 2002-07-22 2007-09-19 本田技研工業株式会社 物体検出装置及び方法
US20060030985A1 (en) * 2003-10-24 2006-02-09 Active Recognition Technologies Inc., Vehicle recognition using multiple metrics
KR100543707B1 (ko) * 2003-12-04 2006-01-20 삼성전자주식회사 서브그룹별 pca 학습을 이용한 얼굴인식방법 및 장치
KR100703528B1 (ko) * 2004-12-09 2007-04-03 삼성전자주식회사 영상 인식 장치 및 방법
US8311294B2 (en) 2009-09-08 2012-11-13 Facedouble, Inc. Image classification and information retrieval over wireless digital networks and the internet
DE102006057948A1 (de) * 2006-12-08 2008-06-12 Giesecke & Devrient Gmbh Portabler Datenträger zur biometrischen Benutzererkennung
US7826464B2 (en) * 2007-01-10 2010-11-02 Mikhail Fedorov Communication system
US8400504B2 (en) 2010-04-05 2013-03-19 King Fahd University Of Petroleum And Minerals Contamination monitoring of high voltage insulators
CN102878647B (zh) * 2011-07-15 2015-06-10 珠海格力电器股份有限公司 空调运行状态的自动监控系统及自动监控方法
CN102509271B (zh) * 2011-11-21 2014-05-07 洪涛 基于多维度分解迭代增强校正的图像复原方法
CN103413319A (zh) * 2013-08-27 2013-11-27 哈尔滨工业大学 一种工业摄像机参数现场标定方法
CN104933718B (zh) * 2015-06-23 2019-02-15 广东省智能制造研究所 一种基于双目视觉的物理坐标定位方法
CN113559492A (zh) 2015-11-19 2021-10-29 天使集团股份有限公司 桌面游戏的管理系统及游艺用代用货币
CN108921117A (zh) * 2018-07-11 2018-11-30 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN114782828B (zh) * 2022-06-22 2022-09-09 国网山东省电力公司高青县供电公司 一种基于深度学习的异物检测系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0634236B2 (ja) * 1985-11-02 1994-05-02 日本放送協会 階層型情報処理方法
DE69131350T2 (de) * 1990-07-17 1999-12-30 British Telecommunications P.L.C., London Verfahren und vorrichtung zur bildverarbeitung
US5164992A (en) 1990-11-01 1992-11-17 Massachusetts Institute Of Technology Face recognition system
US5331544A (en) * 1992-04-23 1994-07-19 A. C. Nielsen Company Market research method and system for collecting retail store and shopper market research data
US5432864A (en) * 1992-10-05 1995-07-11 Daozheng Lu Identification card verification system
US5337372A (en) * 1992-10-13 1994-08-09 At&T Bell Laboratories Method and apparatus for symbol recognition using multidimensional preprocessing at multiple resolutions
US5550928A (en) * 1992-12-15 1996-08-27 A.C. Nielsen Company Audience measurement system and method
US5566273A (en) 1993-12-30 1996-10-15 Caterpillar Inc. Supervised training of a neural network
US5629752A (en) * 1994-10-28 1997-05-13 Fuji Photo Film Co., Ltd. Method of determining an exposure amount using optical recognition of facial features
US5497430A (en) * 1994-11-07 1996-03-05 Physical Optics Corporation Method and apparatus for image recognition using invariant feature signals
JPH08263664A (ja) 1995-03-22 1996-10-11 Honda Motor Co Ltd 人工的視覚システム及びイメージ認識方法
US5710833A (en) * 1995-04-20 1998-01-20 Massachusetts Institute Of Technology Detection, recognition and coding of complex objects using probabilistic eigenspace analysis
US5901244A (en) * 1996-06-18 1999-05-04 Matsushita Electric Industrial Co., Ltd. Feature extraction system and face image recognition system

Also Published As

Publication number Publication date
EP0849699A3 (de) 2000-01-12
EP0849699B1 (de) 2004-09-22
DE69730811D1 (de) 2004-10-28
EP0849699A2 (de) 1998-06-24
US6185337B1 (en) 2001-02-06

Similar Documents

Publication Publication Date Title
DE69730811T2 (de) Anlage zur Bilderkennung
DE102018206208A1 (de) Verfahren, Vorrichtung, Erzeugnis und Computerprogramm zum Betreiben eines technischen Systems
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE68928895T2 (de) Verfahren und Gerät für universelle adaptiv lernende Bildmessung und -erkennung
DE602005001627T2 (de) Vorrichtung zur Extraktion von Fussgängern
DE3587061T2 (de) Bildverarbeitungseinrichtung und verfahren zu deren steuerung.
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
DE102020210352A1 (de) Verfahren und Vorrichtung zum Transferlernen zwischen modifizierten Aufgaben
EP3853778B1 (de) Verfahren und vorrichtung zum betreiben eines steuerungssystems
DE102010038567A1 (de) Bilderkennungsvorrichtung mit mehreren Klassifizierern
DE102020212515A1 (de) Verfahren und Vorrichtung zum Trainieren eines maschinellen Lernsystems
DE102019209457A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm, maschinenlesbares Speichermedium und entsprechende Vorrichtung
DE102020200499A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
DE102021202813A1 (de) Verfahren, Vorrichtung und Computerprogramm für eine Unsicherheitsbewertung einer Bildklassifikation
DE102021201777A1 (de) Verfahren zur Verhaltenserkennung, Vorrichtung zur Verhaltenserkennung und computerlesbares Aufzeichnungsmedium
EP1180258B1 (de) Mustererkennung mittels prüfung zusätzlicher merkmale nach teilverarbeitung
DE102013210771A1 (de) Detektion eines komplexen objekts unter verwendung einer kaskade von klassifizierungseinrichtungen
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
DE102020208828A1 (de) Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems
DE102013206920A1 (de) Detektion eines komplexen Objekts unter Verwendung einer Kaskade vonKlassifizierungseinrichtungen
JP3894522B2 (ja) 画像認識法
DE102021208724A1 (de) Verfahren und Vorrichtung zum automatisierten Erstellen eines maschinellen Lernsystems zur Multi-Sensor-Datenfusion
DE102020212514A1 (de) Verfahren zur Ermittlung eines Ausgabesignals mittels eines maschinellen Lernsystems
DE202020107031U1 (de) Kombinierte Vorhersage von Merkmal und Merkmalsbewegung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition