DE602004004048T2

DE602004004048T2 - Anordnung und Verfahren zur Objekterkennung sowie Anordnung und Verfahren zum Gruppenlernen

Info

Publication number: DE602004004048T2
Application number: DE602004004048T
Authority: DE
Inventors: Sony Corporation Kenichi Shinagawa-ku Hidai; Sony Corporation Kohtaro Shinagawa-ku Sabe; Sony Corporation Kenta Shinagawa-ku Kawamoto
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-11-25
Filing date: 2004-11-22
Publication date: 2007-07-12
Anticipated expiration: 2024-11-23
Also published as: EP1536369B1; USRE44703E1; US7574037B2; EP1536369A1; USRE45595E1; DE602004004048D1; JP2005157679A; JP4517633B2; USRE43873E1; US20050280809A1; USRE47434E1

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Diese Erfindung betrifft Anordnungen und Verfahren zum Detektieren eines Objekts und eine Anordnung und ein Verfahren zum Gruppenlernen.
Ausführungsformen der vorliegenden Erfindung betreffen eine Anordnung und ein Verfahren zum Detektieren eines Objekts wie beispielsweise eines Bilds eines Gesichts auf Echtzeitbasis und auch eine Anordnung und ein Verfahren zum Gruppenlernen, die ausgebildet sind zum Praktizieren einer Anordnung und eines Verfahrens zum Detektieren eines Objekts gemäß Ausführungsformen der Erfindung in einer Gruppe.
Verwandte Hintergrundtechnik
Es sind bisher viele Techniken zum Detektieren eines Gesichts aus einer komplexen visuellen Szene unter Benutzung nur eines Gradationsmusters des Bildsignals der Szene, ohne sich auf irgendeine Bewegung zu verlassen, vorgeschlagen worden. Beispielsweise wendet ein im unten angegebenen Patentdokument 1 (Beschreibung der veröffentlichten US-Patentanmeldung Nr. 2002/0120024) beschriebener Gesichtsdetektor ein AdaBoost an, das ein Filter wie eines auf Basis von Haar für einen Schwachdiskriminator (Schwachlerner) benutzt. Es kann, wie es nachfolgend detaillierter beschrieben wird, durch Benutzung eines als Ganz- bzw. Integralbild bezeichneten Bilds und eines Rechteckmerkmals eine Schwachhypothese mit hoher Geschwindigkeit berechnen.
1 der beigefügten Zeichnungen stellt schematisch ein im Patentdokument 1 beschriebenes Rechteckmerkmal dar. Nach 1, die mit der im Patentdokument 1 beschriebenen Technik eingegebene Bilder 142A bis 142D zeigt, sind mehrere Filter (Schwachhypothesen) präpariert, die zum Bestimmen der Gesamtsumme der Luminanzwerte von benachbart lokalisierten rechteckigen Bereichen der gleichen Größe und Ausgeben der Differenz zwischen der Gesamtsumme der Luminanzwerte eines der rechteckigen Bereiche und der Gesamtsumme der Luminanzwerte der anderen rechteckigen Bereiche ausgebildet sind. Beispielsweise zeigt das eingegebene Bild 142A in 1 ein Filter 154A, das die Gesamtsumme der Luminanzwerte eines schraffierten rechteckigen Kastens 154A-2 von der Gesamtsumme der Luminanzwerte des rechteckigen Kastens 154A-1 subtrahiert. Ein zwei rechteckige Kästen aufweisendes solches Filter wird als 2-Rechteckmerkmal (2 rectangular feature) bezeichnet. Andererseits weist das Eingangsbild 142C in 1 drei rechteckige Kästen 154C-1 bis 154C-2 auf, die durch Teilen eines einzelnen rechteckigen Kastens gebildet sind, und zeigt ein Filter 154C, das die Gesamtsumme der Luminanzwerte des schraffierten rechteckigen Kastens 154C-2 von der Gesamtsumme der Luminanzwerte der rechteckigen Kästen 154C-1 und 154C-3 subtrahiert. Ein drei rechteckige Kästen aufweisendes solches Filter wird als ein 3-Rechteckmerkmal bezeichnet. Außerdem weist das eingegebenes Bild 142D in 1 vier rechteckige Kästen 154D-1 bis 154D-4 auf, die durch vertikales und horizontales Teilen eines einzelnen rechteckigen Kastens gebildet sind, und zeigt ein Filter 154D das die Gesamtsumme der Luminanzwerte der schraffierten rechteckigen Kästen 154D-2 und 154D-4 von der Gesamtsumme der Luminanzwerte der rechteckigen Kästen 154D-1 und 154D-3 subtrahiert. Ein vier rechteckige Kästen aufweisendes solches Filter wird als 4-Rechteckmerkmal bezeichnet.
Nun wird unten ein Fall, bei dem ein in 2 gezeigtes Bild eines Gesichts mittels eines in 1 gezeigten Rechteckmerkmals 154B als ein Gesicht entschieden wird, beschrieben. Das 2-Rechteckmerkmal 154B weist zwei rechteckige Kästen 154B-1 und 154B-2 auf, die durch vertikales Teilen eines einzelnen rechteckigen Kastens erzeugt werden und so ausgebildet sind, dass sie die Gesamtsumme der Luminanzwerte des schraffierten rechteckigen Kastens 154B-1 von der Gesamtsumme der Luminanzwerte des rechteckigen Kastens 154B-2 subtrahieren. Es ist durch Benutzung der Tatsache, dass in einem menschlichen Gesicht (Objekt) 138 der Luminanzwert eines Augenbereichs niedriger als der eines Wangenbereichs ist, möglich, das eingegebene Bild mit einer gewissen Wahrscheinlichkeit als ein Gesicht oder kein Gesicht (korrekte Interpretation oder inkorrekte Interpretation) zu schätzen. Diese Anordnung wird als einer der Schwachdiskriminatoren eines AdaBoost benutzt.
Zum Detektieren eines Gesichts ist es notwendig, Bereiche unterschiedlicher Größen (die als Suchfenster zu bezeichnen sind) auszuschneiden, um Bereiche eines Gesichts, die zahlreiche unterschiedliche Größen, welche in einem eingegebenen Bild enthalten sind, aufweisen, zum Zweck einer Entscheidung, ob das eingegebenes Bild ein Gesicht ist oder nicht, zu detektieren. Jedoch weist ein eingegebenes Bild eines Gesichts, das aus beispielsweise aus 220 × 240 Pixeln gebildet ist, Gesichtsbereiche (Suchfenster) von etwa 50.000 unterschiedlichen Größen auf, und es ist extrem zeitraubend, um Rechenoperationen für alle Fenster auszuführen. Infolgedessen benutzt die Technik des Patentdokuments 1 ein Bild, das als integrales Bild bezeichnet wird. Nach 3 ist ein integrales Bild ein Bild, bei dem das (x, y)-te Pixel 162 des eingegebenen Bilds 144 einen Wert darstellt, der gleich er Gesamtsumme der Luminanzwerte der relativ zum Pixel 162 oberen linken Pixel, was durch die Formel (1) unten ausgedrückt ist. In anderen Worten ist der Wert des Pixels 162 gleich der Gesamtsumme der Luminanzwerte der im rechteckigen Kasten 160, der relativ zum Pixel 162 oben links lokalisiert ist, enthaltenen Pixel. In der folgenden Beschreibung wird ein Bild, bei dem jedes Pixel einen durch die Formel (1) unten ausgedrückten Wert aufweist, als ein integrales Bild bezeichnet. [Formel 1]
Es ist möglich, für einen rechteckigen Kasten irgendeiner Größe durch Benutzung eines solchen integralen Bilds Berechnungsoperationen mit hoher Geschwindigkeit auszuführen. 4 zeigt vier rechteckige Kästen, die einen oberen linken rechteckigen Kasten 170, einen rechteckigen Kasten 172, der rechts vom rechteckigen Kasten 170 lokalisiert ist, einen rechteckigen Kasten 174, der unter dem rechteckigen Kasten 170 lokalisiert ist, und einen rechteckigen Kasten 176, der relativ zum rechteckigen Kasten 170 unten rechts lokalisiert ist, aufweisen. Die vier Ecken des rechteckigen Kastens 176 sind mit P1, P2, P3 und P4, die im Uhrzeigersinn angeordnet sind, bezeichnet. Dann weist P1 einen Wert auf, der gleich der Gesamtsumme A der Luminanzwerte des rechteckigen Kastens 170 (= (P1 = A), und P2 weist einen Wert auf, der gleich A + die Gesamtsumme B der Luminanzwerte des rechteckigen Kastens 172 ist (P2 = A + B), während P3 einen Wert aufweist, der gleich A + die Gesamtsumme C der Luminanzwerte des rechteckigen Kastens 174 ist (P3 = A + C), und P4 einen Wert aufweist, der gleich A + B + C + die Gesamtsumme D der Luminanzwerte des rechteckigen Kastens 176 ist (P4 = A + B + C + D). Die Gesamtsumme D der Luminanzwerte des rechteckigen Kastens D kann durch Benutzung der Formel P4 – (P2 + P3) – P1 bestimmt werden. Infolgedessen kann die Gesamtsumme der Luminanzwerte jedes der rechteckigen Kasten durch arithmetische Operationen unter Benutzung der Pixelwerte der vier Ecken des rechteckigen Kastens D mit hoher Geschwindigkeit bestimmt werden. Normalerweise wird das eingegebene Bild Maßstabs- bzw. Skalaumsetzungen unterworfen, und ein Fenster (Suchfenster) mit einer Größe gleich der Größe der zum Lernen benutzten Lernabtastungen wird aus jedem als ein Resultat von Skalaumsetzungen erhaltenen Bild ausgeschnitten, um es möglich zu machen, nach Suchfenstern mit unterschiedlichen Größen zu suchen. Jedoch ist, wie oben beschrieben, für Skalaumsetzungen eines eingegebenen Bilds zum Zweck des Ausschneidens von Suchfenstern aller unterschiedlichen Größen eine große Menge von Berechnungsoperationen auszuführen. Infolgedessen werden bei der im Patentdokument 1 beschriebenen Technik integrale Bilder, die erlauben, die Gesamtsumme der Luminanzwerte rechteckiger Kästen mit hoher Geschwindigkeit zu bestimmen, benutzt, um zum Reduzieren der Menge von Berechnungsoperationen Rechteckmerkmale anzuwenden.
Jedoch kann ein im oben zitierten Patendokument beschriebener Gesichtsdetektor nur ein Objekt detektieren, dessen Größe eine ganze Zahl mal so groß wie die Größe der zum Lernen benutzten Lernabtastungen ist. Dies deshalb, weil das oben zitierte Patentdokument 1 vorschlägt, die Größen von Suchfenstern durch Skalaumsetzungen eines eingegebenen Bilds nicht zu ändern, sondern ein eingegebenes Bild in integrale Bilder zu transformieren und Gesichtsbereiche unterschiedlicher Suchfenster durch Benutzung der integralen Bilder zu detektieren. Insbesondere werden integrale Bilder durch eine Pixeleinheit diskret gemacht, so dass, wenn eine Fenstergröße von 20 × 20 benutzt wird, es nicht möglich ist, eine Fenstergröße von 30 × 30 zu definieren, und folglich ist es nicht möglich, ein Gesicht dieser Fenstergröße zu detektieren.
Außerdem wird zum Zweck einer Erhöhung der Geschwindigkeit von Berechnungsoperationen für das obige Rechteckmerkmal nur die Differenz von Luminanzwerten benachbart lokalisierter rechteckiger Kästen benutzt. In anderen Worten ist es nicht möglich, die Differenz von Luminanzwerten von rechteckigen Kästen, die voneinander getrennt sind, zu detektieren, was folglich die Fähigkeit zum Detektieren eines Objekts zu beschränkt.
Während es möglich ist, durch Skalaumsetzungen der integralen Bilder nach Fenstern aller Größen zu suchen und es folglich möglich ist, die Differenz der Luminanzwerte rechteckiger Kästen, die voneinander getrennt sind, zu benutzen, ist für Skalaumsetzungen integraler Bilder eine große Menge von Rechenoperationen erforderlich, so dass der Vorteil des integrale Bilder benutzenden Hochgeschwindigkeitsverarbeitungsoperation kompensiert wird. Außerdem wird die Anzahl von unterschiedlichen Typen von Filtern zum Akkomodieren der Differenzen der Lumianzwerte rechteckiger Kasten, die voneinander getrennt sind, enorm, und folglich ist eine große Menge von Rechenoperationen erforderlich.
US 2002/0102024 A1 betrifft ein Objektdetektionssystem zum Detektieren von Beispielen bzw. Fällen bzw. Zeichen eines Objekts in einem digitalen Bild. Das System umfasst einen Bildintegrator und einen Objektdetektor, die einen Klassifizierer und einen Bildabtaster aufweisen. Der Bildintegrator empfängt ein eingegebenes Bild und berechnet eine Integralbilddarstellung des eingegebenen Bilds. Der Bildabtaster tastet das Bild in gleichgroßen Subfenstern ab. Der Objektdetektor benutzt eine Kaskade von homogenen Klassifikationsfunktionen oder Klassifizierern, um die Subfenster danach zu klassifizieren, ob jedes Subfenster voraussichtlich ein Beispiel bzw. einen Fall bzw. ein Zeichen eines Objekts enthält. Jeder Klassifizierer wertet ein oder mehrere Merkmale des Objekts aus, um die Präsenz eines solchen Merkmals in einem Subfenster, das die Wahrscheinlichkeit eines Beispiels bzw. Falles bzw. Zeichens des Objekts im Subfenster anzeigen würde, zu bestimmen.
ZUSAMMENFASSUNG DER ERFINDUNG
Im Hinblick auf die oben identifizierten Umstände stellen Ausführungsformen der vorliegenden Erfindung eine Anordnung und ein Verfahren zum Detektieren eines Objekts bei einem Gruppenlernen bereit, welche die Berechnungsverarbeitungsoperationen zur Zeit des Lernens beschleunigen und ein Objekt jeder Größe detektieren und einen hohen Grad von Unterscheidungs- bzw. Entscheidungsfähigkeiten zeigen können, sowie eine Anordnung und ein Verfahren zum Gruppenlernen, die zur Anwendung einer Anordnung und eines Verfahrens zum Detektieren eines Objekts gemäß Ausführungsformen der Erfindung in einer Gruppe ausgebildet sind, bereit.
Unter einem Aspekt der vorliegenden Erfindung ist eine wie im Anspruch 1 beanspruchte Objektdetektierungsanordnung bereitgestellt.
Infolgedessen benutzen bei Ausführungsformen mehrere Schwachentscheidungseinrichtungen eine sehr einfache charakteristische Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei unterschiedlichen Positionen ist, um schwach zu entscheiden, ob ein gegebenes Gradationsbild ein Objekt ist oder nicht, so dass die Detektierungsoperation mit hoher Geschwindigkeit ausgeführt werden kann.
Vorzugsweise berechnet die Entscheidungseinrichtung den Wert der Gewichtet-Majoritätsentscheidung durch Multiplizieren jeder der Schätzungen mit der als Resultat des Lernens erhaltenen Zuverlässigkeit der korrespondierenden Schwachentscheidungseinrichtung und Addieren der Produkte der Multiplikationen, und entscheidet entsprechend dem Majoritätsentscheidungswert, ob das Gradationsbild ein Objekt ist oder nicht. Kurz ausgedrückt kann eine Objektdetektierungsanordnung gemäß Ausführungsformen durch Benutzung des Resultats einer Majoritätsentscheidung, die durch Kombinieren der Schätzungen mehrerer Schwachentscheidungseinrichtungen getroffen wird, entscheiden, ob ein Gradationsbild ein Objekt ist oder nicht.
Vorzugsweise berechnen die mehreren Schwachentscheidungseinrichtungen Schätzungen sequentiell, und aktualisiert die Entscheidungseinrichtung sequentiell den Wert einer Gewichtet-Majoritätsentscheidung sequentiell jedes Mal, wenn eine Schätzung berechnet wird, und steuert den Objektdetektierungsbetrieb der Anordnung, um entsprechend dem aktualisierten Wert der Gewichtet-Majoritätsentscheidung zu entscheiden, ob die Berechnung von Schätzungen suspendiert ist oder nicht. Kurz ausgedrückt kann eine Objektdetektierungsanordnung gemäß Ausführungsformen ihre Operation ohne zu warten, bis alle Schwachentscheidungseinrichtungen Schätzungen berechnen, suspendieren, indem die Schwachentscheider Schätzungen sequentiell berechnen und den Wert der Gewichtet-Majoritätsentscheidung auswerten, um den Objektdetektierungsbetriebs weiter zu beschleunigen.
Vorzugsweise ist die Entscheidungseinrichtung ausgebildet zum Suspendieren der Operation zur Berechnung von Schätzungen abhängig davon, ob der Wert der Gewichtet-Majoritätsentscheidung kleiner als ein Suspensionsschwellenwert ist oder nicht, und werden die Schwachentscheidungseinrichtungen durch Gruppenlernen unter Benutzung einer Lernabtastung von mehreren Gradationsbildern, die mit jeweiligen korrekten Antworten, die sagen, ob jedes der Gradationsbilder ein Objekt ist oder nicht, bereitgestellt sind, sequentiell erzeugt, wobei der Suspensionsschwellenwert bei den Werten der Gewichtet-Majoritätsentscheidung, die durch Addieren der gewichteten Zuverlässigkeiten zu den jeweiligen Schätzungen der Lernabtastungen der Objekte aktualisierten, wie sie jedes Mal, wenn bei der Lernsession durch die erzeugte Schwachentscheidungseinrichtung eine Schwachentscheidungseinrichtung erzeugt wird, berechnet werden, aktualisiert werden, der Minimumwert ist. Infolgedessen ist es möglich, die Verarbeitungsoperation der Schwachentscheidungseinrichtung als ein Resultat des Lernens des Minimumwerts, den die mit jeweiligen korrekten Antworten erzeugten Gradationsbilder als Suspensionsschwellenwert nehmen können, genau und effizient zu suspendieren.
Vorzugsweise wird, wenn bei den bei der Lernsession erhaltenen Werten der Gewichtet-Majoritätsentscheidung der Minimumwert positiv ist, 0 als der Suspensionsschwellenwert ausgewählt. Dann kann ein Minimumwert, der nicht kleiner als 0 ist, als Suspensionsschwellenwert ausgewählt werden, wenn die Lernsession durch Benutzung eines Gruppenlernalgorithmus wie im Fall von AdaBoost, wo eine Suspension der Verarbeitungsoperation abhängig von der positiven oder negativen Beschaffenheit des Ausgangssignals irgendeiner bzw. jeder der Schwachentscheidungseinrichtungen bestimmt wird, durchgeführt wird.
Außerdem gibt vorzugsweise jede der Schwachentscheidungseinrichtungen ihre Schätzung durch Berechnen der Schätzung als Binärwert entscheidend aus, der abhängig davon, ob die charakteristische Größe kleiner als ein vorbestimmter Schwellenwert ist oder nicht, anzeigt, ob das Gradationsbild ein Objekt ist oder nicht. Vorzugsweise gibt jede der Schwachentscheidungseinrichtungen die auf der Basis der charakteristischen Größe berechnete Wahrscheinlichkeit, dass das Gradationsbild ein Objekt ist, aus, um ihre Schätzung propabibilistisch bzw. stochastisch auszugeben.
Unter einem anderen Aspekt der vorliegenden Erfindung ist ein wie in Anspruch 11 beanspruchtes Objektdetektierungsverfahren bereitgestellt.
Unter einem noch anderen Aspekt der vorliegenden Erfindung ist eine wie in Anspruch 17 beanspruchte Gruppenlernanordnung bereitgestellt.
Infolgedessen werden mit einer Gruppenlernanordnung gemäß Ausführungsformen Schwachentscheider, die bei einer Lernabtastung eine sehr einfache charakteristische Größe in Form der Differenz der Luminanzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen benutzen, durch Gruppenlernen erzeugt, so dass es möglich ist, eine Objektdetektierungsoperation mit hoher Geschwindigkeit auszuführen, wenn eine Detektierungseinrichtung zum Detektieren eines Objekts durch Benutzung einer Anzahl von Entscheidungsresultaten der erzeugten Schwachentscheider ausgebildet ist.
Vorzugsweise weist die Lerneinrichtung auf: eine Schwachentscheider-Erzeugungseinrichtung zur Berechnung der charakteristischen Größe jeder der Lernabtastungen und Erzeugung der Schwachentscheider entsprechend den jeweiligen charakteristischen Größen, eine Fehlerverhältnis-Berechnungseinrichtung zur Berechnung des Entscheidungs-Fehlerverhältnisses jeder der Lernabtastungen entsprechend dem für die Lernabtastung für die von der Schwachentscheider-Erzeugungseinrichtung erzeugten Schwachentscheider definierten Datengewicht, eine Zuverlässigkeits-Berechnungseinrichtung zur Berechnung der Zuverlässigkeit der Schwachentscheider entsprechend dem Fehlerverhältnis und eine Datengewichts-Berechnungseinrichtung zur Aktualisierung des Datengewichts, um das Gewicht jeder Lernabtastung, die von den Schwachentscheidern als Fehler entschieden wird, relativ zu erhöhen, wobei die Schwachentscheider-Erzeugungseinrichtung fähig ist zum Erzeugen eines neuen Schwachentscheiders, wenn das Datengewicht aktualisiert ist. Infolgedessen fährt eine Gruppenlernanordnung gemäß Ausführungsformen fort mit Lernen, wenn sie einen Verarbeitungsbetrieb zur Erzeugung eines Schwachentscheiders wiederholt, Berechnen des Fehlerverhältnisses und seiner Zuverlässigkeit und Aktualisieren des Datengewichts, um einen Schwachentscheider nochmals zu erzeugen.
Vorzugsweise berechnet die Schwachentscheider-Erzeugungseinrichtung charakteristische Größen von mehreren unterschiedlichen Typen durch Wiederholen des Prozesses zur Berechnung einer charakteristischen Größe mehrere Male, erzeugt für jede charakteristische Größe einen Schwachentscheiderkandidaten, berechnet das Entscheidungs-Fehlerverhältnis jeder Lernabtastung entsprechend dem für die Lernabtastung definierten Datengewicht und wählt den das niedrigste Fehlerverhältnis zeigenden Schwachentscheiderkandidaten als Schwachentscheider aus. Mit dieser Anordnung kann eine Anzahl von Schwachentscheiderkandidaten jedes Mal, wenn das Datengewicht aktualisiert wird, erzeugt werden, so dass die das niedrigste Fehlerverhältnis zeigenden Schwachentscheiderkandidaten als Schwachentscheider zum Erzeugen (Lernen) eines Schwachentscheiders ausgewählt werden.
Außerdem weist eine Gruppenlernanordnung gemäß Ausführungsformen vorzugsweise eine Suspensionsschwellenwert-Speichereinrichtung zum Speichern des Minimumwerts der Werte der Gewichtet-Majoritätsentscheidung auf, deren jeder als ein Resultat davon, dass jedes Mal, wenn die Schwachentscheider-Erzeugungseinrichtung einen Schwachentscheider erzeugt, die Schwachentscheider-Erzeugungseinrichtung mittels des Schwachentscheiders eine Schätzung für jede Lernabtastung, die ein Objekt ist, berechnet und auch den durch Gewichtung der Schätzung mit der Zuverlässigkeit erhaltenen Wert der Gewichtet-Majoritätsentscheidung berechnet. Mit dieser Anordnung kann die Operation der durch mehrere erzeugte Schwachentscheider gebildeten Detektierungseinrichtung mit hoher Geschwindigkeit ausgeführt werden, da der Minimumwert als Suspensionsschwellenwert gelernt wird.
Unter einem noch anderen Aspekt der Erfindung ist ein wie in Anspruch 23 beanspruchtes Gruppenlernverfahren bereitgestellt.
Bei Ausführungsformen der vorliegenden Erfindung ist eine wie in Anspruch 8 definierte Objektdetektierungsanordnung bereitgestellt.
Infolgedessen wird gemäß Ausführungsformen ein Gradationsbild einer Skalaumsetzung unterworfen und wird aus ihm ein Fensterbild ausgeschnitten, um es möglich zu machen, ein Objekt irgendeiner Größe zu detektieren, während mehrere Schwachentscheidungseinrichtungen eine sehr einfache charakteristische Größe benutzen, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei unterschiedlichen Positionen ist, um eine Schätzung zu berechnen, die anzeigt, ob das Fensterbild ein Objekt ist oder nicht, so dass die Detektierungsoperation mit hoher Geschwindigkeit ausgeführt werden kann.
Bei Ausführungsformen der Erfindung ist ein wie in Anspruch 14 beanspruchtes Objektdetektierungsverfahren bereitgestellt.
Infolgedessen ist es, da eine Objektdetektierungsanordnung zum Detektieren, ob ein gegebenes Gradationsbild ein Objekt ist oder nicht, gemäß Ausführungsformen mehrere Schwachentscheidungseinrichtung zur Berechnung einer Schätzung, die entsprechend einer charakteristischen Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei unterschiedlichen Positionen ist, die im Voraus gelernt wird, anzeigt, dass das Gradationsbild ein Objekt ist oder nicht, und eine Entscheidungseinrichtung zur Entscheidung entsprechend der Schätzung, die durch eine der oder die Schätzungen berechnet wird, die von mehr als eine der mehreren Schwachentscheidungseinrichtungen berechnet werden, ob das Gradationsbild ein Objekt ist oder nicht, aufweist, sehr leicht schwach zu entscheiden, ob ein Gradationsbild ein Objekt ist oder nicht, und kann der Betrieb zum Detektieren eines Gesichts mit hoher Geschwindigkeit auf Echtzeitbasis ausgeführt werden.
Außerdem kann ein Objektdetektierungsverfahren gemäß Ausführungsformen mit hoher Geschwindigkeit detektieren, ob ein gegebenes Gradationsbild ein Objekt ist oder nicht.
Da eine Gruppenlernanordnung zum Gruppenlernen unter Benutzung von Lernabtastungen mehrerer Gradationsbilder, die gemäß Ausführungsformen jeweilige korrekte Antworten, die sagen, ob jedes der Gradationsbilder ein Objekt ist oder nicht, aufweisen, gemäß Ausführungsformen eine Lerneinrichtung zum Lernen mehrerer Schwachentscheider zur Ausgabe einer Schätzung, die anzeigt, dass in einer Gruppe das Gradationsbild ein Objekt ist oder nicht, unter Benutzung einer charakteristischen Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen als Eingabe aufweist, können Schwachentscheider, die eine sehr einfache charakteristische Größe in Form der Differenz der Luminanzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen durch Gruppenlernen erzeugt werden, so dass es möglich ist, die charakteristische Größe bei der Lernsession bei einer Hochgeschwindigkeitsausführung einer Objektdetektierungsoperation mit hoher Geschwindigkeit zu berechnen, wenn eine Detektierungseinrichtung zum Detektieren eines Objekts durch Benutzung der erzeugten Schwachentscheider ausgebildet ist.
Da ein Gruppenlernverfahren gemäß Ausführungsformen Lernabtastungen mehrerer Gradationsbilder benutzt, die mit jeweiligen korrekten Antworten, die sagen, ob jedes der Gradationsbilder ein Objekt ist oder nicht, versehen sind, ist es möglich, Schwachentscheider zu lernen, die eine Objektdetektierungseinrichtung bilden, die zum Detektieren eines Objekts mit hoher Geschwindigkeit ausgebildet ist.
Eine Objektdetektierungseinrichtung zum Ausschneiden eines Fensterbilds einer festen Größe aus einem Gradationsbild und Detektieren, ob das Fensterbild ein Objekt ist oder nicht, weist eine Skalaumsetzungseinrichtung zur Erzeugung eines skalierten Bilds durch Aufwärts- oder Abwärts-Skalieren (maßstäbliches Vergrößern oder Verkleinern) der Größe des eingegebenen Gradationsbilds, eine Fensterbild-Abtastungseinrichtung zur Abtastung des Fensters der festen Größe aus dem skalierten Bild und Ausschneiden eines Fensterbilds und eine Objektdetektierungseinrichtung zum Detektieren, ob das gegebene Fensterbild ein Objekt ist oder nicht, auf, wobei die Objektdetektierungseinrichtung mehrere Schwachentscheideungseinrichtungen zur Berechnung einer Schätzung, die entsprechend einer charakteristischen Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei unterschiedlichen Positionen, die im Voraus gelernt wird, ist, anzeigt, dass das Fensterbild ein Objekt ist oder nicht, und eine Entscheidungseinrichtung zur Entscheidung entsprechend der Schätzung, die durch eine der oder die Schätzungen berechnet wird, die durch mehr als eine der mehreren Schwachentscheidungseinrichtungen berechnet werden, ob das Fensterbild ein Objekt ist oder nicht, aufweist. Mit dieser Anordnung ist es möglich, ein Objekt irgendeiner Größe mit sehr hoher Geschwindigkeit zu detektieren, da die Schwachentscheidungseinrichtung unter Benutzung einer sehr einfachen charakteristischen Größe, die gleich der Differenz von Luminanzwerten von zwei Pixeln ist, ein Fensterbild als ein Objekt seiend oder nicht detektiert.
Ein Objektdetektierungsverfahren gemäß Ausführungsformen kann ein Fensterbild einer festen Größe von einem Gradationsbild ausschneiden und mit hoher Geschwindigkeit detektieren, ob das Fensterbild ein Objekt ist oder nicht.
Weitere besondere und bevorzugte Aspekte der vorliegenden Erfindung sind in den beigefügten unabhängigen und abhängigen Ansprüchen dargelegt. Merkmale der abhängigen Ansprüche können mit Merkmalen der unabhängigen Ansprüche beliebig und in Kombinationen anders als die in den Ansprüchen explizit dargelegten kombiniert werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung wird nur beispielhaft unter Bezugnahme auf bevorzugte Ausführungsformen weiter beschrieben, die in den beigefügten Zeichnungen dargestellt sind, bei denen:
1 eine schematische Darstellung eines wie im Patendokument 1 beschriebenen Rechteckmerkmals ist;
2 eine schematische Darstellung eines Verfahrens zur Entscheidung eines Gesichtsbildes durch Benutzung eines im Patentdokument 1 beschriebnen Rechteckmerkmals ist;
3 eine schematische Darstellung eines im Patentdokument 1 beschriebenen integralen Bilds ist;
4 eine schematische Darstellung eines Verfahrens zur Berechnung des Gesamtsumme der Luminanzwerte eines rechteckigen Kastens durch Benutzung von im Patentdokument 1 beschriebenen integralen Bildern ist;
1 ein funktionelles Blockdiagramm der Objektdetektierungseinrichtung gemäß einer Ausführungsform der Erfindung ist, das eine Verarbeitungsfunktion derselben darstellt;
6 eine schematische Darstellung von Bildern ist, die Skalaumsetzungen durch den Skalierungsabschnitt der Objektdetektierungseinrichtung nach 5 unterworfen sind;
7 eine schematische Darstellung einer Abtastoperation des ein Suchfenster abtastenden Abtastungsabschnitts der Objektdetektierungseinrichtung nach 5 ist;
8 eine schematische Darstellung der Anordnung von Schwachentscheidern in der Objektdetektierungseinrichtung der 5 ist;
9 eine schematische Darstellung eines Bilds zur Darstellung der Interpixeldifferenzcharakteristik ist;
10A bis 10C schematische Darstellungen der durch die nachfolgend gezeigten Formeln (3) bis (5) ausgedrückten drei Entscheidungstechniken mit charakteristischen Fällen einer Häufigkeitsverteilung von Daten, die in Kurvenbildern dargestellt sind, bei denen die vertikale Achse die Häufigkeit darstellt und die horizontale Achse die Interpixeldifferenzcharakteristik darstellt;
11A ein Kurvenbild ist, das einen charakteristischen Fall einer Häufigkeitsverteilung von Daten darstellt, wobei die vertikale Achse die Probabilitätsdichte darstellt und die horizontale Achse die Interpixeldifferenzcharakteristik darstellt, 11B ein Kurvenbild ist, das die Funktion f(x) der Häufigkeitsverteilung von Daten der 11A darstellt, wobei die vertikale Achse den Wert der Funktion f(x) darstellt und die horizontale Achse die Interpixeldifferenzcharakteristik darstellt;
12 ein Kurvenbild ist, das die Änderung im Wert einer Gewichtet-Majoritätsentscheidung F(x) darstellt, die bestimmt, ob das eingegebenes Bild ein Objekt ist oder nicht, wobei die horizontale Achse die Anzahl von Schwachentscheidern darstellt und die vertikale Achse den Wert der Gewichtet-Majoritätsentscheidung F(x) darstellt;
13 ein Flussdiagramm ist, welches das Lernverfahren einer Gruppenlernmaschine zum Erhalten von Schwachentscheidern in der Objektdetektierungseinrichtung der 5 darstellt;
14 ein Flussdiagramm ist, welches das Lernverfahren (Erzeugungsverfahren) eines zum Erzeugen eines binären Ausgangssignals bei einem Schwellenwert Th ausgebildeten Schwachentscheiders darstellt;
15 ein Flussdiagramm ist, welches das Objektdetektierungsverfahren der Objektdetektierungsanordnung der 5 darstellt;
16A und 16B einen Teil der bei einem Beispiel der Erfindung benutzten Lernabtastungen darstellen; 16A eine Darstellung einer als Objekte etikettierten Gesichtsbildgruppe ist und 16B als Nichtobjekte etikettierte Nichtgesichtsbildgruppen ist;
17A bis 17F schematische Darstellungen des ersten bis sechsten Schwachentscheiders sind, die als Resultat des Lernens bei der Gruppenlernmaschine der 13 zuerst erzeugt werden; und
18A und 18B schematische Darstellungen des Resultats einer Gesichtsdetektierungsoperation sind, das von einem einzelnen eingegebenes Bild erhalten wird, die vor bzw. nach der Entfernung eines Überlappungsbereichs zeigen.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Nun wird die vorliegende Erfindung anhand der beigefügten Zeichnungen, die eine bevorzugte Ausführungsform der Erfindung, die eine Objektdetektierungsanordnung zum Detektieren eines Objekts von einem Bild durch Benutzung von Ensemblelernen (Gruppenlernen) ist, darstellen, detaillierter beschrieben.
Eine Lernmaschine, die durch Gruppenlernen erhalten wird, weist eine große Anzahl von Schwachhypothesen und einen Kombinierer, um sie zu kombinieren, auf. Als Kombinierer zum Kombinieren der Ausgangssignale der Schwachhypothesen mit einem festen Gewicht, ohne sich auf irgendeine Eingabe zu stützen, kann typischerweise Boosting (Verstärkung) benutzt werden. Mit Boosting wird die Verteilung, der Lernabtastungen folgen, manipuliert, um das Gewicht einer Lernabtastung (Prüfung), die oft Fehler verursacht und durch Benutzung des Resultats des Lernens der bisher erzeugten Schwachhypothesen schwer zu behandeln ist, zu erhöhen, und eine neue Schwachhypothese wird entsprechend der manipulierten Verteilung gelernt. Als ein Resultat wird das Gewicht einer Lernabtastung, die Fehler verursacht und als Objekt schwer zu entscheiden ist, relativ erhöht, so dass folglich Schwachentscheider, die bewirken, dass Lernabtastungen, die als Objekte schwer zu entscheiden sind, sequentiell ausgewählt werden. In anderen Worten werden Schwachhypothesen zum Lernen sequentiell erzeugt, und eine neu erzeugte Schwachhypothese hängt von den Schwachhypothesen ab, die bisher erzeugt sind.
Eine große Anzahl von Schwachhypothesen, die wie oben beschrieben durch Lernen sequentiell erzeugt werden, werden zum Detektieren eines Objekts benutzt. Im Fall von Adaboost beispielsweise werden alle Entscheidungsresultate (1 für ein Objekt und –1 für Nichtobjekt) der Schwachhypothesen (nachfolgend als Schwachentscheider bezeichnet) einem Kombinierer zugeführt. Dann wird entschieden, dass das eingegebene Bild ein Objekt ist oder nicht, da der Kombinierer die zum Zeitpunkt des Lernens für jeden korrespondierenden Schwachentscheider berechnete Zuverlässigkeit zu allen Entscheidungsresultaten als Gewicht addiert und das Resultat der Gewichtet-Majoritätsentscheidung ausgibt, um zu ermöglichen, dass der Ausgangswert der Kombinierers ausgewertet wird.
Ein Schwachentscheider entscheidet durch Benutzung einer charakteristischen Größe einer gewissen Sorte oder einer anderen, dass das eingegebenes Bild ein Objekt oder Nichtobjekt ist. Wie nachfolgend beschrieben kann das Ausgangssignal des Schwachentscheiders entscheidend oder in der Form einer Wahrscheinlichkeit dafür, das Objekt zu sein, wenn es als Wahrscheinlichkeitsdichte ausgedrückt wird, sein. Die Ausführungsform ist so ausgebildet, dass sie durch Benutzung einer Gruppenlernanordnung, die Schwachentscheider zur Unterscheidung eines Objekts und eines Nichtobjekts mittels einer sehr einfachen charakteristischen Größe in Form der Differenz der Luminanzwerte von zwei Pixeln (nachfolgend als Interpixeldifferenzcharakteristik bezeichnet) benutzt, ein Objekt mit hoher Geschwindigkeit detektiert.
(1) Objektdetektierungsanordnung
5 ist ein funktionelles Blockdiagramm der Objektdetektierungsanordnung der Ausführungsform, das ihre Verarbeitungsfunktion darstellt. Nach 5 weist die Objektdetektierungsanordnung 1 einen Bildausgabeabschnitt 2 zur Ausgabe eines Gradationsbilds (Luminanzbild) als eingegebenes Bild, einen Skalierungsabschnitt 3 zum Aufwärts- oder Abwärts-Skalieren des eingegebenen Bilds, einen Abtastungsabschnitt 4 zur sequentiellen Abtastung der vom skalierten eingegebenen Bild erhaltenen Fensterbilder einer vorbestimmten Größe typischerweise von der oberen linken Ecke und einen Diskriminator bzw. Entscheider 5 zur Entscheidung, ob jedes der vom Abtastungsabschnitt 4 sequentiell abgetasteten Fensterbilder ein Objekt ist oder nicht, und der so ausgebildet ist, dass er, wenn es sie gibt, die Position und die Größe des Objekts, die den Bereich des Objekts in einem gegebenen Bild (eingegebenes Bild) definieren, ausgibt, auf. Insbesondere skaliert der Skalierungsabschnitt 3 das eingegebenes Bild aufwärts oder abwärts, wobei er alle spezifizierten Verhältnisse benutzt, um skalierte Bilder auszugeben, und der Abtastungsabschnitt 3 schneidet durch sequentielle Abtastung von Fenstern Fensterbilder aus, welche die Größe eines von jedem skalierten Bild zu detektierenden Objekts aufweisen, wobei der Entscheidet 5 entscheidet, ob jedes Fensterbild ein Gesicht zeigt oder nicht.
Der Entscheider 5 entscheidet, ob das laufende Fensterbild ein Objekt, das heißt ein Gesichtsbild ist oder kein Objekt ist, indem er sich auf das Resultat des Lernens einer Gruppenlernmaschine 6 zum Gruppenlernen mehrerer Schwachentscheider, die durch Gruppenlernen den Entscheider 5 bilden, bezieht. Wenn von einem eingegebenen Bild eine Anzahl von Objekten detektiert wird, gibt die Objektdetektierungsanordnung 1 mehrere Stücke von Information bezüglich Bereichen aus. Wenn außerdem die mehreren Stücke von Information bezüglich Bereichen die Existenz sich überlappender Bereiche anzeigen, kann die Objektdetektierungsanordnung 1 einen Bereich auswählen, der mittels eines nachfolgend detaillierter beschriebenen Verfahrens so ausgewertet wird, dass er ein wahrscheinlichstes Objekt ist.
Das vom Bildausgabeabschnitt 2 ausgegebene Bild (Gradationsbild) wird zuerst in den Skalierungsabschnitt 3 eingegeben. Der Skalierungsabschnitt 3 skaliert das Bild unter Benutzung einer bilinearen Interpolation abwärts. Diese Ausführungsform ist so ausgebildet, dass sie nicht zuerst mehrere abwärts-skalierte (maßstäblich verkleinerte) Bilder erzeugt, sondern eine Operation zur Ausgabe eines notwendigen Bilds an den Abtastungsabschnitt 4 wiederholt und nach der Vollendung der Verarbeitung des Bilds ein weiter abwärts-skaliertes Bild erzeugt.
Insbesondere gibt, wie in 6 gezeigt, der Skalierungsabschnitt 3 zuerst ein eingegebenes Bild 10A ohne Skalierung an den Abtastungsabschnitt 4 aus und wartet auf die Vollendung der Verarbeitung des eingegebenen Bilds 10A durch den Abtastungsabschnitt 4 und den Entscheider 5. Danach erzeugt der Skalierungsabschnitt 3 ein anderes eingegebenes Bild 10B durch Abwärts-Skalieren des eingegebenen Bilds 10A und wartet auf die Vollendung der Verarbeitung des eingegebenen Bilds 10B durch den Abtastungsabschnitt 4 und den Entscheider 5. Danach erzeugt der Skalierungsabschnitt 3 noch ein anderes eingegebenes Bild 10C durch Abwärts-Skalieren des eingegebenen Bilds 10B und gibt es an den Abtastungsabschnitts 4 aus. Auf diese Weise erzeugt der Skalierungsabschnitt 3 sequentiell abwärts-skalierte Bilder 10D, 10E, ..., bis die Größe des letzten abwärts-skalierten Bilds kleiner als die Größe des Fensters wird, das vom Abtastungsabschnitt 4 abgetastet wird, wenn er die Abwärts-Skalierungsoperation beendet. Nach der Vollendung dieser Verarbeitungsoperation gibt der Bildeingabeabschnitt 2 das nächste eingegebenes Bild an den Skalierungsabschnitt 3 aus.
Wie in 7 gezeigt wendet der Abtastungsabschnitt 4 das Fenster 11 mit einer Fenstergröße S, die der stromabwärtige Entscheider 5 akzeptiert, sequentiell auf das ganze Bild (Schirm) 10A an, das ihm gegeben wird, und gibt das bei jeder angewendeten Position des eingegebenen Bilds 10A erhaltene Bild (Ausschnittsbild) an den Entscheider 5 aus. Während die Fenstergröße S fest ist, wird das eingegebene Bild vom Skalierungsabschnitt 3 wie oben beschrieben sequentiell abwärts-skaliert, und die Bildgröße des eingegebenen Bilds wird variierend geändert, so dass es möglich ist, das Objekt jeder Größe zu detektieren.
Der Entscheider 5 entscheidet, ob das vom stromaufwärtigen Abschnitt gegebene ausgeschnittene Bild ein Objekt, das heißt ein Gesicht ist oder nicht. Wie in 8 gezeigt weist der Entscheider 5 mehrere Schwachentscheider 21_n (21₁ bis 21_N ), die als ein Resultat eines Ensemblelernens erfasst werden, und einen Addierer 22 zum Multiplizieren der Ausgangssignale der Schwachentscheider mit jeweiligen Gewichten W_n (W₁ bis W_N) und Bestimmen einer Gewichtet-Majoritätsentscheidung auf. Der Entscheider 5 gibt sequentiell Schätzungen aus, deren jede sagt, ob der korrespondierende der Schwachentscheider 21_n (21₁ bis 21_N ) für das eingegebene Fensterbild ein Objekt ist oder nicht, und der Addierer 22 berechnet die Gewichtet-Majoritätsentscheidung und gibt sie aus. Eine Entscheidungseinrichtung (nicht gezeigt) entscheidet, ob entsprechend dem Wert der Gewichtet-Majoritätsentscheidung jedes ein Objekt ist oder nicht.
Die Gruppenlernmaschine 6 ist so ausgebildet, dass sie durch Gruppenlernen im Voraus die Schwachentscheider 21_n und die Gewichte, mit denen die jeweiligen Ausgangssignale (Schätzungen) der Schwachentscheider 21_n mittels eines Verfahrens multipliziert werden, das nachfolgend detaillierter beschrieben wird, lernt. Zum Zweck von Ausführungsformen der vorliegenden Erfindung kann jede Gruppenlerntechnik benutzt werden, so lange sie das Resultat der mehreren Entscheider durch Majoritätsentscheidung bestimmen kann. Beispielsweise kann eine Boosting wie beispielsweise AdaBoost benutzt, das an Gewichtsdaten angepasst ist und eine gewichtete Majoritätsentscheidung trifft, benutzende Gruppenlerntechnik benutzt werden.
Jeder der Schwachentscheider 21_n , der den Entscheider 5 bildet, benutzt die Differenz zwischen den Luminanzwerten von zwei Pixeln (Interpixeldifferenzcharakteristik) als charakteristische Größe zum Zweck einer Entscheidung. Beim Entscheiden vergleicht er die charakteristische Größe, die mittels einer Lernabtastung, die aus mehreren Gradationsbildern, deren jedes als ein Objekt oder Nichtobjekt etikettiert ist, gebildet ist, im Voraus gelernt wird, und die charakteristische Größe des Fensterbilds und gibt eine Schätzung, die anzeigt, ob das Fensterbild ein Objekt ist oder nicht, entscheidend oder als Probabilität aus.
Der Addierer 22 multipliziert die Schätzungen der Schwachentscheider 21_n mit jeweiligen Gewichten, welche die Zuverlässigkeiten der jeweiligen Schwachentscheider 21_n zeigen, und gibt den durch sie Addieren erhaltenen Wert (Wert der Gewichtet-Majoritätsentscheidung) aus. Im Fall von AdaBoost berechnen die Schwachentscheider 21_n jeweilige Schätzungen sequentiell, so dass der Wert der Gewichtet-Majoritätsentscheidung sequentiell aktualisiert wird. Die Schwachentscheider werden durch Gruppenlernen mittels der Gruppenlernmaschine unter Benutzung von Lernabtastungen wie oben beschrieben und entsprechend einem Algorithmus, der nachfolgend beschrieben wird, sequentiell erzeugt. Beispielsweise erzeugen die Schwachentscheider Schätzungen sequentiell in der Ordnung ihrer Erzeugungen. Die Gewichte (Zuverlässigkeiten) der Gewichtet-Majoritätsentscheidung werden beim Lernschritt zur Erzeugung der Schwachentscheider wie nachfolgend beschrieben gelernt.
Die Schwachentscheider 21_n entscheiden durch Teilen der Interpixeldifferenzcharakteristik durch einen Schwellenwert, ob ein Fensterbild ein Objekt ist oder nicht, wenn sie ausgebildet sind, wie im Fall von AdaBoost einen Binärwert auszugeben. Zu einer Entscheidung können mehrere Schwellenwerte benutzt werden. Alternativ dazu können die Schwachentscheider 21_n einen kontinuierlichen Wert propabilistisch ausgeben, der wie im Fall von Real-AdaBoost den Grad von Wahrscheinlichkeit dafür, ein Objekt zu sein, auf der Basis von Interpixeldifferenzcharakteristiken anzeigt. Die charakteristischen Größen (Schwellenwerte), die für die Schwachentscheider 21_n notwendig sind, werden bei der Lernsession auch entsprechend dem oben beschriebenen Algorithmus gelernt.
Außerdem wird bei der Lernsession auch der Suspensionsschwellenwert, der zur Zeit der Gewichtet-Majoritätsentscheidung zum Suspendieren der Berechnungsoperation ohne zu warten, bis alle Schwachentscheider die jeweiligen Resultate von Berechnungen ausgeben, da das Fensterbild im Lauf der Berechnungsoperation als ein Nichtobjekt festgestellt wird, gelernt. Als ein Resultat einer solchen Suspension ist es möglich, den Umfang von Berechnungen beim Prozess des Detektierens eines Objekts beträchtlich zu reduzieren. Infolgedessen ist es möglich, die Operation der Entscheidung des nächsten Fensterbilds ohne zu warten, bis alle Schwachentscheider die jeweiligen Resultate der Berechnungen ausgeben, fortzusetzen.
Infolgedessen berechnet der Entscheider 5 die Gewichtet-Majoritätsentscheidung als Schätzung zur Entscheidung, ob ein Fensterbild ein Objekt ist oder nicht, und arbeitet dann entsprechend den Schätzungen als eine Entscheidungseinrichtung zur Entscheidung, ob das Fensterbild ein Objekt ist oder nicht. Außerdem aktualisiert der Entscheider 5 jedes Mal, wenn von den mehreren Schwachentscheidern, die durch Lernen im Voraus erzeugt werden und zum Berechnen jeweiliger Schätzungen und sequentiellen Ausgeben derselben ausgebildet sind, eine Schätzung berechnet wird, den durch Multiplizieren jeder der Schätzungen mit der Zuverlässigkeit des als ein Resultat des Lernens erhaltenen korrespondierenden Schwachentscheiders und Addieren der Produkte der Multiplikationen erhaltenen Wert der Gewichtet-Majoritätsentscheidung. Dann entscheidet der Entscheider 5 jedes Mal, wenn der Wert der Gewichtet-Majoritätsentscheidung (Schätzung) aktualisiert wird, durch Benutzung des oben beschriebenen Suspensionsschwellenwerts, ob die Operation zur Berechnung der Schätzungen zu suspendieren ist oder nicht.
Der Entscheider 5 wird als die Gruppenlernmaschine 6 erzeugt und benutzt Lernabtastungen zum Gruppenlernen, das entsprechend einem vorbestimmten Algorithmus durchgeführt wird. Nun wird zuerst das Gruppenlernverfahren der Gruppenlernmaschine 6 beschrieben, und dann wird das Verfahren zur Entscheidung eines Objekts aus einem eingegebenes Bild durch Benutzung des als ein Resultat des Gruppenlernens erhaltenen Entscheiders 5 beschrieben.
2) Gruppenlernmaschine
Die Gruppenlernmaschine 6, die einen Boosting-Algorithmus für Gruppenlernen benutzt, ist zum Kombinieren mehrerer Schwachentscheider, um eine starke Entscheidung durch Lernen zu erhalten, ausgebildet. Jeder Schwachentscheider ist so gemacht, dass er eine sehr einfache Konfiguration aufweist und folglich eine schwache Fähigkeit zur Unterscheidung eines Gesichts von einem Nichtgesicht aufweist. Jedoch ist es möglich, eine hohe Entscheidungsfähigkeit durch Kombinieren hunderter oder tausender solcher Schwachentscheider zu realisieren. Die Gruppenlernmaschine 6 erzeugt Schwachentscheider durch Benutzung tausender Abtastbilder oder Lernabtastungen, die von mit jeweiligen korrekte Antworten versehenen Objekten und Nichtobjekten, beispielsweise Gesichtsbildern und Nichtgesichtsbildern präpariert werden, und Auswählen (Lernen) einer Hypothese aus einer großen Anzahl von Lernmodellen (eine Kombination von Hypothesen) entsprechend einem vorbestimmten Lernalgorithmus. Dann entscheidet sie den Modus zum Kombinieren von Schwachentscheidern. Während jeder Schwachentscheider selbst eine niedrige Entscheidungsfähigkeit aufweist, ist es möglich, einen Entscheider mit einer hohen Entscheidungsfähigkeit durch geeignetes Auswählen und Kombinieren von Schwachentscheidern zu erhalten. Deshalb ist es für die Gruppenlernmaschine 6 notwendig, den Modus zum Kombinieren von Schwachentscheidern oder Auswählen von Schwachentscheidern und Gewichten, der zur Herstellung einer Gewichtet-Majoritätsentscheidung durch Gewichtung der Ausgangswerte der Schwachentscheider zu benutzen ist, zu lernen.
Nun wird unten das Lernverfahren der Gruppenlernmaschine 6 zum Erhalten eines Entscheiders durch geeignetes Kombinieren einer großen Anzahl von Schwachentscheidern unter Benutzung eines Lernalgorithmus beschrieben. Jedoch vor Beschreibung des Lernverfahrens der Gruppenlernmaschine 6 werden die Lerndaten, die aus den zum Gruppenlernen benutzten Lerndaten diese Ausführungsform charakterisieren, insbesondere die zum Präparieren von Schwachentscheidern zu benutzende Interpixeldifferenzcharakteristik und der zum Suspendieren der Objektdetektierungsoperation des Entscheidungsschritts (Detektierungsschritt) zu benutzenden Suspensionsschwellenwert beschrieben.
(3) Konfiguration eines Schwachentscheiders
Der Entscheider 5 dieser Ausführungsform kann jeden der Schwachentscheider, der das Entscheidungsresultat beim Entscheidungsschritt mit hoher Geschwindigkeit ausgegeben hat, machen, wenn der Schwachentscheider zum Unterscheiden eines Gesichts von einem Nichtgesicht mittels der Differenz der Luminanzwerte von zwei Pixeln (Interpixeldifferenzcharakteristik), die von allen in einem in den Schwachentscheider eingegebenen Bild enthaltenen Pixeln ausgewählt werden, gemacht ist. Das in den Schwachentscheider eingegebene Bild ist eine Lernabtastung beim Lernschritt und ein beim Entscheidungsschritt aus einem Skalierungsbild ausgeschnittenes Fensterbild.
9 ist eine schematische Darstellung eines Bilds zur Darstellung der Interpixeldifferenzcharakteristik. Nach 9, das ein Bild 30 zeigt, wird bei dieser Ausführungsform die Differenz zwischen den Luminanzwerten von zwei beliebig ausgewählten Pixeln, beispielsweise die durch die Formel (2) unten ausgedrückte Differenz zwischen dem Luminanzwert I₁ des Pixels 31 und dem Luminanzwert I₂ des Pixels 32 als Interpixeldifferenzcharakteristik definiert.
[Formel 2]
Interpixeldifferenzcharakteristik:

d = I1-I2 (2)

Die Fähigkeit eines Schwachentscheiders hängt davon ab, ob seine Interpixeldifferenzcharakteristik zum Detektieren eines Gesichts benutzt wird oder nicht. Deshalb ist es Notwendig, eine (auch als Filter- oder Schwachhypothese zu bezeichnende) Kombination von in einem ausgeschnittenen Bild enthaltenen Pixelpositionen auszuwählen, um für Schwachentscheider benutzt zu werden. Beispielsweise erfordert AdaBoost, dass jeder Schwachentscheider +1 (ein Objekt) oder –1 (Nichtobjekt) entscheidend ausgibt. Infolgedessen wird bei AdaBoost ein Schwachentscheider durch Zweiteilen der Interpixeldifferenzcharakteristik bei einer Pixelposition unter Benutzung eines oder mehr als eines Schwellenwerts (+1 oder –1) erzeugt.
Im Fall des Boosting-Algorithmus von Real-AdaBoost oder Gentle Boost, bei dem nicht ein Binärwert, sondern ein kontinuierlicher Wert (reelle Zahl) zum Anzeigen der Probabilitätsverteilung einer Lernabtastung ausgegeben wird, gibt jeder Schwachentscheider die Probabilität, die sagt, ob das eingegebenes Bild ein Objekt ist oder nicht, aus. Infolgedessen kann das Ausgangssignal eines Schwachentscheiders entscheidend oder in der Form einer Probabilität (Wahrscheinlichkeit) sein. Zuerst werden Schwachentscheider dieser zwei Typen beschrieben.
(3-1) Zur Ausgabe eines Binärwerts ausgebildeter Schwachentscheider
Ein zum Erzeugen eines entscheidenden Ausgangssignals ausgebildeter Schwachentscheider trifft eine Zweiklassenentscheidung bezüglich des Objekts entsprechend der Interpixeldifferenzcharakteristik. Wenn die Luminanzwerte von zwei im Bereich eines Bilds lokalisierten Pixeln I₁ und I₂ sind und der Schwellenwert zur Entscheidung mittels der Interpixeldifferenzcharakteristik, ob das Bild ein Objekt ist oder nicht, Th ist, ist es möglich, die Klasse, zu der das Bild gehört, abhängig davon, ob sie das Erfordernis der Formel (3) unten erfüllt oder nicht, zu bestimmen.
[Formel 3]

I1-I2 > Th (3)

Während jeder Schwachentscheider zum Auswählen von zwei Pixelpositionen und eines Schwellenwerts für sie erforderlich ist, wird das Verfahren zum sie Auswählen nachfolgend beschrieben. Die Bestimmung des durch die obige Formel (3) angezeigten Schwellenwerts ist der einfachste Fall. Zur Bestimmung eines Schwellenwerts können zwei durch die Formel (4) oder Formel (5) ausgedrückte Schwellenwerte benutzt werden.
[Formel 4]

Th1 > I1-I2 > Th2 (4)

[Formel 5]

I1-I2 > Th1 und Th2 > I1-I2 (5)

Die 10A bis 10C sind schematische Darstellungen der durch die Formeln (3) bis (5) oben ausgedrückten drei Entscheidungstechniken mit charakteristischen Beispielen einer Häufigkeitsverteilung von Daten, die in Kurvenbildern dargestellt sind, bei denen die vertikale Achse die Frequenz und die horizontale Achse die Interpixeldifferenzcharakteristik darstellt. In den Kurvenbildern zeigen die durch gestrichelte Linien angezeigten Daten die Ausgangswerte aller Lernabtastungen, die durch y_i = –1 (Nichtobjekt) ausgedrückt sind, während die durch durchgezogene Linien angezeigten Daten die Ausgangswerte aller Lernabtastungen anzeigen, die durch y_i = 1 ausgedrückt sind. In den 10A bis 10C gezeigte Histogramme werden durch grafisches Darstellen der Häufigkeit der gleichen Interpixeldifferenzcharakteristik für Lernabtastungen, die viele Fensterbilder und viele Nichtfensterbilder aufweisen, erhalten.
Wenn das Histogramm in 10A eine durch eine gestrichelte Linie angedeutete Normalverteilungskurve für die Nichtobjektdaten und eine durch eine durchgezogene Linie angedeutete andere Normalverteilungskurve für die Objektdaten zeigt, wird der Schnittpunkt der Kurven für den Schwellenwert Th ausgewählt, und folglich ist es durch Benutzung der Formel (3) oben möglich zu entscheiden, ob das Fensterbild ein Objekt ist oder nicht. Wenn beispielsweise bei AdaBoost das Ausgangssignal eines Schwachentscheiders f(x) ist, ist das Ausgangssignal f(x) = 1 (Objekt) oder –1 (Nichtobjekt). 10A zeigt ein Beispiel, bei dem ein Fensterbild als ein Objekt festgestellt wird, wenn die Interpixeldifferenzcharakteristik größer als der Schwellenwert Th ist und folglich der Schwachentscheider f(x) = 1 ausgibt.
Wenn andererseits die Scheitel der zwei Kurven im Wesentlichen bei der gleichen Position gefunden werden, aber die Verteilungskurven unterschiedliche Breiten zeigen, wird es möglich, mittels der obigen Formel (4) oder (5) ein Fensterbild als ein Objekt oder nicht festzustellen, und zwar unter Benutzung eines Werts nahe beim oberen Grenzwert und eines Werts nahe beim unteren Grenzwert der Interpixeldifferenzcharakteristik der die kleinere Breite zeigenden Verteilungskurve. 10B zeigt ein Beispiel, bei dem die Verteilungskurve mit der kleineren Breite zum Definieren der zum Feststellen eines Fensterbilds als ein Objekt benutzt wird, während 10C ein Beispiel zeigt, bei dem die Verteilungskurve mit der kleineren Breite von der Verteilungskurve mit der größeren Breite entfernt ist, um die zur Feststellung eines Fensterbildes als ein Objekt zu benutzenden Schwellenwerte zu definieren. In beiden Fällen gibt der Schwachentscheider f(x) = 1 aus.
Während ein Schwachentscheider durch Bestimmen einer Interpixeldifferenzcharakteristik und eines oder zweier Schwellenwerte für sie gebildet wird, ist es notwendig, eine Interpixeldifferenzcharakteristik auszuwählen, die das Fehlerverhältnis der Entscheidung des Schwachentscheiders minimiert oder das richtige Entscheidungsverhältnis maximiert. Beispielsweise kann der oder können die Schwellenwerte bestimmt werden durch Auswählen von zwei Pixelpositionen, die ein wie, wie in den 10A bis 10C gezeigtes Histogramm für mit korrekten Antworten versehenen Lernabtastungen bestimmen, und Suchen nach Schwellenwerten, die das korrekte Antwortverhältnis maximieren und das Falschantwortverhältnis (Fehlerverhältnis) minimieren. Zwei Pixelpositionen mit dem kleinsten Fehlerverhältnis, die mit Schwellenwerten erhalten werden, können ausgewählt werden. Jedoch im Fall von AdaBoost weist jede Lernabtastung ein Gewicht (Datengewicht) auf, das den Schwierigkeitsgrad einer Entscheidung reflektiert, so dass eine geeignete Interpixeldifferenzcharakteristik (zeigt die Differenz der Luminanzwerte der zwei Pixel von geeignet ausgewählten Positionen) das Gewichtet-Fehlerverhältnis minimieren kann, was nachfolgend detaillierter beschrieben wird.
(3-2) Schwachentscheider zur Ausgabe eines kontinuierlichen Werts
Schwachentscheider, die ein Ausgangssignal in Form von Probabilität erzeugen, umfassen die bei Real-AdaBoost und Gentle Boost benutzten. Anders als ein Schwachentscheider, der wie oben beschrieben zum Lösen eines Entscheidungsproblems mittels eines vorbestimmten konstanten Werts (Schwellenwert) und Ausgeben eines Binärwerts f(x) = 1 oder –1) ausgebildet ist, gibt ein Schwachentscheider dieses Typs den Grad von Wahrscheinlichkeit eines Objekts für das eingegebene Bild typischerweise in der Form einer Probabilitätsdichtedichtefunktion aus.
Das den Grad von Wahrscheinlichkeit (Probabilität) eines Objekts anzeigenden Probabilitätsausgangssignals ist durch die Funktion f(x) der Formel (6) unten ausgedrückt, bei der P_p(x) die Probabilitätsdichtefunktion dafür, ein Objekt der Lernabtastung zu sein, und P_n(x) die Probabilitätsdichtefunktion dafür, ein Nichtobjekt der Lernabtastung zu sein, ist.
[Formel 6]
Probabilitätsausgangssignal des Schwachentscheiders:

f(x)=Pp(x) – Pn(x) (6)

11A ist ein Kurvenbild, das ein charakteristisches Beispiel einer Häufigkeitsverteilung von Daten darstellt, wobei die vertikale Achse die Probabilitätsdichte darstellt und die horizontale Achse die Interpixeldifferenzcharakteristik darstellt. 11B ist ein Kurvenbild, das die Funktion f(x) der Häufigkeitsverteilung von Daten der 11A darstellt, wobei die vertikale Achse den Wert der Funktion f(x) darstellt und die horizontale Achse die Interpixeldifferenzcharakteristik darstellt. In 11A zeigt die gestrichelte Linie die Probabilitätsfunktion dafür, ein Nichtobjekt zu sein, an, während die durchgezogene Linie die Probabilitätsfunktion dafür, ein Objekt zu sein, anzeigt. Das Kurvenbild der 11B wird durch Bestimmen der Funktion f(x) mittels der Formel (6) oben erhalten. Der Schwachentscheider gibt die Funktion f(x) aus, die mit der durch die Formel (2) oben angezeigten Interpixeldifferenzcharakteristik d, die beim Entscheidungsschritt vom Eingabefensterbild erhalten wird, korrespondiert. Die Funktion f(x) zeigt den Grad von Wahrscheinlichkeit dafür, ein Objekt zu sein, an. Wenn beispielsweise ein Objekt –1 ist und ein Objekt 1 ist, kann sie einen kontinuierlichen Wert zwischen –1 und 1 annehmen. Beispielsweise kann es so eingerichtet sein, dass eine Tabelle von Werten der Interpixeldifferenzcharakteristik d und korrespondierenden f(x) gespeichert ist und aus der Tabelle eine f(x) entsprechend der Eingabe gelesen und ausgegeben wird. Wenn deshalb diese Anordnung eine Speicherkapazität größer als die Speicherkapazität zum Speichern von Th oder Th₁ und Th₂, die feste Werte sind, erfordern mag, zeigt sie eine verbesserte Entscheidungsfähigkeit.
Die Entscheidungsfähigkeit kann durch Kombinieren der oben beschriebenen Schätzverfahren (Entscheidungsverfahren) zur Benutzung beim Ensemblelernen weiter verbessert werden. Andererseits kann die Verarbeitungsgeschwindigkeit durch Benutzung nur eines der Verfahren verbessert werden.
Diese Ausführungsform erbringt den Vorteil, zum Unterscheiden eines Objekts von einem Nichtobjekt mit sehr hoher Geschwindigkeit fähig zu sein, da sie Schwachentscheider anwendet, die eine sehr einfache charakteristische Größe (Interpixeldifferenzcharakteristik) benutzen. Beim Detektieren eines Objekts, das ein Gesicht ist, kann ein exzellentes Entscheidungsresultat durch Benutzung eines Schwellenwerts, der durch das Verfahren bestimmt wird, das die einfachste Formel (3) aus den oben beschriebenen Entscheidungsverfahren für die Interpixeldifferenzcharakteristik benutzt, erhalten werden. Jedoch die Auswahl eines Entscheidungsverfahrens zum Zweck einer effektiven Ausnutzung von Schwachentscheidern kann von dem zu lösenden Problem abhängen, und folglich kann ein geeignetes Verfahren zum Auswählen des oder der Schwellenwerte benutzt werden. Abhängig vom Problem, kann eine charakteristische Größe nicht als die Differenz der Luminanzwerte von zwei Pixeln, sondern als die Differenz der Luminanzwerte von mehr als zwei Pixeln oder einer Kombination aus solchen Differenzen erhalten werden.
(4) Suspensionsschwellenwert
Nun wird ein Suspensionsschwellenwert beschrieben. Bei einer Boosting benutzenden Gruppenlernmaschine wird ein Fensterbild mittels einer Gewichtet-Majoritätsentscheidung, die das Ausgangssignal aller den Entscheider 5 bildenden Schwachentscheider ist, als ein Objekt oder nicht seiend festgestellt. Die Gewichtet-Majoritätsentscheidung wird durch sequentielles Addieren der Resultate (Schätzungen) einer Entscheidung der Schwachentscheider bestimmt. Wenn beispielsweise die Anzahl von Schwachentscheidern t(=1,...,K) ist und das mit jedem Schwachentscheider korrespondierende Gewicht (Zuverlässigkeit) der Majoritätsentscheidung α_t ist, wabei das Ausgangssignal jedes Schwachentscheiders f_t(x) ist, kann der Wert der Gewichtet-Majoritätsentscheidung F(x) bei AdaBoost durch Benutzung der Formel (7) unten erhalten werden. [Formel 7] Wert der Gewichtetmajoritätsentscheidung:
12 ist ein Kurvenbild, das die Änderung des Werts der Gewichtet-Majoritätsentscheidung F(x) darstellt, die damit übereinstimmt, ob das eingegebene Bild ein Objekt ist oder nicht, wobei die vertikale Achse die Anzahl von Schwachentscheidern darstellt und die horizontale Achse den Wert der durch die Formel (7) ausgedrückten Gewichtet-Majoritätsentscheidung F(x) darstellt. 12 zeigen die mit den Linien D1 bis D4 angezeigten Daten die Werte der Gewichtet-Majoritätsentscheidung F(x), die durch sequentielle Berechnung der Schätzungen f(x) mittels der Schwachentscheider unter Benutzung eines als Objekt etikettierten Bilds als Eingabe sequentiell bestimmt werden. Wie durch die Daten D1 bis D4 gezeigt zeigt, wenn für eine gewisse Anzahl von Schwachentscheidern ein Objekt als eingegebenes Bild benutzt wird, ihre Gewichtet-Majoritätsentscheidung F(x) einen positiven Wert.
Hier wird eine Technik, die sich vom gewöhnlichen Boosting-Algorithmus unterscheidet, in diese Ausführungsform eingeführt. Mit dieser Technik wird der Prozess des sequentielles Addierens der Entscheidungsresultate von Schwachentscheidern für ein Fensterbild, das vor der Zeit, zu der alle Entscheidungsresultate von den Schwachentscheidern erhalten werden, offensichtlich als Nichtobjekt festgestellt werden kann, suspendiert. Um dies auszuführen, wird beim Lernschritt ein zur Bestimmung einer Suspension einer Entscheidung oder nicht zu benutzender Schwellenwert im Voraus gelernt. Der zur Bestimmung einer Suspension einer Entscheidung oder nicht zu benutzende Schwellenwert wird nachfolgend als Suspensionsschwellenwert bezeichnet.
Aufgrund der Benutzung eines Suspensionsschwellenwerts ist es möglich, die Operation der Schwachentscheider zur Berechnung ihrer Schätzungen f(x) für jedes Fensterbild zu suspendieren, wenn er ohne Benutzung der Ausgangssignale aller Schwachentscheider zuverlässig als ein Nichtobjekt geschätzt werden kann. Als ein Resultat kann der Umfang von Berechnungsoperationen im Vergleich zu dem Fall, dass alle Schwachentscheider zur Bildung einer Gewichtet-Majoritätsentscheidung benutzt werden, beträchtlich reduziert werden.
Der Suspensionsschwellenwert kann der Minimumwert sein, den die Gewichtet-Majoritätsentscheidung für die Lernabtastung, die in den etikettierten Lernabtastungen das Detektionsobjekt anzeigt, annehmen kann. Die Resultate der Entscheidungsoperationen der Schwachentscheider für das Fensterbild werden beim Entscheidungsschritt sequentiell gewichtet und ausgegeben. In anderen Worten werden, da der Wert der Gewichtet-Majoritätsentscheidung sequentiell aktualisiert wird und jedes Mal, wenn der Suspensionsschwellenwert aktualisiert wird und folglich das Resultat der Entscheidungsoperation eines Schwachentscheiders ausgegeben wird, der aktualisierte Wert der Gewichtet-Majoritätsentscheidung und der aktualisierte Suspensionsschwellenwert verglichen, und das Fensterbild wird als ein Nichtobjekt festgestellt, wenn der aktualisierte Wert der Gewichtet-Majoritätsentscheidung den Suspensionsschwellenwert unterläuft. Dann kann der Berechnungsprozess suspendiert werden, um folglich unrentable Berechnungen zu eliminieren und die Geschwindigkeit des Entscheidungsprozesses weiter zu erhöhen.
Insbesondere wird der Minimumwert der Gewichtet-Majoritätsentscheidung, der erhalten wird, wenn die Lernabtastung x_j, die ein Objekt ist, aus den Lernabtastungen x_i (= x_i bis x_N) benutzt wird, für den durch die Formel (8) unten definierten Suspensionsschwellenwert R_K für das Ausgangssignal f_K(x) des K-ten Schwachentscheiders ausgewählt. [Formel 8] Suspensionsschwellenwert:
Wie der Formel (8) zu entnehmen ist, wird, wenn der Minimumwert der Gewichtet-Majoritätsentscheidung der Lernabtastungen x_i bis x_j, die Objekte sind, 0 überschreitet, 0 für den Suspensionsschwellenwert R_K ausgewählt. Der Minimumwert der Grewichtet-Majoritätsentscheidung ist so gemacht, dass er bei AdaBoost, das 0 als Schwellenwert zur Entscheidung auswählt, 0 nicht überschreitet. Deshalb kann der Prozess zum Definieren des Schwellenwerts abhängig von der ausgewählten Gruppenlerntechnik differieren. Im Fall von AdaBoost wird der Minimumwert, den alle Daten D1 bis D4, die erhalten werden, wenn ein Objekt als eingegebenes Bild eingegeben wird, annehmen können, wie durch die dicke Linie wie in 12 angezeigt, für die Suspensionsschwelle ausgewählt, und, wenn der Minimumwert aller Daten D1 bis D4 0 überschreitet, wird 0 als der Suspensionsschwellenwert ausgewählt.
Bei dieser Ausführungsform werden mit der Ausbildung des Lernens des Suspensionsschwellenwerts R_i (R_i bis R_K) jedes Mal, wenn ein Schwachentscheider erzeugt wird, die Schätzungen mehrerer Schwachentscheider sequentiell ausgegeben, und der Wert der Gewichtet-Majoritätsentscheidung wird sequentiell aktualisiert. Dann werden die Entscheidungsoperationen der nachfolgenden Schwachentscheider fortgelassen, wenn der Wert den durch die Daten D5 in 12 angezeigten Suspensionsschwellenwert unterläuft. In anderen Worten ist es als ein Resultat des Lernens des Suspensionsschwellenwerts R_t möglich, jedes Mal, wenn die Schätzung des Schwachentscheiders berechnet wird, zu bestimmen, ob die Berechnungsoperation des nächsten Schwachentscheiders auszuführen ist oder nicht, so dass das eingegebene Bild ohne zu warten, bis alle Schwachentscheider die jeweiligen Resultate von Berechnungen ausgeben, als ein Nichtobjekt festgestellt wird, wenn es offensichtlich kein Objekt ist, und der Berechnungsprozess wird suspendiert, um die Geschwindigkeit der Objektdetektierungsoperation zu erhöhen.
(5) Lernverfahren
Nun wird das Lernverfahren der Gruppenlernmaschine 6 beschrieben. Bilder (Trainingsdaten), die als etikettierte Lernabtastungen (mit korrekten Antworten versehene Lernabtastungen) benutzt werden, werden als Voraussetzung (prerequisite) für ein Mustererkennungsproblem einer 2-Klassen-Unterscheidung wie beispielsweise ein Problem der Unterscheidung eines Gesichts von einem Nichtgesicht in den Daten im Voraus manuell präpariert. Die Lernabtastungen weisen eine Gruppe von Bildern, die durch Ausschneiden von Bereichen eines zu detektierenden Objekts erhalten werden, und eine Gruppe von zufälligen Bildern, die durch Ausschneiden von Bereichen eines nicht verwandten bzw. ähnlichen Objekts, das eine Landschaftsansicht sein kann, erhalten werden, auf.
Ein Lernalgorithmus wird auf Basis der Lernabtastungen angewendet, um Lerndaten zu erzeugen, die zur Zeit des Entscheidungsprozesses benutzt werden. Bei dieser Ausführungsform weisen die für den Entscheidungsprozess zu benutzenden Lerndaten die folgenden vier Sätze von Lerndaten auf, welche die oben beschriebenen Lerndaten umfassen.

(A) Sätze von zwei Pixelpositionen (insgesamt K),
(B) Schwellenwerte von Schwachentscheidern (insgesamt K),
(C) Gewichte für eine Gewichtet-Majoritätsentscheidung (Zuverlässigkeiten von Schachentscheidern) (insgesamt K),
(D) Suspensionsschwellenwerte (insgesamt K).

(5-1) Erzeugung eines Entscheiders
Nun wird der Algorithmus zum Lernen der oben aufgelisteten vier Typen (A) bis (D) von Lerndaten von der oben beschriebenen großen Anzahl von Lernabtastungen beschrieben. 13 ist ein Flussdiagramm, welches das Lernverfahren der Gruppenlernmaschine 6 darstellt. Wenn hier ein Lernprozess, der einen Lernalgorithmus (AdaBoost) benutzt, der einen festen Wert als Schwellenwert zur Schwachentscheidung anwendet, beschrieben wird, so ist der Lernalgorithmus, der für diese Ausführungsform benutzt werden kann, nicht auf den von AdaBoost beschränkt, sondern es kann alternativ dazu jeder andere geeignete Lernalgorithmus benutzt werden, so lange ein solcher Lernalgorithmus einen kontinuierlichen Wert anwendet, der die Probabilität einer Lösung als Schwellenwert anzeigt. Beispielsweise kann der zum Zweck eines Kombinierens mehrerer Schwachentscheider ausgebildete Lernalgorithmus zum Gruppenlernen von Real-AdaBoost benutzt werden.
(Schritt S0) Etikettieren von Lernabtastungen
Lernabtastungen (x_i, y_i), die so etikettiert sind, dass sie im Voraus ein Objekt oder Nichtobjekt zeigen, werden auf eine oben beschriebene Weise präpariert.
In der folgenden Beschreibung werden die folgenden Notationen benutzt.
Lernabtastungen (x_i, y_i):(x₁, y₁), ...,(x_N, y_N), Xi ∊ X, yi ∊ {–1, 1}

X:: Daten von Lernabtastungen,
Y:: Etiketten (korrekte Antworten) von Lernabtastungen,
N:: Anzahl von Lernabtastungen.

In anderen Worten bezeichnet x_i einen durch alle Luminanzwerte der Lernabtastungsbilder gebildeten charakteristischen Vektor und zeigt y_i = –1 einen Fall an, bei dem eine Lernabtastung als Nichtobjekt etikettiert ist, während y_i = 1 einen Fall anzeigt, bei dem eine Lernabtastung als ein Objekt etikettiert ist.
(Schritt S1) Initialisierung eines Datengewichts
Für Boosting werden die Gewichte von Lernabtastungen (Datengewichte) derart differenziert, dass das Datengewicht einer Lernabtastung, das schwer zu entscheiden ist, relativ groß gemacht ist. Während das Entscheidungsresultat eines Schwachentscheiders zum Berechnen des Fehlerverhältnisses zur Auswertung des Schwachentscheiders benutzt wird, wird die Auswertung eines Schwachentscheiders, der bei der Entscheidung einer relativ schwierigen Lernabtastung einen Fehler machte, niedriger als die richtige Auswertung für das erzielte Entscheidungsresultat, wenn das Resultat der Entscheidung mit einem Datengewicht multipliziert wird. Während das Datengewicht durch das nachfolgend beschriebene Verfahren sequentiell aktualisiert wird, wird das Datengewicht der Lernabtastung zuerst initialisiert. Die Datengewichte der Lernabtastungen werden initialisiert, um die Gewichte der Lernabtastungen gleich einem vorbestimmten Wert zu machen. Das Datengewicht ist durch die Formel (9) unten definiert. [Formel 9] Datengewicht:
In der obigen Formel zeigt das Datengewicht D_1,i an, dass es das Datengewicht der Lernabtastung x_i(= x₁ bis x_N) bei der Anzahl t = 1 von Malen einer Wiederholung ist, und N bezeichnet die Anzahl von Lernabtastungen.
(Schritt S2 bis S7) Wiederholung einer Verarbeitungsoperation
Dann wird die Verarbeitungsoperation des Schritts S2 bis S7 wiederholt, um einen Entscheider 5 zu erzeugen. Die Anzahl t von Malen einer Wiederholung der Verarbeitungsoperation ist gleich t = 1,2, ...,K gemacht. Jedes Mal, wenn die Verarbeitungsoperation wiederholt wird, wird ein Schwachentscheider und folglich ein Paar Pixel erzeugt, und die Pixeldifferenzcharakteristik für die Positionen der Pixel werden gelernt. Deshalb werden ebensoviele Schwachentscheider wie die Anzahl (K) von Malen einer Wiederholung der Verarbeitungsoperation erzeugt, und von den K Schwachentscheidern wird ein Entscheider 5 erzeugt. Wenn als Resultat einer Wiederholung der Verarbeitungsoperation hunderte oder tausende von Malen normalerweise hunderte oder tausende von Schwachentscheidern erzeugt werden, so kann die Anzahl t von Malen der Verarbeitungsoperation (die Anzahl der Schwachentscheider) abhängig vom erforderlichen Pegel der Entscheidungsfähigkeit und den zu unterscheidenden Problemen (Objekten) geeignet gewählt werden.
(Schritt S2) Lernen von Schwachentscheidern
Lernen (Erzeugen) von Schwachentscheidern findet beim Schritt S2 statt, aber das dafür zu benutzende Lernverfahren wird nachfolgend detaillierter beschrieben. Bei dieser Ausführungsform wird ein Schwachentscheider jedes Mal erzeugt, wenn die Verarbeitungsoperation mittels des Verfahrens wiederholt wird, das nachfolgend beschrieben wird.
(Schritt S3) Berechnung des Gewichtet-Fehlerverhältnisses e_t
Dann wird das Gewichtet-Fehlerverhältnis der beim Schritt S2 erzeugten Schwachentscheider durch Benutzung der Formel (10) unten berechnet. [Formel 10] Gewichtet-Fehlerverhältnis:
Wie in der obigen Formel (10) gezeigt wird das Gewichtet-Fehlerverhältnis e_t durch Addieren der Datengewichte nur der Lernabtastungen aus allen Lernabtastungen erhalten, deren Entscheidungsresultate der Schwachentscheider falsch (f_t(x_i) ≠ y_i) sind. Wie oben aufgezeigt ist das Gewichtet-Fehlerverhältnis e_t derart gemacht, dass es einen großen Wert zeigt, wenn Schwachentscheider bei der Entscheidung einer Lernabtastung mit einem großen Datengewicht D_t,i einen Fehler machen (eine Lernabtastung ist schwierig zu entscheiden). Das Gewichtet-Fehlerverhältnis e_t ist kleiner als 0,5, aber der Grund dafür wird nachfolgend beschrieben.
(Schritt S4) Berechnung eines Gewichts einer Gewichtet-Majoritätsentscheidung (Zuverlässigkeit eines Schwachentscheiders)
Dann wird die Zuverlässigkeit α_t des Gewichts einer Gewichtet-Majoritätsentscheidung (nachfolgend einfach als Zuverlässigkeit zu bezeichnen) durch Benutzung der Formel (11) unten auf der Basis des mittels der obigen Formel (10) berechneten Gewichtet-Fehlerverhältnisses e_t berechnet. Das Gewicht der Gewichtet-Majoritätsentscheidung zeigt die Zuverlässigkeit α_t des Schwachentscheiders an, der bei der t-maligen Wiederholung erzeugt wird. [Formel 11] Zuverlässigkeit:
Wie es aus der obigen Formel (11) klar ist, kann ein Schwachentscheider, dessen Gewichtet-Fehlerverhältnis e_t klein ist, eine große Zuverlässigkeit α_t erfassen.
(Schritt S5) Aktualisierung von Datengewichten von Lernabtastungen
Dann werden die Datengewichte D_t,i der Lernabtastungen unter Benutzung der durch Benutzung der obigen Formel (11) erhaltenen Zuverlässigkeiten α_t mittels der Formel (12) unten aktualisiert. Die Datengewichte D_t,i werden gewöhnlich derart normiert, dass die Summe, die sie alle addiert, gleich 1 ist. Die Formel (13) unten wird zum Normieren der Datengewichte D_t,i benutzt.
[Formel 12]
Datengewicht:

Dt+l,i = Dt,i exp(–αtytft(xi)) (12)

[Formel 13]
(Schritt S6) Berechnung von Suspensionsschwellenwert R_t
Dann wird, wie oben beschrieben, der Schwellenwert R_ti zum Suspendieren der Entscheidungsoperation des Entscheidungsschritts berechnet. Der kleinste der Werte der Gewichtet-Majoritätsentscheidung der Lernabtastungen (positive Lernabtastung) x₁ bis x_j und 0, die Objekte sind, werden für den Suspensionsschwellenwert R_t entsprechend der oben beschriebenen Formel (8) ausgewählt. Es sei darauf hingewiesen, dass der kleinste Wert oder im Fall von AdaBoost, das an Entscheidungsoperationen angepasst ist, die 0 als Schwellenwert benutzen, 0 für den Suspensionsschwellenwert ausgewählt wird. Jedenfalls wird der größte Wert, der ermöglicht, dass wenigstens alle positiven Lernabtastungen durchgehen, für den Suspensionsschwellenwert R_t ausgewählt.
Dann wird beim Schritt S7 bestimmt, ob Boosting gemacht wird, um die vorbestimmte Anzahl (= K) von Malen stattzufinden, und wenn die Antwort auf diese Frage negativ ist, wird die Operation vom Schritt S2 bis zum Schritt S7 wiederholt. Wenn Boosting gemacht wird, um die vorbestimmte Anzahl von Malen stattzufinden, wird die Lernsession zu einem Ende gebracht. Der Wiederholungsprozess wird beendet, wenn die Anzahl gelernter Schwachentscheider zur Festetellung von Objekten von den Bildern als Detektionsobjekte solcher Lernabtastungen ausreichend ist.
(5-2) Erzeugung von Schwachentscheidern
Nun wird unten ein Lernverfahren (Erzeugungsverfahren) von Schwachentscheidern des oben beschriebenen Schritts S2 beschrieben. Das Verfahren zur Erzeugung von Schwachentscheidern differiert zwischen dem Fall, bei dem die Schwachentscheider ausgebildet sind, um den Binärwert auszugeben, und dem Fall, bei dem sie ausgebildet sind, um einen kontinuierlichen Wert als durch die Formel (6) oben ausgedrückte Funktion f(x) auszugeben. Wenn außerdem die Schwachentscheider ausgebildet sind, um einen Binärwert auszugeben, differiert es etwas zwischen dem Fall, bei dem sie und ein Objekt und Nichtobjekte mittels eines einzelnen Schwellenwerts unterscheiden und dem Fall, bei dem sie ein Objekt und ein Nichtobjekt mittels zweier wie in der Formel (2) oben gezeigter Schwellenwerte unterscheiden. Das Lernverfahren (Erzeugungsverfahren) von zum Ausgeben eines Binärwerts als einen einzelnen Schwellenwert Th ausgebildeten Schwachentscheidern wird unten beschrieben. 14 ist ein Flussdiagramm, welches das Lernverfahren (Erzeugungsverfahren) eines zum Erzeugen eines binären Ausgangssignals als einen Schwellenwert Th ausgebildeten Schwachentscheiders darstellt.
(Schritt S11) Auswahl von Pixeln
Bei diesem Schritt werden aus allen Pixeln einer Lernabtastung zwei Pixel beliebig ausgewählt. Wenn beispielsweise eine Lernabtastung mit 20 × 20 Pixeln benutzt wird, gibt des 400 × 399 unterschiedliche Weisen zum Auswählen von zwei Pixeln aus dieser Anzahl von Pixeln, und eine dieser Weisen wird ausgewählt. Es sei hier angenommen, dass die Positionen der zwei Pixel S₁ und S₂ sind und die Luminanzwerte der zwei Pixel I₁ und I₂ sind.
(Schritt S12) Präparation einer Häufigkeitsverteilung
Dann wird die Interpixeldifferenzcharakteristik d, welche die Differenz (I₁–I₂) der Luminanzwerte der beim Schritt S11 ausgewählten zwei Pixel ist, für alle Lernabtastungen bestimmt, und wird ein wie in 10A gezeigtes Histogramm (Häufigkeitserteilung) präpariert.
(Schritt S13) Berechnung von Schwellenwert Th_min
Danach wird der Schwellenwert Th_min, der das in der obigen Formel (10) gezeigte Gewichtet-Fehlerverhältnis e_t (e_min) minimiert, aus der beim Schritt S12 erhaltenen Häufigkeitsverteilung bestimmt.
(Schritt S14) Berechnung von Schwellenwert Th_max
Dann wird der Schwellenwert Th_max, der das in der obigen Formel (10) gezeigte Gewichtet-Fehlerverhältnis e_t (e_max) minimiert, bestimmt und der Schwellenwert mittels des durch die Formel (14) unten ausgedrückten Verfahrens invertiert. In anderen Worten ist jeder Schwachentscheider ausgebildet, um jeden von zwei Werten, welche die richtige Antwort bzw. die falsche Antwort abhängig davon darstellen, ob die bestimmte Interpixeldifferenzcharakteristik d größer als der einzelne Schwellenwert ist oder nicht, ausgegeben. Wenn deshalb das Gewichtet-Fehlerverhältnis e_t kleiner als 0,5 ist, kann es durch die Inversion nicht kleiner als 0,5 gemacht werden. [Formel 14]
(Schritt S15) Bestimmung von Parametern
Schließlich werden die Parameter jedes Schwachentscheiders einschließlich der Positionen S₁ und S₂ der zwei Pixel und des Schwellenwerts Th aus den obigen e_min und e_max' bestimmt. Insbesondere gilt
S₁, S₂, Th_min, wenn e_min < e_max',
S₁' (= S₂), S₂' (= S₁), Th_min, wenn e_min > e_max'.
Dann wird beim Schritt S16 bestimmt, ob die Verarbeitungsoperation die vorbestimmte Anzahl M von Malen wiederholt worden ist oder nicht. Wenn die Verarbeitung die vorbestimmte Anzahl von Malen wiederholt worden ist, geht die Operation zum Schritt S17 weiter, und der Schwachentscheider, der das kleinste Fehlerverhältnis e₁ zeigt, wird aus den durch die M-malige Wiederholung erzeugten Schwachentscheidern ausgewählt. Dann geht die Operation zu dem in 13 gezeigten Schritt S3 weiter. Wenn andererseits beim Schritt S16 festgestellt wird, dass die Verarbeitungsoperation nicht die vorbestimmte Anzahl von Malen wiederholt worden ist, wird die Verarbeitungsoperation der Schritte S11 bis S16 wiederholt. Auf diese Weise wird die Verarbeitungsoperation m(= 1, 2,..., M)-mal wiederholt, um einen einzelnen Schwachentscheider zu erzeugen. Während in der obigen Beschreibung das Gewichtet-Fehlerverhältnis e_t beim Schritt S3 der 13 zum Zweck der Einfachheit berechnet wird, wird das Fehlerverhältnis e_t des Schritts S3 automatisch erhalten, wenn beim Schritt S17 der das kleinste Fehlerverhältnis et zeigende Schwachentscheider ausgewählt wird.
Wenn das beim Schritt S5 als ein Resultat der Wiederholung der Verarbeitungsoperation bestimmte Datengewicht D_t,i zum Lernen der charakteristischen Größen mehrerer Schwachentscheider benutzt wird und bei dieser Ausführungsform der das durch die obige Formel (10) angezeigte kleinste Fehlerverhältnis zeigende Schwachentscheider aus den Schwachentscheidern (Schwachentscheiderkandidaten) ausgewählt wird, so kann der Schwachentscheider alternativ dazu durch beliebiges Auswählen von Pixelpositionen aus mehreren Pixelpositionen, die im Voraus präpariert oder gelernt werden, erzeugt werden. Noch alternativ dazu kann der Schwachentscheider durch Benutzung von Lernabtastungen, die sich von den für die Operation einer Wiederholung der Schritte S2 bis S7 angewendeten Lernabtastungen unterscheiden, erzeugt werden. Die Schwachentscheider und der Entscheider, die erzeugt werden, können wie im Fall der Benutzung einer Kreuzvalidierungstechnik (cross-validation technique) oder einer Klappmessertechnik (jack-knife technique) durch Einbringen von Abtastungen anders als die Lernabtastungen ausgewertet werden. Eine Kreuzvalidierungstechnik ist eine Technik, durch die eine Lernabtastung in I gleiche Abtastungen geteilt wird und eine Lernsession durch Benutzung dieser mit Ausnahme einer durchgeführt wird und das Resultat der Lernsession durch die verbleibende eine ausgewertet wird. Dann wird die obige Operation I-mal wiederholt, um die Auswertung des Resultats zu vollenden.
Wenn andererseits der Schwachentscheider, wie durch die obige Formel (4) oder (5) angezeigt, zwei Schwellenwerte Th₁ und Th₂ benutzt, wird die Operation der in 14 gezeigten Schritte S13 bis S15 geringfügig modifiziert. Wenn wie durch die obige Formel (3) angezeigt nur ein einzelner Schwellenwert Th benutzt wird, kann das Fehlerverhältnis invertiert werden, wenn es größer als 0,5 ist. Jedoch in einem Fall, bei dem die richtige Antwort für eine Entscheidung gegeben wird, wenn die Interpixeldifferenzcharakteristik wie durch die Formel (4) angezeigt größer als der Schwellenwert Th₂ und kleiner als der Schwellenwert Th₁ ist, wird die richtige Antwort für eine Entscheidung gegeben, wenn die Interpixeldifferenzcharakteristik wie durch die Formel (5) angezeigt kleiner als der Schwellenwert Th₃ oder größer als der Schwellenwert Th₁ ist. Kurz ausgedrückt ist die Formel (5) die Inversion der Formel (4), während die Formel (4) die Inversion der Formel (5) ist.
Wenn ein Schwachentscheider das Entscheidungsresultat durch Benutzung zweier Schwellenwerte Th₁ und Th₂ ausgibt, wird die Häufigkeitsverteilung der Interpixeldifferenzcharakteristik bei dem in 14 gezeigten Schritt S12 bestimmt, und dann werden die Schwellenwerte Th₁ und Th₂, die das Fehlerverhältnis et minimieren, bestimmt. Danach wird festgestellt, ob die Verarbeitungsoperation wie beim Schritt S16 die vorbestimmte Anzahl von Malen wiederholt wird. Nach der Wiederholung der Verarbeitungsoperation die vorbestimmte Anzahl von Malen wird aus allen erzeugten Schwachentscheidern der Schwachentscheider, der das kleinste Fehlerverhältnis zeigt, genommen.
Im Fall von Schwachentscheidern, die zur Ausgabe eines durch die obige Formel (6) angezeigten kontinuierlichen Werts ausgebildet sind, werden wie beim Schritt S11 der 14 zuerst zwei Pixel zufällig ausgewählt und wird die Häufigkeitsverteilung für alle lernenden Abtastungen bestimmt. Dann wird die in der obigen Formel (6) gezeigte Funktion f(x) auf der Basis der erhaltenen Häufigkeitsverteilung bestimmt. Dann wird eine Reihe von Operationen einer Berechnung des Fehlerverhältnisses entsprechend einem vorbestimmten Algorithmus, der zur Ausgabe der Wahrscheinlichkeit dafür, ein Objekt (und folglich die richtige Antwort) zu sein, für das Ausgangssignal des Schwachentscheiders ausgebildet ist, eine vorbestimmte Anzahl von Malen wiederholt, und wird ein Schwachentscheider durch Auswählen des das kleinste Fehlerverhältnis zeigenden Parameters (das höchste Korrektantwortverhältnis) erzeugt.
Wenn zur Erzeugung des Entscheiders eine Lernabtastung von 20 × 20 Pixeln benutzt wird, gibt es insgesamt 159000 Weisen zur Auswahl von zwei Pixeln von dieser Anzahl von Pixeln. Deshalb kann nach höchstens M = 159000-maliger Wiederholung des Auswahlprozesses das eine genommen werden, welches das kleinste Fehlerverhältnis zeigt. Wenn ein in hohem Grad ausführbarer (highly performable) Schwachentscheider erzeugt werden kann, wenn der Auswahlprozess die größtmögliche Anzahl von Malen wiederholt wird, und ein Schwachentscheider, der das kleinste Fehlerverhältnis zeigt, genommen wird, kann nach Wiederholung des Auswahlprozesses eine Anzahl von Malen kleiner als die größtmögliche Anzahl von Malen, beispielsweise Hunderte von Malen, ein Schwachentscheider, der das kleinste Fehlerverhältnis zeigt, genommen werden.
(6) Objektdetektierungsverfahren
Nun wird unten das Objektdetektierungsverfahren der in 5 gezeigten Objektdetektierungsanordnung beschrieben. 15 ist ein Flussdiagramm, welches das Objektdetektierungsverfahren der Objektdetektierungsanordnung der 5 darstellt. Zum Detektieren eines Objekts (Entscheidungsschritt) wird der Entscheider 5, der durch Benutzung der in einer Weise wie oben beschrieben erzeugten Schwachentscheider gebildet wird, benutzt, um entsprechend einem vorbestimmten Algorithmus ein Objekt aus einem eingegebenen Bild zu detektieren.
(Schritt S21) Erzeugung eines skalierten Bilds
Der in 5 gezeigte Skalierungsabschnitt 3 abwärts-skaliert das vom Bildausgabeabschnitt 2 gegebene Gradationsbild auf ein vorbestimmtes Verhältnis. Es kann so eingerichtet sein, dass in den Bildausgabeabschnitt 2 ein Gradationsbild als eingegebenes Bild eingegeben wird und der Bildausgabeabschnitt 2 das eingegebenes Bild in ein Gradationsbild umsetzt. Das vom Bildausgabeabschnitt 2 an den Skalierungsabschnitt 3 gegebene Bild wird ohne Skalierungsumsetzung ausgegeben, und ein skaliertes Bild, das abwärts-skaliert ist, wird beim nächsten oder nachfolgenden Timing ausgegeben. Die vom Skalierungsabschnitt 3 ausgegebenen Bilder werden kollektiv als skaliertes Bild bezeichnet. Ein Skalierungsbild wird erzeugt, wenn die Operation zum Detektieren eines Gesichts aus allen Bereichen des skalierten Bilds, das zur letzten Zeit ausgegeben wird, wird vervollständigt, und die Operation zur Verarbeitung des eingegebenen Bilds des nächsten Rahmens startet, wenn das skalierte Bild kleiner als das Fensterbild ist.
Der in 5 gezeigte Abtastungsabschnitt 4 tastet das Bild, das einer Skalenumsetzung unterworfen ist, beim Suchfenster ab und gibt dann ein Fensterbild aus.
(Schritte S23, S24) Berechnung eines Auswertungswerts s
Dann wird festgestellt, ob das vom Abtastungsabschnitt 4 ausgegebene Fensterbild ein Objekt ist oder nicht. Der Entscheider 5 addiert sequentiell Gewichte zu den jeweiligen Schätzungen f(x) der oben beschriebenen mehreren Schwachentscheider, um den aktualisierten Wert der Gewichtet-Majoritätsentscheidung als Auswertungswert s zu erhalten. Dann wird festgestellt, ob das Fensterbild entsprechend dem Auswertungswert s ein Objekt ist oder nicht und auch ob die Entscheidungsoperation zu suspendieren ist oder nicht.
Zuerst wird, wenn ein Fensterbild eingegeben wird, sein Auswertungswert s auf s = 0 initialisiert. Der erststufige Schwachentscheider 21₁ des Entscheiders 5 berechnet die Interpixeldifferenzcharakteristik d_t (Schritt S23). Dann wird der vom Schwachentscheider 21₁ ausgegebene Schätzwert zum obigen Auswertungswert s reflektiert (Schritt S24).
Wie oben anhand der Formeln (3) bis (5) beschrieben unterscheiden sich ein Schwachentscheider, der einen Binärwert als Schätzwert ausgibt und ein Schwachentscheider, der eine Funktion f(x) als Schätzwert ausgibt, im Sinne der Art und Weise des Reflektierens der Schätzung zum Auswertungswert s voneinander.
Zuerst wird, wenn die obige Formel (2) auf den Schwachentscheider, der einen Binärwert als Auswertungswert ausgibt, benutzt wird, der Auswertungswert s durch die Formel (15) unten ausgedrückt. [Formel 15]
Wenn die obige Formel (3) bei einem Schwachentscheider, der einen Binärwert aus Auswertungswert ausgibt, benutzt wird, wird der Auswertungswert s durch die Formel (16) unten ausgedrückt. [Formel 16]
Wenn die obige Formel (4) bei einem Schwachentscheider, der einen Binärwert als Auswertungswert ausgibt, benutzt wird, wird der Auswertungswert s durch die Formel (17) unten ausgedrückt. [Formel 17]
Wenn schließlich die obige Formel (5) bei einem Schwachentscheider, der eine Funktion f als Auswertungswert ausgibt, benutzt wird, wird der Auswertungswert s durch die Formel (18) unten ausgedrückt.
[Formel 18]
Auswertungswert:

s ← s + f (d) (18)

(Schritte S25, S26) Supspensionsentscheidung
Dann bestimmt der Entscheider 5, ob der durch irgendeine der oben beschriebenen vier Techniken erhaltene (aktualisierte) Auswertungswert s größer als der Suspensionsschwellenwert R_t ist oder nicht. Wenn festgestellt wird, dass der Auswertungswert s der Schwellenwert R_t ist, dann wird festgestellt, ob die Verarbeitungsoperation die vorbestimmte Anzahl von Malen (= K-mal) wiederholt worden ist oder nicht (Schritt S26). Wenn festgestellt wird, dass die Verarbeitungsoperation die vorbestimmte Anzahl von Malen nicht wiederholt worden ist, wird die Verarbeitung ab Schritt S23 wiederholt.
Wenn andererseits festgestellt wird, dass die Verarbeitungsoperation die vorbestimmte Anzahl von Malen (= K-mal) wiederholt worden ist, geht, wenn der Auswertungswert s kleiner als der Suspensionsschwellenwert R_t ist, die Operation zum Schritt S27 weiter, bei dem abhängig davon, ob der erhaltene Auswertungswert s größer als 0 ist oder nicht, festgestellt wird, ob das Fensterbild ein Objekt ist oder nicht. Wenn festgestellt wird, dass das Fensterbild ein Objekt ist, wird die laufende Fensterposition gespeichert, und es wird festgestellt, ob es das nächste Suchfenster gibt oder nicht (Schritt S27). Wenn festgestellt wird, das es das nächste Suchfenster gibt, wird die Verarbeitungsoperation ab Schritt S22 wiederholt. Wenn andererseits alle Suchfenster für den ganzen nächsten Bereich abgetastet worden sind, geht die Verarbeitungsoperation zum Schritt S28 weiter, bei dem festgestellt wird, ob es das nächste skalierte Bild gibt oder nicht. Wenn festgestellt wird, dass es kein nächstes skaliertes Bild gibt, geht die Verarbeitungsoperation zum Schritt S29 weiter, bei dem der Überlappungsbereich entfernt wird. Wenn andererseits festgestellt wird, dass es das nächste skalierte Bild gibt, wird die Verarbeitungsoperation ab dem Schritt S21 wiederholt. Die Skalierungsoperation des Schritts S21 wird beendet, wenn das skalierte Bild kleiner als das Fensterbild ist.
(Schritte S29 bis S31) Entfernung eines Überlappungsbereichs
Wenn alle skalierten Bilder für ein einzelnes eingegebenes Bild verarbeitet sind, bewegt sich die Verarbeitungsoperation zum Schritt S29. Bei der Verarbeitungsoperation ab Schritt S29 wird einer der Bereiche in einem eingegebenen Bild, die als entschieden Objekte festgestellt werden und einander überlappen, wenn es überhaupt einen gibt, entfernt. Zuerst wird festgestellt, ob es Bereiche, die einander überlappen, gibt oder nicht, und wenn festgestellt wird, dass es mehrere beim Schritt S26 gespeicherte Bereiche gibt und sich irgendwelche von ihnen überlappen, geht die Verarbeitungsoperation zum Schritt S30 weiter, bei dem die zwei sich überlappenden Bereiche herausgenommen werden und einer der Bereiche, der einen kleineren Auswertungswert s zeigt, wird entfernt, da er als eine niedrige Zuverlässigkeit aufweisend angesehen wird, und der Bereich der einen größeren Auswertungswert zeigt, wird zur Benutzung ausgewählt (Schritt S29). Dann wird die Verarbeitungsoperation vom Schritt S29 noch einmal wiederholt. Als ein Resultat wird von den Bereichen, die eine Anzahl von Malen extrahiert werden, um einander zu überlappen, ein einzelner Bereich, der den höchsten Auswertungswert zeigt, ausgewählt. Wenn es nicht zwei oder mehr als zwei Objektbereiche gibt, die einander überlappen, und wenn es keinen Objektbereich gibt, wird die Verarbeitungsoperation bezüglich des eingegebenen Bilds beendet, und die Verarbeitungsoperation bezüglich des nächsten Rahmens startet.
Wie oben detailliert beschrieben ist es mit dem Objektdetektierungsverfahren dieser Ausführungsform möglich, jedes Fensterbild zu verarbeiten, um vom Bild einen Fakt mit sehr hoher Geschwindigkeit auf einer Echtzeitbasis zu detektieren, da die Operation zur Berechnung der charakteristischen Größe des Objekts im oben beschriebenen Schritt S23 einfach durch Lesen der Luminanzwerte von zwei korrespondierenden Pixeln des Fensterbilds unter Benutzung eines Entscheiders beendet wird, der durch Gruppenlernen die Schwachentscheider, die ein Objekt und ein Nichtobjekt mittels der Interpixeldifferenzcharakteristik des Bilds schwach entscheiden, gelernt hat. Außerdem wird jedes Mal, wenn der Auswertungswert s durch Multiplizieren des von der charakteristischen Größe erhaltenen Resultats einer Entscheidung (Schätzung) mit der Zuverlässigkeit des für die Entscheidung benutzten Schwachentscheiders und Addieren des Produkts der Multiplikation aktualisiert wird, der aktualisierte Auswertungswert s mit den Suspensionsschwellenwert R_t verglichen, um festzustellen, ob die Operation zur Berechnung der Schätzungen der Schwachentscheider fortzusetzen ist oder nicht. Wenn der Auswertungswert s unter den Suspensionsschwellenwert R_t fällt, wird die Berechnungsoperation der Schwachentscheider suspendiert, um zur Operation zur Verarbeitung des nächsten Fensterbilds weiterzugehen, so dass es möglich ist, unrentable Berechnungsoperationen dramatisch zu reduzieren, um die Geschwindigkeit zum Detektieren eines Gesichts weiter zu verbessern. Wenn alle Bereiche des eingegebenen Bilds und die durch Abwärtes-Skalieren des eingegebenen Bilds erhaltenen skalierten Bilder abgetastet werden, um Fensterbilder auszuschneiden, ist die Probabilität dafür, ein Objekt jedes Fensterbilds zu sein, sehr klein, und die meisten Fensterbilder sind Nichtobjekte. Da die Operation zur Entscheidung eines Objekts und eines Nichtobjekts in den Fensterbildern, die größtenteils Nichtobjekte sind, auf diese Weise suspendiert wird, ist es möglich, die Effizienz des Entscheidungsschritts dramatisch zu verbessern. Wenn im Gegensatz dazu die Fensterbilder viele zu detektierende Objekte aufweisen, kann ein Schwellenwert ähnlich zu dem oben beschriebenen Suspensionsschwellenwert zum Suspendieren der Berechnungsoperation unter Benutzung der Fensterbilder, die erkennbar Objekte sind, bereitgestellt werden. Außerdem ist es möglich, Objekte jeder Größe durch Skalieren des Eingangsbilds mittels des Skalierungsabschnitts zu detektieren, um ein Suchfenster einer beliebig ausgewählten Größe zu definieren.
(7) Beispiel
Nun werden Ausführungsformen der vorliegenden Erfindung mittels eines Beispiels, bei dem ein Gesicht als Objekt tatsächlich detektiert wurde, weiter beschrieben. Jedoch ist es überflüssig zu sagen, dass das Objekt nicht auf ein Gesicht beschränkt ist, und es möglich ist, irgendein Objekt, das anders als das Gesicht eines Menschen ist und charakteristische Merkmale auf einer zweidimensionalen Ebene wie beispielsweise ein Logotyp oder ein Muster zeigt und das wie oben beschrieben zu einem gewissen Grad durch seine Interpixeldifferenzcharakteristik unterschieden werden kann (so dass es ein Schwachentscheider bilden kann) zu detektieren.
Die 16A und 16B stellen einen Teil der bei diesem Beispiel benutzten Lernabtastungen dar. Die Lernabtastungen weisen eine Gesichtsbildgruppe, die, wie in 16A gezeigt, als Objekte etikettiert sind, und Nichtgesichtsbildgruppen, die, wie in 16B gezeigt, als Nichtobjekte etikettiert sind, auf. Wenn die 16A und 16B nur einen Teil der Bilder zeigen, die bei diesem Beispiel benutzt wurden, so weisen die Lernabtastungen typischerweise tausende von Gesichtsbildern und zZehntausende Nichtgesichtsbilder auf. Die Bildgröße kann typischerweise so sein, dass jedes Bild 20 × 20 Pixel aufweist.
Bei diesem Beispiel wurden Gesichtsentscheidungsprobleme entsprechend dem in den 13 und 14 dargestellten Algorithmus und unter Benutzung nur der oben beschriebenen Formel (3) von den Lernabtastungen gelernt. Die 17A bis 17F zeigen den ersten bis sechsten Schwachentscheider, die als ein Resultat der Lernsession erzeugt wurden. Offensichtlich zeigen sie Merkmale eines Gesichts sehr gut. Qualitativ zeigt der Schwachentscheider f₁ der 17A, dass die Stirn (S₁) heller als die Augen (S₂) ist (Schwellenwert: 18,5), und zeigt der Schwachentscheider f₂ der 17B, dass die Wangen (S₁) heller als die Augen (S₂) sind (Schwellenwert: 17,5), während der Schwachentscheider f₃ der 17C zeigt, dass die Stirn (S₁) heller als das Haar (S₂) ist (Schwellenwert: 26,5), und der Schwachentscheider f₄ der 14D zeigt, dass der Bereich unter der Nase (S₁) heller als die Nasenlöcher (S2) ist (Schwellenwert: 5,5). Außerdem zeigt der Schwachentscheider f₅ der 17E, dass die Wangen (S₁) heller als das Haar (S₂) sind (Schwellenwert: 22,5), und zeigt der Schwachentscheider f₆ der 17F, dass das Kinn auf (S₁) heller als die Lippen (S₂) ist (Schwellenwert: 4,5).
Bei diesem Beispiel wurde durch den ersten Schwachentscheider f₁ ein Korrektantwortverhältnis von 70 % (Leistung (performance) relativ zu den Lernabtastungen) erzielt. Das Korrektantwortverhältnis stieg auf 80 %, wenn alle Schwachentscheider f₁ bis f₆ benutzt wurden. Das Korrektantwortverhältnis stieg weiter auf 90 %, wenn 40 Schwachentscheider kombiniert wurden, und auf 99 %, wenn 765 Schwachentscheider kombiniert wurden.
Die 18A Und 18B sind schematische Darstellungen des Resultats einer von einem einzelnen eingegebenen Bild enthaltenen Gesichtsdetektierungsoperation und zeigen jeweils vor bzw. nach der Entfernung eines Überlappungsbereichs. Die in 18A gezeigten mehreren Rahmen zeigen das detektierte Gesicht (Objekt). Von einem einzelnen Bild wird durch die Verarbeitungsoperation von Schritt S21 bis Schritt S28 eine Anzahl von Gesichtern (Bereichen) detektiert. Es ist möglich, vom Schritt S29 zum Schritt S31 ein einzelnes Gesicht durch Ausführen der Verarbeitung zur Entfernung notwendiger Überlappungsbereiche zu detektieren. Es ist zu erkennen, dass, wenn zwei oder mehr als zwei Gesichter in einem Bild existieren, sie gleichzeitig detektiert werden können. Die Operation zum Detektieren eines Gesichts bei diesem Beispiel kann mit sehr hoher Geschwindigkeit ausgeführt werden, so dass es möglich ist, Gesichter von etwa 30 eingegebenen Bildern pro Sekunde zu detektieren, wenn ein PC benutzt wird. Infolgedessen ist es möglich, Gesichter von einem Bewegtbild zu detektieren.
Eine Objektdetektierungsanordnung 1 einer Ausführungsform weist einen Skalierungsabschnitt 3 zur Erzeugung skalierter Bilder durch Abwärts-Skalieren eines von einem Bildausgabeabschnitt 2 eingegebenen Gradationsbilds, einen Abtastungsabschnitt 4 zum sequentiellen Manipulieren der skalierten Bilder und Ausschneiden von Fensterbildern aus ihnen und einen Entscheider 5 zur Entscheidung, ob jedes Fensterbild ein Objekt ist oder nicht, auf. Der Entscheider weist mehrere Schwachentscheider, die in einer Gruppe gelernt werden, und einen Addierer zur Herstellung einer Gewichtet-Majoritätsentscheidung aus den Ausgangssignalen der Schwachentscheider auf. Jeder der Schwachentscheider gibt eine Schätzung aus, welche die Wahrscheinlichkeit dafür, dass ein Fensterbild ein Objekt ist oder nicht, durch Benutzung der Differenz der Luminanzwerte von zwei Pixeln sagt. Der Entscheider 5 suspendiert die Operation zur Berechnung von Schätzungen für ein Fensterbild, das als Nichtobjekt festgestellt wird, unter Benutzung eines Schwellenwerts, der im voraus gelernt wird.
Soweit die Ausführungsformen der oben beschriebenen Erfindung wenigstens zum Teil unter Benutzung eines softwaregesteuerten Datenverarbeitungsgeräts implementiert sind, ist zu erkennen, dass ein Computerprogramm, das eine solche Softwaresteuerung bereitstellt, und ein Speichermedium, durch das ein solches Computerprogramm gespeichert ist, als Aspekte der vorliegenden Erfindung beabsichtigt sind.
Wenn hier besondere Ausführungsformen beschrieben worden sind, so ist zu erkennen, dass die Erfindung nicht darauf beschränkt ist, sondern dass viele Modifikationen und Hinzufügungen zu ihr innerhalb des Schutzbereichs der Erfindung gemacht werden können. Beispielsweise können unterschiedliche kombinationen der Merkmale der folgenden abhängigen Ansprüche mit Merkmalen der unabhängigen Ansprüche ohne Verlassen des Schutzbereichs der vorliegenden Erfindung gemacht werden.

Claims

Objektdetektierungsanordnung (1) zum Detektieren, ob ein gegebenes Gradationsbild ein Objekt ist oder nicht, wobei die Anordnung aufweist: mehrere Schwachentscheidungseinrichtungen (5; 21₁ –21_N ) zur Berechnung einer Schätzung, die anzeigt, dass das Gradationsbild entsprechend einer charakteristischen Größe, die gleich der Differenz der Lumianzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen, die im Voraus gelernt wird, ein Objekt ist oder nicht, und eine Entscheidungseinrichtung (5; 22) zur Entscheidung, ob das Gradationsbild entsprechend der durch eine der oder die Schätzungen, die durch mehr als eine der mehreren Schwachentscheidungseinrichtungen berechnet werden, berechneten Schätzung ein Objekt ist oder nicht.
Anordnung nach Anspruch 1, wobei die Entscheidungseinrichtung den Wert der Gewichtet-Majoritätsentscheidung durch Multiplizieren jeder der Schätzungen mit der als ein Resultat des Lernens erhaltenen Zuverlässigkeit der korrespondierenden Schwachentscheidungseinrichtung und Addieren der Produkte der Multiplikationen berechnet und entsprechend dem Majoritätsentscheidungswert entscheidet, ob das Gradationsbild ein Objekt ist oder nicht.
Anordnung nach Anspruch 2, wobei die mehreren Entscheidungseinrichtungen Schätzungen sequentiell berechnen und die Entscheidungseinrichtung den Wert der Gewichtet-Majoritätsentscheidung jedes Mal, wenn eine Schätzung berechnet ist, sequentiell aktualisiert und die Objektdetektierungsoperation der Anordnung steuert, um entsprechend dem aktualisierten Wert der Gewichtet-Majoritätsentscheidung zu entscheiden, ob die Berechnung von Schätzungen suspendiert ist oder nicht.
Anordnung nach Anspruch 3, wobei die Entscheidungseinrichtung ausgebildet ist zum Suspendieren der Operation zur Berechnung von Schätzungen abhängig davon, ob der Wert der Gewichtet-Majoritätsentscheidung kleiner als ein Suspensionsschwellenwert ist oder nicht, und die Schwachentscheidungseinrichtungen durch Gruppenlernen unter Benutzung einer Lernabtastung von mehreren Gradationsbildern, die mit jeweiligen korrekten Antworten, die sagen, ob jedes der Gradationsbilder ein Objekt ist oder nicht, bereitgestellt sind, sequentiell erzeugt werden, wobei der Suspensionsschwellenwert bei den Werten der Gewichtet-Majoritätsentscheidung, die durch Addieren der gewichteten Zuverlässigkeiten zu den jeweiligen Schätzungen der Lernabtastungen der Objekte, wie sie jedes Mal, wenn bei der Lernsession durch die erzeugte Schwachentscheidungseinrichtung eine Schwachentscheidungseinrichtung erzeugt wird, berechnet werden, aktualisiert werden, der Minimumwert ist.
Anordnung nach Anspruch 4, wobei, wenn bei den bei der Lernsession erhaltenen Werten der Gewichtet-Majoritätsentscheidung der Minimumwert positiv ist, 0 als der Suspensionsschwellenwert ausgewählt wird.
Anordnung nach Anspruch 1, wobei jede der Schwachentscheidungseinrichtungen ihre Schätzung durch Berechnen der Schätzung als Binärwert, der abhängig davon, ob die charakteristische Größe kleiner als ein vorbestimmter Schwellenwert ist oder nicht, anzeigt, ob das Gradationsbild ein Objekt ist oder nicht, entscheidend ausgibt.
Anordnung nach Anspruch 1, wobei jede der Schwachentscheidungseinrichtungen die auf der Basis der charakteristischen Größe berechnete Wahrscheinlichkeit, dass das Gradationsbild ein Objekt ist, ausgibt, um ihre Schätzung entscheidend auszugeben.
Anordnung nach Anspruch 1, wobei die Anordnung betreibbar ist zum Ausschneiden eines Fensterbildes einer festen Größe aus einem Gradationsbild und Detektieren, ob das Gradationsbild ein Objekt ist oder nicht, wobei die Anordnung aufweist: eine Skalaumsetzungseinrichtung (3) zur Erzeugung eines skalierten Bildes durch Aufwärts- oder Abwärts-Skalieren der Größe des Eingangsgradationsbildes, und eine Fensterbild-Abtasteinrichtung (4) zur Abtastung des Fensters der festen Größe aus dem skalierten Bild und Ausschneiden eines Fensterbilds.
Anordnung nach Anspruch 8, wobei die Entscheidungseinrichtung den Wert der Gewichtet-Majoritätsentscheidung durch Multiplizieren der Schätzung oder jeder der Schätzungen mit der als ein Resultat des Lernens erhaltenen Zuverlässigkeit jeder der Schwachentscheidungseinrichtungen und sie addieren berechnet und entsprechend dem Wert der Majoritätsentscheidung entscheidet, ob das Gradationsbild ein Objekt ist oder nicht.
Anordnung nach Anspruch 9, wobei die mehreren Schwachentscheidungseinrichtungen die Schätzungen sequentiell berechnen und die Entscheidungseinrichtung den Wert der Gewichtet-Majoritätsentscheidung jedes Mal, wenn eine Schätzung berechnet ist, sequentiell aktualisiert und die Schätzungsberechnungsoperation steuert, um sie entsprechend dem aktualisierten Wert der Gewichtet-Majoritätsentscheidung zu suspendieren oder nicht.
Objektdetektierungsverfahren zum Detektieren, ob ein gegebenes Gradationsbild ein Objekt ist oder nicht, wobei das Verfahren aufweist: einen Schwachentscheidungsschritt zum Berechnen einer Schätzung, die entsprechend einer charakteristischen Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen, die für jeden von mehreren Schwachentscheidern im Voraus gelernt wird, anzeigt, dass das Gradationsbild ein Objekt ist oder nicht, und einen Diskriminierungsschritt zum Entscheiden, ob das Gradationsbild entsprechend der durch eine der oder die Schätzungen, die von mehr als einem der mehreren Schwachentscheider berechnet werden, berechneten Schätzung ein Objekt ist oder nicht.
Verfahren nach Anspruch 11, wobei der Wert der Gewichtet-Majoritätsentscheidung durch Multiplizieren jeder der Schätzungen mit der als ein Resultat des Lernens erhaltenen Zuverlässigkeit des korrespondierenden Schwachentscheiders und Addieren der Produkte der Multiplikationen berechnet wird und entsprechend dem Majoritätsentscheidungswert beim Entscheidungsschritt entschieden wird, ob das Gradationsbild ein Objekt ist oder nicht.
Verfahren nach Anspruch 12, wobei beim Schwachentscheidungsschritt durch die mehreren Schwachentscheider Abschätzungen sequentiell berechnet werden und beim Entscheidungsschritt der Wert der Gewichtet-Majoritätsentscheidung jedes Mal, wenn eine Schätzung berechnet ist, aktualisiert wird und die Objektdetektionsoperation gesteuert wird, um entsprechend dem aktualisierten Wert der Gewichtet-Majoritätsentscheidung zu entscheiden, ob die Berechnung von Schätzungen suspendiert wird oder nicht.
Verfahren nach Anspruch 11, wobei das Verfahren zum Ausschneiden eines Fensterbilds einer festen Größe aus einem Gradationsbild dient und detektiert, ob das Gradationsbild ein Objekt ist oder nicht, wobei das Verfahren aufweist: einen Skalaumsetzungsschritt (S21) zur Erzeugung eines skalierten Bildes durch Aufwärts- oder Abwärts-Skalieren der Größe des Eingangsgradationsbilds und einen Fensterbild-Abtastschritt (S22) zur Abtastung des Fensters der festen Größe aus dem skalierten Bild und Ausschneiden eines Fensterbilds.
Verfahren nach Anspruch 14, wobei der Wert der Gewichtet-Majoritätsentscheidung durch Multiplizieren der Schätzung oder jeder der Schätzungen mit der als ein Resultat des Lernens und erhaltenen Zuverlässigkeit jedes der Schwachentscheider und sie addieren berechnet wird und entsprechend dem Wert der Majoritätsentscheidung beim Entscheidungsschritt entschieden wird, ob das Gradationsbild ein Objekt ist oder nicht.
Verfahren nach Anspruch 15, wobei die mehreren Schwachentscheider beim Schwachentscheidungsschritt die Schätzungen sequentiell berechnen und der Wert der Gewichtet-Majoritätsentscheidung jedes Mal, wenn eine Schätzung berechnet ist, sequentiell aktualisiert wird und die Schätzungsberechnungsoperation gesteuert wird, um sie entsprechend dem beim Entscheidungsschritt aktualisierten Wert der Gewichtet-Majoritätsentscheidung zu suspendieren oder nicht.
Gruppenlernanordnung (1) zum Gruppenlernen unter Benutzung einer Lernabtastung von mehreren Gradationsbildern, die mit jeweiligen korrekten Antworten, die sagen, ob jedes der Gradationsbilder ein Objekt ist oder nicht, bereitgestellt werden, wobei die Anordnung aufweist: eine Lerneinrichtung (6) zum Lernen mehrerer Schwachentscheider (5) zur Ausgabe einer Schätzung, die unter Benutzung einer charakteristischen Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen ist, als Eingabe anzeigt, dass das Gradationsbild in einer Gruppe ein Objekt ist oder nicht.
Anordnung nach Anspruch 17, wobei die Lerneinrichtung aufweist: eine Schwachentscheider-Erzeugungseinrichtung zur Berechnung der charakteristischen Größe jeder der Lernabtastungen und Erzeugung der Schwachentscheider entsprechend den jeweiligen charakteristischen Größen, eine Fehlerverhältnis-Berechnungseinrichtung zur Berechnung des Entscheidungs-Fehlerverhältnisses jeder der Lernabtastungen entsprechend dem für die Lernabtastung für die von der Schwachentscheider-Erzeugungseinrichtung erzeugten Schwachentscheider definierten Datengewicht, eine Zuverlässigkeits-Berechnungseinrichtung zur Berechnung der Zuverlässigkeit der Schwachentscheider entsprechend dem Fehlerverhältnis, und eine Datengewichts-Berechnungseinrichtung zur Aktualisierung des Datengewichts, um das Gewicht jeder Lernabtastung, die von den Schwachentscheidern als Fehler entschieden wird, relativ zu erhöhen, wobei die Schwachentscheider-Erzeugungseinrichtung fähig ist zum Erzeugen eines neuen Schwachentscheiders, wenn das Datengewicht aktualisiert ist.
Anordnung nach Anspruch 18, wobei die Schwachentscheider-Erzeugungseinrichtung charakteristische Größen von mehreren unterschiedlicher Typen durch Wiederholung des Prozesses zur Berechnung einer charakteristischen Größe mehrere Male berechnet, für jede charakteristische Größe einen Schwachentscheiderkandidaten erzeugt, das Entscheidungs-Fehlerverhältnis jeder Lernabtastung entsprechend dem für die Lernabtastung definierten Datengewicht berechnet und den das niedrigste Fehlerverhältnis zeigenden Schwachentscheiderkandidaten als Schwachentscheider auswählt.
Anordnung nach Anspruch 18, wobei die Schwachentscheider-Erzeugungseinrichtung einen Schwachentscheiderkandidaten erzeugt, der ausgebildet ist zum abhängig davon, ob die charakteristische Größe des Gradationsbildes größer als ein vorbestimmter Schwellenwert ist oder nicht, Entscheiden, ob das Gradationsbild ein Objekt ist oder nicht.
Anordnung nach Anspruch 18, wobei die Schwachentscheider-Erzeugungseinrichtung einen Schwachentscheiderkandidaten erzeugt, der ausgebildet ist zum Ausgeben der Wahrscheinlichkeit, dass das Gradationsbild ein Objekt ist, entsprechend der charakteristischen Größe.
Anordnung nach Anspruch 18, außerdem aufweisend: eine Suspensionsschwellenwert-Speichereinrichtung zum Speichern des Minimumwerts der Gewichtet-Majoritätsentscheidungswerte, deren jeder als ein Resultat davon erhalten wird, dass jedes Mal, wenn die Schwachentscheider-Erzeugungseinrichtung einen Schwachentscheider erzeugt, die Schwachentscheider-Erzeugungseinrichtung mittels des Schwachentscheiders eine Schätzung für jede Lernabtastung, die ein Objekt ist, berechnet und auch den durch Gewichtung der Schätzung mit der Zuverlässigkeit erhaltenen Wert der Gewichtet-Majoritätsentscheidung berechnet.
Gruppenlernverfahren zur Benutzung von Lernabtastungen mehrerer Gradationsbilder, die mit jeweiligen korrekten Antworten, die sagen, ob jedes der Gradationsbilder ein Objekt ist oder nicht, bereitgestellt werden, wobei das Verfahren aufweist: einen Lernschritt zum Lernen mehrerer Schwachentscheider zur Ausgabe einer Schätzung, die unter Benutzung einer charakteristischen Größe, die gleich der Differenz der Luminanzwerte von zwei Pixeln bei zwei beliebig ausgewählten unterschiedlichen Positionen ist, als Eingabe anzeigt, dass das Gradationsbild in einer Gruppe ein Objekt ist oder nicht.
Verfahren nach Anspruch 23, wobei der Lernschritt ausgebildet ist zum Wiederholen einer Serie von Schritten, die aufweisen: einen Schwachentscheider-Erzeugungsschritt (S2) zur Berechnung der charakteristischen Größe jeder der Lernabtastungen und Erzeugung der Schwachentscheider entsprechend den jeweiligen charakteristischen Größen, einen Fehlerverhältnis-Berechnungsschritt (S3) zur Berechnung des Entscheidungs-Fehlerverhältnisses jeder der Lernabtastungen entsprechend dem für die Lernabtastung definierten Datengewicht für die von der Schwachentscheider-Erzeugungseinrichtung erzeugten Schwachentscheider, einen Zuverlässigkeits-Berechnungsschritt (S4) zur Berechnung der Zuverlässigkeit der Schwachentscheider entsprechend dem Fehlerverhältnis, und einen Datengewichts-Berechnungsschritt (S5) zur Aktualisierung des Datengewichts, um das Gewicht jeder Lernabtastung, die von den Schwachentscheidern als Fehler entschieden wird, relativ zu erhöhen.
Verfahren nach Anspruch 24, wobei die charakteristischen Größen mehrerer unterschiedlicher Typen durch Wiederholung des Prozesses zur Berechnung einer charakteristischen Größe mehrere Male berechnet werden und für jede charakteristische Größe ein Schwachentscheiderkandidat erzeugt wird, wobei das Entscheidungs-Fehlerverhältnis jeder Lernabtastung entsprechend dem für die Lernabtastung definierten Datengewicht berechnet wird und der das niedrigste Fehlerverhältnis zeigende Schwachentscheiderkandidat beim Schwachentscheider-Erzeugungsschritt als Schwachentscheider ausgewählt wird.
Verfahren nach Anspruch 24, wobei beim Schwachentscheidungs-Erzeugungsschritt ein Schwachentscheiderkandidat erzeugt wird, der ausgebildet ist zum Entscheiden abhängig davon, ob die charakteristische Größe des Gradationsbilds größer als ein vorbestimmter Schwellenwert ist oder nicht, ob das Gradationsbild ein Objekt ist oder nicht.
Verfahren nach Anspruch 24, wobei beim Schwachentscheider-Erzeugungsschritt ein Schwachentscheiderkandidat erzeugt wird, der ausgebildet ist zum Ausgeben der Wahrscheinlichkeit, dass das Gradationsbild entsprechend der charakteristischen Größe ein Objekt ist,.
Verfahren nach Anspruch 24, außerdem aufweisend: einen Suspensionsschwellenwert-Speicherungsschritt (S6) zum Speichern des Minimumwerts der Gewichtet-Majoritätsentscheidungswerte, deren jeder als ein Resultat davon erhalten wird, dass jedes Mal, wenn beim Schwachentscheider-Erzeugungsschritt eine Schwachentscheidung erzeugt wird, für jede Lernabtastung, die ein Objekt ist, mittels des Schwachentscheiders eine Schätzung berechnet wird und beim Schwachentscheider-Entscheidungsschritt auch der durch Gewichtung der Schätzung mit der Zuverlässigkeit erhaltene Wert der Gewichtet-Majoritätsentscheidung berechnet wird.