DE102010038567A1

DE102010038567A1 - Bilderkennungsvorrichtung mit mehreren Klassifizierern

Info

Publication number: DE102010038567A1
Application number: DE102010038567A
Authority: DE
Inventors: Takashi Kariya-city Bandou; Naoki Kariya-city Fukaya
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2009-07-29
Filing date: 2010-07-28
Publication date: 2011-02-24
Also published as: JP4743312B2; US8538172B2; JP2011028682A; US20110026829A1

Abstract

In einer Vorrichtung wendet eine Anwendungseinheit ausgewählte Klassifizierer der Reihe nach auf ein Objektbild an. Eine Punktzahlberechnungseinheit berechnet jedes Mal, wenn ein Klassifizierer auf das Objektbild angewandt wird, eine Summation eines Ausgangs von wenigstens einem Klassifizierer, der bereits auf das Objektbild angewandt wurde, um so eine Erfassungspunktzahl als die Summation zu erhalten. Der Ausgang des wenigstens einen bereits angewandten Klassifizierers wird mit einer entsprechenden Gewichtung gewichtet. Eine Verteilungsberechnungseinheit berechnet jedes Mal, wenn ein Klassifizierer auf das Objektbild angewandt wird, eine erwartete Verteilung der Erfassungspunktzahl, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde. Eine Beurteilungseinheit beurteilt auf der Grundlage der erwarteten Verteilung, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild zu beenden ist.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung basiert auf der am 29. Juli 2009 eingereichten japanischen Patentanmeldung Nr. 2009-176474 . Diese Anmeldung beansprucht die Priorität der japanischen Patentanmeldung, auf deren Offenbarung hiermit vollinhaltlich Bezug genommen wird.
GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft Bilderkennungsvorrichtungen mit mehreren Klassifizierern.
HINTERGRUND DER ERFINDUNG
Bekannt sind Fahrerassistenzsysteme, welche die Augen eines Fahrers unter Verwendung von Bildern überwachen, die von einer fahrzeuginternen Kamera aufgenommen werden, um so zu erfassen, ob der Fahrer unaufmerksam ist oder etwas übersieht, um so eine entsprechende Warnung an den Fahrer auszugeben. Insbesondere sind diese Fahrerassistenzsysteme dazu ausgelegt, Gesichtsbilder, die jeweils einen Gesichtsbereich (Gesichtsmuster) enthalten, aus nacheinander eingegebenen Bildern zu extrahieren, die von einer fahrzeuginternen Kamera aufgenommen werden; wobei der Gesichtsbereich vorbestimmte Gesichtsmerkmale aufweist, wie beispielsweise das rechte und das linke Auge, die Nase und den Mund des Fahrers. Diese Fahrerassistenzsysteme sind ferner dazu ausgelegt, den Ort des Gesichts innerhalb des Gesichtsbildes zu erfassen. Um Anforderungen zur Verbesserung der Fahrzeugsicherheit zu erfüllen, ist es für diese Fahrerassistenzsysteme von Bedeutung, die Position des Gesichts innerhalb des Gesichtsbildes unmittelbar mit hoher Genauigkeit zu erfassen.
Boosting, welches mehrere schwache Klassifizierer trainiert, ist als Maschine-Lern-Algorithmus bekannt. Eine Verwendung der Kombination der verstärkten schwachen Klassifizierer zu Erkennung eines Zielbildes, wie beispielsweise eines Gesichtsbildes, in mehreren Bilden gewährleistet die Genauigkeit und Robustheit der Ziel-Bild-Erkennung.
Nachstehend wird der Boosting-Algorithmus in der Annahme beschrieben, dass: ein eingegebenes Bild (als ein Array von Pixeln) als x gegeben ist, der Ausgang eines n-ten trainierten schwachen Klassifizierers unter mehreren schwachen Klassifizierern als f_n(x) gegeben ist, die Gewichtung oder Bedeutung, welche dem n-ten trainierten schwachen Klassifizierer verliehen wird, als w_n gegeben ist, und die Anzahl der mehreren schwachen Klassifizierer als Nf gegeben ist.
Bei dem Boosting-Algorithmus wird eine Punktzahl S_1:Nf(x) als die Summation der Ausgänge f_n(x) (n = 1, 2, ..., Nf) der trainierten schwachen Klassifizierer, die jeweils mit den Gewichtungen w_n (n = 1, 2, ..., Nf) gewichtet werden, durch die folgende Gleichung (1) beschrieben:
wobei die Gewichtungen w_n normiert werden, um die folgende Gleichung (2) zu erfüllen:
Anschließend wird der Ausgang F_1:Nf(x) der Kombination der trainierten schwachen Klassifizierer auf der Grundlage der Punktzahl S_1:Nf(x) in Übereinstimmung mit der folgenden Gleichung (3) bestimmt:
Insbesondere ist dann, wenn die Punktzahl S_1:Nf(x) der Ausgänge f_n(x) (n = 1, 2, ..., Nf) der trainierten schwachen Klassifizierer, die jeweils mit den Gewichtungen w_n (n = 1, 2, ..., Nf) gewichtet werden, größer oder gleich einem Schwellenwert von 0,5 ist, der endgültige Ausgang der Kombination der trainierten schwachen Klassifizierer ein Wert von „1” entsprechend WAHR; wobei dieser Wert „1” zeigt, dass das eingegebene Bild x wahrscheinlich ein Gesichtsbild ist. D. h., der Boosting-Algorithmus erkennt, dass das eingegebene Bild x ein Zielbild ist, das wahrscheinlich einen Gesichtsbereich enthält.
Andernfalls ist dann, wenn die Punktzahl S_1:Nf(x) der Ausgänge f_n(x) (n = 1, 2, ..., Nf) der trainierten schwachen Klassifizierer, die jeweils mit den Gewichtungen w_n (n = 1, 2, ..., Nf) gewichtet werden, geringer als der Schwellenwert von 0,5 ist, der endgültige Ausgang der Kombination der trainierten schwachen Klassifizierer ein Wert von „0” entsprechend FALSCH; wobei dieser Wert „0” anzeigt, dass das eingegebene Bild x wahrscheinlich kein Gesichtsbild ist. D. h., der Boosting-Algorithmus erkennt, dass das eingegebene Bild x kein Objektbild ist, das wahrscheinlich einen Gesichtsbereich enthält.
Der Boosting-Prozess benötigt, wie vorstehend beschrieben, eine hohe Anzahl von schwachen Klassifizierern, um die Genauigkeit und/oder Robustheit bei der Objektbilderkennung zu verbessern. Umso mehr jedoch die Anzahl der zu verwendenden schwachen Klassifizierer zunimmt, desto mehr Zeit ist erforderlich, um zu erkennen, ob das eingegebene Bild ein Objektbild ist. Genauer gesagt, es besteht ein Trade-off-Verhältnis (Abwägen) zwischen der Robustheit der Objektbilderkennung und deren Geschwindigkeit.
Die US 7,099,510 offenbart einen Algorithmus, der als Viola- & Jones-Algorithmus bezeichnet und basierend auf dem Boosting-Algorithmus entwickelt ist; wobei diese Patentdruckschrift nachstehend als Referenzdokument 1 bezeichnet wird.
Insbesondere verwendet der Viola- & Jones-Algorithmus eine Kaskade von mehreren Klassifizierern auf der Grundlage des Boosting-Algorithmus. Der Viola- & Jones-Algorithmus wendet die Reihe von Klassifizierern auf jedes eingegebene Bild in der Reihenfolge von der Anfangsstufe bis zur letzten Stufe an. Jeder der Klassifizierer berechnet für jedes eingegebene Bild die Punktzahl als die Summation der Ausgänge der angewandten Klassifizierer. Jeder der Klassifizierer verwirft einige der eingegebenen Bilder, deren Punktzahl geringer als ein Schwellenwert ist, der auf der Grundlage der Anzahl von angewandten Stufen vorbestimmt ist, um sie auf diese Weise frühzeitig als negative Bilder zu entfernen, auf die keine anschließenden Stufen angewandt werden. Dieser Algorithmus kann eine Objektbilderkennung beschleunigen.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfinder der vorliegenden Erfindung haben entdeckt, dass bei dem herkömmlichen Bilderkennungsalgorithmus unter Verwendung der Kaskade von Klassifizierern ein Problem auftritt.
Insbesondere kann der herkömmliche Bilderkennungsalgorithmus Klassifizierer stromabwärts des Klassifizierers, der eine frühzeitige Entfernung vornimmt, nicht verwenden. Dies ist entgegen dem Zweck des Boosting, das eine Objektbilderkennung mit hoher Genauigkeit mit Hilfe von vielen schwachen Klassifizieren erzielt. Folglich kann es passieren, dass der herkömmliche Bilderkennungsalgorithmus die inhärente Robustheit des Boosting verringert, so dass es schwierig wird, den Trade-Off zwischen der Objektbilderkennung und deren Geschwindigkeit zu verringern.
Es ist angesichts der vorstehend beschriebenen Umstände Aufgabe der vorliegenden Erfindung, Bilderkennungsvorrichtungen und Bilderkennungsverfahren bereitzustellen, die dazu ausgelegt sind, das vorstehend beschriebene Problem zu lösen.
Es ist insbesondere Aufgabe der vorliegenden Erfindung, Bilderkennungsvorrichtungen und Bilderkennungsverfahren bereitzustellen, die dazu in der Lage sind, ein frühzeitiges Entfernen von negativen Bildern vorzunehmen, ohne ihre Robustheit zu verringern.
Gemäß einer Ausgestaltung der vorliegenden Erfindung wird eine Bilderkennungsvorrichtung bereitgestellt. Die Bilderkennungsvorrichtung weist eine Klassifizierungseinheit mit mehreren Klassifizierern auf. Die mehreren Klassifizierer sind dazu ausgelegt, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen. Die Bilderkennungsvorrichtung weist eine Anwendungseinheit auf, die dazu ausgelegt ist, die Klassifizierer der Reihe nach zu wählen und die gewählten Klassifizierer der Reihe nach auf ein eingegebenes Bild als ein Objektbild anzuwenden. Die Bilderkennungsvorrichtung weist eine Punktzahlberechnungseinheit auf, die dazu ausgelegt ist, jedes Mal, wenn einer der Klassifizierer durch die Anwendungseinheit auf das Objektbild angewandt wird, eine Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch die Anwendungseinheit bereits auf das Objektbild angewandt wurde, zu berechnen, um so eine Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird. Die Bilderkennungsvorrichtung weist eine Verteilungsberechnungseinheit auf, die dazu ausgelegt ist, jedes Mal, wenn einer der Klassifizierer durch die Anwendungseinheit auf das Objektbild angewandt wird, eine erwartete Verteilung der Erfassungspunktzahl zu berechnen, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde. Die Bilderkennungsvorrichtung weist eine Beurteilungseinheit auf, die dazu ausgelegt ist, auf der Grundlage der von der Verteilungsberechnungseinheit berechneten erwarteten Verteilung zu beurteilen, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch die Anwendungseinheit zu beenden ist.
Gemäß einer ersten alternativen Ausgestaltung der vorliegenden Erfindung wird ein Bilderkennungsverfahren bereitgestellt. Das Verfahren umfasst die folgenden Schritte: Bereitstellen von mehreren Klassifizierern, wobei die mehreren Klassifizierer dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen; Wählen der Klassifizierer der Reihe nach; und Anwenden der gewählten Klassifizierer der Reihe nach auf ein eingegebenes Bild als ein Objektbild. Das Verfahren umfasst den Schritt Berechnen jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, einer Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch das Anwenden bereits auf das Objektbild angewandt wurde, um so eine Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird. Das Verfahren umfasst die Schritte Berechnen jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, einer erwarteten Verteilung der Erfassungspunktzahl, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde; und Beurteilen auf der Grundlage der erwarteten Verteilung, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch das Anwenden zu beenden ist.
Gemäß einer zweiten alternativen Ausgestaltung der vorliegenden Erfindung wird ein Computerprogrammprodukt bereitgestellt. Das Computerprogrammprodukt weist auf: ein auf einem Computer verwendbares Medium und einen Satz von Computerprogrammbefehlen, die auf dem auf einem Computer verwendbaren Medium enthalten sind, einschließlich der Befehle, um: mehrere Klassifizierer der Reihe nach zu wählen, wobei die mehreren Klassifizierer dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen; die gewählten Klassifizierer der Reihe nach auf ein eingegebenes Bild als ein Objektbild anzuwenden; jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, eine Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch den Anwendungsbefehl bereits auf das Objektbild angewandt wurde, zu berechnen, um so eine Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird; jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, eine erwartete Verteilung der Erfassungspunktzahl zu berechnen, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde; und auf der Grundlage der erwarteten Verteilung zu beurteilen, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch den Anwendungsbefehl zu beenden ist.
Bei diesen Ausgestaltungen der vorliegenden Erfindung werden mehrere Klassifizierer, die dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen, der Reihe nach gewählt, um nacheinander auf ein eingegebenes Bild als ein Objektbild angewandt zu werden.
Jedes Mal, wenn einer der Klassifizierer auf das Objektbild angewandt wird, wird eine Summation eines Ausgangs von wenigstens einem Klassifizierer, der bereits auf das Objektbild angewandt wurde, derart berechnet, dass eine Erfassungspunktzahl als die Summation erhalten wird; wobei dieser Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird. Ferner wird jedes Mal, wenn einer der Klassifizierer auf das Objektbild angewandt wird, eine erwartete Verteilung der Erfassungspunktzahl berechnet, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde.
Auf der Grundlage der erwarteten Verteilung wird beurteilt, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild zu beenden ist.
Es sollte beachtet werden, dass ein Klassifizierer, der dazu ausgelegt ist, für ein Bild sensitiv zu sein, das ein bestimmtes Muster aufweist, bedeutet, dass der Klassifizierer eine positive Beurteilung für das Objektbild aufweist.
Mit der Konfiguration jeder Ausgestaltung der vorliegenden Erfindung wird beurteilt, ob das Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild zu beenden ist, und zwar nicht nur auf der Grundlage der Erfassungspunktzahl basierend auf dem klassifizierten Ergebnis des bereits angewandten Klassifizierers, sondern ebenso der erwarteten Verteilung des wenigstens einen nicht angewandten Klassifizierers, die erhalten werden würde, wenn der wenigstens eine nicht angewandte Klassifizierer, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde.
Folglich ist es möglich, durchaus die Information der nicht angewandten Klassifizierer zu verwenden, um so zu bestimmen, ob das Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild zu beenden ist. Dies verringert die Zeit, die erforderlich ist, um das Objektbild zu erkennen, ohne dass die Robustheit der Erkennung verringert wird.
KURZE BESCHREIBUNG DER ZEICHNUNG
Weitere Aufgaben und Ausgestaltungen der vorliegenden Erfindung werden aus der nachfolgenden detaillierten Beschreibung, die unter Bezugnahme auf die beigefügte Zeichnung gemacht wurde, näher ersichtlich sein. In der Zeichnung zeigt:
1 ein schematisches Blockdiagramm zur Veranschaulichung eines Beispiels des Gesamtaufbaus eines Fahrerassistenzsystems, auf das eine Bilderkennungsvorrichtung der ersten Ausführungsform der vorliegenden Erfindung angewandt wird;
2 ein detailliertes Blockdiagramm zur Veranschaulichung eines in der 1 gezeigten Abschnitts zur Erfassung einer Gesichtsposition;
3 ein Diagramm zur Veranschaulichung, als ein Beispiel von Information, die in einer Beurteilungswahrscheinlichkeitstabelle einer in der 2 gezeigten Datenbank für Information schwacher Klassifizierer gespeichert ist, von positiven Beurteilungswahrscheinlichkeiten für eine Gesichtsklasse und negativen Wahrscheinlichkeiten für eine Nicht-Gesichtsklasse gemäß der ersten Ausführungsform;
4 ein schematisches Ablaufdiagramm zur Veranschaulichung eines gesamten Verarbeitungsablaufs des in den 1 und 2 gezeigten Abschnitts zur Erfassung einer Gesichtsposition;
5 ein schematische Ablaufdiagramm zur Veranschaulichung eines Ablaufs in Schritt S140 der 4, der von einem in der 2 gezeigten Abschnitt zur Erzeugung einer Beurteilungspunktzahl auszuführen ist;
6 eine schematische Ansicht zur Veranschaulichung eines Satzes von vielen Trainingsbildern, die für Tests zu verwenden sind, und eines Satzes von vielen Testbilden, die dafür zu verwenden sind, gemäß der ersten und der zweiten Ausführungsform;
7A ein schematisches Diagramm zur Veranschaulichung des Verhaltens einer Erfassungspunktzahl, einer erwarteten Punktzahl, eines oberen Grenzwerts eines Verteilungsbereichs und eines unteren Grenzwerts des Verteilungsbereichs entlang der Anzahl (n) von angewandten schwachen Klassifizierern gemäß der ersten und der zweiten Ausführungsform; wobei diese Datenelemente berechnet werden, wenn alle der Nf schwachen Klassifizierer auf ein Gesichtsbild, das in der Gesichtsklasse als ein Objektbild enthalten ist, angewandt werden;
7B ein schematisches Diagramm zur Veranschaulichung des Verhaltens der Erfassungspunktzahl, der erwarteten Punktzahl, des oberen Grenzwerts des Verteilungsbereichs und des unteren Grenzwerts des Verteilungsbereichs entlang der Anzahl (n) von angewandten schwachen Klassifizierern; wobei diese Datenelemente berechnet werden, wenn alle der Nf schwachen Klassifizierer auf ein Nicht-Gesichtsbild, das in der Nicht-Gesichtsklasse als ein Objektbild enthalten ist, angewandt werden;
8A eine schematische Tabelle zur Veranschaulichung, für jedes Verfahren von Verfahren („ClassProb”, „AS Boost”, „Normal Boost”, „Viola & Jones”), einer Falsch-Positiv-Rate, einer Fehlrate und einer durchschnittlichen Anzahl von angewandten schwachen Klassifizierern vor der Beurteilung; und
8B ein schematisches Diagramm zur Veranschaulichung, für jedes der Verfahren („ClassProb”, „AS Boost”, „Normal Boost”, „Viola & Jones”), einer Erfassungsfehlerrate als die Summe der Falsch-Positiv-Rate und der Fehlrate, wenn sich die Anzahl (Nf) von mehreren schwachen Klassifizierern ändert.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN DER ERFINDUNG
Nachstehend werden die Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigefügte Zeichnung beschrieben. In der Zeichnung sind gleiche entsprechende Komponenten mit den gleichen Bezugszeichen versehen.
Erste Ausführungsform
1 zeigt ein in einem Fahrzeug installiertes Fahrerassistenzsystem 1, auf das eine Bilderkennungsvorrichtung der ersten Ausführungsform der vorliegenden Erfindung angewandt wird.
Das Fahrerassistenzsystem 1 weist einen Abschnitt 3 zur Erfassung eines Bildes, einen Abschnitt 5 zur Erfassung einer Gesichtsposition, einen Abschnitt 7 zur Erfassung von Augen und. einen Abschnitt 9 zur Steuerung einer Fahrerunterstützung auf.
Der Abschnitt 3 zur Erfassung eines Bildes ist dazu ausgelegt, Bilder eines Bereichs zu Erfassen, welcher das Gesicht des Fahrers beinhaltet, und diese Bilder an den Abschnitt 5 zur Erfassung einer Gesichtsposition zu geben; wobei jedes der erfassten Bilder als ein Array von Pixeln dargestellt wird, die aus digitalisierten Lichtintensitätswerten bestehen. Der Abschnitt 5 zur Erfassung einer Gesichtsposition ist dazu ausgelegt, die Position des Gesichts des Fahrzeugführers in jedem der erfassten Bilder vom Abschnitt 3 zur Erfassung eines Bildes zu erfassen.
Der Abschnitt 7 zur Erfassung von Augen ist dazu ausgelegt, die Augen des Fahrers zu erfassen, auf der Grundlage eines erfassten Bildes, das vom Abschnitt 3 zur Erfassung eines Bildes zugeführt wird, und Gesichtspositionsinformation, die vom Abschnitt 5 zur Erfassung einer Gesichtsposition zugeführt wird; wobei diese Gesichtspositionsinformation die erfasste Position des Gesichts des Fahrzeugführers innerhalb jedes erfassten Bildes beschreibt.
Die Vorrichtung 9 zur Steuerung einer Fahrerunterstützung ist dazu ausgelegt, auf der Grundlage der Ergebnisse der Erfassung, die vom Abschnitt 5 zur Erfassung einer Gesichtsposition zugeführt werden, zu beurteilen, ob die Augen des Fahrzeugführers in einem normalen oder ungewöhnlichen Zustand, wie beispielsweise dann, wenn der Blick abseits der Straße gerichtet ist, erscheinen. Die Vorrichtung 9 zur Steuerung einer Fahrerunterstützung ist ferner dazu ausgelegt, ein Warnsignal zu erzeugen, wenn ein ungewöhnlicher Zustand erfasst wird.
Der Abschnitt 3 zur Erfassung eines Bildes dieser Ausführungsform ist beispielsweise aus einer digitalen CCD-(ladungsträgergekoppelten)-Videokamera, die aufeinander folgende Bilder erfasst, welche den Kopf des Fahrzeugführers enthalten, und einer LED-Lampe, welche das Gesicht des Fahrzeugführers beleuchtet, aufgebaut. Die LED-Lampe strahlt Licht im nahen Infrarotbereich ab, so dass Bilder auch während eines nächtlichen Betriebs erfasst werden können. Der Abschnitt 3 zur Erfassung eines Bildes ist beispielsweise auf dem Fahrzeugarmaturenbrett befestigt, kann jedoch in der Instrumententafel, der Lenksäule, dem Rückspiegel oder dergleichen angeordnet sein. Obgleich bei dieser Ausführungsform eine LED-Lampe verwendet wird, wäre es ebenso möglich, andere Arten von Lampen zu verwenden oder die Lampe wegzulassen.
Der Abschnitt 7 zur Erfassung von Augen und der Abschnitt 9 zur Steuerung einer Fahrerunterstützung führen bekannte Arten von Verarbeitungen aus, die nicht direkt mit den Grundsätzen der vorliegenden Erfindung zusammenhängen, so dass eine Beschreibung dieser Abschnitte nachstehend nicht erfolgt.
Abschnitt zur Erfassung einer Gesichtsposition
2 zeigt ein detailliertes Blockdiagramm des Abschnitts 5 zur Erfassung einer Gesichtsposition; wobei dieser Abschnitt 5 zur Erfassung einer Gesichtsposition einer Bilderkennungsvorrichtung dieser Ausführungsform der vorliegenden Erfindung entspricht. Die Bezeichnung „Gesichtsposition”, sowie sie in dieser Anmeldung verwendet wird, bezieht sich auf die Position eines rechteckigen Bereichs beschränkter Größe (Gesichtsbereich) innerhalb eines erfassten Bildes, das vom Abschnitt 3 zur Erfassung eines Bildes zugeführt wird; wobei dieser rechteckige Gesichtsbereich beschränkter Größe die Augen, die Nase und den Mund eines Gesichts enthält, wobei dieser Gesichtsbereich vorzugsweise die geringste Größe aufweist, welche diese Merkmale beinhalten kann. Solch ein Gesichtsbereich ist in der 6 durch das Bezugszeichen A gekennzeichnet und wird nachstehend auch als „Gesichtsbild” bezeichnet.
Es sollte beachtet werden, dass Bilder in zwei Klassen unterteilt werden; wobei eine dieser Klassen, zu welcher die Gesichtsbilder gehören, als „Gesichtsklasse” bezeichnet wird, und die andere dieser Klassen, zu der Nicht-Gesichtsbilder mit Ausnahme der Gesichtsbilder gehören, als „Nicht-Gesichtsklasse” bezeichnet wird.
Die Abschnitt 5 zur Erfassung einer Gesichtsposition weist, wie in 2 gezeigt, einen Abschnitt 10 zur Extrahierung eines Unterbildes, einen Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl, einen Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl und einen Abschnitt 40 zur Beurteilung einer Gesichtsposition auf.
Der Abschnitt 10 zur Extrahierung eines Unterbildes ist dazu ausgelegt, ein Abtastfenster anzuwenden, um aufeinander folgende Unterbilder einer vorbestimmten Größe aus einem erfassten Bild zu extrahieren, das vom Abschnitt 3 zur Erfassung eines Bildes zugeführt wird; wobei diese Unterbilder Objektbilder zur Erkennung in einem erfassten Bild sind. Für jedes Unterbilds (nachstehend auch als Objektbild bezeichnet) ist der Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl dazu ausgelegt, eine entsprechende Beurteilungspunktzahl zu berechnen, um zu beurteilen, in welche Klasse das Unterbild eingeteilt wird. Der Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl ist dazu ausgelegt, jede Beurteilungspunktzahl, die vom Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl erhalten wird, in Verbindung mit Information, welche das entsprechende Unterbild identifiziert, zu speichern. Der Abschnitt 40 zur Beurteilung einer Gesichtsposition ist dazu ausgelegt, auf der Grundlage der im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl gespeicherten Information die Position des Unterbilds mit der höchsten Beurteilungspunktzahl zu erfassen und die erfasste Position des Unterbildes als das Gesichtsposition innerhalb des erfassten Bildes auszugeben.
Es sollte beachtet werden, dass dann, wenn mehrere Gesichter in einem erfassten Bild enthalten sein können, der Abschnitt 40 zur Beurteilung einer Gesichtsposition dazu ausgelegt sein kann, auf der Grundlage der im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl gespeicherten Information die Positionen der Unterbilder zu erfassen, die jeweils eine Beurteilungspunktzahl aufweisen, die über einem Referenzwert von beispielsweise 0,5 liegt, und die erfassten Positionen der Unterbilder als die Gesichtspositionen innerhalb des erfassten Bildes auszugeben.
Der Einfachheit der Beschreibung halber werden die von der Vorrichtung 5 zur Erfassung einer Gesichtsposition ausführbaren Funktionen in Form der obigen Systemabschnitte beschrieben. Diese Funktionen können jedoch durch einen programmierten Ablauf eines Computers (programmierte logische Schaltung) oder eine Kombination von computerimplementierten Funktionen und bestimmten Schaltungen realisiert werden. Eine Speicherfunktion einer Datenbank 21 für Information schwacher Klassifizierer (wird nachstehend noch beschrieben) kann durch eine oder mehrere nicht flüchtige Datenspeichervorrichtungen, wie beispielsweise ROMs, Festplatten und dergleichen realisiert werden.
Abschnitt zur Extrahierung eines Unterbildes
Der Abschnitt 10 zur Extrahierung eines Unterbildes ist dazu ausgelegt, aufeinander folgende Unterbilder (Objektbilder) aus einem erfassten Bild, das vom Abschnitt 3 zur Erfassung eines Bildes zugeführt wird, unter Verwendung eines Abtastfensters zu extrahieren, das von links nach rechts (Hauptabtastrichtung) und von oben nach unten (Nebenabtastrichtung) des erfassten Bildes läuft, wobei es das gesamte erfasste Bild abdeckt. Die Unterbilder können derart extrahiert werden, dass das erfasste Bild unterteilt wird, oder derart, dass sie sich der Reihe nach teilweise überlappen.
Das Abtasten eines gesamten erfassten Bildes wird unter Verwendung (nacheinander) jedes Unterbildes von mehreren Unterbildern verschiedener vorbestimmter Größe (d. h. Abtastfenstern verschiedener Größe) ausgeführt. Bei dieser Ausführungsform liegen die vorbestimmten Größen (werden durch den Abschnitt 10 zur Extrahierung eines Unterbildes bestimmt) bei 80×80 Pixeln, 100×100 Pixeln, 120×120 Pixeln, 140×40 Pixeln, 160×160 Pixeln und 180×180 Pixeln.
Abschnitt zur Erzeugung einer Beurteilungspunktzahl
Der Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl weist eine Datenbank 21 für Information schwacher Klassifizierer auf, die Information aufweist, die im Voraus darin gespeichert wird und mehrere schwache Klassifizierer (WC in der 2) beschreibt, die dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils mehrere verschiedene bestimmte Muster aufweisen.
Jeder schwache Klassifizierer ist beispielsweise eine Auswertefunktion und dazu ausgelegt, Objektbilder auf der Grundlage wenigstens eines von „Haar-like Features” in die Gesichtsklasse und die Nicht-Gesichtsklasse zu klassifizieren. Jedes der „Haar-like Features” ist beispielsweise als die Differenz der Summe von Pixeln von Bereichen innerhalb eines entsprechenden rechteckigen Bereichs definiert.
Die mehreren schwachen Klassifizierer werden im Voraus in einer Lernphase erzeugt, mit entsprechenden Gewichtungen, die auf diese Weise zugewiesen werden, unter Verwendung eines Boosting-Algorithmus in Verbindung mit mehreren Trainingsbildern (jeweilige Beispiele eines Objektbildes, das in der Gesichtsklasse enthalten ist, wie beispielsweise positive Bilder, und mehrere Objektbilder, die in der Nicht-Gesichtsklasse enthalten sind, wie beispielsweise negative Bilder). Solche Boosting-Verfahren zum Trainieren von mehreren schwachen Klassifizierern beispielsweise unter Verwendung des AdaBoost-Algorithmus, so wie er im Referenzdokument 1 beschrieben wird, sind gut dokumentiert, so dass sie nachstehend nicht näher beschrieben werden.
Dies führt dazu, dass die mehreren trainierten Klassifizierer dazu ausgelegt sind, Objektbilder auf der Grundlage der entsprechenden Merkmale in die Gesichtsklasse und die Nicht-Gesichtsklasse zu klassifizieren. Insbesondere ist in der Annahme, dass ein Objektbild als x gegeben ist, die Anzahl der mehreren schwachen Klassifizierer als Nf gegeben ist, der Indexwert eines schwachen Klassifizierers unter den mehreren schwachen Klassifizierern als n (n = 1, 2, ..., Nf) gegeben ist, und der Ausgang eines schwachen Klassifizierers unter den mehreren schwachen Klassifizierern als f_n(x) gegeben ist, der Ausgang f_n(x) eines schwachen Klassifizierers gleich 1, wenn das Objektbild zur Gesichtsklasse gehört, und der Ausgang f_n(x) eines schwachen Klassifizierers gleich 0, wenn das Objektbild zur Nicht-Gesichtsklasse gehört.
Es sollte beachtet werden, dass die „Haar-like Features” bei dieser Ausführungsform für jeden schwachen Klassifizierer verwendet werden, um Klassifizierungen von Objektbildern ausführen, jedoch jedes beliebige Merkmal, das für schwache Klassifizierer angewandt werden kann, hierfür verwendet werden kann. Der Ausgang f_n(x) eines schwachen Klassifizierers wird mit f_n abgekürzt.
Jeder der mehreren schwachen Klassifizierer weist eine Beurteilungswahrscheinlichkeit des entsprechenden schwachen Klassifizierers auf, der in korrekter Weise eine 1 ausgibt, wenn ein Objektbild (ein Gesichtsbild), das in die Gesichtsklasse klassifiziert werden sollte, eingegeben wird; wobei diese Beurteilungswahrscheinlichkeit nachstehend als positive Beurteilungsmöglichkeit für die Gesichtsklasse bezeichnet wird. Jeder der mehreren schwachen Klassifizierer weist eine Beurteilungswahrscheinlichkeit des entsprechenden schwachen Klassifizierers auf, der in nicht korrekter Weise eine 1 ausgibt, wenn ein Objektbild (ein Nicht-Gesichtsbild), das in die Nicht-Gesichtsklasse klassifiziert werden sollte, eingegeben wird; wobei diese Wahrscheinlichkeit nachstehend als negative Beurteilungsmöglichkeit für die Nicht-Gesichtsklasse bezeichnet wird.
Ferner weist jeder der mehreren schwachen Klassifizierer eine Beurteilungswahrscheinlichkeit des entsprechenden schwachen Klassifizierers auf, der in korrekter Weise eine 0 ausgibt, wenn ein Objektbild (ein Nicht-Gesichtsbild), das in die Nicht-Gesichtsklasse klassifiziert werden sollte, eingegeben wird; wobei diese Beurteilungswahrscheinlichkeit nachstehend als positive Beurteilungsmöglichkeit für die Nicht-Gesichtsklasse bezeichnet wird. Jeder der mehreren schwachen Klassifizierer weist eine Beurteilungswahrscheinlichkeit des entsprechenden schwachen Klassifizierers auf, der in nicht korrekter Weise eine 0 ausgibt, wenn ein Objektbild (ein Gesichtsbild), das in die Gesichtsklasse klassifiziert werden sollte, eingegeben wird; wobei diese Beurteilungswahrscheinlichkeit nachstehend als negative Beurteilungsmöglichkeit für die Gesichtsklasse bezeichnet wird. Die Information dieser Beurteilungswahrscheinlichkeiten für jeden schwachen Klassifizierer ist in der Lernphase festgelegt und im Voraus in der Datenbank 21 für Information schwacher Klassifizierer gespeichert worden.
Insbesondere ist bei dieser Ausführungsform ein Satz der Klassen als C gegeben und werden Elemente von sowohl der Gesichtsklasse als auch der Nicht-Gesichtsklasse mit c gekennzeichnet, so dass jedes Element c der Gesichtsklasse eine 1 und jedes Element c der Nicht-Gesichtsklasse eine 0 ist. Durch eine Verwendung der Parameter c können die Beurteilungswahrscheinlichkeiten jedes schwachen Klassifizierers f_n für jedes Element c durch ”p(f_n|c)” beschrieben werden.
Die Beurteilungswahrscheinlichkeiten p(f_n/c) jedes schwachen Klassifizierers f_n für jedes Element c werden in einer Beurteilungswahrscheinlichkeitstabelle in Verbindung mit dem Indexwert eines entsprechenden der schwachen Klassifizierer f_n beschrieben, und die Beurteilungswahrscheinlichkeitstabelle wird im Voraus in der Datenbank 21 für Information schwacher Klassifizierer gespeichert.
3 zeigt schematisch ein Diagramm zur Veranschaulichung, als ein Beispiel für die in der Beurteilungswahrscheinlichkeitstabelle gespeicherte Information, der positiven Beurteilungswahrscheinlichkeiten für die Gesichtsklasse und der negativen Wahrscheinlichkeiten für die Nicht-Gesichtsklasse. Die horizontale Achse des Diagramms beschreibt die Indexwerte von 1, 2, ..., 50, die 50 schwachen Klassifizierern zugewiesen sind. Für jeden der Indexwerte der 50 schwachen Klassifizierer sind die positiven Beurteilungswahrscheinlichkeiten für die Gesichtsklasse und die negativen Wahrscheinlichkeiten für die Nicht-Gesichtsklasse entlang der vertikalen Achse aufgetragen.
Für jede Klasse sind Daten, die jeden der schwachen Klassifizierer beschreiben, in Verbindung mit entsprechenden Gewichtungen w_n und Indexwerten von diesen in der Datenbank 21 für Information schwacher Klassifizierer gespeichert. Für jede Klasse sind die entsprechenden Gewichtungen w_n der schwachen Klassifizierer auf 1 normiert. D. h., für jede Klasse erfüllen die entsprechenden Gewichtungen w_n der schwachen Klassifizierer die folgende Gleichung (4):
Der Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl weist ferner einen Abschnitt 22 zur Klassifiziererwahl und zum Anwenden und einen Abschnitt 23 zur Berechnung einer Erfassungspunktzahl auf.
Der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden ist dazu ausgelegt, der Reihe nach aus der Datenbank 21 für Information schwacher Klassifizierer schwache Klassifizierer zu wählen, die nacheinander auf ein Objektbild anzuwenden sind. Der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden ist ferner dazu ausgelegt, die der Reihe nach gewählten schwachen Klassifizierer auf das Objektbild anzuwenden, um so f_n, wie beispielsweise 0 oder 1, als Ergebnis jedes Anwendens auszugeben, wobei „n” die gewählte Reihenfolge der schwachen Klassifizierer für das gleiche Objektbild anzeigt, so dass der Ausgang f_n erhalten wird, indem der n-te gewählte schwache Klassifizierer auf das Objektbild angewandt wird.
Es sollte beachtet werden, dass die schwachen Klassifizierer mit ihren jeweiligen Indexwerten 1, 2, ..., Nf bei dieser Ausführungsform der Reihe nach in der Reihenfolge der Indexwerte von 1, 2, ..., Nf gewählt werden.
Der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl ist dazu ausgelegt, auf der Grundlage der Ausgänge f₁, f₂, ..., f_n, die vom Abschnitt 22 zur Klassifiziererwahl und zum Anwenden zugeführt werden, eine Erfassungspunktzahl S^(–) _1:n zu berechnen.
D. h., wenn der n-te gewählte schwache Klassifizierer auf ein momentan extrahiertes Unterbild (Objektbild) angewandt worden ist, beschreibt die Erfassungspunktzahl S^(–) _1:n, die vom Abschnitt 23 zur Berechnung einer Erfassungspunktzahl zu berechnen ist, die Summation der Ausgänge f_m (m = 1, 2, ..., n) der bereits angewandten schwachen Klassifizierer für ein momentan extrahiertes Unterbild (Objektbild); wobei diese bereits angewandten schwachen Klassifizierer jeweils mit den entsprechenden Gewichtungen w_m gewichtet worden sind. D. h., die Erfassungspunktzahl S^(–) _1:n kann durch die folgende Gleichung (5) beschrieben werden.
Ferner weist der Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl einen Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit, einen Abschnitt 25 zur Berechnung einer erwarteten Verteilung und einen Abschnitt 26 für eine fortlaufende Steuerung auf.
Der Abschnitt 24 zur Berechnung einer. Klassenwahrscheinlichkeit ist dazu ausgelegt, die Endwahrscheinlichkeit eines momentan extrahierten Objektbildes, die zu jeder Klasse gehört, zu berechnen, vorausgesetzt, dass die klassifizierten Ergebnisse der bereits angewandten schwachen Klassifizierer erhalten werden; wobei die klassifizierten Ergebnisse der bereits angewandten schwachen Klassifizierer durch ”f_1:n (= f₁, f₂, ..., f_n)” beschrieben werden. Die Endwahrscheinlichkeit wird nachstehend als „Klassenwahrscheinlichkeit p(c|f_1:n)” bezeichnet.
Der Abschnitt 25 zur Berechnung einer erwarteten Verteilung ist dazu ausgelegt, Parameter zu berechnen, die eine erwartete Verteilung der Erfassungspunktzahl beschreiben, die erhalten werden würde, wenn die laufenden schwachen Klassifizierer, die noch nicht auf das Objektbild angewandt worden sind, auf das Objektbild angewandt werden würden. Bei dieser Ausführungsform sind diese Parameter ein Erwartungswert En und eine Varianz Vn der erwarteten Verteilung.
Der Abschnitt 26 für eine fortlaufende Steuerung ist dazu ausgelegt, auf der Grundlage der Erfassungspunktzahl S^(–) _1:n den Erwartungswert En und die Varianz Vn der erwarteten Verteilung zu bestimmen, ob die Verarbeitung des Objektbildes (des momentan extrahierten Unterbildes) fortzusetzen ist, und den Betrieb des Abschnitt 10 zur Extrahierung eines Unterbildes und des Abschnitt 22 zur Klassifiziererwahl und zum Anwenden auf der Grundlage des bestimmten Ergebnisses zu steuern. Der Abschnitt 26 für eine fortlaufende Steuerung ist ferner dazu ausgelegt, eine Beurteilungspunktzahl S(x) des Objektbildes x auszugeben.
Bei dieser Ausführungsform berechnet der Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit die Klassenwahrscheinlichkeit p(c|f_1:n) in Übereinstimmung mit der folgenden Gleichung (6), welche das Bayestheorem beschreibt:
wobei p(c) die Ausgangswahrscheinlichkeit des Objektbildes ist, die zu jeder Klasse gehört, p(c|f_1:n) eine Wahrscheinlichkeit für das Objektbild beschreibt, die zu jeder Klasse gehört, vorausgesetzt, dass die klassifizierten Ergebnisse der bereits angewandten schwachen Klassifizierer erhalten werden, L_n die Beurteilungswahrscheinlichkeiten beschreibt, die vorstehend festgelegt wurden und durch die Gleichung (7) beschrieben werden, und k_n einen Normierungsfaktor beschreibt, der durch die folgende Gleichung (8) beschrieben wird: L_n = p(f_n|c) (7)
Die Wahrscheinlichkeiten, die in der Gleichung (8) enthalten sind, können einfach durch die Beurteilungswahrscheinlichkeit p(f_n|c) berechnet werden.
Insbesondere ergibt eine Multiplikation der vorherigen Klassenwahrscheinlichkeit p(c|f_1:n) mit den Beurteilungswahrscheinlichkeiten p(f_n|c) und eine Normierung des Ergebnisses der Multiplikation bezüglich der Klassen die momentane Klassenwahrscheinlichkeit p(c|f_1:n). Es sollte beachtet werden, dass nachstehend noch beschrieben wird, wie die Gleichung (6) und die Parameter α₀ und β₀, die in der Gleichung (8) auftreten, erhalten werden.
Der Abschnitt 25 zur Berechnung einer erwarteten Verteilung berechnet in Übereinstimmung mit den folgenden Gleichungen (9) und (10) den Erwartungswert En[S_n+1:Nf|f_1:n] und die Varianz Vn[S_n+1:Nf|f_1:n] der erwarteten Verteilung, die erhalten werden würde, wenn die laufenden (nicht angewandten) schwachen Klassifizierer, die noch nicht auf das Objektbild angewandt worden sind, auf das Objektbild angewandt werden würden:
wobei E_n[S_m|f_1:n] in der Gleichung (9) und V_n[S_m|f_1:n] in der Gleichung (10) den Erwartungswert bzw. die Varianz der erwarteten Verteilung von jedem der nicht angewandten schwachen Klassifizierer beschreiben; wobei sie in Übereinstimmung mit den folgenden Gleichungen (11) und (12) berechnet werden können:
Insbesondere beschreibt p(S_m|f_1:n) in der Gleichung (11) eine Wahrscheinlichkeitsverteilungsfunktion und S_m eine Zufallsvariable innerhalb des Bereichs von 0 bis 1. Die Gleichung (12) kann aus der Gleichung (11) gewonnen werden.
Es sollte beachtet werden, dass die Gleichungen (11) und (12) aus den folgenden Gleichungen (13) gewonnen werden können, welche die Verteilung der Punktzahl S_m (= w_mf_m) eines nicht angewandten schwachen Klassifizierers beschreiben, der durch den Indexwert m gekennzeichnet ist:

wobei
α_cm und β_cm Parameter einer Betaverteilung sind, die dazu verwendet werden, die Ausgänge f_1:Nf der mehreren schwachen Klassifizierer zu modellieren, wobei diese Parameter α_cm und β_cm nachstehend noch näher beschrieben werden.
Es sollte beachtet werden, dass δ_x(t) eine Dirac-Delta-Funktion beschreibt, die überall mit Ausnahme von x = t, wo ihr Wert unendlicht hoch ist, so dass ihr Gesamtintegral den Wert 1 ergibt, den Wert Null aufweist. Da die Dirac-Delta-Funktion δ_x(t) die Eigenschaft aufweist, dass ihr Gesamtintegral den Wert 1 aufweist, kann sie dazu verwendet werden, fortlaufende Zufallsvariablen in diskrete Zufallsvariablen zu wandeln.
Insbesondere ist die Punktzahl S_m (= w_mf_m) eine kontinuierliche Zufallsvariable, die ihren Wert anzeigt, so dass jeder schwache Klassifizierer tatsächlich eine entsprechende Gewichtung w_m aufweist. Aus diesem Grund kann die Punktzahl S_m bei der zweiten Gleichung (13) unter Verwendung der Dirac-Delta-Funktion δ_x(t) eine Wahrscheinlichkeit nur bei ihrer entsprechenden Gewichtung w_m aufweisen.
Nachstehend wird beschrieben, wie der rechte Teil in der ersten Gleichung (13) gewonnen wird. Insbesondere kann das Additionstheorem die p(S_m|f_1:n) durch die folgende Gleichung beschreiben:
Das Multiplikationstheorem kann die p(S_m, f_m|f_1:n) durch die folgende Gleichung beschreiben: p(S_m, f_m|f_1:n) = p(S_m|f_m)p(f_m|f_1:n) (13A2)
Das Additionstheorem kann die p(f_m|f_1:n) durch die folgende Gleichung beschreiben:
Eine Substitution der Gleichung (13A3) in die Gleichung (13A2) und eine Substitution der Gleichung (13A2) mit der Gleichung (13A3) in die Gleichung (13A1) ermöglicht es, den oberen Teil der Gleichung (13) zu gewinnen.
Wenn im momentan erfassten Bild keine Unterbilder vorhanden sind, die durch den Abschnitt 10 zur Extrahierung eines Unterbildes neu herauszuschneiden sind, d. h. wenn alle Unterbilder bereits dem Beurteilungspunktzahlgewinnungsprozess unterzogen worden sind, steuert der Abschnitt 26 für eine fortlaufende Steuerung den Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl und den Abschnitt 40 zur Beurteilung einer Gesichtsposition, um zu bewirken, dass der Abschnitt 40 zur Beurteilung einer Gesichtsposition die Erfassung der Gesichtsposition innerhalb des momentan erfassten Bildes ausführt.
Ferner verwendet der Abschnitt 26 für eine fortlaufende Steuerung den Erwartungswert En[S_n+1:Nf|f_1:n] der erwarteten Verteilung als erwartete Punktzahl S (+) / n+1:Nf (siehe Gleichung (9)) und berechnet die Summe der Erfassungspunktzahl S^(–) _1:n, die anhand der Gleichung (14) berechnet wird, und der erwarteten Punktzahl S (+) / n+1:Nf als erwartete endgültige Punktzahl S_1:Nf. Anschließend berechnet der Abschnitt 26 für eine fortlaufende Steuerung einen Verteilungsbereich von einem oberen Grenzwert SH zu einem unteren Grenzwert SL in Übereinstimmung mit den folgenden Gleichungen (15) und (16): S_1:Nf = S (–1) / 1:n + S (+) / n+1:Nf (14)
wobei F_s einen Sicherheitsfaktor beschreibt und durch die folgende Gleichung (17) beschrieben werden kann:
wobei a ein Penalty-Faktor ist, der bestimmt wird, um den Faktor F_s der Sicherheit zu erhöhen, um den Verteilungsbereich zu vergrößern, wenn die Anzahl n von angewandten schwachen Klassifizierern gering ist, b eine ganze Zahl von größer oder gleich 1 ist, welche den Betrag des Faktors F_s der Sicherheit bestimmt, und σ einen Faktor beschreibt, welcher den Grad der Verringerung des Faktors F_s der Sicherheit mit einer Zunahme in der Anzahl von angewandten schwachen Klassifizierern beschreibt. Diese Werte a, b und σ können durch Tests, Simulationen oder dergleichen bestimmt werden. √V _n beschreibt die Standardabweichung der erwarteten Verteilung, d. h. die Quadratwurzel der Varianz V_n.
Entweder die Bestimmung des Penalty-Faktors a oder das Festlegen von b auf einen Wert von größer oder gleich 1 hält die Zuverlässigkeit bei der Bestimmung, ob der Prozess bezüglich des momentanen Objektbildes zu beenden ist, bei einem hohen Pegel aufrecht.
Der Abschnitt 26 für eine fortlaufende Steuerung vergleicht ferner den oberen Grenzwert SH und/oder den unteren Grenzwert SL des Verteilungsbereichs mit einem im Voraus festgelegten Schwellenwert TH, wie beispielsweise bei dieser Ausführungsform einem Wert von 0,5. Insbesondere kann der Schwellenwert TH für gewöhnlich beispielsweise auf die Hälfte der maximalen Erfassungspunktzahl (die Erfassungspunktzahl, wenn alle der mehreren schwachen Klassifizierer für das Objektbild sensitiv sind) festgelegt werden, um zu bestimmen, ob das Objektbild ein Gesichtsbild ist, auf der Grundlage des Mehrheitsprinzips der Beurteilungsergebnisse der mehreren schwachen Klassifizierer.
Der Abschnitt 26 für eine fortlaufende Steuerung bestimmt ferner, dass die erwartete endgültige Punktzahl S_1:Nf in ausreichender Weise zuverlässig ist, wenn der obere Grenzwert SH geringer als der Schwellenwert TH ist oder der untere Grenzwert SL größer als der Schwellenwert TH ist, um so den Prozess bezüglich des momentanen Objektbildes abzubrechen. Anschließend speichert der Abschnitt 26 für eine fortlaufende Steuerung die erwartete endgültige Punktzahl S_1:Nf zu diesem Zeitpunkt als die Beurteilungspunktzahl S(x) im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl, steuert den Abschnitt 10 zur Extrahierung eines Unterbildes, um ein neues Unterbild als neues Objektbild zu extrahieren und steuert die Abschnitte des Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl, um so den Prozess zur Gewinnung einer Beurteilungspunktzahl bezüglich des neuen Objektbildes auszuführen.
Demgegenüber bestimmt der Abschnitt 26 für eine fortlaufende Steuerung, dass die erwartete endgültige Punktzahl S_1:Nf nicht in ausreichender Weise zuverlässig ist, wenn der obere Grenzwert SH größer oder gleich dem Schwellenwert TH und der untere Grenzwert SL kleiner oder gleich dem Schwellenwert TH ist, um so den Prozess bezüglich des momentanen Objektbildes fortzusetzen, d. h. er wählt wiederholt den nächsten schwachen Klassifizierer und wendet den gewählten schwachen Klassifizierer auf das Objektbild an.
Wenn das Anwenden von allen schwachen Klassifizierern auf das momentane Objektbild abgeschlossen ist, ohne beendet zu werden, gibt der Abschnitt 26 für eine fortlaufende Steuerung die Erfassungspunktzahl S^(–) _1:Nf als die Beurteilungspunktzahl S(x) aus.
Prozess zur Gewinnung einer Klassenwahrscheinlichkeit
Wie aus der Gleichung (6) ersichtlich, welche das Bayestheorem beschreibt, kann die Klassenwahrscheinlichkeit p(c|f_1:Nf) als die Endwahrscheinlichkeit des Objektbildes, die zu jeder Klasse gehört, auf der Grundlage der Wahrscheinlichkeit p(f_1:Nf|c) für das Objektbild, die zu jeder Klasse gehört, vorausgesetzt, dass die klassifizierten Ergebnisse der bereits angewandten schwachen Klassifizierer erhalten werden, und der Vorwahrscheinlichtkeit p(c) des Objektbildes, die zu jeder Klasse gehört, vorausgesetzt, dass die klassifizierten Ergebnisse der bereits angewandten schwachen Klassifizierer erhalten werden, berechnet werden.
Da die klassifizierten Ergebnisse f_1:Nf = (f₁, f₂, ..., f_Nf) diskrete Variablen sind, die jeweils den Wert 0 oder 1 annehmen, wird angenommen, dass die klassifizierten Ergebnisse f_1:Nf stochastisch in Übereinstimmung mit einer Bernoulli-Verteilung mit Parametern μ_c = (μ_c1, μ_c2, ..., μ_cNf) erzeugt werden. In der Annahme, dass die einzelnen schwachen Klassifizierer wechselseitig unabhängig sind, wird die folgende Gleichung (18) erstellt:
In der Annahme, dass jeder der Parameter μ_c eine kontinuierliche Variable ist, die einen Wert von 0 bis 1 annimmt und auf der Grundlage einer Betaverteilung mit Parametern α_c, β_c erzeugt wird, die vor der Bernoulli-Verteilung einer Konjugierten entspricht, wird die folgende Gleichung (19) gewonnen:
wobei Γ(x) eine Gamma-Funktion ist, die durch die folgende Gleichung (20) definiert wird:
Ein Ausgrenzen (Herausintegrieren) der Parameter u_c aus der Gleichung (19) ermöglicht es, dass die Wahrscheinlichkeit p(f_1:Nf|c) für jede Klasse durch die folgende Gleichung (21) beschrieben werden kann:
wobei Γ(x + 1) = xΓ(x) ist, wenn eine positive reelle Zahl x größer 0 ist.
In gleicher Weise wird in der Annahme, dass die Klassenelemente c stochastisch in Übereinstimmung mit einer Bernoulli-Verteilung mit einem Parameter u₀ erzeugt werden, die folgende Gleichung (22) gewonnen. Ferner kann in der Annahme, dass der Parameter u₀ auf der Grundlage einer Betaverteilung mit Parametern α₀, β₀ erzeugt wird, die folgende Gleichung (23) gewonnen werden: p(c|μ₀) = Beru(c|μ₀) = μ c / 0 (1 – μ₀)^1–c (22)
Ein Ausgrenzen (Herausintegrieren) der Parameter u₀ aus der Gleichung (23) ermöglicht es, dass die Ausgangswahrscheinlichkeit p(c) für jede Klasse durch die folgende Gleichung (24) beschrieben werden kann:
wobei α₀ und β₀ ohne Kenntnis von μ₀ auf 1 gesetzt werden.
Folglich kann unter Verwendung der Gleichungen (21) und (24) und des Bayestheorems die Klassenwahrscheinlichkeit p(c|f_1:Nf) für jede Klasse in Übereinstimmung mit der folgenden Gleichung (25) erhalten werden:
Es sollte beachtet werden, dass die Gleichung (25) die Klassenwahrscheinlichkeit beschreibt, wenn alle der Nf schwachen Klassifizierer auf das Objektbild angewandt werden. Die Gleichung (6) wird gewonnen, indem die Gleichung (25) derart geändert wird, dass die Klassenwahrscheinlichkeit p(c|f_1:n) auf der Grundlage des zuvor berechneten Ergebnisses p(c|f_1:n–1) aktualisiert wird, jedes Mal, wenn ein schwacher Klassifizierer auf das Objektbild angewandt wird.
Betriebsabläufe
Nachstehend wird der gesamte Verarbeitungsablauf des Abschnitts 5 zur Erfassung einer Gesichtsposition unter Bezugnahme auf das in der 4 gezeigte Ablaufdiagramm beschrieben.
Wenn ein erfasstes Bild vom Abschnitt 3 zur Erfassung eines Bildes an den Abschnitt 5 zur Erfassung einer Gesichtsposition gegeben wird, initialisiert der Abschnitt 10 zur Extrahierung eines Unterbildes in Schritt S110 die Größe und die Position des Abtastfensters (Extrahierungsfensters). Die Größe und die Position werden anschließend in einer vorbestimmten Reihenfolge geändert. Die Größe des Abtastfensters wird anschließend in Schritt S120 gewählt, und in Schritt S130 wird die Position für das Abtastfenster gewählt, woraufhin in Schritt S130 ein neues Unterbild mit der Größe und der Position entsprechend der Größe des gewählten Abtastfensters aus dem erfassten Bild extrahiert wird.
Bei dieser Ausführungsform wird bei der ersten Ausführung in Schritt 120 auf den Schritt S110 folgend die kleinste Größe des Abtastfensters gewählt. Anschließend werden bei den folgenden Ausführungen von Schritt S120 nacheinander größere Größen der Abtastfenster gewählt. Bei der ersten Ausführung von Schritt S130 auf den Schritt S120 folgend wird das Abtastfenster auf die obere ganz linke Position im erfassten Bild gesetzt, um ein Unterbild zu extrahieren, das sich an dieser Position befindet. Anschließend wird das Abtastfenster bei den folgenden Ausführungen von Schritt S130 zur Abtastung nacheinander von links nach rechts (Hauptabtastrichtung) geführt und von oben nach unten (sekundäre Abtastrichtung) des erfassten Bildes geführt, um aufeinander folgende Unterbilder zu extrahieren.
In Schritt S140 erzeugt der Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl die Beurteilungspunktzahl S(x) und speichert die Beurteilungspunktzahl S(x) in Verbindung mit dem entsprechenden Objektbild x im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl.
Wenn die Beurteilungspunktzahl S(x) derart erzeugt wird, dass der Prozess für das momentan extrahierte Unterbild (Objektbild) abgeschlossen ist, beurteilt der Abschnitt 10 zur Extrahierung eines Unterbildes in Schritt S150, ob das Abtastfenster das schrittweise Verschieben von der oberen linke Ecke zur unteren rechten Ecke des erfassten Bildes abgeschlossen hat. Wenn dies noch nicht abgeschlossen worden ist, schreitet der Ablauf zu Schritt S130 voran, um ein neues Unterbild zu extrahieren, und wird die Verarbeitung der Schritte S130 bis S140 für das in Schritt S130 extrahierte Unterbild wiederholt.
Wenn in Schritt S150 beurteilt wird, dass das schrittweise Verschieben des Abtastfensters abgeschlossen worden ist, wird bestimmt, dass die Verarbeitung unter Verwendung der momentan festgelegten Größe des Abtastfensters abgeschlossen ist. Anschließend beurteilt der Abschnitt 10 zur Extrahierung eines Unterbildes in Schritt S160, ob ein Abtasten des erfassten Bildes für alle Abtastfenstergrößen abgeschlossen ist. Wenn irgendeine Größe noch nicht gewählt worden ist, kehrt der Ablauf zu Schritt S120 zurück und werden die Schritt S120 bis S150 mit einer neuen Größe des Abtastfensters, die in Schritt S120 gewählt wird, wiederholt.
Wenn in Schritt S160 ermittelt wird, dass die Verarbeitung des Objektbildes unter Verwendung alle Abtastfenstergrößen abgeschlossen ist, führt der Abschnitt 40 zur Beurteilung einer Gesichtsposition anschließend, da dies kennzeichnet, dass die erforderliche Verarbeitung des erfassten Bildes vollständig abgeschlossen worden ist, die Gesichtspositionsbeurteilung aus. Insbesondere beurteilt der Abschnitt 40 zur Beurteilung einer Gesichtsposition die Beurteilungspunktzahl S(x), die im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahlgespeichert ist, um das mit der höchsten Beurteilungspunktzahl S(x) verknüpfte Unterbild zu bestimmen. Die Gesichtsposition wird anschließend in Schritt S170 als die Position des Unterbildes innerhalb des erfassten Bildes beurteilt. Anschließend endet die Verarbeitung.
Nachstehend wird der in Schritt S140 vom Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl auszuführende Betrieb vollständig unter Bezugnahme auf das in der 5 gezeigte Ablaufdiagramm beschrieben. Zur Vereinfachung der Beschreibung wird der Indexwert (x) aus den verschiedenen Bezugszeichen, die nachstehend zur Beschreibung des Betriebs verwendet werden, ausgelassen. So wird beispielsweise der Ausgang f_n(x) eines schwachen Klassifizierers nachstehend als f_n bezeichnet.
Wenn ein momentan extrahiertes Unterbild (Objektbild) dem Abschnitt 22 zur Klassifiziererwahl und zum Anwenden zugeführt wird, löscht der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl eine zuvor berechnete und gespeicherte Erfassungspunktzahl S^(–) _1:n auf Null, um sie in Schritt S210 zu initialisieren. In gleicher Weise überschreibt der Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit in Schritt S210 eine berechnete und gespeicherte Klassenwahrscheinlichkeit p(c|f_1:n) mit einem Wert „1/Y”, um sie so zu initialisieren; wobei Y die Anzahl von Klassen in Schritt S210 beschreibt.
Anschließend wählt der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden in Schritt S220 einen schwachen Klassifizierer unter den mehreren schwachen Klassifizierern und wendet den gewählten schwachen Klassifizierer auf das Objektbild an, um so den Ausgang f_n des gewählten schwachen Klassifizierers als Ergebnis der Anwendung (der Klassifizierung) zu erhalten. Es sollte beachtet werden, dass n die gewählte Reihenfolge der schwachen Klassifizierer für das gleiche Objektbild derart beschreibt, dass der Ausgang f_n erhalten wird, indem der n-te gewählte schwache Klassifizierer auf das Objektbild angewandt wird.
Anschließend multipliziert der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl den Ausgang f_n des gewählten schwachen Klassifizierers mit einer entsprechenden Gewichtung w_n, um so einen Wert w_nf_n zu berechnen, und addiert den Wert w_nf_n zur zuvor berechneten und gespeicherten Erfassungspunktzahl S^(–) _1:n–1, um so die zuvor berechnete und gespeicherte Erfassungspunktzahl S^(–) _1:n–1 zu einer Erfassungspunktzahl S^(–) _1:n zu aktualisieren, die durch ”S^(–) _1:n = S^(–) _1:n–1 + w_nf_n” beschrieben wird; wobei der Wert der zuvor berechneten und gespeicherten Erfassungspunktzahl S^(–) _1:n–1 auf Null initialisiert worden ist, wenn in Schritt S240 n = 1 ist.
Anschließend bestimmt der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl in Schritt S240, ob alle schwachen Klassifizierer auf das momentane Objektbild anzuwenden sind, d. h. ob der momentan gewählte und angewandte schwache Klassifizierer der Nf-te schwache Klassifizierer ist.
Wenn bereits alle schwachen Klassifizierer auf das momentane Objektbild angewandt worden sind (JA in Schritt S240), gibt der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl die in Schritt S230 berechnete Erfassungspunktzahl S^(–) _1:Nf als die Beurteilungspunktzahl S aus, um diese so in Schritt S330 im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl zu speichern, woraufhin der Ablauf zu Schritt S150 der in der 4 gezeigten Hauptroutine zurückkehrt.
Andernfalls, wenn wenigstens ein nicht angewandter schwacher Klassifizierer unter allen schwachen Klassifizierer zurückbleibt (NEIN in Schritt S240), berechnet der Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit die Klassenwahrscheinlichkeit p(c|f_1:n) in Übereinstimmung mit der Gleichung (6) und aktualisiert eine zuvor berechnete und gespeicherte Klassenwahrscheinlichkeit p(c|f_1:n–1) zur Klassenwahrscheinlichkeit p(c|f_1:n). Es sollte beachtet werden, dass die Klassenwahrscheinlichkeit p(c|f_1:n) in Schritt S250 berechnet wird, um sowohl für die Gesichtsklasse (c = 1) als auch für die Nicht-Gesichtsklasse (c = 0) aktualisiert zu werden.
Auf die Aktualisierung der Klassenwahrscheinlichkeit folgend berechnet der Abschnitt 25 zur Berechnung einer erwarteten Verteilung auf der Grundlage der aktualisierten Klassenwahrscheinlichkeit p(c|f_1:n) in Übereinstimmung mit den Gleichungen (9) und (10) in Schritt S260 die Parameter (Erwartungswert En[S_n+1:Nf|f_1:n] und die Varianz Vn[S_n+1:Nf|f_1:n] der erwarteten Verteilung, die erhalten werden würde, wenn der wenigstens eine nicht angewandte schwache Klassifizierer, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde.
Anschließend berechnet der Abschnitt 26 für eine fortlaufende Steuerung in Schritt S270 die erwartete endgültige Punktzahl S_1:Nf, indem er in Übereinstimmung mit der Gleichung (14) den Erwartungswert En[S_n+1:Nf|f_1:n] der erwarteten Verteilung, die in Schritt S260 berechnet wird, als die erwartete Punktzahl S (+) / n+1:Nf zur Erfassungspunktzahl S^(–) _1:n addiert, die in Schritt S230 berechnet wird.
In Schritt S270 berechnet der Abschnitt 26 für eine fortlaufende Steuerung ferner in Übereinstimmung mit den Gleichungen (15) und (16) den Verteilungsbereich vom oberen Grenzwert SH zum unteren Grenzwert SL und bestimmt, ob der obere Grenzwert SH geringer als der Schwellenwert TH ist. Wenn der obere Grenzwert SH größer oder gleich dem Schwellenwert TH ist (NEIN in Schritt S270), bestimmt der Abschnitt 26 für eine fortlaufende Steuerung in Schritt S280, ob der untere Grenzwert SL über dem Schwellenwert TH liegt.
Wenn der obere Grenzwert SH größer oder gleich dem Schwellenwert TH ist (NEIN in Schritt S270) und der untere Grenzwert SL kleiner oder gleich dem Schwellenwert TH ist (NEIN in Schritt S280), bestimmt der Abschnitt 26 für eine fortlaufende Steuerung, dass die Genauigkeit der Vorhersage unzureichend ist, woraufhin er zu Schritt S220 zurückkehrt und die Verarbeitung bezüglich des momentanen Objektbildes in den Schritten S220 bis S280 fortsetzt.
Andernfalls bestimmt der Abschnitt 26 für eine fortlaufende Steuerung dann, wenn entweder der obere Grenzwert SH kleiner als der Schwellenwert TH ist (JA in Schritt S270) oder der untere Grenzwert SL größer als der Schwellenwert TH ist (JA in Schritt S280), dass die Genauigkeit der Vorhersage ausreichend ist. Folglich gibt der Abschnitt 26 für eine fortlaufende Steuerung die erwartete endgültige Punktzahl S_1:Nf als die Beurteilungspunktzahl S aus, um sie im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl zu speichern, woraufhin der Ablauf zu Schritt S150 der in der 4 gezeigten Hauptroutine zurückkehrt.
Vorteile
Das Fahrerassistenzsystem 1 dieser Ausführungsform ist, wie vorstehend beschrieben, dazu ausgelegt, zu beurteilen, ob die nicht angewandten schwachen Klassifizierer fortlaufend auf das Objektbild anzuwenden sind oder das Objektbild frühzeitig zu löschen ist, auf der Grundlage von: nicht nur der Erfassungspunktzahl S^(–) _1:n basierend auf den klassifizierten Ergebnissen der bereits angewandten schwachen Klassifizierer, sondern ebenso der Verhaltensweisen der nicht angewandten schwachen Klassifizierer, die erhalten werden würden, denn die nicht angewandten schwachen Klassifizierer, die noch nicht auf das Objektbild angewandt worden sind, auf das Objektbild angewandt würden.
Insbesondere wird die Beurteilung ausgeführt, indem als die Verhaltensweisen die Parameter der erwarteten Verteilung (der Erwartungswert En[S_n+1:Nf|f_1:n] und die Varianz Vn[S_n+1:Nf|f_1:n] der Erfassungspunktzahl der nicht angewandten schwachen Klassifizierer, die erhalten werden würde, wenn die nicht angewandten schwachen Klassifizierer auf das Objektbild angewandt werden würden, erhalten werden.
Mit der Konfiguration des Fahrerassistenzsystems 1 ist es möglich, die Information der nicht angewandten schwachen Klassifizierer durchaus zu verwenden, um so zu bestimmen, ob die Objektbild frühzeitig zu löschen ist. Folglich verringert die Konfiguration die Zeit, die erforderlich ist, um die Gesichtsposition zu erkennen, ohne dass die Robustheit der Erkennung verringert wird, so dass eine Fahrerassistenzsteuerung hoher Zuverlässigkeit bereitgestellt werden kann.
Es sollte beachtet werden, dass bei dieser Ausführungsform die mehreren schwachen Klassifizierer, die in der Datenbank 21 für Information schwacher Klassifizierer gespeichert werden, als Klassifizierungseinheit dienen, der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden als Anwendungseinheit dient und der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl als Punktzahlberechnungseinheit dient. Ferner dient der Abschnitt 25 zur Berechnung einer erwarteten Verteilung als Verteilungsberechnungseinheit, dient der Abschnitt 26 für eine fortlaufende Steuerung als Einheit für eine frühzeitige Beurteilung, dient die Datenbank 21 für Information schwacher Klassifizierer als Speichereinheit und dient der Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit als Wahrscheinlichkeitsberechnungseinheit.
Zweite Ausführungsform
Nachstehend wird ein in einem Fahrzeug installiertes Fahrerassistenzsystem beschrieben, auf das eine Bilderkennungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung angewandt wird.
Der Aufbau des Fahrerassistenzsystems der zweiten Ausführungsform entspricht mit Ausnahme der folgenden Punkte im Wesentlichen demjenigen des Fahrerassistenzsystems 1 der ersten Ausführungsform. Gleiche Teile und Systemabschnitte beider Ausführungsformen, die mit den gleichen Bezugszeichen versehen sind, werden nachstehend nicht wiederholt oder nur kurz beschrieben.
Bei der zweiten Ausführungsform unterscheiden sich der Betrieb, der vom Abschnitt 22 zur Klassifiziererwahl und zum Anwenden in Schritt S220 auszuführen ist, und ein Teil des Betriebs, der vom Abschnitt 25 zur Berechnung einer erwarteten Verteilung auszuführen ist, von den entsprechenden Betriebsabläufen der ersten Ausführungsform.
Der Abschnitt 25 zur Berechnung einer erwarteten Verteilung berechnet in Schritt S260a, wie in 5 gezeigt, in Übereinstimmung mit den Gleichungen (9) und (10) auf der Grundlage der aktualisierten Klassenwahrscheinlichkeit p(c|f_1:n) die Parameter (Erwartungswert En[S_n+1:Nf|f_1:n] und die Varianz Vn[S_n+1:Nf|f_1:n] der erwarteten Verteilung, die erhalten werden würden, wenn der wenigstens eine nicht angewandte schwache Klassifizierer, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde.
Anschließend speichert der Abschnitt 25 zur Berechnung einer erwarteten Verteilung in Schritt S260a Information, wie beispielsweise den Indexwert, des schwachen Klassifizierers mit der höchsten Varianz Vn[S_n+1:Nf|f_1:n].
In Schritt S220a wählt der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden den schwachen Klassifizierer unter den mehreren schwachen Klassifizierern; wobei dieser gewählte schwache Klassifizierer der Information entspricht, die im vorherigen Verarbeitungszyklus bezüglich des Objektbildes erhalten und im Abschnitt 25 zur Berechnung einer erwarteten Verteilung gespeichert wird. Es sollte beachtet werden, dass der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden bei dem ersten Verarbeitungszyklus bezüglich des Objektbildes einen zuvor bestimmten schwachen Klassifizierer, wie beispielsweise einen schwachen Klassifizierer mit der höchsten Gewichtung oder dergleichen, wählen kann oder einen schwachen Klassifizierer zufällig wählen kann.
Vorteile
Mit dem Fahrerassistenzsystem der zweiten Ausführungsform kann die Varianz Vn[S_n+1:Nf|f_1:n] der erwarteten Verteilung unmittelbar verringert werden, um so die frühe Beurteilung früher als bei der ersten Ausführungsform auszuführen. Folglich kann die Zeit, die erforderlich ist, um die Gesichtsposition im erfassten Bild zu erkennen, weiter verringert werden.
Tests
Es wurden Tests ausgeführt, um die Effektivität des Bilderkennungsmittels (der Bilderkennungsverfahren) der ersten und der zweiten Ausführungsform zu bestätigen.
6 zeigt schematisch einen Satz vieler Trainingsbilder, die für die Tests zu verwenden sind, und einen Satz vieler Testbilder, die hierfür zu verwenden sind.
Ein Satz vieler Bilder wurde in einem Zielfahrzeug aufgenommen. In jedem der aufgenommenen Bilder wurde ein geeigneter Gesichtsbereich manuell festgelegt. Anschließend wurde der Gesichtsbereich zufällig in Position und/oder Größe derart verschoben, dass ein Satz vieler Gesichtsbilder für ein Training von mehreren schwachen Klassifizierern erzeugt wurde. Ferner wurde ein Satz vieler Bilder, die jeweils einen Teil des geeigneten Gesichtsbereichs in jedem der aufgenommenen Bilder aufweisen und den geeigneten Gesichtsbereich nicht aufweisen, als ein Satz vieler Nicht-Gesichtsbilder für ein Training der mehreren schwachen Klassifizierer erzeugt.
Unter tatsächlichen Bedingungen kann es im Wesentlichen nicht möglich sein, einen Satz mit vielen Trainingsbildern vorzubereiten, die alle verschiedenen Beleuchtungszustände aufweisen, die zu erwarten sind, und die alle verschiedenen Fahrergesichter aufweisen, die zu erwarten sind. Aus diesem Grund muss jedes der Bilderkennungsverfahren der ersten und der zweiten Ausführungsform Gesichtsbilder erkennen, die in vielen Bildern vorhanden sind, die unter verschiedenen Umständen erfasst werden. Um zu überprüfen, ob jedes der Bilderkennungsverfahren der ersten und der zweiten Ausführungsform eine höhere Einsatzflexibilität und Robustheit aufweist, wurde eine hohe Anzahl von Bildern von Fahrern in einem Fahrzeug unter verschiedenen Umgebungszuständen erfasst, wie beispielsweise mit verschiedenen Bilderfassungsvorrichtungen, verschiedenen Bedienern als die Fahrer und verschiedenen Beleuchtungszuständen. Bei der hohen Anzahl von erfassten Bildern wurden viele Gesichtsbilder und viele Nicht-Gesichtsbilder erzeugt und wurden diese Gesichtsbild und diese Nicht-Gesichtsbilder als ein Satz von Testbildern verwendet.
Das erste Bilderkennungsverfahren der ersten Ausführungsform, das als „ClassProb-Verfahren” bezeichnet wird, und das zweite Bilderkennungsverfahren der zweiten Ausführungsform, das als „AS-Boost” bezeichnet wird, wurden unter Verwendung von 1000 schwachen Klassifizierern zur Erkennung der Gesichtsbilder in den Testbildern durchgeführt.
Ferner wurde das dritte Bilderkennungsverfahren als erstes Vergleichsbeispiel, das als „Normal Boost” bezeichnet wird, unter Verwendung der 1000 schwachen Klassifizierer zur Erkennung der Gesichtsbilder in den Testbildern ausgeführt, ohne hierfür eine frühe Beurteilung vorzunehmen. Das vierte Bilderkennungsverfahren als zweites Vergleichsbeispiel, das als „Viola & Jones Verfahren” bezeichnet und im Referenzdokument 1 beschrieben wird, wurde unter Verwendung der 1000 schwachen Klassifizierer zur Erkennung der Gesichtsbilder in den Testbildern durchgeführt.
Es sollte beachtet werden, dass die 1000 schwachen Klassifizierer (Nf = 1000) unter Verwendung des AdaBoost-Algorithmus und des Satzes von Trainingsbildern trainiert wurden und jeder der 1000 schwachen Klassifizierer Klassifizierungen des Satzes von Testbildern auf der Grundlage der „Haar-like Features” ausgeführt hat, ähnlich der ersten und der zweiten Ausführungsform.
Bei dem ersten und dem zweiten Bilderkennungsverfahren, die bei der ersten und der zweiten Ausführungsform beschrieben werden, werden die Parameter a, b, and σ, welche den Faktor F_s der Sicherheit bestimmen, der in der Gleichung (17) beschrieben wird, auf 9 bzw. 3 bzw. Nf/6,25 gesetzt. Da der Parameter σ in Abhängigkeit der Anzahl Nf der mehreren schwachen Klassifizierer bestimmt wird, ist das Verhalten des Faktors F_s der Sicherheit unabhängig von der Anzahl Nf der mehreren schwachen Klassifizierer gleich.
7A zeigt schematisch das Verhalten der Erfassungspunktzahl S^(–) _1:n, der erwarteten Punktzahl S (+) / n+1:Nf , des oberen Grenzwerts SH des Verteilungsbereichs und des unteren Grenzwerts SL des Verteilungsbereichs über der Anzahl (n) von angewandten schwachen Klassifizierern; wobei diese Datenelemente S^(–) _1:n, S (+) / n+1:Nf , SH und SL berechnet wurden, wenn alle der Nf schwachen Klassifizierer auf ein Gesichtsbild, das als Objektbild in der Gesichtsklasse enthalten ist, angewandt wurden.
7B zeigt in ähnlicher Weise schematisch das Verhalten der Erfassungspunktzahl S^(–) _1:n, der erwarteten Punktzahl S (+) / n+1:Nf , des oberen Grenzwerts SH des Verteilungsbereichs und des unteren Grenzwerts SL des Verteilungsbereichs über der Anzahl (n) von angewandten schwachen Klassifizierern; wobei diese Datenelemente S^(–) _1:n, S (+) / n+1:Nf , SH und SL berechnet wurden, wenn alle der Nf schwachen Klassifizierer auf ein Nicht-Gesichtsbild, das als Objektbild in der Nicht-Gesichtsklasse enthalten ist, angewandt wurden.
Tests zur Erkennung der Testbilder unter Verwendung jedes Verfahrens der Verfahren („ClassProb”, „AS Boost”, „Normal Boost”, „Viola & Jones”) wurden ausgeführt. Die Ergebnisse der Tests, die für jedes Verfahren der Verfahren („ClassProb”, „AS Boost”, „Normal Boost”, „Viola & Jones”) erhalten wurden, umfassen die Wahrscheinlichkeit (Falsch-Positiv-Rate), dass Nicht-Gesichtsbilder inkorrekt als Gesichtsbilder erkannt werden, die Wahrscheinlichkeit (Miss-Rate), dass Gesichtsbilder nicht erfasst werden, um so als Nicht-Gesichtsbilder erfasst zu werden, und eine durchschnittliche Anzahl von angewandten schwachen Klassifizierern vor der Beurteilung.
8A zeigt schematisch für jedes der Verfahren („ClassProb”, „AS Boost”, „Normal Boost”, „Viola & Jones”) die Falsch-Positiv-Rate, die Miss-Rate und die durchschnittliche Anzahl von angewandten schwachen Klassifizierern vor der Beurteilung.
8B zeigt schematisch für jedes der Verfahren („ClassProb”, „AS Boost”, „Normal Boost”, „Viola & Jones”) die Erfassungsfehlerrate als die Summe der Falsch-Positiv-Rate und der Miss-Rate, wenn die Anzahl (Nf) der mehreren schwachen Klassifizierer geändert wird.
Die 7A und 7B zeigen, dass sowohl das erste als auch das zweite Bilderkennungsverfahren („ClassProb” und „AS Boost”) die endgültige Beurteilungspunktzahl in einer deutlich frühen Stufe bei der Anzahl von angewandten schwachen Klassifizierern von 50 oder ungefähr 50 vorhersagen kann und die Zuverlässigkeit der erwarteten Punktzahl erhöhen kann, d. h. die Varianz der erwarteten Verteilung verringern kann, wenn die Anzahl von angewandten schwachen Klassifizierern zunimmt. Folglich ermöglicht sowohl das erste als auch das zweite Bilderkennungsverfahren („ClassProb” und „AS Boost”) eine frühe Beurteilung an dem Punkt „X”, der bei weniger als 200 angewandten schwachen Klassifizierern liegt.
8A zeigt, dass sowohl das erste als auch das zweite Bilderkennungsverfahren („ClassProb” und „AS Boost”):
die Erfassungsfehlerrate derart verringert, dass diese kleiner oder gleich derjenigen des ersten Vergleichsbeispiels (Normal Boost) ist,
die Anzahl von angewandten schwachen Klassifizierern verglichen mit derjenigen des zweiten Vergleichsbeispiels („Viola & Jones”) derart verringert, dass deren Beurteilungszeitpunkt vor demjenigen des zweiten Vergleichsbeispiels („Viola & Jones”) liegt, und
die Erfassungsfehlerrate derart verringert, dass diese geringer als diejenige des zweiten Vergleichsbeispiels („Viola & Jones”) ist.
Insbesondere verringert das zweite Bilderkennungsverfahren („AS Boost”) die Anzahl von angewandten schwachen Klassifizierern derart, dass diese im Wesentlichen bei der Hälfte von derjenigen des zweiten Vergleichsbeispiels („Viola & Jones”) liegt.
Ferner zeigt die 8B, dass das Ergebnis des zweiten Vergleichsbeispiels („Viola & Jones”) dahingehend eine Tendenz aufweist, dass die entsprechende Erfassungsfehlerrate mit einer zunehmender Anzahl von allen schwachen Klassifizierern zunimmt. Demgegenüber zeigt die Leistung von sowohl dem ersten als auch dem zweiten Bilderkennungsverfahren („ClassProb-Verfahren” und „AS Boost”), dass die entsprechende Erfassungsfehlerrate kleiner oder gleich derjenigen des ersten Vergleichsbeispiels (Normal Boost) ist, ungeachtet der Anzahl von allen schwachen Klassifizierern. Ferner wird selbst dann verhindert, dass die Leistung von sowohl dem ersten als auch dem zweiten Bilderkennungsverfahren („ClassProb-Verfahren” und „AS Boost”) verringert wird, wenn die Anzahl aller schwachen Klassifizierer zunimmt, und wird die Leistung von sowohl dem ersten als auch dem zweiten Bilderkennungsverfahren bei einem im Wesentlichen konstanten Pegel gehalten, ungeachtet der Zunahme in der Anzahl aller schwachen Klassifizierer. Insbesondere zeigt das Ergebnis des zweiten Bilderkennungsverfahrens („AS Boost”), dass im Wesentlichen 400 schwache Klassifizierer das im Wesentlichen Beste aus dem zweiten Bilderkennungsverfahren herausholen können.
Aus dem vorstehend Demonstrierten folgt, dass sowohl das erste als auch das zweite Bilderkennungsverfahren („ClassProb-Verfahren” und „AS Boost”) im Gegensatz zum zweiten Vergleichsbeispiel sowohl eine frühzeitige Beurteilung als auch eine Robustheit auf ihren hohen Niveaus erzielen, und zwar unabhängig von der Anzahl aller schwachen Klassifizierer.
Die vorliegende Erfindung ist nicht auf die erste und die zweite Ausführungsform beschränkt, sondern kann auf verschiedene Weise innerhalb ihres Schutzumfangs modifiziert werden.
Bei sowohl der ersten als auch der zweiten Ausführungsform liegt die Anzahl von Klassen bei zwei, kann die Anzahl von Klassen jedoch auf einen Wert von größer oder gleich drei gesetzt werden. So kann die Gesichtsklasse, zu der Gesichtsbilder gehören, beispielsweise in mehrere Unterklassen unterteilt werden, von denen beispielsweise eine Gesichtsbilder mit Brillen und eine andere Gesichtsbilder mit Sonnenbrillen aufweist.
Bei dieser Modifikation kann eine Gruppe von schwachen Klassifizierern unter mehreren schwachen Klassifizierern für jede der Klassen einschließlich der Unterklassen und der Nicht-Gesichtsklassen festgelegt werden. Ein Satz von Klassen einschließlich der Unterklassen und der Nicht-Gesichtsklassen kann als C gegeben sein, und Elemente von sowohl den Unterklassen als auch der Nicht-Gesichtsklasse können als c gegeben sein. So weisen beispielsweise Elemente der Unterklassen verschiedene Werte auf und weist jedes Element c der Nicht-Gesichtsklasse den Wert 0 auf. Wenn die Parameter c verwendet werden, können die Beurteilungswahrscheinlichkeiten von jedem schwachen Klassifizierer f_n für jedes Element c durch ”p(f_n|c)” beschrieben werden.
Die Gesichtspositionserfassungsvorrichtung kann dazu ausgelegt sein, eine entsprechende Klasse für jeden der gewählten schwachen Klassifizierer auf der Grundlage der entsprechenden Beurteilungswahrscheinlichkeit zu schätzen und schwache Klassifizierer, die auf eine Objektbild anzuwenden sind, auf der Grundlage der geschätzten Klasse zu wechseln, um so eine Bilderkennung des Objektbildes auszuführen. Bestimmte Verfahren dieser Modifikation sind beispielsweise aus der US 2009/0304290 A1 , welche der JP 2009-295100 entspricht, bekannt. Da das obige US-Patentdokument auf die gleiche Anmelderin zurückzuführen ist, von der auch diese Anmeldung stammt, wird auf dieses US-Patentdokument vollinhaltlich Bezug genommen.
Bei sowohl der ersten als auch der zweiten Ausführungsform werden schwache Klassifizierer dazu verwendet, eine Erkennung von erfassten Bildern auszuführen, können jedoch trainierte Klassifizierer, untrainierte Klassifizierer und starke Klassifizierer dazu verwendet werden, eine Erkennung von erfassten Bildern auszuführen.
Obgleich die vorliegende Erfindung vorstehend in Verbindung mit ihren Ausführungsformen und Modifikationen beschrieben wurde, sollte wahrgenommen werden, dass sie auf verschiedene Weise modifiziert werden kann, ohne ihren Schutzumfang zu verlassen, so wie er in den beigefügten Ansprüchen dargelegt wird.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- JP 2009-176474 [0001]
- US 7099510 [0011]
- US 2009/0304290 A1 [0151]
- JP 2009-295100 [0151]

Claims

Bilderkennungsvorrichtung mit: – einer Klassifizierungseinheit mit mehreren Klassifizierern, wobei die mehreren Klassifizierer dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen; – einer Anwendungseinheit, die dazu ausgelegt ist, die Klassifizierer der Reihe nach zu wählen und die gewählten Klassifizierer der Reihe nach auf ein eingegebenes Bild als ein Objektbild anzuwenden; – einer Punktzahlberechnungseinheit, die dazu ausgelegt ist, jedes Mal, wenn einer der Klassifizierer durch die Anwendungseinheit auf das Objektbild angewandt wird, eine Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch die Anwendungseinheit bereits auf das Objektbild angewandt wurde, zu berechnen, um so eine Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird; – einer Verteilungsberechnungseinheit, die dazu ausgelegt ist, jedes Mal, wenn einer der Klassifizierer durch die Anwendungseinheit auf das Objektbild angewandt wird, eine erwartete Verteilung der Erfassungspunktzahl zu berechnen, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde; und – einer Beurteilungseinheit, die dazu ausgelegt ist, auf der Grundlage der von der Verteilungsberechnungseinheit berechneten erwarteten Verteilung zu beurteilen, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch die Anwendungseinheit zu beenden ist.
Bilderkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Beurteilungseinheit aufweist: – eine Einheit zur Gewinnung einer erwarteten Punktzahl und eines Verteilungsbereichs, die dazu ausgelegt ist, Folgendes zu gewinnen: – eine erwartete Punktzahl, indem sie die Erfassungspunktzahl zu einem Erwartungswert der erwarteten Verteilung addiert, und – einen Verteilungsbereich, der von einem oberen Grenzwert zu einem unteren Grenzwert auf der Grundlage einer Varianz der erwarteten Verteilung definiert ist; und – eine Vergleichseinheit, die dazu ausgelegt ist: – sowohl den oberen Grenzwert als auch den unteren Grenzwert des Verteilungsbereichs mit einem vorbestimmten Schwellenwert zu vergleichen; und – die erwartete Punktzahl als endgültige Erfassungspunktzahl für das Objektbild festzulegen, um das Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch die Anwendungseinheit zu beenden.
Bilderkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass – der wenigstens eine nicht angewandte Klassifizierer in einer Mehrzahl vorgesehen ist; – die Verteilungsberechnungseinheit dazu ausgelegt ist, eine individuelle erwartete Verteilung für jeden der mehreren nicht angewandten Klassifizierer zu berechnen, und dazu ausgelegt ist, einen Erwartungswert und/oder eine Varianz der erwarteten Verteilung der Erfassungspunktzahl zu berechnen, indem sie die individuellen erwarteten Verteilungen für die mehreren nicht angewandten Klassifizierer integriert; und – die Anwendungseinheit dazu ausgelegt ist, einen der mehreren nicht angewandten Klassifizierer, der als nächstes auf das Objektbild anzuwenden ist, zu wählen, wobei der eine der mehreren nicht angewandten Klassifizierer die höchste Varianz unter den mehreren nicht angewandten Klassifizierern aufweist.
Bilderkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass – das Objektbild in einer Mehrzahl eingegeben wird, derart, dass die Anwendungseinheit dazu ausgelegt ist, die Klassifizierer der Reihe nach zu wählen und die gewählten Klassifizierer der Reihe nach auf ein momentan eingegebenes Objektbild unter den mehreren Objektbildern anzuwenden, wobei die Bilderkennungsvorrichtung ferner aufweist: – eine Speichereinheit, die dazu ausgelegt ist, Information zu speichern, wobei die Information für jede von mehreren im Voraus festgelegten Klassen zur Klassifizierung der mehreren Objektbilder eine erste Beurteilungswahrscheinlichkeit von jedem der Klassifizierer aufweist, der zu einer positiven Beurteilung bezüglich wenigstens eines der Objektbilder führt, das zu einer entsprechenden Klasse der mehreren Klassen gehört, und eine zweite Beurteilungswahrscheinlichkeit von jedem der Klassifizierer aufweist, der zu einer positiven Beurteilung bezüglich wenigstens eines der Objektbilder führt, das nicht zu einer entsprechenden Klasse der mehreren Klassen gehört; und – eine Wahrscheinlichkeitsberechnungseinheit, die dazu ausgelegt ist, für jede der mehreren Klassen eine spätere Wahrscheinlichkeit des momentan eingegebenen Objektbildes zu berechnen, das zu einer entsprechenden Klasse der mehreren Klassen gehört, wobei – die Verteilungsberechnungseinheit dazu ausgelegt ist, die erwartete Verteilung der Erfassungspunktszahl auf der Grundlage der späteren Wahrscheinlichkeit und der in der Speichereinheit gespeicherten Information zu berechnen.
Bilderkennungsvorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass der wenigstens eine nicht angewandte Klassifizierer in einer Mehrzahl vorgesehen ist und die Einheit zur Gewinnung einer erwarteten Punktzahl und eines Verteilungsbereichs dazu ausgelegt ist: – einen zulässigen Wert zu gewinnen, indem sie eine Standardabweichung der erwarteten Verteilung mit einem Sicherheitsfaktor multipliziert, der derart bestimmt wird, dass er mit einer zunehmenden Anzahl der mehreren nicht angewandten Klassifizierer verringert wird, und – eine Addition des zulässigen Werts zu der erwarteten Punktzahl und/oder eine Subtraktion des zulässigen Werts von der erwarteten Punktzahl auszuführen, um so den oberen Grenzwert und den unteren Grenzwert des definierten Verteilungsbereichs zu berechnen.
Bilderkennungsvorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass der Sicherheitsfaktor auf der Grundlage einer Anzahl der mehreren Klassifizierer, welche die Klassifizierungseinheit bilden, normiert wird.
Bilderkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass – das Objektbild in einer Mehrzahl eingegeben wird, derart, dass die Anwendungseinheit dazu ausgelegt ist, die Klassifizierer der Reihe nach zu wählen und die gewählten Klassifizierer der Reihe nach auf ein momentan eingegebenes Objektbild unter den mehreren Objektbildern anzuwenden, wobei – jedes der mehreren Objektbilder ein Unterbild ist, das durch ein Extrahierungsfenster vorbestimmter Größe aus einem erfassten Bild extrahiert wird, das wenigstens einen Fahrer eines Fahrzeugs beinhaltet, und – mehrere im Voraus festgelegte Klassen zur Klassifizierung der mehreren Objektbilder eine Gesichtsklasse, zu der ein oder mehrere Objektbilder mit einem vorbestimmten Gesichtsbereich des wenigstens einen Fahrers gehören, und eine Nicht-Gesichts-Klasse, zu der ein oder mehrere Objektbilder ohne den vorbestimmten Gesichtsbereich des wenigstens einen Fahrers gehören, aufweisen.
Bilderkennungsverfahren mit den Schritten: – Bereitstellen von mehreren Klassifizierern, wobei die mehreren Klassifizierer dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen; – Wählen der Klassifizierer der Reihe nach; – Anwenden der gewählten Klassifizierer der Reihe nach auf ein eingegebenes Bild als ein Objektbild; – Berechnen jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, einer Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch das Anwenden bereits auf das Objektbild angewandt wurde, um so eine Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird; – Berechnen jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, einer erwarteten Verteilung der Erfassungspunktzahl, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde; und – Beurteilen auf der Grundlage der erwarteten Verteilung, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch das Anwenden zu beenden ist.
Bilderkennungsverfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Beurteilung ferner die folgenden Schritte umfasst: – Gewinnen: – einer erwarteten Punktzahl durch Addieren der Erfassungspunktzahl zu einem Erwartungswert der erwarteten Verteilung, und – eines Verteilungsbereichs, der von einem oberen Grenzwert zu einem unteren Grenzwert auf der Grundlage einer Varianz der erwarteten Verteilung definiert wird; – Vergleichen sowohl des oberen Grenzwerts als auch des unteren Grenzwerts des Verteilungsbereichs mit einem vorbestimmten Schwellenwert; und – Festlegen der erwarteten Punktzahl als endgültige Erfassungspunktzahl für das Objektbild, um das Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch das Anwenden zu beenden.
Computerprogrammprodukt mit: – einem auf einem Computer verwendbaren Medium; und – einem Satz von Computerprogrammbefehlen, die auf dem auf einem Computer verwendbaren Medium enthalten sind, einschließlich der Befehle, um: – mehrere Klassifizierer der Reihe nach zu wählen, wobei die mehreren Klassifizierer dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster aufweisen; – die gewählten Klassifizierer der Reihe nach auf ein eingegebenes Bild als ein Objektbild anzuwenden; – jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, eine Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch den Anwendungsbefehl bereits auf das Objektbild angewandt wurde, zu berechnen, um so eine Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird; – jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf das Objektbild angewandt wird, eine erwartete Verteilung der Erfassungspunktzahl zu berechnen, die erhalten werden würde, wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern, der noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild angewandt werden würde; und – auf der Grundlage der erwarteten Verteilung zu beurteilen, ob ein Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch den Anwendungsbefehl zu beenden ist.
Computerprogrammprodukt nach Anspruch 10, dadurch gekennzeichnet, dass der Beurteilungsbefehl Befehle umfasst, um: – eine erwartete Punktzahl zu gewinnen, indem die Erfassungspunktzahl zu einem Erwartungswert der erwarteten Verteilung addiert wird; – einen Verteilungsbereichs zu gewinnen, der von einem oberen Grenzwert zu einem unteren Grenzwert auf der Grundlage einer Varianz der erwarteten Verteilung definiert wird; – sowohl den oberen Grenzwert als auch den unteren Grenzwert des Verteilungsbereichs mit einem vorbestimmten Schwellenwert zu vergleichen; und – die erwartete Punktzahl als endgültige Erfassungspunktzahl für das Objektbild festzulegen, um das Anwenden des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild durch den Anwendungsbefehl zu beenden.