-
QUERVERWEIS AUF VERWANDTE
ANMELDUNGEN
-
Diese
Anmeldung basiert auf der am 29. Juli 2009 eingereichten
japanischen Patentanmeldung Nr. 2009-176474 .
Diese Anmeldung beansprucht die Priorität der japanischen
Patentanmeldung, auf deren Offenbarung hiermit vollinhaltlich Bezug
genommen wird.
-
GEBIET DER ERFINDUNG
-
Die
vorliegende Erfindung betrifft Bilderkennungsvorrichtungen mit mehreren
Klassifizierern.
-
HINTERGRUND DER ERFINDUNG
-
Bekannt
sind Fahrerassistenzsysteme, welche die Augen eines Fahrers unter
Verwendung von Bildern überwachen, die von einer fahrzeuginternen
Kamera aufgenommen werden, um so zu erfassen, ob der Fahrer unaufmerksam
ist oder etwas übersieht, um so eine entsprechende Warnung
an den Fahrer auszugeben. Insbesondere sind diese Fahrerassistenzsysteme
dazu ausgelegt, Gesichtsbilder, die jeweils einen Gesichtsbereich
(Gesichtsmuster) enthalten, aus nacheinander eingegebenen Bildern
zu extrahieren, die von einer fahrzeuginternen Kamera aufgenommen
werden; wobei der Gesichtsbereich vorbestimmte Gesichtsmerkmale
aufweist, wie beispielsweise das rechte und das linke Auge, die
Nase und den Mund des Fahrers. Diese Fahrerassistenzsysteme sind
ferner dazu ausgelegt, den Ort des Gesichts innerhalb des Gesichtsbildes
zu erfassen. Um Anforderungen zur Verbesserung der Fahrzeugsicherheit
zu erfüllen, ist es für diese Fahrerassistenzsysteme
von Bedeutung, die Position des Gesichts innerhalb des Gesichtsbildes
unmittelbar mit hoher Genauigkeit zu erfassen.
-
Boosting,
welches mehrere schwache Klassifizierer trainiert, ist als Maschine-Lern-Algorithmus
bekannt. Eine Verwendung der Kombination der verstärkten
schwachen Klassifizierer zu Erkennung eines Zielbildes, wie beispielsweise
eines Gesichtsbildes, in mehreren Bilden gewährleistet
die Genauigkeit und Robustheit der Ziel-Bild-Erkennung.
-
Nachstehend
wird der Boosting-Algorithmus in der Annahme beschrieben, dass:
ein eingegebenes Bild (als ein Array von Pixeln) als x gegeben ist,
der Ausgang eines n-ten trainierten schwachen Klassifizierers unter
mehreren schwachen Klassifizierern als fn(x)
gegeben ist, die Gewichtung oder Bedeutung, welche dem n-ten trainierten
schwachen Klassifizierer verliehen wird, als wn gegeben
ist, und die Anzahl der mehreren schwachen Klassifizierer als Nf
gegeben ist.
-
Bei
dem Boosting-Algorithmus wird eine Punktzahl S
1:Nf(x)
als die Summation der Ausgänge f
n(x)
(n = 1, 2, ..., Nf) der trainierten schwachen Klassifizierer, die
jeweils mit den Gewichtungen w
n (n = 1,
2, ..., Nf) gewichtet werden, durch die folgende Gleichung (1) beschrieben:
wobei
die Gewichtungen w
n normiert werden, um
die folgende Gleichung (2) zu erfüllen:
-
Anschließend
wird der Ausgang F
1:Nf(x) der Kombination
der trainierten schwachen Klassifizierer auf der Grundlage der Punktzahl
S
1:Nf(x) in Übereinstimmung mit
der folgenden Gleichung (3) bestimmt:
-
Insbesondere
ist dann, wenn die Punktzahl S1:Nf(x) der
Ausgänge fn(x) (n = 1, 2, ...,
Nf) der trainierten schwachen Klassifizierer, die jeweils mit den
Gewichtungen wn (n = 1, 2, ..., Nf) gewichtet
werden, größer oder gleich einem Schwellenwert
von 0,5 ist, der endgültige Ausgang der Kombination der
trainierten schwachen Klassifizierer ein Wert von „1” entsprechend
WAHR; wobei dieser Wert „1” zeigt, dass das eingegebene
Bild x wahrscheinlich ein Gesichtsbild ist. D. h., der Boosting-Algorithmus
erkennt, dass das eingegebene Bild x ein Zielbild ist, das wahrscheinlich
einen Gesichtsbereich enthält.
-
Andernfalls
ist dann, wenn die Punktzahl S1:Nf(x) der
Ausgänge fn(x) (n = 1, 2, ...,
Nf) der trainierten schwachen Klassifizierer, die jeweils mit den
Gewichtungen wn (n = 1, 2, ..., Nf) gewichtet
werden, geringer als der Schwellenwert von 0,5 ist, der endgültige
Ausgang der Kombination der trainierten schwachen Klassifizierer
ein Wert von „0” entsprechend FALSCH; wobei dieser
Wert „0” anzeigt, dass das eingegebene Bild x
wahrscheinlich kein Gesichtsbild ist. D. h., der Boosting-Algorithmus
erkennt, dass das eingegebene Bild x kein Objektbild ist, das wahrscheinlich
einen Gesichtsbereich enthält.
-
Der
Boosting-Prozess benötigt, wie vorstehend beschrieben,
eine hohe Anzahl von schwachen Klassifizierern, um die Genauigkeit
und/oder Robustheit bei der Objektbilderkennung zu verbessern. Umso
mehr jedoch die Anzahl der zu verwendenden schwachen Klassifizierer
zunimmt, desto mehr Zeit ist erforderlich, um zu erkennen, ob das
eingegebene Bild ein Objektbild ist. Genauer gesagt, es besteht
ein Trade-off-Verhältnis (Abwägen) zwischen der
Robustheit der Objektbilderkennung und deren Geschwindigkeit.
-
Die
US 7,099,510 offenbart einen
Algorithmus, der als Viola- & Jones-Algorithmus
bezeichnet und basierend auf dem Boosting-Algorithmus entwickelt
ist; wobei diese Patentdruckschrift nachstehend als Referenzdokument
1 bezeichnet wird.
-
Insbesondere
verwendet der Viola- & Jones-Algorithmus
eine Kaskade von mehreren Klassifizierern auf der Grundlage des
Boosting-Algorithmus. Der Viola- & Jones-Algorithmus
wendet die Reihe von Klassifizierern auf jedes eingegebene Bild
in der Reihenfolge von der Anfangsstufe bis zur letzten Stufe an.
Jeder der Klassifizierer berechnet für jedes eingegebene
Bild die Punktzahl als die Summation der Ausgänge der angewandten
Klassifizierer. Jeder der Klassifizierer verwirft einige der eingegebenen
Bilder, deren Punktzahl geringer als ein Schwellenwert ist, der
auf der Grundlage der Anzahl von angewandten Stufen vorbestimmt
ist, um sie auf diese Weise frühzeitig als negative Bilder
zu entfernen, auf die keine anschließenden Stufen angewandt werden.
Dieser Algorithmus kann eine Objektbilderkennung beschleunigen.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Die
Erfinder der vorliegenden Erfindung haben entdeckt, dass bei dem
herkömmlichen Bilderkennungsalgorithmus unter Verwendung
der Kaskade von Klassifizierern ein Problem auftritt.
-
Insbesondere
kann der herkömmliche Bilderkennungsalgorithmus Klassifizierer
stromabwärts des Klassifizierers, der eine frühzeitige
Entfernung vornimmt, nicht verwenden. Dies ist entgegen dem Zweck
des Boosting, das eine Objektbilderkennung mit hoher Genauigkeit
mit Hilfe von vielen schwachen Klassifizieren erzielt. Folglich
kann es passieren, dass der herkömmliche Bilderkennungsalgorithmus
die inhärente Robustheit des Boosting verringert, so dass
es schwierig wird, den Trade-Off zwischen der Objektbilderkennung
und deren Geschwindigkeit zu verringern.
-
Es
ist angesichts der vorstehend beschriebenen Umstände Aufgabe
der vorliegenden Erfindung, Bilderkennungsvorrichtungen und Bilderkennungsverfahren
bereitzustellen, die dazu ausgelegt sind, das vorstehend beschriebene
Problem zu lösen.
-
Es
ist insbesondere Aufgabe der vorliegenden Erfindung, Bilderkennungsvorrichtungen
und Bilderkennungsverfahren bereitzustellen, die dazu in der Lage
sind, ein frühzeitiges Entfernen von negativen Bildern vorzunehmen,
ohne ihre Robustheit zu verringern.
-
Gemäß einer
Ausgestaltung der vorliegenden Erfindung wird eine Bilderkennungsvorrichtung
bereitgestellt. Die Bilderkennungsvorrichtung weist eine Klassifizierungseinheit
mit mehreren Klassifizierern auf. Die mehreren Klassifizierer sind
dazu ausgelegt, für Bilder sensitiv zu sein, die jeweils
verschiedene bestimmte Muster aufweisen. Die Bilderkennungsvorrichtung
weist eine Anwendungseinheit auf, die dazu ausgelegt ist, die Klassifizierer
der Reihe nach zu wählen und die gewählten Klassifizierer
der Reihe nach auf ein eingegebenes Bild als ein Objektbild anzuwenden.
Die Bilderkennungsvorrichtung weist eine Punktzahlberechnungseinheit
auf, die dazu ausgelegt ist, jedes Mal, wenn einer der Klassifizierer
durch die Anwendungseinheit auf das Objektbild angewandt wird, eine
Summation eines Ausgangs von wenigstens einem Klassifizierer, der durch
die Anwendungseinheit bereits auf das Objektbild angewandt wurde,
zu berechnen, um so eine Erfassungspunktzahl als die Summation zu
erhalten, wobei der Ausgang des wenigstens einen bereits angewandten
Klassifizierers mit einer entsprechenden Gewichtung gewichtet wird.
Die Bilderkennungsvorrichtung weist eine Verteilungsberechnungseinheit
auf, die dazu ausgelegt ist, jedes Mal, wenn einer der Klassifizierer
durch die Anwendungseinheit auf das Objektbild angewandt wird, eine
erwartete Verteilung der Erfassungspunktzahl zu berechnen, die erhalten
werden würde, wenn wenigstens ein nicht angewandter Klassifizierer
unter den Klassifizierern, der noch nicht auf das Objektbild angewandt
worden ist, auf das Objektbild angewandt werden würde.
Die Bilderkennungsvorrichtung weist eine Beurteilungseinheit auf,
die dazu ausgelegt ist, auf der Grundlage der von der Verteilungsberechnungseinheit
berechneten erwarteten Verteilung zu beurteilen, ob ein Anwenden
des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild
durch die Anwendungseinheit zu beenden ist.
-
Gemäß einer
ersten alternativen Ausgestaltung der vorliegenden Erfindung wird
ein Bilderkennungsverfahren bereitgestellt. Das Verfahren umfasst
die folgenden Schritte: Bereitstellen von mehreren Klassifizierern,
wobei die mehreren Klassifizierer dazu ausgelegt sind, für
Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster
aufweisen; Wählen der Klassifizierer der Reihe nach; und
Anwenden der gewählten Klassifizierer der Reihe nach auf
ein eingegebenes Bild als ein Objektbild. Das Verfahren umfasst
den Schritt Berechnen jedes Mal, wenn einer der Klassifizierer durch
das Anwenden auf das Objektbild angewandt wird, einer Summation
eines Ausgangs von wenigstens einem Klassifizierer, der durch das
Anwenden bereits auf das Objektbild angewandt wurde, um so eine
Erfassungspunktzahl als die Summation zu erhalten, wobei der Ausgang
des wenigstens einen bereits angewandten Klassifizierers mit einer entsprechenden
Gewichtung gewichtet wird. Das Verfahren umfasst die Schritte Berechnen
jedes Mal, wenn einer der Klassifizierer durch das Anwenden auf
das Objektbild angewandt wird, einer erwarteten Verteilung der Erfassungspunktzahl,
die erhalten werden würde, wenn wenigstens ein nicht angewandter
Klassifizierer unter den Klassifizierern, der noch nicht auf das
Objektbild angewandt worden ist, auf das Objektbild angewandt werden
würde; und Beurteilen auf der Grundlage der erwarteten
Verteilung, ob ein Anwenden des wenigstens einen nicht angewandten
Klassifizierers auf das Objektbild durch das Anwenden zu beenden
ist.
-
Gemäß einer
zweiten alternativen Ausgestaltung der vorliegenden Erfindung wird
ein Computerprogrammprodukt bereitgestellt. Das Computerprogrammprodukt
weist auf: ein auf einem Computer verwendbares Medium und einen
Satz von Computerprogrammbefehlen, die auf dem auf einem Computer
verwendbaren Medium enthalten sind, einschließlich der
Befehle, um: mehrere Klassifizierer der Reihe nach zu wählen,
wobei die mehreren Klassifizierer dazu ausgelegt sind, für
Bilder sensitiv zu sein, die jeweils verschiedene bestimmte Muster
aufweisen; die gewählten Klassifizierer der Reihe nach
auf ein eingegebenes Bild als ein Objektbild anzuwenden; jedes Mal,
wenn einer der Klassifizierer durch das Anwenden auf das Objektbild
angewandt wird, eine Summation eines Ausgangs von wenigstens einem
Klassifizierer, der durch den Anwendungsbefehl bereits auf das Objektbild
angewandt wurde, zu berechnen, um so eine Erfassungspunktzahl als
die Summation zu erhalten, wobei der Ausgang des wenigstens einen
bereits angewandten Klassifizierers mit einer entsprechenden Gewichtung
gewichtet wird; jedes Mal, wenn einer der Klassifizierer durch das
Anwenden auf das Objektbild angewandt wird, eine erwartete Verteilung
der Erfassungspunktzahl zu berechnen, die erhalten werden würde,
wenn wenigstens ein nicht angewandter Klassifizierer unter den Klassifizierern,
der noch nicht auf das Objektbild angewandt worden ist, auf das
Objektbild angewandt werden würde; und auf der Grundlage
der erwarteten Verteilung zu beurteilen, ob ein Anwenden des wenigstens
einen nicht angewandten Klassifizierers auf das Objektbild durch
den Anwendungsbefehl zu beenden ist.
-
Bei
diesen Ausgestaltungen der vorliegenden Erfindung werden mehrere
Klassifizierer, die dazu ausgelegt sind, für Bilder sensitiv
zu sein, die jeweils verschiedene bestimmte Muster aufweisen, der
Reihe nach gewählt, um nacheinander auf ein eingegebenes
Bild als ein Objektbild angewandt zu werden.
-
Jedes
Mal, wenn einer der Klassifizierer auf das Objektbild angewandt
wird, wird eine Summation eines Ausgangs von wenigstens einem Klassifizierer,
der bereits auf das Objektbild angewandt wurde, derart berechnet,
dass eine Erfassungspunktzahl als die Summation erhalten wird; wobei
dieser Ausgang des wenigstens einen bereits angewandten Klassifizierers
mit einer entsprechenden Gewichtung gewichtet wird. Ferner wird
jedes Mal, wenn einer der Klassifizierer auf das Objektbild angewandt
wird, eine erwartete Verteilung der Erfassungspunktzahl berechnet,
die erhalten werden würde, wenn wenigstens ein nicht angewandter
Klassifizierer unter den Klassifizierern, der noch nicht auf das
Objektbild angewandt worden ist, auf das Objektbild angewandt werden
würde.
-
Auf
der Grundlage der erwarteten Verteilung wird beurteilt, ob ein Anwenden
des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild
zu beenden ist.
-
Es
sollte beachtet werden, dass ein Klassifizierer, der dazu ausgelegt
ist, für ein Bild sensitiv zu sein, das ein bestimmtes
Muster aufweist, bedeutet, dass der Klassifizierer eine positive
Beurteilung für das Objektbild aufweist.
-
Mit
der Konfiguration jeder Ausgestaltung der vorliegenden Erfindung
wird beurteilt, ob das Anwenden des wenigstens einen nicht angewandten
Klassifizierers auf das Objektbild zu beenden ist, und zwar nicht
nur auf der Grundlage der Erfassungspunktzahl basierend auf dem
klassifizierten Ergebnis des bereits angewandten Klassifizierers,
sondern ebenso der erwarteten Verteilung des wenigstens einen nicht
angewandten Klassifizierers, die erhalten werden würde,
wenn der wenigstens eine nicht angewandte Klassifizierer, der noch nicht
auf das Objektbild angewandt worden ist, auf das Objektbild angewandt
werden würde.
-
Folglich
ist es möglich, durchaus die Information der nicht angewandten
Klassifizierer zu verwenden, um so zu bestimmen, ob das Anwenden
des wenigstens einen nicht angewandten Klassifizierers auf das Objektbild
zu beenden ist. Dies verringert die Zeit, die erforderlich ist,
um das Objektbild zu erkennen, ohne dass die Robustheit der Erkennung
verringert wird.
-
KURZE BESCHREIBUNG DER ZEICHNUNG
-
Weitere
Aufgaben und Ausgestaltungen der vorliegenden Erfindung werden aus
der nachfolgenden detaillierten Beschreibung, die unter Bezugnahme
auf die beigefügte Zeichnung gemacht wurde, näher
ersichtlich sein. In der Zeichnung zeigt:
-
1 ein
schematisches Blockdiagramm zur Veranschaulichung eines Beispiels
des Gesamtaufbaus eines Fahrerassistenzsystems, auf das eine Bilderkennungsvorrichtung
der ersten Ausführungsform der vorliegenden Erfindung angewandt
wird;
-
2 ein
detailliertes Blockdiagramm zur Veranschaulichung eines in der 1 gezeigten
Abschnitts zur Erfassung einer Gesichtsposition;
-
3 ein
Diagramm zur Veranschaulichung, als ein Beispiel von Information,
die in einer Beurteilungswahrscheinlichkeitstabelle einer in der 2 gezeigten
Datenbank für Information schwacher Klassifizierer gespeichert
ist, von positiven Beurteilungswahrscheinlichkeiten für
eine Gesichtsklasse und negativen Wahrscheinlichkeiten für
eine Nicht-Gesichtsklasse gemäß der ersten Ausführungsform;
-
4 ein
schematisches Ablaufdiagramm zur Veranschaulichung eines gesamten
Verarbeitungsablaufs des in den 1 und 2 gezeigten
Abschnitts zur Erfassung einer Gesichtsposition;
-
5 ein
schematische Ablaufdiagramm zur Veranschaulichung eines Ablaufs
in Schritt S140 der 4, der von einem in der 2 gezeigten
Abschnitt zur Erzeugung einer Beurteilungspunktzahl auszuführen
ist;
-
6 eine
schematische Ansicht zur Veranschaulichung eines Satzes von vielen
Trainingsbildern, die für Tests zu verwenden sind, und
eines Satzes von vielen Testbilden, die dafür zu verwenden
sind, gemäß der ersten und der zweiten Ausführungsform;
-
7A ein
schematisches Diagramm zur Veranschaulichung des Verhaltens einer
Erfassungspunktzahl, einer erwarteten Punktzahl, eines oberen Grenzwerts
eines Verteilungsbereichs und eines unteren Grenzwerts des Verteilungsbereichs
entlang der Anzahl (n) von angewandten schwachen Klassifizierern
gemäß der ersten und der zweiten Ausführungsform;
wobei diese Datenelemente berechnet werden, wenn alle der Nf schwachen
Klassifizierer auf ein Gesichtsbild, das in der Gesichtsklasse als
ein Objektbild enthalten ist, angewandt werden;
-
7B ein
schematisches Diagramm zur Veranschaulichung des Verhaltens der
Erfassungspunktzahl, der erwarteten Punktzahl, des oberen Grenzwerts
des Verteilungsbereichs und des unteren Grenzwerts des Verteilungsbereichs
entlang der Anzahl (n) von angewandten schwachen Klassifizierern;
wobei diese Datenelemente berechnet werden, wenn alle der Nf schwachen
Klassifizierer auf ein Nicht-Gesichtsbild, das in der Nicht-Gesichtsklasse
als ein Objektbild enthalten ist, angewandt werden;
-
8A eine
schematische Tabelle zur Veranschaulichung, für jedes Verfahren
von Verfahren („ClassProb”, „AS Boost”, „Normal
Boost”, „Viola & Jones”),
einer Falsch-Positiv-Rate, einer Fehlrate und einer durchschnittlichen
Anzahl von angewandten schwachen Klassifizierern vor der Beurteilung;
und
-
8B ein
schematisches Diagramm zur Veranschaulichung, für jedes
der Verfahren („ClassProb”, „AS Boost”, „Normal
Boost”, „Viola & Jones”),
einer Erfassungsfehlerrate als die Summe der Falsch-Positiv-Rate
und der Fehlrate, wenn sich die Anzahl (Nf) von mehreren schwachen
Klassifizierern ändert.
-
DETAILLIERTE BESCHREIBUNG
DER AUSFÜHRUNGSFORMEN DER ERFINDUNG
-
Nachstehend
werden die Ausführungsformen der vorliegenden Erfindung
unter Bezugnahme auf die beigefügte Zeichnung beschrieben.
In der Zeichnung sind gleiche entsprechende Komponenten mit den
gleichen Bezugszeichen versehen.
-
Erste Ausführungsform
-
1 zeigt
ein in einem Fahrzeug installiertes Fahrerassistenzsystem 1,
auf das eine Bilderkennungsvorrichtung der ersten Ausführungsform
der vorliegenden Erfindung angewandt wird.
-
Das
Fahrerassistenzsystem 1 weist einen Abschnitt 3 zur
Erfassung eines Bildes, einen Abschnitt 5 zur Erfassung
einer Gesichtsposition, einen Abschnitt 7 zur Erfassung
von Augen und. einen Abschnitt 9 zur Steuerung einer Fahrerunterstützung
auf.
-
Der
Abschnitt 3 zur Erfassung eines Bildes ist dazu ausgelegt,
Bilder eines Bereichs zu Erfassen, welcher das Gesicht des Fahrers
beinhaltet, und diese Bilder an den Abschnitt 5 zur Erfassung
einer Gesichtsposition zu geben; wobei jedes der erfassten Bilder
als ein Array von Pixeln dargestellt wird, die aus digitalisierten Lichtintensitätswerten
bestehen. Der Abschnitt 5 zur Erfassung einer Gesichtsposition
ist dazu ausgelegt, die Position des Gesichts des Fahrzeugführers
in jedem der erfassten Bilder vom Abschnitt 3 zur Erfassung
eines Bildes zu erfassen.
-
Der
Abschnitt 7 zur Erfassung von Augen ist dazu ausgelegt,
die Augen des Fahrers zu erfassen, auf der Grundlage eines erfassten
Bildes, das vom Abschnitt 3 zur Erfassung eines Bildes
zugeführt wird, und Gesichtspositionsinformation, die vom
Abschnitt 5 zur Erfassung einer Gesichtsposition zugeführt
wird; wobei diese Gesichtspositionsinformation die erfasste Position
des Gesichts des Fahrzeugführers innerhalb jedes erfassten
Bildes beschreibt.
-
Die
Vorrichtung 9 zur Steuerung einer Fahrerunterstützung
ist dazu ausgelegt, auf der Grundlage der Ergebnisse der Erfassung,
die vom Abschnitt 5 zur Erfassung einer Gesichtsposition
zugeführt werden, zu beurteilen, ob die Augen des Fahrzeugführers
in einem normalen oder ungewöhnlichen Zustand, wie beispielsweise
dann, wenn der Blick abseits der Straße gerichtet ist,
erscheinen. Die Vorrichtung 9 zur Steuerung einer Fahrerunterstützung
ist ferner dazu ausgelegt, ein Warnsignal zu erzeugen, wenn ein
ungewöhnlicher Zustand erfasst wird.
-
Der
Abschnitt 3 zur Erfassung eines Bildes dieser Ausführungsform
ist beispielsweise aus einer digitalen CCD-(ladungsträgergekoppelten)-Videokamera,
die aufeinander folgende Bilder erfasst, welche den Kopf des Fahrzeugführers
enthalten, und einer LED-Lampe, welche das Gesicht des Fahrzeugführers
beleuchtet, aufgebaut. Die LED-Lampe strahlt Licht im nahen Infrarotbereich
ab, so dass Bilder auch während eines nächtlichen
Betriebs erfasst werden können. Der Abschnitt 3 zur
Erfassung eines Bildes ist beispielsweise auf dem Fahrzeugarmaturenbrett
befestigt, kann jedoch in der Instrumententafel, der Lenksäule,
dem Rückspiegel oder dergleichen angeordnet sein. Obgleich
bei dieser Ausführungsform eine LED-Lampe verwendet wird,
wäre es ebenso möglich, andere Arten von Lampen
zu verwenden oder die Lampe wegzulassen.
-
Der
Abschnitt 7 zur Erfassung von Augen und der Abschnitt 9 zur
Steuerung einer Fahrerunterstützung führen bekannte
Arten von Verarbeitungen aus, die nicht direkt mit den Grundsätzen
der vorliegenden Erfindung zusammenhängen, so dass eine
Beschreibung dieser Abschnitte nachstehend nicht erfolgt.
-
Abschnitt zur Erfassung einer
Gesichtsposition
-
2 zeigt
ein detailliertes Blockdiagramm des Abschnitts 5 zur Erfassung
einer Gesichtsposition; wobei dieser Abschnitt 5 zur Erfassung
einer Gesichtsposition einer Bilderkennungsvorrichtung dieser Ausführungsform
der vorliegenden Erfindung entspricht. Die Bezeichnung „Gesichtsposition”,
sowie sie in dieser Anmeldung verwendet wird, bezieht sich auf die
Position eines rechteckigen Bereichs beschränkter Größe
(Gesichtsbereich) innerhalb eines erfassten Bildes, das vom Abschnitt 3 zur
Erfassung eines Bildes zugeführt wird; wobei dieser rechteckige
Gesichtsbereich beschränkter Größe die
Augen, die Nase und den Mund eines Gesichts enthält, wobei
dieser Gesichtsbereich vorzugsweise die geringste Größe
aufweist, welche diese Merkmale beinhalten kann. Solch ein Gesichtsbereich
ist in der 6 durch das Bezugszeichen A
gekennzeichnet und wird nachstehend auch als „Gesichtsbild” bezeichnet.
-
Es
sollte beachtet werden, dass Bilder in zwei Klassen unterteilt werden;
wobei eine dieser Klassen, zu welcher die Gesichtsbilder gehören,
als „Gesichtsklasse” bezeichnet wird, und die
andere dieser Klassen, zu der Nicht-Gesichtsbilder mit Ausnahme
der Gesichtsbilder gehören, als „Nicht-Gesichtsklasse” bezeichnet wird.
-
Die
Abschnitt 5 zur Erfassung einer Gesichtsposition weist,
wie in 2 gezeigt, einen Abschnitt 10 zur Extrahierung
eines Unterbildes, einen Abschnitt 20 zur Erzeugung einer
Beurteilungspunktzahl, einen Abschnitt 30 zur Speicherung
einer Beurteilungspunktzahl und einen Abschnitt 40 zur
Beurteilung einer Gesichtsposition auf.
-
Der
Abschnitt 10 zur Extrahierung eines Unterbildes ist dazu
ausgelegt, ein Abtastfenster anzuwenden, um aufeinander folgende
Unterbilder einer vorbestimmten Größe aus einem
erfassten Bild zu extrahieren, das vom Abschnitt 3 zur
Erfassung eines Bildes zugeführt wird; wobei diese Unterbilder
Objektbilder zur Erkennung in einem erfassten Bild sind. Für
jedes Unterbilds (nachstehend auch als Objektbild bezeichnet) ist der
Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl
dazu ausgelegt, eine entsprechende Beurteilungspunktzahl zu berechnen,
um zu beurteilen, in welche Klasse das Unterbild eingeteilt wird.
Der Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl
ist dazu ausgelegt, jede Beurteilungspunktzahl, die vom Abschnitt 20 zur
Erzeugung einer Beurteilungspunktzahl erhalten wird, in Verbindung
mit Information, welche das entsprechende Unterbild identifiziert,
zu speichern. Der Abschnitt 40 zur Beurteilung einer Gesichtsposition
ist dazu ausgelegt, auf der Grundlage der im Abschnitt 30 zur
Speicherung einer Beurteilungspunktzahl gespeicherten Information
die Position des Unterbilds mit der höchsten Beurteilungspunktzahl
zu erfassen und die erfasste Position des Unterbildes als das Gesichtsposition
innerhalb des erfassten Bildes auszugeben.
-
Es
sollte beachtet werden, dass dann, wenn mehrere Gesichter in einem
erfassten Bild enthalten sein können, der Abschnitt 40 zur
Beurteilung einer Gesichtsposition dazu ausgelegt sein kann, auf
der Grundlage der im Abschnitt 30 zur Speicherung einer
Beurteilungspunktzahl gespeicherten Information die Positionen der Unterbilder
zu erfassen, die jeweils eine Beurteilungspunktzahl aufweisen, die über
einem Referenzwert von beispielsweise 0,5 liegt, und die erfassten
Positionen der Unterbilder als die Gesichtspositionen innerhalb
des erfassten Bildes auszugeben.
-
Der
Einfachheit der Beschreibung halber werden die von der Vorrichtung 5 zur
Erfassung einer Gesichtsposition ausführbaren Funktionen
in Form der obigen Systemabschnitte beschrieben. Diese Funktionen können
jedoch durch einen programmierten Ablauf eines Computers (programmierte
logische Schaltung) oder eine Kombination von computerimplementierten
Funktionen und bestimmten Schaltungen realisiert werden. Eine Speicherfunktion
einer Datenbank 21 für Information schwacher Klassifizierer
(wird nachstehend noch beschrieben) kann durch eine oder mehrere
nicht flüchtige Datenspeichervorrichtungen, wie beispielsweise ROMs,
Festplatten und dergleichen realisiert werden.
-
Abschnitt zur Extrahierung
eines Unterbildes
-
Der
Abschnitt 10 zur Extrahierung eines Unterbildes ist dazu
ausgelegt, aufeinander folgende Unterbilder (Objektbilder) aus einem
erfassten Bild, das vom Abschnitt 3 zur Erfassung eines
Bildes zugeführt wird, unter Verwendung eines Abtastfensters
zu extrahieren, das von links nach rechts (Hauptabtastrichtung)
und von oben nach unten (Nebenabtastrichtung) des erfassten Bildes
läuft, wobei es das gesamte erfasste Bild abdeckt. Die
Unterbilder können derart extrahiert werden, dass das erfasste
Bild unterteilt wird, oder derart, dass sie sich der Reihe nach
teilweise überlappen.
-
Das
Abtasten eines gesamten erfassten Bildes wird unter Verwendung (nacheinander)
jedes Unterbildes von mehreren Unterbildern verschiedener vorbestimmter
Größe (d. h. Abtastfenstern verschiedener Größe)
ausgeführt. Bei dieser Ausführungsform liegen
die vorbestimmten Größen (werden durch den Abschnitt 10 zur
Extrahierung eines Unterbildes bestimmt) bei 80×80 Pixeln,
100×100 Pixeln, 120×120 Pixeln, 140×40
Pixeln, 160×160 Pixeln und 180×180 Pixeln.
-
Abschnitt zur Erzeugung einer
Beurteilungspunktzahl
-
Der
Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl
weist eine Datenbank 21 für Information schwacher
Klassifizierer auf, die Information aufweist, die im Voraus darin
gespeichert wird und mehrere schwache Klassifizierer (WC in der 2) beschreibt,
die dazu ausgelegt sind, für Bilder sensitiv zu sein, die jeweils
mehrere verschiedene bestimmte Muster aufweisen.
-
Jeder
schwache Klassifizierer ist beispielsweise eine Auswertefunktion
und dazu ausgelegt, Objektbilder auf der Grundlage wenigstens eines
von „Haar-like Features” in die Gesichtsklasse
und die Nicht-Gesichtsklasse zu klassifizieren. Jedes der „Haar-like
Features” ist beispielsweise als die Differenz der Summe
von Pixeln von Bereichen innerhalb eines entsprechenden rechteckigen
Bereichs definiert.
-
Die
mehreren schwachen Klassifizierer werden im Voraus in einer Lernphase
erzeugt, mit entsprechenden Gewichtungen, die auf diese Weise zugewiesen
werden, unter Verwendung eines Boosting-Algorithmus in Verbindung
mit mehreren Trainingsbildern (jeweilige Beispiele eines Objektbildes,
das in der Gesichtsklasse enthalten ist, wie beispielsweise positive
Bilder, und mehrere Objektbilder, die in der Nicht-Gesichtsklasse
enthalten sind, wie beispielsweise negative Bilder). Solche Boosting-Verfahren
zum Trainieren von mehreren schwachen Klassifizierern beispielsweise
unter Verwendung des AdaBoost-Algorithmus, so wie er im Referenzdokument
1 beschrieben wird, sind gut dokumentiert, so dass sie nachstehend
nicht näher beschrieben werden.
-
Dies
führt dazu, dass die mehreren trainierten Klassifizierer
dazu ausgelegt sind, Objektbilder auf der Grundlage der entsprechenden
Merkmale in die Gesichtsklasse und die Nicht-Gesichtsklasse zu klassifizieren. Insbesondere
ist in der Annahme, dass ein Objektbild als x gegeben ist, die Anzahl
der mehreren schwachen Klassifizierer als Nf gegeben ist, der Indexwert
eines schwachen Klassifizierers unter den mehreren schwachen Klassifizierern
als n (n = 1, 2, ..., Nf) gegeben ist, und der Ausgang eines schwachen
Klassifizierers unter den mehreren schwachen Klassifizierern als
fn(x) gegeben ist, der Ausgang fn(x) eines schwachen Klassifizierers gleich
1, wenn das Objektbild zur Gesichtsklasse gehört, und der
Ausgang fn(x) eines schwachen Klassifizierers
gleich 0, wenn das Objektbild zur Nicht-Gesichtsklasse gehört.
-
Es
sollte beachtet werden, dass die „Haar-like Features” bei
dieser Ausführungsform für jeden schwachen Klassifizierer
verwendet werden, um Klassifizierungen von Objektbildern ausführen,
jedoch jedes beliebige Merkmal, das für schwache Klassifizierer
angewandt werden kann, hierfür verwendet werden kann. Der Ausgang
fn(x) eines schwachen Klassifizierers wird
mit fn abgekürzt.
-
Jeder
der mehreren schwachen Klassifizierer weist eine Beurteilungswahrscheinlichkeit
des entsprechenden schwachen Klassifizierers auf, der in korrekter
Weise eine 1 ausgibt, wenn ein Objektbild (ein Gesichtsbild), das
in die Gesichtsklasse klassifiziert werden sollte, eingegeben wird;
wobei diese Beurteilungswahrscheinlichkeit nachstehend als positive
Beurteilungsmöglichkeit für die Gesichtsklasse
bezeichnet wird. Jeder der mehreren schwachen Klassifizierer weist
eine Beurteilungswahrscheinlichkeit des entsprechenden schwachen
Klassifizierers auf, der in nicht korrekter Weise eine 1 ausgibt,
wenn ein Objektbild (ein Nicht-Gesichtsbild), das in die Nicht-Gesichtsklasse
klassifiziert werden sollte, eingegeben wird; wobei diese Wahrscheinlichkeit
nachstehend als negative Beurteilungsmöglichkeit für
die Nicht-Gesichtsklasse bezeichnet wird.
-
Ferner
weist jeder der mehreren schwachen Klassifizierer eine Beurteilungswahrscheinlichkeit
des entsprechenden schwachen Klassifizierers auf, der in korrekter
Weise eine 0 ausgibt, wenn ein Objektbild (ein Nicht-Gesichtsbild),
das in die Nicht-Gesichtsklasse klassifiziert werden sollte, eingegeben
wird; wobei diese Beurteilungswahrscheinlichkeit nachstehend als
positive Beurteilungsmöglichkeit für die Nicht-Gesichtsklasse bezeichnet
wird. Jeder der mehreren schwachen Klassifizierer weist eine Beurteilungswahrscheinlichkeit
des entsprechenden schwachen Klassifizierers auf, der in nicht korrekter
Weise eine 0 ausgibt, wenn ein Objektbild (ein Gesichtsbild), das
in die Gesichtsklasse klassifiziert werden sollte, eingegeben wird;
wobei diese Beurteilungswahrscheinlichkeit nachstehend als negative
Beurteilungsmöglichkeit für die Gesichtsklasse
bezeichnet wird. Die Information dieser Beurteilungswahrscheinlichkeiten
für jeden schwachen Klassifizierer ist in der Lernphase
festgelegt und im Voraus in der Datenbank 21 für
Information schwacher Klassifizierer gespeichert worden.
-
Insbesondere
ist bei dieser Ausführungsform ein Satz der Klassen als
C gegeben und werden Elemente von sowohl der Gesichtsklasse als
auch der Nicht-Gesichtsklasse mit c gekennzeichnet, so dass jedes
Element c der Gesichtsklasse eine 1 und jedes Element c der Nicht-Gesichtsklasse
eine 0 ist. Durch eine Verwendung der Parameter c können
die Beurteilungswahrscheinlichkeiten jedes schwachen Klassifizierers
fn für jedes Element c durch ”p(fn|c)” beschrieben werden.
-
Die
Beurteilungswahrscheinlichkeiten p(fn/c)
jedes schwachen Klassifizierers fn für
jedes Element c werden in einer Beurteilungswahrscheinlichkeitstabelle
in Verbindung mit dem Indexwert eines entsprechenden der schwachen
Klassifizierer fn beschrieben, und die Beurteilungswahrscheinlichkeitstabelle
wird im Voraus in der Datenbank 21 für Information
schwacher Klassifizierer gespeichert.
-
3 zeigt
schematisch ein Diagramm zur Veranschaulichung, als ein Beispiel
für die in der Beurteilungswahrscheinlichkeitstabelle gespeicherte
Information, der positiven Beurteilungswahrscheinlichkeiten für die
Gesichtsklasse und der negativen Wahrscheinlichkeiten für
die Nicht-Gesichtsklasse. Die horizontale Achse des Diagramms beschreibt
die Indexwerte von 1, 2, ..., 50, die 50 schwachen Klassifizierern
zugewiesen sind. Für jeden der Indexwerte der 50 schwachen
Klassifizierer sind die positiven Beurteilungswahrscheinlichkeiten
für die Gesichtsklasse und die negativen Wahrscheinlichkeiten
für die Nicht-Gesichtsklasse entlang der vertikalen Achse
aufgetragen.
-
Für
jede Klasse sind Daten, die jeden der schwachen Klassifizierer beschreiben,
in Verbindung mit entsprechenden Gewichtungen w
n und
Indexwerten von diesen in der Datenbank
21 für
Information schwacher Klassifizierer gespeichert. Für jede
Klasse sind die entsprechenden Gewichtungen w
n der
schwachen Klassifizierer auf 1 normiert. D. h., für jede
Klasse erfüllen die entsprechenden Gewichtungen w
n der schwachen Klassifizierer die folgende
Gleichung (4):
-
Der
Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl
weist ferner einen Abschnitt 22 zur Klassifiziererwahl
und zum Anwenden und einen Abschnitt 23 zur Berechnung
einer Erfassungspunktzahl auf.
-
Der
Abschnitt 22 zur Klassifiziererwahl und zum Anwenden ist
dazu ausgelegt, der Reihe nach aus der Datenbank 21 für
Information schwacher Klassifizierer schwache Klassifizierer zu
wählen, die nacheinander auf ein Objektbild anzuwenden
sind. Der Abschnitt 22 zur Klassifiziererwahl und zum Anwenden
ist ferner dazu ausgelegt, die der Reihe nach gewählten
schwachen Klassifizierer auf das Objektbild anzuwenden, um so fn, wie beispielsweise 0 oder 1, als Ergebnis
jedes Anwendens auszugeben, wobei „n” die gewählte
Reihenfolge der schwachen Klassifizierer für das gleiche
Objektbild anzeigt, so dass der Ausgang fn erhalten
wird, indem der n-te gewählte schwache Klassifizierer auf
das Objektbild angewandt wird.
-
Es
sollte beachtet werden, dass die schwachen Klassifizierer mit ihren
jeweiligen Indexwerten 1, 2, ..., Nf bei dieser Ausführungsform
der Reihe nach in der Reihenfolge der Indexwerte von 1, 2, ...,
Nf gewählt werden.
-
Der
Abschnitt 23 zur Berechnung einer Erfassungspunktzahl ist
dazu ausgelegt, auf der Grundlage der Ausgänge f1, f2, ..., fn, die vom Abschnitt 22 zur Klassifiziererwahl
und zum Anwenden zugeführt werden, eine Erfassungspunktzahl
S(–)
1:n zu
berechnen.
-
D.
h., wenn der n-te gewählte schwache Klassifizierer auf
ein momentan extrahiertes Unterbild (Objektbild) angewandt worden
ist, beschreibt die Erfassungspunktzahl S(–)
1:n, die vom Abschnitt 23 zur Berechnung
einer Erfassungspunktzahl zu berechnen ist, die Summation der Ausgänge
fm (m = 1, 2, ..., n) der bereits angewandten
schwachen Klassifizierer für ein momentan extrahiertes
Unterbild (Objektbild); wobei diese bereits angewandten schwachen
Klassifizierer jeweils mit den entsprechenden Gewichtungen wm gewichtet worden sind. D. h., die Erfassungspunktzahl
S(–)
1:n kann
durch die folgende Gleichung (5) beschrieben werden.
-
-
Ferner
weist der Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl
einen Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit,
einen Abschnitt 25 zur Berechnung einer erwarteten Verteilung
und einen Abschnitt 26 für eine fortlaufende Steuerung
auf.
-
Der
Abschnitt 24 zur Berechnung einer. Klassenwahrscheinlichkeit
ist dazu ausgelegt, die Endwahrscheinlichkeit eines momentan extrahierten
Objektbildes, die zu jeder Klasse gehört, zu berechnen,
vorausgesetzt, dass die klassifizierten Ergebnisse der bereits angewandten
schwachen Klassifizierer erhalten werden; wobei die klassifizierten
Ergebnisse der bereits angewandten schwachen Klassifizierer durch ”f1:n (= f1, f2, ..., fn)” beschrieben
werden. Die Endwahrscheinlichkeit wird nachstehend als „Klassenwahrscheinlichkeit
p(c|f1:n)” bezeichnet.
-
Der
Abschnitt 25 zur Berechnung einer erwarteten Verteilung
ist dazu ausgelegt, Parameter zu berechnen, die eine erwartete Verteilung
der Erfassungspunktzahl beschreiben, die erhalten werden würde, wenn
die laufenden schwachen Klassifizierer, die noch nicht auf das Objektbild
angewandt worden sind, auf das Objektbild angewandt werden würden.
Bei dieser Ausführungsform sind diese Parameter ein Erwartungswert
En und eine Varianz Vn der erwarteten Verteilung.
-
Der
Abschnitt 26 für eine fortlaufende Steuerung ist
dazu ausgelegt, auf der Grundlage der Erfassungspunktzahl S(–)
1:n den
Erwartungswert En und die Varianz Vn der erwarteten Verteilung zu
bestimmen, ob die Verarbeitung des Objektbildes (des momentan extrahierten
Unterbildes) fortzusetzen ist, und den Betrieb des Abschnitt 10 zur
Extrahierung eines Unterbildes und des Abschnitt 22 zur
Klassifiziererwahl und zum Anwenden auf der Grundlage des bestimmten
Ergebnisses zu steuern. Der Abschnitt 26 für eine
fortlaufende Steuerung ist ferner dazu ausgelegt, eine Beurteilungspunktzahl
S(x) des Objektbildes x auszugeben.
-
Bei
dieser Ausführungsform berechnet der Abschnitt
24 zur
Berechnung einer Klassenwahrscheinlichkeit die Klassenwahrscheinlichkeit
p(c|f
1:n) in Übereinstimmung mit
der folgenden Gleichung (6), welche das Bayestheorem beschreibt:
wobei
p(c) die Ausgangswahrscheinlichkeit des Objektbildes ist, die zu
jeder Klasse gehört, p(c|f
1:n)
eine Wahrscheinlichkeit für das Objektbild beschreibt,
die zu jeder Klasse gehört, vorausgesetzt, dass die klassifizierten Ergebnisse
der bereits angewandten schwachen Klassifizierer erhalten werden,
L
n die Beurteilungswahrscheinlichkeiten
beschreibt, die vorstehend festgelegt wurden und durch die Gleichung
(7) beschrieben werden, und k
n einen Normierungsfaktor
beschreibt, der durch die folgende Gleichung (8) beschrieben wird:
Ln = p(fn|c) (7)
-
Die
Wahrscheinlichkeiten, die in der Gleichung (8) enthalten sind, können
einfach durch die Beurteilungswahrscheinlichkeit p(fn|c)
berechnet werden.
-
Insbesondere
ergibt eine Multiplikation der vorherigen Klassenwahrscheinlichkeit
p(c|f1:n) mit den Beurteilungswahrscheinlichkeiten
p(fn|c) und eine Normierung des Ergebnisses
der Multiplikation bezüglich der Klassen die momentane
Klassenwahrscheinlichkeit p(c|f1:n). Es
sollte beachtet werden, dass nachstehend noch beschrieben wird,
wie die Gleichung (6) und die Parameter α0 und β0, die in der Gleichung (8) auftreten, erhalten
werden.
-
Der
Abschnitt
25 zur Berechnung einer erwarteten Verteilung
berechnet in Übereinstimmung mit den folgenden Gleichungen
(9) und (10) den Erwartungswert En[S
n+1:Nf|f
1:n] und die Varianz Vn[S
n+1:Nf|f
1:n] der erwarteten Verteilung, die erhalten
werden würde, wenn die laufenden (nicht angewandten) schwachen
Klassifizierer, die noch nicht auf das Objektbild angewandt worden
sind, auf das Objektbild angewandt werden würden:
wobei
E
n[S
m|f
1:n]
in der Gleichung (9) und V
n[S
m|f
1:n] in der Gleichung (10) den Erwartungswert
bzw. die Varianz der erwarteten Verteilung von jedem der nicht angewandten
schwachen Klassifizierer beschreiben; wobei sie in Übereinstimmung
mit den folgenden Gleichungen (11) und (12) berechnet werden können:
-
Insbesondere
beschreibt p(Sm|f1:n)
in der Gleichung (11) eine Wahrscheinlichkeitsverteilungsfunktion und
Sm eine Zufallsvariable innerhalb des Bereichs
von 0 bis 1. Die Gleichung (12) kann aus der Gleichung (11) gewonnen
werden.
-
Es
sollte beachtet werden, dass die Gleichungen (11) und (12) aus den
folgenden Gleichungen (13) gewonnen werden können, welche
die Verteilung der Punktzahl S
m (= w
mf
m) eines nicht
angewandten schwachen Klassifizierers beschreiben, der durch den
Indexwert m gekennzeichnet ist:
wobei
α
cm und β
cm Parameter einer Betaverteilung sind, die
dazu verwendet werden, die Ausgänge f
1:Nf der
mehreren schwachen Klassifizierer zu modellieren, wobei diese Parameter α
cm und β
cm nachstehend
noch näher beschrieben werden.
-
Es
sollte beachtet werden, dass δx(t)
eine Dirac-Delta-Funktion beschreibt, die überall mit Ausnahme von
x = t, wo ihr Wert unendlicht hoch ist, so dass ihr Gesamtintegral
den Wert 1 ergibt, den Wert Null aufweist. Da die Dirac-Delta-Funktion δx(t) die Eigenschaft aufweist, dass ihr Gesamtintegral
den Wert 1 aufweist, kann sie dazu verwendet werden, fortlaufende
Zufallsvariablen in diskrete Zufallsvariablen zu wandeln.
-
Insbesondere
ist die Punktzahl Sm (= wmfm) eine kontinuierliche Zufallsvariable,
die ihren Wert anzeigt, so dass jeder schwache Klassifizierer tatsächlich
eine entsprechende Gewichtung wm aufweist.
Aus diesem Grund kann die Punktzahl Sm bei
der zweiten Gleichung (13) unter Verwendung der Dirac-Delta-Funktion δx(t) eine Wahrscheinlichkeit nur bei ihrer
entsprechenden Gewichtung wm aufweisen.
-
Nachstehend
wird beschrieben, wie der rechte Teil in der ersten Gleichung (13)
gewonnen wird. Insbesondere kann das Additionstheorem die p(Sm|f1:n) durch die
folgende Gleichung beschreiben:
-
-
Das
Multiplikationstheorem kann die p(Sm, fm|f1:n) durch die
folgende Gleichung beschreiben: p(Sm, fm|f1:n)
= p(Sm|fm)p(fm|f1:n) (13A2)
-
Das
Additionstheorem kann die p(f
m|f
1:n) durch die folgende Gleichung beschreiben:
-
Eine
Substitution der Gleichung (13A3) in die Gleichung (13A2) und eine
Substitution der Gleichung (13A2) mit der Gleichung (13A3) in die
Gleichung (13A1) ermöglicht es, den oberen Teil der Gleichung
(13) zu gewinnen.
-
Wenn
im momentan erfassten Bild keine Unterbilder vorhanden sind, die
durch den Abschnitt 10 zur Extrahierung eines Unterbildes
neu herauszuschneiden sind, d. h. wenn alle Unterbilder bereits
dem Beurteilungspunktzahlgewinnungsprozess unterzogen worden sind,
steuert der Abschnitt 26 für eine fortlaufende Steuerung
den Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl
und den Abschnitt 40 zur Beurteilung einer Gesichtsposition,
um zu bewirken, dass der Abschnitt 40 zur Beurteilung einer
Gesichtsposition die Erfassung der Gesichtsposition innerhalb des
momentan erfassten Bildes ausführt.
-
Ferner
verwendet der Abschnitt
26 für eine fortlaufende
Steuerung den Erwartungswert En[S
n+1:Nf|f
1:n] der erwarteten Verteilung als erwartete
Punktzahl
S (+) / n+1:Nf
(siehe Gleichung (9)) und berechnet die Summe
der Erfassungspunktzahl S
(–)
1:n, die anhand der Gleichung (14) berechnet
wird, und der erwarteten Punktzahl
S (+) / n+1:Nf
als erwartete endgültige
Punktzahl S
1:Nf. Anschließend berechnet
der Abschnitt
26 für eine fortlaufende Steuerung
einen Verteilungsbereich von einem oberen Grenzwert SH zu einem
unteren Grenzwert SL in Übereinstimmung mit den folgenden
Gleichungen (15) und (16):
S1:Nf = S (–1) / 1:n
+ S (+) / n+1:Nf
(14)
wobei
F
s einen Sicherheitsfaktor beschreibt und
durch die folgende Gleichung (17) beschrieben werden kann:
wobei
a ein Penalty-Faktor ist, der bestimmt wird, um den Faktor F
s der Sicherheit zu erhöhen, um
den Verteilungsbereich zu vergrößern, wenn die
Anzahl n von angewandten schwachen Klassifizierern gering ist, b
eine ganze Zahl von größer oder gleich 1 ist,
welche den Betrag des Faktors F
s der Sicherheit
bestimmt, und σ einen Faktor beschreibt, welcher den Grad
der Verringerung des Faktors F
s der Sicherheit
mit einer Zunahme in der Anzahl von angewandten schwachen Klassifizierern
beschreibt. Diese Werte a, b und σ können durch
Tests, Simulationen oder dergleichen bestimmt werden.
√V
n
beschreibt
die Standardabweichung der erwarteten Verteilung, d. h. die Quadratwurzel
der Varianz V
n.
-
Entweder
die Bestimmung des Penalty-Faktors a oder das Festlegen von b auf
einen Wert von größer oder gleich 1 hält
die Zuverlässigkeit bei der Bestimmung, ob der Prozess
bezüglich des momentanen Objektbildes zu beenden ist, bei
einem hohen Pegel aufrecht.
-
Der
Abschnitt 26 für eine fortlaufende Steuerung vergleicht
ferner den oberen Grenzwert SH und/oder den unteren Grenzwert SL
des Verteilungsbereichs mit einem im Voraus festgelegten Schwellenwert
TH, wie beispielsweise bei dieser Ausführungsform einem
Wert von 0,5. Insbesondere kann der Schwellenwert TH für gewöhnlich
beispielsweise auf die Hälfte der maximalen Erfassungspunktzahl
(die Erfassungspunktzahl, wenn alle der mehreren schwachen Klassifizierer
für das Objektbild sensitiv sind) festgelegt werden, um
zu bestimmen, ob das Objektbild ein Gesichtsbild ist, auf der Grundlage
des Mehrheitsprinzips der Beurteilungsergebnisse der mehreren schwachen
Klassifizierer.
-
Der
Abschnitt 26 für eine fortlaufende Steuerung bestimmt
ferner, dass die erwartete endgültige Punktzahl S1:Nf in ausreichender Weise zuverlässig
ist, wenn der obere Grenzwert SH geringer als der Schwellenwert TH
ist oder der untere Grenzwert SL größer als der
Schwellenwert TH ist, um so den Prozess bezüglich des momentanen
Objektbildes abzubrechen. Anschließend speichert der Abschnitt 26 für
eine fortlaufende Steuerung die erwartete endgültige Punktzahl
S1:Nf zu diesem Zeitpunkt als die Beurteilungspunktzahl
S(x) im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl,
steuert den Abschnitt 10 zur Extrahierung eines Unterbildes,
um ein neues Unterbild als neues Objektbild zu extrahieren und steuert
die Abschnitte des Abschnitt 20 zur Erzeugung einer Beurteilungspunktzahl,
um so den Prozess zur Gewinnung einer Beurteilungspunktzahl bezüglich
des neuen Objektbildes auszuführen.
-
Demgegenüber
bestimmt der Abschnitt 26 für eine fortlaufende
Steuerung, dass die erwartete endgültige Punktzahl S1:Nf nicht in ausreichender Weise zuverlässig
ist, wenn der obere Grenzwert SH größer oder gleich
dem Schwellenwert TH und der untere Grenzwert SL kleiner oder gleich
dem Schwellenwert TH ist, um so den Prozess bezüglich des
momentanen Objektbildes fortzusetzen, d. h. er wählt wiederholt
den nächsten schwachen Klassifizierer und wendet den gewählten
schwachen Klassifizierer auf das Objektbild an.
-
Wenn
das Anwenden von allen schwachen Klassifizierern auf das momentane
Objektbild abgeschlossen ist, ohne beendet zu werden, gibt der Abschnitt 26 für
eine fortlaufende Steuerung die Erfassungspunktzahl S(–)
1:Nf als die Beurteilungspunktzahl S(x) aus.
-
Prozess zur Gewinnung einer Klassenwahrscheinlichkeit
-
Wie
aus der Gleichung (6) ersichtlich, welche das Bayestheorem beschreibt,
kann die Klassenwahrscheinlichkeit p(c|f1:Nf)
als die Endwahrscheinlichkeit des Objektbildes, die zu jeder Klasse
gehört, auf der Grundlage der Wahrscheinlichkeit p(f1:Nf|c) für das Objektbild, die
zu jeder Klasse gehört, vorausgesetzt, dass die klassifizierten
Ergebnisse der bereits angewandten schwachen Klassifizierer erhalten
werden, und der Vorwahrscheinlichtkeit p(c) des Objektbildes, die
zu jeder Klasse gehört, vorausgesetzt, dass die klassifizierten Ergebnisse
der bereits angewandten schwachen Klassifizierer erhalten werden,
berechnet werden.
-
Da
die klassifizierten Ergebnisse f
1:Nf = (f
1, f
2, ..., f
Nf) diskrete Variablen sind, die jeweils
den Wert 0 oder 1 annehmen, wird angenommen, dass die klassifizierten
Ergebnisse f
1:Nf stochastisch in Übereinstimmung
mit einer Bernoulli-Verteilung mit Parametern μ
c = (μ
c1, μ
c2, ..., μ
cNf)
erzeugt werden. In der Annahme, dass die einzelnen schwachen Klassifizierer
wechselseitig unabhängig sind, wird die folgende Gleichung
(18) erstellt:
-
In
der Annahme, dass jeder der Parameter μ
c eine
kontinuierliche Variable ist, die einen Wert von 0 bis 1 annimmt
und auf der Grundlage einer Betaverteilung mit Parametern α
c, β
c erzeugt
wird, die vor der Bernoulli-Verteilung einer Konjugierten entspricht,
wird die folgende Gleichung (19) gewonnen:
wobei Γ(x)
eine Gamma-Funktion ist, die durch die folgende Gleichung (20) definiert
wird:
-
Ein
Ausgrenzen (Herausintegrieren) der Parameter u
c aus
der Gleichung (19) ermöglicht es, dass die Wahrscheinlichkeit
p(f
1:Nf|c) für jede Klasse durch
die folgende Gleichung (21) beschrieben werden kann:
wobei Γ(x
+ 1) = xΓ(x) ist, wenn eine positive reelle Zahl x größer
0 ist.
-
In
gleicher Weise wird in der Annahme, dass die Klassenelemente c stochastisch
in Übereinstimmung mit einer Bernoulli-Verteilung mit einem
Parameter u
0 erzeugt werden, die folgende
Gleichung (22) gewonnen. Ferner kann in der Annahme, dass der Parameter
u
0 auf der Grundlage einer Betaverteilung
mit Parametern α
0, β
0 erzeugt wird, die folgende Gleichung (23)
gewonnen werden:
p(c|μ0) = Beru(c|μ0)
= μ c / 0
(1 – μ0)1–c
(22)
-
Ein
Ausgrenzen (Herausintegrieren) der Parameter u
0 aus
der Gleichung (23) ermöglicht es, dass die Ausgangswahrscheinlichkeit
p(c) für jede Klasse durch die folgende Gleichung (24)
beschrieben werden kann:
wobei α
0 und β
0 ohne
Kenntnis von μ
0 auf 1 gesetzt werden.
-
Folglich
kann unter Verwendung der Gleichungen (21) und (24) und des Bayestheorems
die Klassenwahrscheinlichkeit p(c|f1:Nf)
für jede Klasse in Übereinstimmung mit der folgenden
Gleichung (25) erhalten werden:
-
-
Es
sollte beachtet werden, dass die Gleichung (25) die Klassenwahrscheinlichkeit
beschreibt, wenn alle der Nf schwachen Klassifizierer auf das Objektbild
angewandt werden. Die Gleichung (6) wird gewonnen, indem die Gleichung
(25) derart geändert wird, dass die Klassenwahrscheinlichkeit
p(c|f1:n) auf der Grundlage des zuvor berechneten
Ergebnisses p(c|f1:n–1) aktualisiert
wird, jedes Mal, wenn ein schwacher Klassifizierer auf das Objektbild
angewandt wird.
-
Betriebsabläufe
-
Nachstehend
wird der gesamte Verarbeitungsablauf des Abschnitts 5 zur
Erfassung einer Gesichtsposition unter Bezugnahme auf das in der 4 gezeigte
Ablaufdiagramm beschrieben.
-
Wenn
ein erfasstes Bild vom Abschnitt 3 zur Erfassung eines
Bildes an den Abschnitt 5 zur Erfassung einer Gesichtsposition
gegeben wird, initialisiert der Abschnitt 10 zur Extrahierung
eines Unterbildes in Schritt S110 die Größe und
die Position des Abtastfensters (Extrahierungsfensters). Die Größe
und die Position werden anschließend in einer vorbestimmten
Reihenfolge geändert. Die Größe des Abtastfensters
wird anschließend in Schritt S120 gewählt, und
in Schritt S130 wird die Position für das Abtastfenster
gewählt, woraufhin in Schritt S130 ein neues Unterbild
mit der Größe und der Position entsprechend der
Größe des gewählten Abtastfensters aus
dem erfassten Bild extrahiert wird.
-
Bei
dieser Ausführungsform wird bei der ersten Ausführung
in Schritt 120 auf den Schritt S110 folgend die kleinste Größe
des Abtastfensters gewählt. Anschließend werden
bei den folgenden Ausführungen von Schritt S120 nacheinander
größere Größen der Abtastfenster
gewählt. Bei der ersten Ausführung von Schritt S130
auf den Schritt S120 folgend wird das Abtastfenster auf die obere
ganz linke Position im erfassten Bild gesetzt, um ein Unterbild
zu extrahieren, das sich an dieser Position befindet. Anschließend
wird das Abtastfenster bei den folgenden Ausführungen von
Schritt S130 zur Abtastung nacheinander von links nach rechts (Hauptabtastrichtung)
geführt und von oben nach unten (sekundäre Abtastrichtung)
des erfassten Bildes geführt, um aufeinander folgende Unterbilder
zu extrahieren.
-
In
Schritt S140 erzeugt der Abschnitt 20 zur Erzeugung einer
Beurteilungspunktzahl die Beurteilungspunktzahl S(x) und speichert
die Beurteilungspunktzahl S(x) in Verbindung mit dem entsprechenden
Objektbild x im Abschnitt 30 zur Speicherung einer Beurteilungspunktzahl.
-
Wenn
die Beurteilungspunktzahl S(x) derart erzeugt wird, dass der Prozess
für das momentan extrahierte Unterbild (Objektbild) abgeschlossen
ist, beurteilt der Abschnitt 10 zur Extrahierung eines
Unterbildes in Schritt S150, ob das Abtastfenster das schrittweise
Verschieben von der oberen linke Ecke zur unteren rechten Ecke des
erfassten Bildes abgeschlossen hat. Wenn dies noch nicht abgeschlossen
worden ist, schreitet der Ablauf zu Schritt S130 voran, um ein neues
Unterbild zu extrahieren, und wird die Verarbeitung der Schritte S130
bis S140 für das in Schritt S130 extrahierte Unterbild
wiederholt.
-
Wenn
in Schritt S150 beurteilt wird, dass das schrittweise Verschieben
des Abtastfensters abgeschlossen worden ist, wird bestimmt, dass
die Verarbeitung unter Verwendung der momentan festgelegten Größe des
Abtastfensters abgeschlossen ist. Anschließend beurteilt
der Abschnitt 10 zur Extrahierung eines Unterbildes in
Schritt S160, ob ein Abtasten des erfassten Bildes für
alle Abtastfenstergrößen abgeschlossen ist. Wenn
irgendeine Größe noch nicht gewählt worden
ist, kehrt der Ablauf zu Schritt S120 zurück und werden die
Schritt S120 bis S150 mit einer neuen Größe des
Abtastfensters, die in Schritt S120 gewählt wird, wiederholt.
-
Wenn
in Schritt S160 ermittelt wird, dass die Verarbeitung des Objektbildes
unter Verwendung alle Abtastfenstergrößen abgeschlossen
ist, führt der Abschnitt 40 zur Beurteilung einer
Gesichtsposition anschließend, da dies kennzeichnet, dass
die erforderliche Verarbeitung des erfassten Bildes vollständig
abgeschlossen worden ist, die Gesichtspositionsbeurteilung aus.
Insbesondere beurteilt der Abschnitt 40 zur Beurteilung einer
Gesichtsposition die Beurteilungspunktzahl S(x), die im Abschnitt 30 zur
Speicherung einer Beurteilungspunktzahlgespeichert ist, um das mit
der höchsten Beurteilungspunktzahl S(x) verknüpfte
Unterbild zu bestimmen. Die Gesichtsposition wird anschließend
in Schritt S170 als die Position des Unterbildes innerhalb des erfassten
Bildes beurteilt. Anschließend endet die Verarbeitung.
-
Nachstehend
wird der in Schritt S140 vom Abschnitt 20 zur Erzeugung
einer Beurteilungspunktzahl auszuführende Betrieb vollständig
unter Bezugnahme auf das in der 5 gezeigte
Ablaufdiagramm beschrieben. Zur Vereinfachung der Beschreibung wird
der Indexwert (x) aus den verschiedenen Bezugszeichen, die nachstehend
zur Beschreibung des Betriebs verwendet werden, ausgelassen. So
wird beispielsweise der Ausgang fn(x) eines
schwachen Klassifizierers nachstehend als fn bezeichnet.
-
Wenn
ein momentan extrahiertes Unterbild (Objektbild) dem Abschnitt 22 zur
Klassifiziererwahl und zum Anwenden zugeführt wird, löscht
der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl
eine zuvor berechnete und gespeicherte Erfassungspunktzahl S(–)
1:n auf
Null, um sie in Schritt S210 zu initialisieren. In gleicher Weise überschreibt
der Abschnitt 24 zur Berechnung einer Klassenwahrscheinlichkeit
in Schritt S210 eine berechnete und gespeicherte Klassenwahrscheinlichkeit
p(c|f1:n) mit einem Wert „1/Y”,
um sie so zu initialisieren; wobei Y die Anzahl von Klassen in Schritt
S210 beschreibt.
-
Anschließend
wählt der Abschnitt 22 zur Klassifiziererwahl
und zum Anwenden in Schritt S220 einen schwachen Klassifizierer
unter den mehreren schwachen Klassifizierern und wendet den gewählten
schwachen Klassifizierer auf das Objektbild an, um so den Ausgang
fn des gewählten schwachen Klassifizierers
als Ergebnis der Anwendung (der Klassifizierung) zu erhalten. Es
sollte beachtet werden, dass n die gewählte Reihenfolge
der schwachen Klassifizierer für das gleiche Objektbild
derart beschreibt, dass der Ausgang fn erhalten
wird, indem der n-te gewählte schwache Klassifizierer auf
das Objektbild angewandt wird.
-
Anschließend
multipliziert der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl
den Ausgang fn des gewählten schwachen
Klassifizierers mit einer entsprechenden Gewichtung wn,
um so einen Wert wnfn zu
berechnen, und addiert den Wert wnfn zur zuvor berechneten und gespeicherten
Erfassungspunktzahl S(–)
1:n–1, um so die zuvor berechnete
und gespeicherte Erfassungspunktzahl S(–)
1:n–1 zu einer Erfassungspunktzahl
S(–)
1:n zu
aktualisieren, die durch ”S(–)
1:n = S(–)
1:n–1 + wnfn” beschrieben wird; wobei der Wert
der zuvor berechneten und gespeicherten Erfassungspunktzahl S(–)
1:n–1 auf
Null initialisiert worden ist, wenn in Schritt S240 n = 1 ist.
-
Anschließend
bestimmt der Abschnitt 23 zur Berechnung einer Erfassungspunktzahl
in Schritt S240, ob alle schwachen Klassifizierer auf das momentane
Objektbild anzuwenden sind, d. h. ob der momentan gewählte
und angewandte schwache Klassifizierer der Nf-te schwache Klassifizierer
ist.
-
Wenn
bereits alle schwachen Klassifizierer auf das momentane Objektbild
angewandt worden sind (JA in Schritt S240), gibt der Abschnitt 23 zur
Berechnung einer Erfassungspunktzahl die in Schritt S230 berechnete
Erfassungspunktzahl S(–)
1:Nf als die Beurteilungspunktzahl S aus,
um diese so in Schritt S330 im Abschnitt 30 zur Speicherung
einer Beurteilungspunktzahl zu speichern, woraufhin der Ablauf zu
Schritt S150 der in der 4 gezeigten Hauptroutine zurückkehrt.
-
Andernfalls,
wenn wenigstens ein nicht angewandter schwacher Klassifizierer unter
allen schwachen Klassifizierer zurückbleibt (NEIN in Schritt
S240), berechnet der Abschnitt 24 zur Berechnung einer
Klassenwahrscheinlichkeit die Klassenwahrscheinlichkeit p(c|f1:n) in Übereinstimmung mit der
Gleichung (6) und aktualisiert eine zuvor berechnete und gespeicherte
Klassenwahrscheinlichkeit p(c|f1:n–1)
zur Klassenwahrscheinlichkeit p(c|f1:n).
Es sollte beachtet werden, dass die Klassenwahrscheinlichkeit p(c|f1:n) in Schritt S250 berechnet wird, um sowohl
für die Gesichtsklasse (c = 1) als auch für die
Nicht-Gesichtsklasse (c = 0) aktualisiert zu werden.
-
Auf
die Aktualisierung der Klassenwahrscheinlichkeit folgend berechnet
der Abschnitt 25 zur Berechnung einer erwarteten Verteilung
auf der Grundlage der aktualisierten Klassenwahrscheinlichkeit p(c|f1:n) in Übereinstimmung mit den
Gleichungen (9) und (10) in Schritt S260 die Parameter
(Erwartungswert En[Sn+1:Nf|f1:n]
und die Varianz Vn[Sn+1:Nf|f1:n]
der erwarteten Verteilung, die erhalten werden würde, wenn
der wenigstens eine nicht angewandte schwache Klassifizierer, der
noch nicht auf das Objektbild angewandt worden ist, auf das Objektbild
angewandt werden würde.
-
Anschließend
berechnet der Abschnitt 26 für eine fortlaufende
Steuerung in Schritt S270 die erwartete endgültige Punktzahl
S1:Nf, indem er in Übereinstimmung
mit der Gleichung (14) den Erwartungswert En[Sn+1:Nf|f1:n] der erwarteten Verteilung, die in Schritt
S260 berechnet wird, als die erwartete Punktzahl S (+) / n+1:Nf
zur Erfassungspunktzahl
S(–)
1:n addiert,
die in Schritt S230 berechnet wird.
-
In
Schritt S270 berechnet der Abschnitt 26 für eine
fortlaufende Steuerung ferner in Übereinstimmung mit den
Gleichungen (15) und (16) den Verteilungsbereich vom oberen Grenzwert
SH zum unteren Grenzwert SL und bestimmt, ob der obere Grenzwert
SH geringer als der Schwellenwert TH ist. Wenn der obere Grenzwert
SH größer oder gleich dem Schwellenwert TH ist
(NEIN in Schritt S270), bestimmt der Abschnitt 26 für eine
fortlaufende Steuerung in Schritt S280, ob der untere Grenzwert
SL über dem Schwellenwert TH liegt.
-
Wenn
der obere Grenzwert SH größer oder gleich dem
Schwellenwert TH ist (NEIN in Schritt S270) und der untere Grenzwert
SL kleiner oder gleich dem Schwellenwert TH ist (NEIN in Schritt
S280), bestimmt der Abschnitt 26 für eine fortlaufende
Steuerung, dass die Genauigkeit der Vorhersage unzureichend ist,
woraufhin er zu Schritt S220 zurückkehrt und die Verarbeitung
bezüglich des momentanen Objektbildes in den Schritten
S220 bis S280 fortsetzt.
-
Andernfalls
bestimmt der Abschnitt 26 für eine fortlaufende
Steuerung dann, wenn entweder der obere Grenzwert SH kleiner als
der Schwellenwert TH ist (JA in Schritt S270) oder der untere Grenzwert
SL größer als der Schwellenwert TH ist (JA in
Schritt S280), dass die Genauigkeit der Vorhersage ausreichend ist.
Folglich gibt der Abschnitt 26 für eine fortlaufende
Steuerung die erwartete endgültige Punktzahl S1:Nf als
die Beurteilungspunktzahl S aus, um sie im Abschnitt 30 zur
Speicherung einer Beurteilungspunktzahl zu speichern, woraufhin
der Ablauf zu Schritt S150 der in der 4 gezeigten
Hauptroutine zurückkehrt.
-
Vorteile
-
Das
Fahrerassistenzsystem 1 dieser Ausführungsform
ist, wie vorstehend beschrieben, dazu ausgelegt, zu beurteilen,
ob die nicht angewandten schwachen Klassifizierer fortlaufend auf
das Objektbild anzuwenden sind oder das Objektbild frühzeitig
zu löschen ist, auf der Grundlage von: nicht nur der Erfassungspunktzahl
S(–)
1:n basierend
auf den klassifizierten Ergebnissen der bereits angewandten schwachen
Klassifizierer, sondern ebenso der Verhaltensweisen der nicht angewandten
schwachen Klassifizierer, die erhalten werden würden, denn
die nicht angewandten schwachen Klassifizierer, die noch nicht auf
das Objektbild angewandt worden sind, auf das Objektbild angewandt
würden.
-
Insbesondere
wird die Beurteilung ausgeführt, indem als die Verhaltensweisen
die Parameter der erwarteten Verteilung (der Erwartungswert En[Sn+1:Nf|f1:n] und
die Varianz Vn[Sn+1:Nf|f1:n]
der Erfassungspunktzahl der nicht angewandten schwachen Klassifizierer,
die erhalten werden würde, wenn die nicht angewandten schwachen
Klassifizierer auf das Objektbild angewandt werden würden,
erhalten werden.
-
Mit
der Konfiguration des Fahrerassistenzsystems 1 ist es möglich,
die Information der nicht angewandten schwachen Klassifizierer durchaus
zu verwenden, um so zu bestimmen, ob die Objektbild frühzeitig zu
löschen ist. Folglich verringert die Konfiguration die
Zeit, die erforderlich ist, um die Gesichtsposition zu erkennen,
ohne dass die Robustheit der Erkennung verringert wird, so dass
eine Fahrerassistenzsteuerung hoher Zuverlässigkeit bereitgestellt
werden kann.
-
Es
sollte beachtet werden, dass bei dieser Ausführungsform
die mehreren schwachen Klassifizierer, die in der Datenbank 21 für
Information schwacher Klassifizierer gespeichert werden, als Klassifizierungseinheit
dienen, der Abschnitt 22 zur Klassifiziererwahl und zum
Anwenden als Anwendungseinheit dient und der Abschnitt 23 zur
Berechnung einer Erfassungspunktzahl als Punktzahlberechnungseinheit
dient. Ferner dient der Abschnitt 25 zur Berechnung einer
erwarteten Verteilung als Verteilungsberechnungseinheit, dient der
Abschnitt 26 für eine fortlaufende Steuerung als
Einheit für eine frühzeitige Beurteilung, dient
die Datenbank 21 für Information schwacher Klassifizierer
als Speichereinheit und dient der Abschnitt 24 zur Berechnung
einer Klassenwahrscheinlichkeit als Wahrscheinlichkeitsberechnungseinheit.
-
Zweite Ausführungsform
-
Nachstehend
wird ein in einem Fahrzeug installiertes Fahrerassistenzsystem beschrieben,
auf das eine Bilderkennungsvorrichtung gemäß der
zweiten Ausführungsform der vorliegenden Erfindung angewandt wird.
-
Der
Aufbau des Fahrerassistenzsystems der zweiten Ausführungsform
entspricht mit Ausnahme der folgenden Punkte im Wesentlichen demjenigen
des Fahrerassistenzsystems 1 der ersten Ausführungsform. Gleiche
Teile und Systemabschnitte beider Ausführungsformen, die
mit den gleichen Bezugszeichen versehen sind, werden nachstehend
nicht wiederholt oder nur kurz beschrieben.
-
Bei
der zweiten Ausführungsform unterscheiden sich der Betrieb,
der vom Abschnitt 22 zur Klassifiziererwahl und zum Anwenden
in Schritt S220 auszuführen ist, und ein Teil des Betriebs,
der vom Abschnitt 25 zur Berechnung einer erwarteten Verteilung
auszuführen ist, von den entsprechenden Betriebsabläufen
der ersten Ausführungsform.
-
Der
Abschnitt 25 zur Berechnung einer erwarteten Verteilung
berechnet in Schritt S260a, wie in 5 gezeigt,
in Übereinstimmung mit den Gleichungen (9) und (10) auf
der Grundlage der aktualisierten Klassenwahrscheinlichkeit p(c|f1:n) die Parameter (Erwartungswert En[Sn+1:Nf|f1:n] und
die Varianz Vn[Sn+1:Nf|f1:n]
der erwarteten Verteilung, die erhalten werden würden,
wenn der wenigstens eine nicht angewandte schwache Klassifizierer,
der noch nicht auf das Objektbild angewandt worden ist, auf das
Objektbild angewandt werden würde.
-
Anschließend
speichert der Abschnitt 25 zur Berechnung einer erwarteten
Verteilung in Schritt S260a Information, wie beispielsweise den
Indexwert, des schwachen Klassifizierers mit der höchsten
Varianz Vn[Sn+1:Nf|f1:n].
-
In
Schritt S220a wählt der Abschnitt 22 zur Klassifiziererwahl
und zum Anwenden den schwachen Klassifizierer unter den mehreren
schwachen Klassifizierern; wobei dieser gewählte schwache
Klassifizierer der Information entspricht, die im vorherigen Verarbeitungszyklus
bezüglich des Objektbildes erhalten und im Abschnitt 25 zur
Berechnung einer erwarteten Verteilung gespeichert wird. Es sollte
beachtet werden, dass der Abschnitt 22 zur Klassifiziererwahl
und zum Anwenden bei dem ersten Verarbeitungszyklus bezüglich
des Objektbildes einen zuvor bestimmten schwachen Klassifizierer,
wie beispielsweise einen schwachen Klassifizierer mit der höchsten
Gewichtung oder dergleichen, wählen kann oder einen schwachen
Klassifizierer zufällig wählen kann.
-
Vorteile
-
Mit
dem Fahrerassistenzsystem der zweiten Ausführungsform kann
die Varianz Vn[Sn+1:Nf|f1:n]
der erwarteten Verteilung unmittelbar verringert werden, um so die
frühe Beurteilung früher als bei der ersten Ausführungsform
auszuführen. Folglich kann die Zeit, die erforderlich ist,
um die Gesichtsposition im erfassten Bild zu erkennen, weiter verringert
werden.
-
Tests
-
Es
wurden Tests ausgeführt, um die Effektivität des
Bilderkennungsmittels (der Bilderkennungsverfahren) der ersten und
der zweiten Ausführungsform zu bestätigen.
-
6 zeigt
schematisch einen Satz vieler Trainingsbilder, die für
die Tests zu verwenden sind, und einen Satz vieler Testbilder, die
hierfür zu verwenden sind.
-
Ein
Satz vieler Bilder wurde in einem Zielfahrzeug aufgenommen. In jedem
der aufgenommenen Bilder wurde ein geeigneter Gesichtsbereich manuell
festgelegt. Anschließend wurde der Gesichtsbereich zufällig
in Position und/oder Größe derart verschoben,
dass ein Satz vieler Gesichtsbilder für ein Training von
mehreren schwachen Klassifizierern erzeugt wurde. Ferner wurde ein
Satz vieler Bilder, die jeweils einen Teil des geeigneten Gesichtsbereichs
in jedem der aufgenommenen Bilder aufweisen und den geeigneten Gesichtsbereich nicht
aufweisen, als ein Satz vieler Nicht-Gesichtsbilder für
ein Training der mehreren schwachen Klassifizierer erzeugt.
-
Unter
tatsächlichen Bedingungen kann es im Wesentlichen nicht
möglich sein, einen Satz mit vielen Trainingsbildern vorzubereiten,
die alle verschiedenen Beleuchtungszustände aufweisen,
die zu erwarten sind, und die alle verschiedenen Fahrergesichter
aufweisen, die zu erwarten sind. Aus diesem Grund muss jedes der
Bilderkennungsverfahren der ersten und der zweiten Ausführungsform
Gesichtsbilder erkennen, die in vielen Bildern vorhanden sind, die
unter verschiedenen Umständen erfasst werden. Um zu überprüfen,
ob jedes der Bilderkennungsverfahren der ersten und der zweiten
Ausführungsform eine höhere Einsatzflexibilität
und Robustheit aufweist, wurde eine hohe Anzahl von Bildern von
Fahrern in einem Fahrzeug unter verschiedenen Umgebungszuständen
erfasst, wie beispielsweise mit verschiedenen Bilderfassungsvorrichtungen,
verschiedenen Bedienern als die Fahrer und verschiedenen Beleuchtungszuständen.
Bei der hohen Anzahl von erfassten Bildern wurden viele Gesichtsbilder
und viele Nicht-Gesichtsbilder erzeugt und wurden diese Gesichtsbild und
diese Nicht-Gesichtsbilder als ein Satz von Testbildern verwendet.
-
Das
erste Bilderkennungsverfahren der ersten Ausführungsform,
das als „ClassProb-Verfahren” bezeichnet wird,
und das zweite Bilderkennungsverfahren der zweiten Ausführungsform,
das als „AS-Boost” bezeichnet wird, wurden unter
Verwendung von 1000 schwachen Klassifizierern zur Erkennung der
Gesichtsbilder in den Testbildern durchgeführt.
-
Ferner
wurde das dritte Bilderkennungsverfahren als erstes Vergleichsbeispiel,
das als „Normal Boost” bezeichnet wird, unter
Verwendung der 1000 schwachen Klassifizierer zur Erkennung der Gesichtsbilder
in den Testbildern ausgeführt, ohne hierfür eine
frühe Beurteilung vorzunehmen. Das vierte Bilderkennungsverfahren
als zweites Vergleichsbeispiel, das als „Viola & Jones Verfahren” bezeichnet
und im Referenzdokument 1 beschrieben wird, wurde unter Verwendung
der 1000 schwachen Klassifizierer zur Erkennung der Gesichtsbilder
in den Testbildern durchgeführt.
-
Es
sollte beachtet werden, dass die 1000 schwachen Klassifizierer (Nf
= 1000) unter Verwendung des AdaBoost-Algorithmus und des Satzes
von Trainingsbildern trainiert wurden und jeder der 1000 schwachen Klassifizierer
Klassifizierungen des Satzes von Testbildern auf der Grundlage der „Haar-like
Features” ausgeführt hat, ähnlich der
ersten und der zweiten Ausführungsform.
-
Bei
dem ersten und dem zweiten Bilderkennungsverfahren, die bei der
ersten und der zweiten Ausführungsform beschrieben werden,
werden die Parameter a, b, and σ, welche den Faktor Fs der Sicherheit bestimmen, der in der Gleichung
(17) beschrieben wird, auf 9 bzw. 3 bzw. Nf/6,25 gesetzt. Da der
Parameter σ in Abhängigkeit der Anzahl Nf der
mehreren schwachen Klassifizierer bestimmt wird, ist das Verhalten
des Faktors Fs der Sicherheit unabhängig
von der Anzahl Nf der mehreren schwachen Klassifizierer gleich.
-
7A zeigt
schematisch das Verhalten der Erfassungspunktzahl S(–)
1:n, der erwarteten Punktzahl S (+) / n+1:Nf
, des
oberen Grenzwerts SH des Verteilungsbereichs und des unteren Grenzwerts
SL des Verteilungsbereichs über der Anzahl (n) von angewandten
schwachen Klassifizierern; wobei diese Datenelemente S(–)
1:n, S (+) / n+1:Nf
, SH und SL berechnet wurden,
wenn alle der Nf schwachen Klassifizierer auf ein Gesichtsbild,
das als Objektbild in der Gesichtsklasse enthalten ist, angewandt
wurden.
-
7B zeigt
in ähnlicher Weise schematisch das Verhalten der Erfassungspunktzahl
S(–)
1:n,
der erwarteten Punktzahl S (+) / n+1:Nf
, des oberen Grenzwerts SH des
Verteilungsbereichs und des unteren Grenzwerts SL des Verteilungsbereichs über
der Anzahl (n) von angewandten schwachen Klassifizierern; wobei
diese Datenelemente S(–)
1:n, S (+) / n+1:Nf
, SH und SL berechnet wurden,
wenn alle der Nf schwachen Klassifizierer auf ein Nicht-Gesichtsbild,
das als Objektbild in der Nicht-Gesichtsklasse enthalten ist, angewandt
wurden.
-
Tests
zur Erkennung der Testbilder unter Verwendung jedes Verfahrens der
Verfahren („ClassProb”, „AS Boost”, „Normal
Boost”, „Viola & Jones”)
wurden ausgeführt. Die Ergebnisse der Tests, die für
jedes Verfahren der Verfahren („ClassProb”, „AS
Boost”, „Normal Boost”, „Viola & Jones”)
erhalten wurden, umfassen die Wahrscheinlichkeit (Falsch-Positiv-Rate),
dass Nicht-Gesichtsbilder inkorrekt als Gesichtsbilder erkannt werden,
die Wahrscheinlichkeit (Miss-Rate), dass Gesichtsbilder nicht erfasst
werden, um so als Nicht-Gesichtsbilder erfasst zu werden, und eine
durchschnittliche Anzahl von angewandten schwachen Klassifizierern vor
der Beurteilung.
-
8A zeigt
schematisch für jedes der Verfahren („ClassProb”, „AS
Boost”, „Normal Boost”, „Viola & Jones”)
die Falsch-Positiv-Rate, die Miss-Rate und die durchschnittliche
Anzahl von angewandten schwachen Klassifizierern vor der Beurteilung.
-
8B zeigt
schematisch für jedes der Verfahren („ClassProb”, „AS
Boost”, „Normal Boost”, „Viola & Jones”)
die Erfassungsfehlerrate als die Summe der Falsch-Positiv-Rate und
der Miss-Rate, wenn die Anzahl (Nf) der mehreren schwachen Klassifizierer
geändert wird.
-
Die 7A und 7B zeigen,
dass sowohl das erste als auch das zweite Bilderkennungsverfahren („ClassProb” und „AS
Boost”) die endgültige Beurteilungspunktzahl in
einer deutlich frühen Stufe bei der Anzahl von angewandten
schwachen Klassifizierern von 50 oder ungefähr 50 vorhersagen
kann und die Zuverlässigkeit der erwarteten Punktzahl erhöhen
kann, d. h. die Varianz der erwarteten Verteilung verringern kann, wenn
die Anzahl von angewandten schwachen Klassifizierern zunimmt. Folglich
ermöglicht sowohl das erste als auch das zweite Bilderkennungsverfahren
(„ClassProb” und „AS Boost”)
eine frühe Beurteilung an dem Punkt „X”,
der bei weniger als 200 angewandten schwachen Klassifizierern liegt.
-
8A zeigt,
dass sowohl das erste als auch das zweite Bilderkennungsverfahren
(„ClassProb” und „AS Boost”):
die
Erfassungsfehlerrate derart verringert, dass diese kleiner oder
gleich derjenigen des ersten Vergleichsbeispiels (Normal Boost)
ist,
die Anzahl von angewandten schwachen Klassifizierern verglichen
mit derjenigen des zweiten Vergleichsbeispiels („Viola & Jones”)
derart verringert, dass deren Beurteilungszeitpunkt vor demjenigen
des zweiten Vergleichsbeispiels („Viola & Jones”)
liegt, und
die Erfassungsfehlerrate derart verringert, dass
diese geringer als diejenige des zweiten Vergleichsbeispiels („Viola & Jones”)
ist.
-
Insbesondere
verringert das zweite Bilderkennungsverfahren („AS Boost”)
die Anzahl von angewandten schwachen Klassifizierern derart, dass
diese im Wesentlichen bei der Hälfte von derjenigen des
zweiten Vergleichsbeispiels („Viola & Jones”) liegt.
-
Ferner
zeigt die 8B, dass das Ergebnis des zweiten
Vergleichsbeispiels („Viola & Jones”) dahingehend eine
Tendenz aufweist, dass die entsprechende Erfassungsfehlerrate mit
einer zunehmender Anzahl von allen schwachen Klassifizierern zunimmt.
Demgegenüber zeigt die Leistung von sowohl dem ersten als auch
dem zweiten Bilderkennungsverfahren („ClassProb-Verfahren” und „AS
Boost”), dass die entsprechende Erfassungsfehlerrate kleiner
oder gleich derjenigen des ersten Vergleichsbeispiels (Normal Boost)
ist, ungeachtet der Anzahl von allen schwachen Klassifizierern.
Ferner wird selbst dann verhindert, dass die Leistung von sowohl
dem ersten als auch dem zweiten Bilderkennungsverfahren („ClassProb-Verfahren” und „AS Boost”)
verringert wird, wenn die Anzahl aller schwachen Klassifizierer
zunimmt, und wird die Leistung von sowohl dem ersten als auch dem
zweiten Bilderkennungsverfahren bei einem im Wesentlichen konstanten
Pegel gehalten, ungeachtet der Zunahme in der Anzahl aller schwachen
Klassifizierer. Insbesondere zeigt das Ergebnis des zweiten Bilderkennungsverfahrens
(„AS Boost”), dass im Wesentlichen 400 schwache
Klassifizierer das im Wesentlichen Beste aus dem zweiten Bilderkennungsverfahren
herausholen können.
-
Aus
dem vorstehend Demonstrierten folgt, dass sowohl das erste als auch
das zweite Bilderkennungsverfahren („ClassProb-Verfahren” und „AS
Boost”) im Gegensatz zum zweiten Vergleichsbeispiel sowohl
eine frühzeitige Beurteilung als auch eine Robustheit auf
ihren hohen Niveaus erzielen, und zwar unabhängig von der
Anzahl aller schwachen Klassifizierer.
-
Die
vorliegende Erfindung ist nicht auf die erste und die zweite Ausführungsform
beschränkt, sondern kann auf verschiedene Weise innerhalb
ihres Schutzumfangs modifiziert werden.
-
Bei
sowohl der ersten als auch der zweiten Ausführungsform
liegt die Anzahl von Klassen bei zwei, kann die Anzahl von Klassen
jedoch auf einen Wert von größer oder gleich drei
gesetzt werden. So kann die Gesichtsklasse, zu der Gesichtsbilder
gehören, beispielsweise in mehrere Unterklassen unterteilt
werden, von denen beispielsweise eine Gesichtsbilder mit Brillen
und eine andere Gesichtsbilder mit Sonnenbrillen aufweist.
-
Bei
dieser Modifikation kann eine Gruppe von schwachen Klassifizierern
unter mehreren schwachen Klassifizierern für jede der Klassen
einschließlich der Unterklassen und der Nicht-Gesichtsklassen
festgelegt werden. Ein Satz von Klassen einschließlich
der Unterklassen und der Nicht-Gesichtsklassen kann als C gegeben
sein, und Elemente von sowohl den Unterklassen als auch der Nicht-Gesichtsklasse
können als c gegeben sein. So weisen beispielsweise Elemente
der Unterklassen verschiedene Werte auf und weist jedes Element
c der Nicht-Gesichtsklasse den Wert 0 auf. Wenn die Parameter c
verwendet werden, können die Beurteilungswahrscheinlichkeiten
von jedem schwachen Klassifizierer fn für
jedes Element c durch ”p(fn|c)” beschrieben
werden.
-
Die
Gesichtspositionserfassungsvorrichtung kann dazu ausgelegt sein,
eine entsprechende Klasse für jeden der gewählten
schwachen Klassifizierer auf der Grundlage der entsprechenden Beurteilungswahrscheinlichkeit
zu schätzen und schwache Klassifizierer, die auf eine Objektbild
anzuwenden sind, auf der Grundlage der geschätzten Klasse
zu wechseln, um so eine Bilderkennung des Objektbildes auszuführen.
Bestimmte Verfahren dieser Modifikation sind beispielsweise aus
der
US 2009/0304290
A1 , welche der
JP 2009-295100 entspricht,
bekannt. Da das obige US-Patentdokument auf die gleiche Anmelderin
zurückzuführen ist, von der auch diese Anmeldung
stammt, wird auf dieses US-Patentdokument vollinhaltlich Bezug genommen.
-
Bei
sowohl der ersten als auch der zweiten Ausführungsform
werden schwache Klassifizierer dazu verwendet, eine Erkennung von
erfassten Bildern auszuführen, können jedoch trainierte
Klassifizierer, untrainierte Klassifizierer und starke Klassifizierer
dazu verwendet werden, eine Erkennung von erfassten Bildern auszuführen.
-
Obgleich
die vorliegende Erfindung vorstehend in Verbindung mit ihren Ausführungsformen
und Modifikationen beschrieben wurde, sollte wahrgenommen werden,
dass sie auf verschiedene Weise modifiziert werden kann, ohne ihren
Schutzumfang zu verlassen, so wie er in den beigefügten
Ansprüchen dargelegt wird.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - JP 2009-176474 [0001]
- - US 7099510 [0011]
- - US 2009/0304290 A1 [0151]
- - JP 2009-295100 [0151]