-
TECHNISCHES GEBIET
-
Diese Offenbarung bezieht sich auf die Überwachung eines Fahrzeugfahrers und auf die Bestimmung, ob der Blick des Fahrers von der Straße abweicht. Insbesondere betrifft die Erfindung ein Verfahren zum Bestimmen, ob eine Augen-abseits-der-Straße-Bedingung (EOTR-Bedingung) vorliegt, gemäß dem Oberbegriff des Anspruchs 1, wie es der Art nach im Wesentlichen aus dem Aufsatz mit dem Titel „Single image face orientation and gaze detection“ von KAMINSKI, Jeremy Yrmeyahu; KNAAN, Dotan und SHAVIT, Adi (veröffentlicht in: Machine Vision and Applicaton, Vol. 21, 2009,S. 85-98) bekannt ist.
-
Bezüglich des weitergehenden Standes der Technik sei an dieser Stelle auf die Druckschriften
US 2012 / 0 308 124 A1 und
US 2010 / 0 208 205 A1 verwiesen.
-
HINTERGRUND
-
Fahrzeuge, die die Fähigkeit besitzen, einen Bediener eines Fahrzeugs zu überwachen und zu detektieren, dass der Bediener die Straßenszene nicht beachtet, ermöglichen Maßnahmen zu ergreifen, die eine Fahrzeugkollision infolgedessen, dass der Bediener unaufmerksam ist, verhindern. Zum Beispiel können Warnsysteme freigegeben werden, um den Fahrer zu warnen, dass er unaufmerksam ist. Ferner können automatische Brems- und automatische Lenksysteme freigegeben werden, um das Fahrzeug zu einem Halt zu bringen, falls bestimmt wird, dass der Fahrer nicht aufmerksam geworden ist, selbst nachdem er gewarnt worden ist.
-
Es ist bekannt, Fahrerüberwachungs-Kameravorrichtungen zu nutzen, die so konfiguriert sind, dass sie einen Fahrer überwachen und auf der Grundlage der geschätzten Blickrichtung des Fahrers eine Augen-abseits-der-Straße-Bedingung (EOTR-Bedingung) detektieren, die angibt, dass die Augen des Fahrers abseits der Straße sind. Allerdings wird die Leistungsfähigkeit verschlechtert, wenn der Fahrer eine Brille trägt, da Schätzungen der Blickrichtung des Fahrers unzuverlässig sind. Gleichfalls sind Schätzungen der Blickrichtung des Fahrers nicht verfügbar, wenn der Fahrer eine Sonnenbrille trägt.
-
ZUSAMMENFASSUNG
-
Erfindungsgemäß wird ein Verfahren, um zu bestimmen, dass eine Augen-abseits-der-Straße-Bedingung (EOTR-Bedingung) vorliegt, vorgeschlagen, das die Merkmale des Anspruchs 1 aufweist.
-
Figurenliste
-
Es werden nun eine oder mehrere Ausführungsformen beispielhaft mit Bezug auf die beigefügten Zeichnungen beschrieben, in denen:
- 1 eine beispielhafte nicht einschränkende Ansicht von Komponenten eines Fahrerüberwachungssystems innerhalb eines Fahrzeugs in Übereinstimmung mit der vorliegenden Offenbarung darstellt;
- 2 durch eine Kameravorrichtung aus 1 erfasste nicht einschränkende Bilddaten eines Fahrers des Fahrzeugs in Übereinstimmung mit der vorliegenden Offenbarung darstellt;
- 3 einen beispielhaften Ablaufplan zum Auswählen eines von zwei Verfahren zum Bestimmen, ob eine Augen-abseits-der-Straße-Bedingung (EOTR-Bedingung) vorliegt, in Übereinstimmung mit der vorliegenden Offenbarung darstellt;
- 4 einen beispielhaften Ablaufplan des Entscheidungsblocks 304 aus 3 zum Detektieren, ob der Fahrer aus 2 eine Brille trägt, in Übereinstimmung mit der vorliegenden Offenbarung darstellt;
- 5 einen beispielhaften Ablaufplan 500 zur Ausführung eines direkten EOTR-Detektierungsverfahrens des Blocks 308 aus 3, um unter Verwendung eines EOTR-Klassierers zu detektieren, ob die EOTR-Bedingung vorliegt, in Übereinstimmung mit der vorliegenden Offenbarung darstellt; und
- 6 eine beispielhafte nicht einschränkende Ausführungsform zum Konstruieren eines räumlichen Pyramidenbeutels visueller Wörter zum Erzeugen mehrerer räumlicher Histogramme in Übereinstimmung mit der vorliegenden Offenbarung darstellt.
-
AUSFÜHRLICHE BESCHREIBUNG
-
In den Zeichnungen, in denen die Darstellungen nur zur Veranschaulichung bestimmter Ausführungsformen dienen, veranschaulicht 1 eine beispielhafte nicht einschränkende Ansicht von Komponenten eines Fahrerüberwachungssystems innerhalb eines Fahrzeugs in Übereinstimmung mit der vorliegenden Offenbarung. Das Fahrerüberwachungssystem enthält eine fahrzeugintegrierte monokulare Kamera 10, die dafür konfiguriert ist, Bilddaten in einem Sehfeld (FOV) zu erfassen, die in Richtung eines Fahrers des Fahrzeugs gerichtet ist. Die erfassten Bilddaten enthalten Videoströme, die mehrere aufeinanderfolgend erfasste Bildrahmen enthalten. Die Kameravorrichtung 10 kann Licht oder andere Strahlung empfangen und z. B. unter Verwendung von Sensoren einer ladungsgekoppelten Vorrichtung (CCD) oder von Komplementär-Metalloxid-Halbleiter-Sensoren (CMOS-Sensoren) die Lichtenergie in elektrische Signale in einem Pixelformat umwandeln. Die Kameravorrichtung 10 steht in Signalkommunikation mit einer nicht zeitweiligen Verarbeitungsvorrichtung 15, die dafür konfiguriert ist, die erfassten Bilddaten zu empfangen und eine Detektierung, ob der Fahrer eine Brille trägt, und eine Bestimmung, ob eine Augen-abseits-der-Straße-Bedingung (EOTR-Bedingung) vorliegt, auszugeben. Wie der Begriff „EOTR-Bedingung“ hier verwendet ist, bezieht er sich auf eine Bestimmung, dass die Augen des Fahrers aktuell nicht auf die Straßen-/Fahrszene fokussiert sind. Die Verarbeitungsvorrichtung 15 kann innerhalb irgendeines geeigneten Raums des Fahrzeugs implementiert sein, der durch die Kameravorrichtung 10 erfasste Bildeingangsdaten empfangen kann. Die Kameravorrichtung 10 ist innerhalb eines Innenraums des Fahrzeugs angebracht. In einer Ausführungsform ist die Kameravorrichtung 10 über einer Lenkradsäule an einem Fahrzeugarmaturenbrett angebracht. Ferner enthält das Fahrerüberwachungssystem eine Infrarotbeleuchtungseinrichtung 12, die dafür konfiguriert ist, Infrarotlicht in Richtung des Fahrers zu projizieren, so dass durch die Kameravorrichtung 10 während lichtarmer Bedingungen wie etwa nachts ein deutliches Bild des Gesichts des Fahrers erhalten wird. Im Gegensatz zur Nutzung einer direkten Lichtquelle wirkt sich Infrarotlicht nicht auf das Sehen des Fahrers aus. Darüber hinaus erleiden erfasste Bilddaten keine „helle Pupille“, die erzeugt wird, wenn Lichtquellen im nahen Infrarot genutzt werden. In einer Ausführungsform enthält die Kameravorrichtung kein Infrarotfilter, das Infrarotlicht jenseits vorgegebener Wellenlängen sperrt. Vorliegende Ausführungsformen sind auf die Verwendung von durch die Kameravorrichtung 10 erfassten Bilddaten zum Detektieren, ob die EOTR-Bedingung vorliegt, selbst wenn der Fahrer eine Brille trägt und ohne Verwendung von Eingaben mit räumlich und zeitlich hoher Auflösung, und somit auf die Beseitigung der Notwendigkeit teurer Kameras und Linsen gerichtet.
-
Steuermodul, Modul, Steuerung, Controller, Steuereinheit, Prozessor und ähnliche Begriffe bedeuten irgendeine oder irgendwelche verschiedenen Kombinationen einer oder mehrerer anwendungsspezifischer integrierter Schaltung(en) (ASIC), elektronischer Schaltung(en), Zentraleinheit(en) (vorzugsweise Mikroprozessor(en)) und von zugeordnetem Speicher und zugeordneter Ablage (nur Lesen, programmierbar nur Lesen, Schreiben-Lesen, Festplatte usw.), die eines oder mehrere Software- oder Firmwareprogramme oder -routinen ausführen, kombinatorischer Logikschaltung(en), Eingabe/Ausgabe-Schaltung(en) und -Vorrichtungen, geeigneter Signalaufbereitungs- und -pufferschaltungen und anderer Komponenten zur Bereitstellung der beschriebenen Funktionalität. Software, Firmware, Programme, Anweisungen, Routinen, Code, Algorithmen und ähnliche Begriffe bedeuten irgendwelche Anweisungssätze einschließlich Kalibrierungen und Nachschlagetabellen. Das Steuermodul besitzt einen Satz von Steuerroutinen, die zur Bereitstellung der gewünschten Funktionen ausgeführt werden. Routinen werden wie etwa durch eine Zentraleinheit ausgeführt und sind zum Überwachen von Eingaben von Erfassungsvorrichtungen und anderen vernetzten Steuermodulen und zum Ausführen von Steuer- und Diagnoseroutinen zum Steuern des Betriebs von Aktuatoren betreibbar. Routinen können in regelmäßigen Intervallen, z. B. alle 3,125, 6,25, 12,5, 25 und 100 Millisekunden während des andauernden Kraftmaschinen- und Fahrzeugbetriebs, ausgeführt werden. Alternativ können Routinen in Ansprechen auf das Auftreten eines Ereignisses ausgeführt werden.
-
2 veranschaulicht nicht einschränkende Bilddaten des Fahrers, die durch die Kameravorrichtung aus 1 in Übereinstimmung mit der vorliegenden Offenbarung erfasst werden. In der dargestellten Ausführungsform trägt der Fahrer eine Brille 50. Wie der Begriff „Brille“ hier verwendet ist, bezieht er sich auf irgendeinen Typ von Korrektionsbrillen, Sonnenbrillen, Schutzbrillen, Augenschutzgläsern oder auf irgendeine andere Brillenform einschließlich Linsen, die die Augen des Fahrers bedecken. Das Gebiet 20 enthält ein EOTR-Gebiet, das Bilddaten für die Überwachung der Position des Kopfs des Fahrers und/oder von Gesichtsmerkmalspunkten und/oder von Informationen über die Augen des Fahrers enthält. In einer Ausführungsform wird das EOTR-Gebiet überwacht, um aus dem Gesicht des Fahrers visuelle Merkmale zu extrahieren, um die Fahrergesichtsnachführung zu ermöglichen, wobei aus der Gesichtsnachführung Informationen über die Augen des Fahrers entnommen werden können. Die Informationen über die Augen des Fahrers können schließlich verwendet werden, um einen Ort, auf den der Fahrer blickt, zu schätzen und um daraus die EOTR-Bedingung zu bestimmen. Allerdings können EOTR-Bedingungen auf der Grundlage der geschätzten Orte des Blicks zu falschen Detektierungen führen, wenn der Fahrer eine Brille trägt, da die Fähigkeit zum Extrahieren von Informationen über die Augen des Fahrers vor der Gesichtsnachführung beschränkt ist. Dementsprechend erfordert das Bestimmen des Vorliegens der EOTR-Bedingung eine Kenntnis darüber, ob der Fahrer eine Brille trägt, so dass ein geeignetes Verfahren zum Bestimmen des Vorliegens der EOTR-Bedingung ausgewählt werden kann.
-
3 veranschaulicht einen beispielhaften Ablaufplan 300 zum Auswählen eines von zwei Verfahren, um zu bestimmen, ob eine EOTR-Bedingung vorliegt, in Übereinstimmung mit der vorliegenden Offenbarung. Der beispielhafte Ablaufplan 300 kann innerhalb der nicht zeitweiligen Verarbeitungsvorrichtung 15 aus 1 implementiert sein und durch sie ausgeführt werden. Anhand des Blocks 302 werden durch die Kameravorrichtung 10 aus 1 Bilddaten erfasst, die dem Fahrer entsprechen. Der Entscheidungsblock 304 detektiert auf der Grundlage der Bilddaten unter Verwendung eines Brillenklassierers, ob der Fahrer eine Brille trägt. Wenn der Entscheidungsblock 304 detektiert, dass der Fahrer keine Brille trägt, wie es durch eine „0“ bezeichnet ist, wird im Block 306 ein blickbasiertes EOTR-Detektierungsverfahren ausgeführt. Falls der Entscheidungsblock 304 detektiert, dass der Fahrer eine Brille trägt, wie es durch eine „1“ bezeichnet ist, wird im Block 308 ein direktes EOTR-Detektierungsverfahren unter Verwendung von einem EOTR-Klassierer klassifizierter extrahierter Pose-Informationen von dem Fahrer ausgeführt. Vorliegende Ausführungsformen sind auf ein direktes EOTR-Detektierungsverfahren gerichtet, wenn detektiert wird, dass der Fahrer eine Brille trägt. In dem direkten EOTR-Detektierungsverfahren des Blocks 306 kann die EOTR-Bedingung aus extrahieren visuellen Merkmalen, z. B. Fahrergesichtsmerkmalen, direkt detektiert werden, ohne sich auf Schätzungen der Blickrichtung des Fahrers zu stützen. Dementsprechend führt der Entscheidungsblock 304 einen Brillenklassierer aus, um zu detektieren, ob der Fahrer eine Brille trägt, und führt der Block 308 einen EOTR-Klassierer aus, um auf der Grundlage eines Orts des Gesichts des Fahrers zu bestimmen, ob die EOTR-Bedingung vorliegt.
-
4 veranschaulicht einen beispielhaften Ablaufplan
400 des Entscheidungsblocks
304 aus
3, um in Übereinstimmung mit der vorliegenden Offenbarung zu detektieren, ob der Fahrer aus
2 eine Brille trägt. Der beispielhafte Ablaufplan
400 kann innerhalb der nicht zeitweiligen Verarbeitungsvorrichtung
15 aus
1 implementiert sein und durch sie ausgeführt werden. Tabelle 1 ist als ein Schlüssel zu
4 gegeben, wobei die mit Bezugszeichen bezeichneten Blöcke und die entsprechenden Funktionen wie folgt dargelegt sind.
Tabelle 1
BLOCK | INHALT DES BLOCKS |
402 | Erhalten durch die Kameravorrichtung erfasster Bilddaten, die dem Fahrer entsprechen. |
404 | Extrahieren visueller Merkmale aus den erfassten Bilddaten. |
406 | Quantisieren der extrahierten visuellen Merkmale unter Verwendung eines durch eine Gruppierungsroutine erhaltenen Wörterbuchs mehrerer visueller Wörter. |
408 | Pooling der quantisierten visuellen Merkmale, um ein räumliches Histogramm der visuellen Wörter zu erzeugen. |
410 | Klassifizieren des räumlichen Histogramms unter Verwendung eines Brillenklassierers. |
412 | Detektieren, ob der Fahrer eine Brille trägt, auf der Grundlage der Klassifizierung des räumlichen Histogramms. |
-
Anhand des Blocks 402 wird ein Eingangsbild erhalten, das die dem Fahrer entsprechenden Bilddaten enthält, die durch die Kameravorrichtung 10 aus 1 erfasst werden. In einer Ausführungsform enthalten die Bilddaten ein detektiertes Gesicht des Fahrers. Der Fahrer kann eine gewöhnliche Brille tragen, eine Sonnenbrille tragen oder überhaupt keine Brille tragen. Allerdings ist im Block 402 nicht bekannt, ob der Fahrer eine gewöhnliche Brille, eine Sonnenbrille oder überhaupt keine Brille trägt. Wie der Begriff „gewöhnliche Brille“ hier verwendet ist, bezieht er sich auf irgendeinen Korrektionsbrillentyp, Schutzbrillentyp oder anderen Typ einer Brille, die durchsichtige Linsen aufweist.
-
Der Block 404 extrahiert aus den erfassten Bilddaten visuelle Merkmale. Die visuellen Merkmale geben Gesichtsmerkmalspunkte des detektierten Gesichts des Fahrers an. Das Eingangsbild, das das detektierte Gesicht enthält, kann normiert werden. In einer nicht einschränkenden Ausführungsform wird das detektierte Gesicht normiert, z. B. seine Größe auf ein Quadrat von 200 × 200 Pixeln (z. B. einen Bildausschnitt) geändert. In einigen Ausführungsformen enthält die Extraktion visueller Merkmale das Extrahieren dichter Merkmale aus dem detektierten Gesicht durch Anwendung eines Deskriptors einer engmaschigen skaleninvarianten Merkmalstransformation (SIFT) über engmaschige Raster an den erfassten Bilddaten, die das detektierte Gesicht des Fahrers enthalten. In einem nicht einschränkenden Beispiel sind die Werte der Schrittweite und die Klassengrößen der extrahierten Merkmale auf 2 bzw. 4 eingestellt. Die Nutzung des SIFT-Deskriptors ermöglicht, dass ein größerer Satz lokaler Bilddeskriptoren über dem engmaschigen Raster berechnet wird, um mehr Informationen bereitzustellen, als sie Deskriptoren entsprechen, die in dünn besiedelten Sätzen von Bildpunkten ausgewertet werden.
-
Anhand des Blocks 406 werden die extrahierten visuellen Merkmale unter Verwendung eines durch eine Gruppierungsroutine erhaltenen Wörterbuchs mehrerer visueller Wörter quantisiert. Die Quantisierung ist ein Codierungsprozess, um die extrahierten visuellen Merkmale zu gruppieren und um daraus Code zu erzeugen. In einer Ausführungsform enthält das Wörterbuch mehrerer visueller Wörter unter Verwendung einer k-Means-Gruppierungsroutine ein 500-Wort-Wörterbuch visueller Wörter.
-
Anhand des Blocks 408 werden die quantisierten visuellen Merkmale des Blocks 406 gepoolt, um ein räumliches Histogramm der visuellen Wörter zu erzeugen.
-
Der Block 410 klassifiziert das erzeugte räumliche Histogramm des Blocks 408 unter Verwendung des Brillenklassierers, um zu detektieren, ob der Fahrer eine Brille trägt. In der dargestellten Ausführungsform enthält der Brillenklassierer einen linearen Mehrklassen-Unterstützungsvektormaschinen-Klassierer (SVM-Klassierer). Der lineare Mehrklassen-SVM-Klassierer kann unter Verwendung mehrerer gleichförmig verteilter trainierter Bilder trainiert werden. Jedes trainierte Bild enthält ein jeweiliges abgetastetes Gesichtsbild, das einer von drei Klassen, die das abgetastete Gesicht (1), das keine Brille trägt, (2) das eine gewöhnliche Brille trägt und (3) das eine Sonnenbrille trägt, enthalten, entspricht. Dementsprechend enthält die gleichförmige Verteilung der trainierten Bilder unter den mehreren trainierten Bildern drei gleiche Abschnitte, wobei jeder Abschnitt einer der drei Klassen entspricht. Einige der mehreren trainierten Bilder können während lichtarmer Fahrbedingungen oder Nachtfahrbedingungen erfasst werden. Darüber hinaus werden die abgetasteten Gesichtsbilder aus mehreren Personen aus unterschiedlicher Ethnizität, die außerdem unterschiedliche Variationen der Kopfpose besitzen, ausgewählt.
-
Der Block 412 detektiert auf der Grundlage der Klassifizierung des räumlichen Histogramms unter Verwendung des Brillenklassierers des Blocks 410, ob der Fahrer eine Brille trägt. Das räumliche Histogramm kann als die Tatsache, dass der Fahrer keine Brille trägt 420, dass der Fahrer eine gewöhnliche Brille trägt 430 oder dass er eine Sonnenbrille trägt 440, klassifiziert werden. Wenn das räumliche Histogramm so klassifiziert wird, dass der Fahrer keine Brille trägt, führt der Block 306 aus 3 das blickrichtungsbasierte EOTR-Detektierungsverfahren unter Nutzung von Schätzwerten der Blickrichtung des Fahrers aus, da die Augeninformationen des Fahrers genau erhalten werden können. Wenn das räumliche Histogramm so klassifiziert wird, dass der Fahrer eine gewöhnliche Brille oder Sonnenbrille trägt, 420 bzw. 430, führt der Block 308 das direkte EOTR-Detektierungsverfahren unter Verwendung des EOTR-Klassierers aus, um auf der Grundlage eines Orts des Gesichts des Fahrers zu bestimmen, ob der Fahrer abseits der Straße blickt.
-
5 veranschaulicht einen beispielhaften Ablaufplan
500 der Ausführung des direkten EOTR-Detektierungsverfahrens des Blocks
308 aus
3, um unter Verwendung eines EOTR-Klassierers zu detektieren, ob die EOTR-Bedingung vorliegt, in Übereinstimmung mit der vorliegenden Offenbarung. Der beispielhafte Ablaufplan
500 kann innerhalb der nicht zeitweiligen Verarbeitungsvorrichtung
15 aus
1 implementiert sein und durch sie ausgeführt werden. Die Tabelle 2 ist als ein Schlüssel zu
5 gegeben, wobei die mit Bezugszeichen bezeichneten Blöcke und die entsprechenden Funktionen wie folgt dargelegt sind.
Tabelle 2
BLOCK | INHALT DES BLOCKS |
| |
502 | Erhalten durch die Kameravorrichtung erfasster Bilddaten, die dem Fahrer entsprechen. |
504 | Extrahieren eines interessierenden Gebiets, das ein detektiertes Gesicht des Fahrers enthält, unter Verwendung eines Gesichtsdetektors. |
506 | Extrahieren visueller Merkmale aus den erfassten Bilddaten. |
508 | Quantisieren der extrahierten visuellen Merkmale unter Verwendung eines durch eine Gruppierungsroutine erhaltenen Wörterbuchs mehrerer visueller Wörter. |
510 | Pooling der quantisierten visuellen Merkmale, um wenigstens ein räumliches Histogramm der visuellen Wörter zu erzeugen. |
511 | Detektieren eines Orts des Gesichts des Fahrers aus dem detektierten Gesicht des Fahrers. |
512 | Erzeugen eines Merkmalsvektors des wenigstens einen räumlichen Histogramms der visuellen Wörter, verkettet mit dem Ort des Gesichts des Fahrers. |
514 | Klassifizieren des Merkmalsvektors unter Verwendung eines EOTR-Klassierers. |
516 | Detektieren, ob eine EOTR-Bedingung vorliegt, auf der Grundlage des klassifizierten Merkmalsvektors. |
-
Es ist festzustellen, dass die Schätzung einer Fahrerblickrichtung nicht erhalten werden kann oder nicht zuverlässig ist, wenn der Fahrer eine Brille trägt, z. B., wenn der Block 412 aus 4 eine gewöhnliche Brille 430 oder eine Sonnenbrille 440 detektiert, da die Augeninformationen wegen der Anwesenheit der Brille versperrt sind. Dementsprechend wird die Detektierung der EOTR-Bedingung unter Verwendung des blickbasierten EOTR-Detektierungsverfahrens umgangen und stattdessen ein vortrainierter EOTR-Klassierer genutzt, um zu bestimmen, ob die EOTR-Bedingung vorliegt. Wie im Folgenden ausführlicher beschrieben ist, verwendet der EOTR-Klassierer Gesichtsmerkmale des Fahrers, die aus den durch die monokulare Kameravorrichtung 10 aus 1 erfassten Bilddaten extrahiert werden, um eine binäre Entscheidung, z. B., ob die EOTR-Bedingung vorliegt, auszugeben.
-
Anhand des Blocks 502 wird durch die Kameravorrichtung 10 aus 1 ein Eingangsbild erfasst, das Bilddaten des Fahrers enthält. Im Block 504 wird aus den Bilddaten ein interessierendes Gebiet oder eine Größenänderung extrahiert. Das interessierende Gebiet enthält ein unter Verwendung eines Gesichtsdetektors detektiertes Gesicht des Fahrers. In einer nicht einschränkenden Ausführungsform wird die Ausgabe des Gesichtsdetektors, die das detektierte Gesicht angibt, normiert, z. B. ihre Größe auf ein Quadrat von 200 × 200 Pixeln (z. B. einen Bildausschnitt) geändert.
-
Der Block 506 extrahiert aus den erfassten Bilddaten visuelle Merkmale. Genauer werden aus dem interessierenden Gebiet diejenigen visuellen Merkmale extrahiert, die Gesichtsmerkmalspunkte angeben, die Gesichtsinformationen des Fahrers beschreiben. In einigen Ausführungsformen enthält die Extraktion visueller Merkmale das Extrahieren dichter Merkmale aus dem detektierten Gesicht durch Anwendung eines Deskriptors einer engmaschigen skaleninvarianten Merkmalstransformation (SIFT) über engmaschige Raster an den erfassten Bilddaten, die das detektierte Gesicht des Fahrers enthalten. In einem nicht einschränkenden Beispiel sind die Werte der Schrittweite und die Klassengrößen der extrahierten Merkmale jeweils auf 4 eingestellt. Die Nutzung des SIFT-Deskriptors ermöglicht, dass ein größerer Satz lokaler Bilddeskriptoren über dem engmaschigen Raster berechnet wird, um mehr Informationen bereitzustellen, als sie Deskriptoren entsprechen, die in dünn besiedelten Sätzen von Bildpunkten ausgewertet werden.
-
Anhand des Blocks 508 werden die extrahierten visuellen Merkmale unter Verwendung eines durch eine Gruppierungsroutine erhaltenen Wörterbuchs mehrerer visueller Wörter quantisiert. Die Quantisierung ist ein Codierungsprozess zum Gruppieren der extrahierten visuellen Merkmale und zum Erzeugen von Code daraus. In einer Ausführungsform enthält das Wörterbuch mehrerer visueller Wörter unter Verwendung einer k-Means-Gruppierungsroutine ein 250-Wort-Wörterbuch visueller Wörter.
-
Der Block 510 poolt die quantisierten visuellen Merkmale, um wenigstens ein räumliches Histogramm der visuellen Wörter zu erzeugen. Das wenigstens eine räumliche Histogramm enthält die visuellen Wörter unter Verwendung der quantisierten visuellen Merkmale. Wegen der Unterscheidungsinformationen der Objektklasse, die durch Messung der Bildähnlichkeit zwischen der Objektklasse und der Nicht-Objektklasse in diese Merkmale eingebettet sind, sind die räumlichen Histogrammmerkmale der visuellen Wörter spezifisch für eine Objektklasse, z. B. für menschliche Gesichter. Aus den extrahierten visuellen Merkmalen des detektierten Gesichts des Fahrers können hier Pose-Informationen des Fahrers bestimmt werden. In einer Ausführungsform erzeugt das Pooling der quantisierten Bilddaten unter Verwendung eines räumlichen Pyramidenbeutels [engl.: „pyramid bag“] visueller Wörter, der mehrere Schichten enthält, mehrere räumliche Histogramme der visuellen Wörter. Genauer werden die mehreren räumlichen Histogramme durch Aufteilen der erfassten Bilddaten in zunehmend verfeinerte Teilgebiete und durch Erzeugen der mehreren räumlichen Histogramme auf der Grundlage der zunehmend verfeinerten Teilgebiete erzeugt. Jedes Teilgebiet enthält jeweilige der mehreren räumlichen Histogramme. Die Größen der Teilgebiete hängen von der Anzahl der in dem räumlichen Pyramidenbeutel visueller Wörter verwendeten Schichten ab. Die räumlichen Histogramme jeder jeweiligen Schicht werden verkettet, was zu einem längeren Deskriptor führt, der einige geometrische Informationen der erfassten Bilddaten enthält, wobei z. B. das interessierende Gebiet das detektierte Gesicht des Fahrers angibt. Diese geometrische Verteilung der erfassten Bilddaten unter Verwendung der visuellen Wörter verbessert die Klassifizierungsleistung .
-
6 veranschaulicht eine beispielhafte nicht einschränkende Ausführungsform zum Konstruieren eines räumlichen Pyramidenbeutels visueller Wörter zum Erzeugen mehrerer räumlicher Histogramme, wie sie oben anhand des Blocks 510 aus 5 beschrieben wurde. Es ist eine erste Schicht 602 dargestellt, die in ein Gebiet aufgeteilt ist, wobei die Histogramme 603 visueller Wörter für die erste Schicht 602 dargestellt sind. Es ist eine zweite Schicht 604 dargestellt, die das Gebiet der ersten Schicht 602 auf vier (4) Teilgebiete erhöht. Die Histogramme 605 visueller Wörter sind für jedes der vier Teilgebiete der zweiten Schicht 606 dargestellt. Es ist eine dritte Schicht 606 dargestellt, die die vier Teilgebiete der zweiten Schicht 604 auf sechzehn (16) Teilgebiete erhöht. Die Histogramme 607 visueller Wörter sind für jedes der sechzehn Teilgebiete der dritten Schicht 608 dargestellt. Es wird gewürdigt werden, dass die drei Schichten 602, 604 und 606 nur zu Veranschaulichungszwecken dargestellt sind und dass diese Offenbarung nicht auf irgendeine Anzahl von Schichten für den räumlichen Pyramidenbeutel visueller Wörter beschränkt ist.
-
Wieder anhand von 5 detektiert der Block 511 aus den erfassten Bildeingangsdaten, die einen Ort des detektierten Gesichts des Fahrers angeben, einen Ort des Gesichts des Fahrers. Es ist festzustellen, dass der Ort des Gesichts des Fahrers ein räumlicher Messwert ist.
-
Anhand des Blocks 512 wird das wenigstens eine räumliche Histogramm der visuellen Wörter des Blocks 510 mit dem Block 511 des Orts des Gesichts des Fahrers verkettet, um einen Merkmalsvektor zu erzeugen.
-
Im Block 514 wird der erzeugte Merkmalsvektor des Blocks 512 unter Verwendung des EOTR-Klassieres klassifiziert. Genauer wird der EOTR-Klassierer genutzt, um den Merkmalsvektor zum Extrahieren von Pose-Informationen für den detektierten Ort des Gesichts zu klassifizieren. In der dargestellten Ausführungsform enthält der EOTR-Klassierer einen binären linearen SVM-Klassierer. Der binäre lineare SVM-Klassierer verwendet mehrere trainierte Bilder, die gleichförmig verteilt sind. Jedes trainierte Bild umfasst ein jeweiliges abgetastetes Gesichtsbild, das eine Brille trägt und einer von zwei Klassen entspricht. Die zwei Klassen enthalten das abgetastete Gesichtsbild, (1) in dem die EOTR-Bedingung vorliegt, das Gesichtsbild z. B. angibt, dass ein Fahrer seine Augen nicht auf einer Straßen-/Fahrszene hat, und (2) in dem die EOTR-Bedingung nicht vorliegt, z. B. das Gesichtsbild angibt, dass ein Fahrer seine Augen auf der Straßen-/Fahrszene hat. Dementsprechend sind die trainierten Abtastwerte über beide der zwei Klassen gleichförmig verteilt. Einige der mehreren trainierten Bilder können während lichtarmer Fahrbedingungen oder Nachtfahrbedingungen erfasst werden. Darüber hinaus werden die abgetasteten Gesichtsbilder aus mehreren Personen aus unterschiedlicher Ethnizität, die außerdem unterschiedliche Variationen der Kopfpose besitzen, ausgewählt. Dementsprechend arbeitet der EOTR-Klassierer in der Weise, dass er auf der Grundlage der Ausgabe des Merkmalsvektors und des aus den erfassten Bilddaten erhaltenen räumlichen Orts des Gesichts des Fahrers schätzt, ob ein Fahrer auf die Straße oder abseits der Straße blickt.
-
Der Block 516 bestimmt auf der Grundlage des klassifizierten Merkmalsvektors des Blocks 514, ob eine EOTR-Bedingung vorliegt. Wenn die EOTR-Bedingung detektiert wird, kann eine Alarm- oder andere Maßnahme ergriffen werden, um die Aufmerksamkeit des Fahrers zu erlangen, so dass der Fahrer seine Augen wieder auf die Straßenszene richtet.