DE60215743T2

DE60215743T2 - Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen

Info

Publication number: DE60215743T2
Application number: DE60215743T
Authority: DE
Inventors: c/o Eastman Kodak Company Shoupu Rochester Chen; c/o Eastman Kodak Company Mark R. Rochester Bolin
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2001-09-20
Filing date: 2002-09-09
Publication date: 2007-09-06
Anticipated expiration: 2022-09-10
Also published as: EP1296279A2; JP4234381B2; US20050129288A1; US7058209B2; EP1296279A3; US20030053663A1; EP1296279B1; DE60215743D1; US7254256B2; JP2003108981A

Description

Die vorliegende Erfindung betrifft digitale Bildverständnisverfahren und insbesondere Verfahren zur Erkennung menschlicher Gesichtsmerkmale.
Die Fähigkeit, die Lage der Gesichtsmerkmale zu erkennen, ist für eine Vielzahl von Anwendungen verwertbar. Zu diesen Anwendungen zählt das automatische Morphing und Warping, die Ausdruckserkennung, die Haarsegmentierung, die Gesichtserkennung und -klassifizierung, die Erkennung roter Augen und die Gesichtsbildkompression. Viele der Techniken, die zur Lokalisierung der Position der Gesichtsmerkmale verwendet werden, sind ebenfalls für eine Reihe weiterer allgemeiner Gesichtsmerkmalserkennungsaufgaben verwertbar. Dies kann die Identifizierung von Organen in der medizinischen Bilddarstellung und die Lokalisierung von Leiterkartenbauteilen in industriellen Visionsanwendungen umfassen.
Das Ermitteln von Gesichtsmerkmalen ist bereits von einer Reihe von Forschern untersucht worden. Es gibt vier Hauptkategorien von Algorithmen für die Erkennung von Gesichtsmerkmalen. Hierbei handelt es sich um Vorlagenvergleich, Kantenerkennung, Formenmodelle und holistischen Vergleich. Die Techniken, bei denen Formenmodelle eingesetzt werden, sind offenbar die vielversprechendsten. Diese Verfahren verwenden ein Modell der Merkmalsform, um die Suche auf plausible Ergebnisse zu beschränken. Dies erhöht die Genauigkeit des Merkmalsfinders und den Bereich, über den die Merkmale eindeutig identifiziert werden können. Die beiden populärsten Ansätze sind verformbare Vorlagen und aktive Formenmodelle. Für verformbare Vorlagen ist ein explizit parametrisiertes Modell der Merkmalsform erforderlich. Dies beschränkt die Anwendbarkeit dieser Technik auf Formen, die man leicht parametrisieren kann, und reduziert die Genauigkeit der Ergebnisse für Formen, die nicht genau den Parametern des Formenmodells entsprechen. Aktive Formenmodelle erlernen ein Modell der Merkmalsform anhand einer Reihe von Ground-Truth-Beispielen. Das Verfahren kann somit auf eine viel breitere Klasse von Merkmalsformen angewandt werden.
Die Technik des aktiven Formenmodells wurde von Cootes et al. entwickelt (siehe Cootes, T. F., Taylor, C. J., Cooper, D. H., "Active Shape Models – Their Training and Application," Computer Vision and Image Understanding, Band 61, Nr. 1, Seite 38-59, 1995). Sie stellt einen modellgestützten Mechanismus zur Lokalisierung von Objekten in Bildern bereit. Es wird ein flexibler Ansatz zur Modellierung verwendet, der auf eine breite Klasse von Zielobjekten anwendbar ist. Das Verfahren besteht aus einer Trainings- und einer Suchstufe. Während des Trainings wird eine Beispielbildmenge manuell mit einer Reihe von Kontrollpunkten versehen, die die Positionen der Ground-Truth-Merkmale bezeichnen. Diese Merkmalspositionen werden analysiert, um ein Modell der Form der plausiblen relativen Positionen der Kontrollpunkte zu entwickeln. Modelle der Textur um jeden Kontrollpunkt werden ebenfalls erstellt. Diese Modelle werden einmal erzeugt und zur Verwendung in nachfolgenden Suchläufen gespeichert. Während der Suche werden eine Reihe lokaler Suchläufe an jedem Merkmalspunkt durchgeführt, um die Lage zu finden, die mit dem Texturmodell für dieses Merkmal am besten übereinstimmt. Das globale Formenmodell wird dann benutzt, um die Ergebnisse der lokalen Suchläufe einzuschränken. Dieser Prozess arbeitet schrittweise, bis er bei Erzielung eines stabilen Ergebnisses konvergiert.
In dem System von Cootes erfordert die Suchoperation eine ungefähre Ausgangsposition, die von einem Benutzer angegeben werden muss. Dieser Benutzereingriff könnte durch einen automatischen Prozess zum Auffinden bestimmter Merkmale, vorzugsweise zwei Augen, auf der Grundlage eines einfachen, schnellen Verfahrens ersetzt werden.
Verfahren zur Erkennung menschlicher Augen in einem Digitalbild sind in der Technik bekannt. Beispielsweise beschreibt US-A-6,072,892 die Verwendung eines Schwellenwertmodells zur Erfassung der Position menschlicher Augen in einem Digitalbild. Bei diesem Verfahren verfährt ein Abtastfenster nach einem Rasterabtastverfahren über das gesamte Bild. Ein Histogrammextraktor extrahiert ein Intensitätshistogramm aus dem Fenster, während er das Bild abtastet. Jedes Intensitätshistogramm wird von einem Spitzendetektor untersucht, um drei Spitzen in dem Histogramm zu ermitteln, die die Haut, das Weiß der Augen und das Schwarz der Pupillen darstellen. Ein Histogramm mit diesen drei Spitzen identifiziert eine Lage in dem Bild, die potenziell eine Augenposition definiert. Jede Position wird aus den potenziellen Lagen ermittelt, indem der Bereich unter dem Histogramm berechnet wird, der jeder potenziellen Lage zugeordnet ist, und indem die Lage gewählt wird, die dem Histogramm mit dem größten Bereich zugeordnet ist.
Eines der Probleme bei diesem Ansatz besteht darin, dass das gesamte Bild pixelweise abgetastet werden muss. Somit muss ein Suchfenster an jedem Pixel in dem Bild positioniert werden, und ein Histogramm muss an jeder Pixelstelle zusammengesetzt werden. Außerdem muss der Bereich unter jedem Histogramm berechnet und gespeichert werden. Es ist leicht nachzuvollziehen, dass dieses Verfahren eine gewaltige Rechenleistung verbraucht und die Geschwindigkeit, mit der Bilder verarbeitet werden können, reduziert. Das Verfahren kann zudem eine hohe Rate falscher Positive erzeugen.
Es sind Verfahren bekannt, um menschliche Augen zu erkennen, die einen anomal hohen Rotanteil aufweisen. Ein derartig anomaler hoher Rotanteil ist üblicherweise einem fotografischen Phänomen zugeordnet, das als "rote Augen" bekannt ist. Rote Augen werden üblicherweise von einem Lichtblitz verursacht, der von einer Pupille reflektiert wird. Wie in der Parallelanmeldung US-A-6,292,574 beschrieben, gibt es in der Technik Verfahren, um Bilder auf Pixel zu durchsuchen, die einen hohen Rotanteil haben, der auf rote Augen hinweist. In ähnlicher Weise beschreibt US-A-5,432,863 ein benutzerinteraktives Verfahren zur Erkennung von Pixeln in einem Bild, die die Farbcharakteristik roter Augen haben. Selbstverständlich erkennen diese Verfahren rote Augen nur dann, wenn rote Augen vorhanden sind.
Es sei darauf hingewiesen, dass der Suchprozess in dem System nach Cootes ein Formenmodellkoeffizienten-Einschränkungsverfahren verwendet, das keine größtmöglich ähnliche Form innerhalb des Ground-Truth-Formenraums auswählt. Zudem verwendet das System nach Cootes ein Texturmodellsuchfenster von konstanter Größe, das die Genauigkeit der Endergebnisse einschränkt, die das System erreichen kann. Das System nach Cootes nimmt an, dass die Größe der Objekte festliegt. Dies setzt voraus, dass Bilder, die Objekte unterschiedlicher Größe porträtieren, in einem Vorverarbeitungsschritt skaliert oder größenmäßig angepasst werden. Dieser Normierfaktor beruht auf einer ersten Schätzung der Objektgröße. Die Vorgabe einer festen Größe trägt potenziell zu einer Verbesserung der Leistung bei, indem es möglich ist, das Bild einmal während eines Vorverarbeitungsschrittes zu skalieren, anstatt das Texturfenster während des Suchlaufs wiederholt skalieren zu müssen. Die Verwendung einer festen Größe beschränkt jedoch die Anpassungsfähigkeit des Algorithmus und beeinträchtigt die Genauigkeit, wenn die erste Schätzung der Größe nicht richtig ist.
EP-A-0 899 689 beschreibt ein Verfahren zur automatischen Erkennung menschlicher Augen in Digitalbildern mit folgenden Schritten:

a) Ermitteln der potenziellen Hautbereiche in einem Bild;
b) Durchführung eines Mustervergleichs zur Ermittlung der Vielzahl von Positionen, die eine wünschenswerte Übereinstimmung des Bildes in Bezug zur Vorlage ergeben;
c) Durchführung der Prüfung zur Ermittlung der Wahrscheinlichkeit von potenziellen Augenpaaren an den in Schritt b) ermittelten Positionen durch Anwendung einer geometrischen Schlussfolgerung.

Ein Verfahren zur Erkennung von Gesichtsmerkmalen in Digitalbildern wird beschrieben in "Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry-Based Cost Functions", "Proceedings Of The International Conference On Pattern Recognition, (1996), Saber, E., Tekalp, A.M., und besteht aus folgenden Schritten:

a) Ermitteln der potenziellen Hautbereiche in einem Bild;
b) Formenklassifizierung zur Beseitigung der in Schritt a) ermittelten Bereiche, die einer Gesichtsvorlage unähnlich sind;
c) Lokalisierung von Augen, Nase und Mund anhand von Kostenfunktionen, die die Symmetrie des menschlichen Gesichts nutzen.

Es besteht somit Bedarf zur Konstruktion eines Systems, das die Fähigkeit besitzt, einen Ausgangspunkt für einen Suchlauf ohne Benutzereingriff unter Verwendung eines Augenerkennungsmechanismus automatisch zu ermitteln. Zudem besteht Bedarf nach einem System, das ein Bestformenmodell in dem Ground-Truth-Formenraum auszuwählen und die Größe des Texturmodell- und Suchfensters zu variieren vermag.
Die vorliegende Erfindung löst eines oder mehrere der vorstehend genannten Probleme. Zusammenfassend gesagt, betrifft ein Aspekt der vorliegenden Erfindung ein Verfahren zur Erkennung von Gesichtsmerkmalen in einem Digitalbild. Dieses Verfahren umfasst die Schritte zur Erkennung von Irispixeln in dem Bild, das Ansammeln der Irispixel, und das Auswählen mindestens eines der folgenden Verfahren zum Identifizieren von Augenpositionen: Anwenden geometrischer Beweisführungen, um unter Verwendung der Irispixelansammlungen Augenpositionen zu erkennen; Verwenden einer Summation über die quadratische Abweichung, um auf der Grundlage der Irispixelansammlungen Augenpositionen zu erkennen; und Anwenden einer Summation über die quadratische Abweichung, um anhand der Pixel im Bild Augenpositionen zu erkennen. „Anwenden" und „Verwenden" werden hier synonym gebraucht. Das angewandte Verfahren zur Identifizierung der Augenpositionen wird anhand der Anzahl der Irispixelansammlungen gewählt, und die Gesichtsmerkmale werden anhand der identifizierten Augenpositionen lokalisiert.
Nach einem weiteren Aspekt der vorliegenden Erfindung ist die Erfindung auch in einem Computerprogrammprodukt zur Erkennung von Gesichtsmerkmalen in einem Digitalbild ausgeführt. Das Computerprogrammprodukt umfasst ein computerlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm zur Durchführung der Schritte des Erkennens von Irispixeln in dem Bild, des Ansammelns der Irispixel und des Auswählens mindestens eines der folgenden Verfahren zum Identifizieren von Augenpositionen: Anwenden geometrischer Beweisführungen, um unter Verwendung der Irispixelansammlungen Augenpositionen zu erkennen; Anwenden einer Summation über die quadratische Abweichung, um auf der Grundlage der Irispixelansammlungen Augenpositionen zu erkennen; und Anwenden einer Summation über die quadratische Abweichung, um anhand der Pixel im Bild Augenpositionen zu erkennen. Das angewandte Verfahren zur Identifizierung der Augenpositionen wird anhand der Anzahl der Irispixelansammlungen gewählt, und die Gesichtsmerkmale werden anhand der identifizierten Augenpositionen lokalisiert.
Die Erfindung wird im Folgenden anhand in der Zeichnung dargestellter Ausführungsbeispiele näher erläutert.
Es zeigen:
1 ein schematisches Diagramm zur Beschreibung eines in der praktischen Verwertung der vorliegenden Erfindung geeigneten Bildverarbeitungssystems.
2 ein Ablaufdiagramm zur Darstellung eines erfindungsgemäßen Verfahrens zur Augenerkennung.
3 eine Darstellung der Beziehung zwischen bestimmten geometrischen Parametern und einem ovalförmigen Hautfarbenbereich in einem Bild.
4 eine Darstellung der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel ein Irispixel ist, ausgedrückt als eine Funktion einer bestimmten Rotintensität, und der bedingten Wahrscheinlichkeit, dass ein gegebenes Pixel kein Irispixel ist, ausgedrückt als eine Funktion einer bestimmten Rotintensität.
5 ein Ablaufdiagramm zur Darstellung des Prozesses zur Entwicklung eines statistischen Modells, das die bedingte Wahrscheinlichkeit darstellt, dass ein gegebenes Pixel ein Irispixel ist, ausgedrückt als eine Funktion einer bestimmten Rotintensität, und eines statistischen Modells, das die bedingte Wahrscheinlichkeit darstellt, dass ein gegebenes Pixel kein Irispixel ist, ausgedrückt als eine Funktion einer bestimmten Rotintensität.
6 eine Darstellung der Irisfarbpixelansammlungen.
7 ein Ablaufdiagramm zur Darstellung des Prozesses der Anwendung einer Summation über die quadratische Abweichung, um anhand der Irispixelansammlungen Augenpositionen zu erkennen.
8 eine Augenvorlage und ein auf die Mitte einer Irispixelansammlung zentriertes Suchfenster.
9 eine Augenvorlage und ein Bild zur Verwendung in dem Prozess der Anwendung einer Summation über die quadratische Abweichung, um anhand von Bildpixeln Augenpositionen zu erkennen.
10 ein Ablaufdiagramm zur Darstellung des Prozesses des Trainierens von Gesichtsmerkmalsmodellen und des Suchens von Gesichtsmerkmalen.
11a Beispiele manuell markierter Merkmalspunkte.
11b Beispiele von Texturfenstern an den Merkmalspunkten.
12 Mustergesichtsmodelle.
13 eine Ausgangsposition einer mittleren Form in einem Bild.
14 verschiedene Schemata zur Einschränkung von Formenmodellkoeffizienten.
1 zeigt ein Bildverarbeitungssystem zur praktischen Verwertung der vorliegenden Erfindung. Das System umfasst eine Digitalfarbbildquelle 10, z.B. einen Filmscanner, eine Digitalkamera oder eine Digitalbildspeichervorrichtung (z.B. ein Compact-Disk-Laufwerk mit einer Picture CD). Das Digitalbild aus der Digitalfarbbildquelle 10 wird an einen Bildprozessor 12 übergeben, z.B. an einen programmierten Personal Computer oder an eine Digitalbild-Verarbeitungsstation, z.B. an eine Sun Sparc 20 Workstation. Der Bildprozessor 12 kann an einen Röhrenbildschirm 14 und an eine Bedieneroberfläche angeschlossen sein, z.B. eine Tastatur 16 und eine Maus 18. Der Bildprozessor 12 ist zudem mit einem computerlesbaren Speichermedium 17 verbunden. Der Bildprozessor 12 überträgt verarbeitete Digitalbilder an eine Ausgabevorrichtung 19. An die Ausgabevorrichtung 19 können ein Hardcopydrucker, eine Langzeitbildspeichervorrichtung, eine Verbindung zu einem anderen Prozessor oder eine Bildtelekommunikationsvorrichtung, z.B. für das Internet, angeschlossen sein.
In der folgenden Beschreibung wird ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung als ein Verfahren beschrieben. In einem anderen bevorzugten Ausführungsbeispiel umfasst die vorliegende Erfindung ein Computerprogrammprodukt zur Erfassung von Gesichtsmerkmalen in einem Digitalbild gemäß dem beschriebenen Verfahren. Bei der Beschreibung der vorliegenden Erfindung ist zu beachten, dass das erfindungsgemäße Computerprogramm von jedem bekannten Computersystem, z.B. dem in 1 gezeigten Typ eines Personal Computers, verwendbar ist. Allerdings sind auch andere Computersystemtypen zur Ausführung des erfindungsgemäßen Computerprogramms verwendbar. Daher wird das Computersystem hier nicht weiter detailliert besprochen.
Es sei darauf hingewiesen, dass das erfindungsgemäße Computerprogrammprodukt in der Technik bekannte Bildmanipulationsalgorithmen und -prozesse nutzen kann. Die vorliegende Beschreibung betrifft daher insbesondere die Algorithmen und Prozesse, die einen Teil des erfindungsgemäßen Verfahrens bilden oder direkt damit zusammenwirken. Das Ausführungsbeispiel des erfindungsgemäßen Computerprogrammprodukts kann somit hier nicht explizit gezeigte oder beschriebene Algorithmen und Prozesse verkörpern, die für die Implementierung verwendbar sind. Derartige Algorithmen und Prozesse sind herkömmlicher Art und gehören zum Wissen der einschlägigen Fachleute.
Andere Aspekte dieser Algorithmen und Systeme sowie Hardware und/oder Software zur Erstellung und sonstiger Verarbeitung der Bilder oder zur Zusammenarbeit mit dem erfindungsgemäßen Computerprogrammprodukt werden hier nicht konkret gezeigt oder beschrieben und sind aus den in der Technik bekannten Algorithmen, Systemen, Komponenten und Elementen wählbar.
Das Computerprogrammprodukt zur Durchführung des erfindungsgemäßen Verfahrens kann in einem computerlesbaren Speichermedium gespeichert sein. Dieses Medium kann beispielsweise magnetische Speichermedien umfassen, wie z.B. eine Magnetplatte (wie eine Festplatte oder Diskette) oder ein Magnetband; optische Speichermedien, wie z.B. eine optische Platte, ein optisches Band oder maschinenlesbarer Strichcode; Halbleiterspeichervorrichtungen, wie ein RAM (Random Access Memory) oder ein ROM (Read Only Memory) oder jede andere physische Vorrichtung oder jedes andere Medium, das zur Speicherung eines Computerprogramms geeignet ist. Das Computerprogramm zur Durchführung des erfindungsgemäßen Verfahrens kann zudem auf einem computerlesbaren Speichermedium gespeichert sein, das mit dem Bildprozessor über das Internet oder ein anderes Kommunikationsmedium verbunden ist. Fachleuten ist selbstverständlich klar, dass sich das Äquivalent eines derartigen Computerprogrammprodukts auch in Form von Hardware konstruieren lässt.
Unter Bezugnahme auf 2 wird das erfindungsgemäße Verfahren nachfolgend detaillierter beschrieben. 2 zeigt ein Ablaufdiagramm zur Darstellung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens zur Augenerkennung. 2 zeigt, dass das zu verarbeitende Digitalfarbbild zunächst in einem Irisfarbpixel-Erkennungsschritt 200 verarbeitet wird. In den gezeigten Ausführungsbeispielen wird die Irisfarbpixelerkennung durchgeführt, indem zuerst die Hautfarbbereiche in dem Bild erkannt und dann die Irisfarbpixel identifiziert werden, indem die Rotintensitätsgrade aus den Hautfarbbereichen gemessen werden.
Der erste Schritt in der Hautfarberkennung ist die in 2 als Schritt 201 gezeigte Farbhistogrammentzerrung. Der Schritt 201 zur Farbhistogrammentzerrung nimmt zu verarbeitende Bilder entgegen und sorgt dafür, dass die Bilder in einer Form vorliegen, die eine Hautfarberkennung ermöglichen. Dieser Schritt ist notwendig, weil die menschliche Haut in einem Bild wegen der Lichtbedingungen, der Blitzeinstellung und der Filmeigenschaften eine beliebige Anzahl von Farben annehmen kann. Dies macht es schwierig, in derartigen Bildern Haut automatisch zu erkennen. In dem Schritt 201 zur Farbhistogrammentzerrung wird eine statistische Analyse für jedes Bild durchgeführt. Wenn die statistische Analyse besagt, dass das Bild möglicherweise Hautbereiche enthält, deren Aussehen durch die Lichtbedingungen modifiziert ist, dann werden diese Bilder derart modifiziert, dass die hautfarbenen Bereiche erkannt werden können.
Nach dem Schritt der Farbhistogrammentzerrung wird das Bild im Schritt 203 zur Hautfarbenerkennung auf Hautfarbenbereiche durchsucht. Obwohl es möglich ist, Haut in einem Digitalbild auf verschiedene Weise zu erkennen, ist ein bevorzugtes Verfahren zur Hauterkennung in einem Digitalbild die Trennung der Hautfarbenpixel von anderen Pixeln in einem Bild durch Definition eines Arbeitsfarbraums, der einen Bereich möglicher Hautfarben enthält, die aus einer großen, ausgewogenen Population von Bildern gesammelt wurden. Ein Pixel wird als Hautfarbenpixel identifiziert, wenn das Pixel eine Farbe aufweist, die in dem Arbeitsfarbraum liegt.
Der Schritt 203 zur Hautfarbenerkennung identifiziert einen Bereich von Hautfarbenpixeln in dem Bild. Dieser Bereich kann auf verschiedene Weise definiert werden. In einem Ausführungsbeispiel ist der Hautfarbenbereich durch eine Menge von Pixelpositionen definiert, die die Pixel in dem Bild identifizieren, die hautfarben sind. In einem anderen Ausführungsbeispiel wird ein modifiziertes Bild erzeugt, das nur hautfarbene Pixel enthält. In einem weiteren Ausführungsbeispiel definiert der Schritt 203 zur Hautfarbenerkennung Grenzen, die den Hautfarbenbereich in dem Bild umschließen. Es sei darauf hingewiesen, dass mehr als ein Hautfarbenbereich in dem Bild identifiziert werden kann.
Der Schritt 204 zur Extraktion eines ovalen Bereichs untersucht die von dem Schritt 203 zur Hautfarbenerkennung erkannten Hautfarbenbereiche, um Hautfarbenbereiche zu lokalisieren, die auf ein Gesicht hinweisen können. Weil das menschliche Gesicht eine ungefähr ovale Form hat, werden die Hautfarbenbereiche untersucht, um einen oval geformten Hautfarbenbereich zu lokalisieren. Wenn ein ovaler Hautfarbenbereich gefunden worden ist, misst der Schritt 204 zur Extraktion eines ovalen Bereichs die geometrischen Eigenschaften des oval geformten Hautfarbenbereichs. Der Schritt 204 zur Extraktion eines ovalen Bereichs nutzt diese Messungen, um Parameter zu definieren, die die Größe des Gesichts und die Lage des Gesichts innerhalb des Bildes beschreiben.
3 zeigt eine Darstellung der Beziehung zwischen den geometrischen Parametern zur Definition eines ovalförmigen Hautfarbenbereichs in dem Bild. Wie in 3 gezeigt, sind diese Parameter u.a. oval_oben 300, oval_unten 302, oval_links 304, oval_rechts 306, oval_mittlere_reihe 308 und oval_mittlere_spalte 310. Diese Parameter werden in den späteren Schritten der vorliegenden Erfindung benutzt, um die Effizienz des Augenerkennungsprozesses zu erhöhen. Es sei darauf hingewiesen, dass das erfindungsgemäße Verfahren unter Verwendung von Hautfarbenerkennungsbereichen verwertbar ist, deren Form nicht oval ist, und dass andere geometrische Parameter in Verbindung mit derartigen Formen definiert werden können. Auch sei darauf hingewiesen, dass es nicht nötig ist, einen ovalen oder anders geformten Bereich in dem Bild zu erkennen. In einem solchen Fall wird der Hautfarbenbereich zur Erkennung von Irisfarbpixeln untersucht. In diesem Fall sind andere Parameter, die den Hautfarbenbereich beschreiben, zur Verwendung in dem Augenerkennungsprozess definiert.
Nachdem die Extraktion des ovalen Bereichs durchgeführt worden ist, wird der ovalförmige Hautfarbenbereich nach Irisfarbpixeln durchsucht. Dieser Schritt wird von dem Schritt zur Irisfarbpixelerkennung 206 durchgeführt. Es sei darauf hingewiesen, dass die Beschränkung der Suche nach Irisfarbpixeln auf diejenigen Pixel innerhalb des ovalförmigen Hautfarbenbereichs die Effizienz der Irisfarbpixelerkennung steigert. Außerdem sei erwähnt, dass es für einen Irisfarbpixel-Erkennungsschritt 200 viele Möglichkeiten gibt, Pixel zu erkennen, die einer Iris zugeordnet sind. Derartige Pixel können durch einfache Farbschwellenwertverfahren, durch Modellvergleich sowie durch andere in der Technik bekannte Verfahren identifiziert werden.
In einem bevorzugten Ausführungsbeispiel werden Irispixel mithilfe des in der Parallelanmeldung EP-A-1 229 493 mit dem Titel "Digital Image Processing Method and Computer Program Product for Detecting Human Irises in an Image" beanspruchten und beschriebenen Verfahrens erkannt. In diesem Ausführungsbeispiel ermittelt der Schritt zur Irisfarbpixelerkennung 206 durch Messung der Rotintensität des Pixels, ob ein Pixel ein Irispixel ist. Der Grund dafür ist, dass man beobachten konnte, dass eine menschliche Iris eine niedrige Rotintensität im Vergleich zur menschlichen Haut aufweist, die eine relativ hohe Rotintensität hat. In diesem Ausführungsbeispiel werden Irisfarbpixel jedoch nicht von den Hautfarbpixeln auf Basis eines einfachen Schwellenwertverfahrens getrennt. Stattdessen werden die Rotintensitäten der Pixel in den ovalförmigen Hautfarbbereichen verwendet, um die Wahrscheinlichkeit zu ermitteln, dass jedes Pixel ein Irispixel ist, und um die Wahrscheinlichkeit zu ermitteln, dass jedes Pixel kein Irispixel ist. Die Beziehung zwischen der Wahrscheinlichkeit, dass das Pixel ein Irispixel ist, und der Wahrscheinlichkeit, dass das Pixel kein Irispixel ist, wird dann analysiert, um zu ermitteln, ob das Pixel ein Irispixel ist.
Die Wahrscheinlichkeit, dass ein Pixel mit einer gegebenen Rotintensität ein Irispixel ist, wird anhand eines statistischen Irismodells ermittelt. Auf ähnliche Weise wird ein statistisches Nicht-Irismodell verwendet, um die Wahrscheinlichkeit anhand der Rotintensität des Pixels zu definieren, dass ein gegebenes Pixel kein Irispixel ist. Die Beziehung zwischen diesen Modellen ist nicht linear, wie anhand des Beispiels in 4 gezeigt, die ein Beispiel eines statistischen Modells zeigt, das die bedingte Wahrscheinlichkeit 402 darstellt, dass ein gegebenes Pixel ein Irispixel ist, und zwar als eine Funktion einer spezifischen Rotintensität I, und ein Beispiel eines statistischen Modells, das die bedingte Wahrscheinlichkeit 404 darstellt, dass ein gegebenes Pixel kein Irispixel ist, und zwar als eine Funktion einer spezifischen Rotintensität I.
Die Wahrscheinlichkeitsanalyse kann in unterschiedlicher Form ausgebildet sein. Beispielsweise können die Wahrscheinlichkeiten auf verschiedene Weise kombiniert werden, wobei ein Pixel als ein Irispixel oder als kein Irispixel auf der Basis der Beziehung zwischen diesen Wahrscheinlichkeiten klassifiziert ist. In einem bevorzugten Ausführungsbeispiel wird ein als Bayessches Modell bezeichnetes mathematisches Konstrukt verwendet, um die Wahrscheinlichkeiten zu kombinieren und die bedingte Wahrscheinlichkeit zu erzeugen, dass ein Pixel mit einer gegebenen Rotintensität zu einer Iris gehört.
In diesem Ausführungsbeispiel wird das Bayessche Modell folgendermaßen angewandt:
wobei P(iris|I) die bedingte Wahrscheinlichkeit ist, dass eine gegebene Pixelintensität zu einer Iris gehört; P(I|iris) ist die bedingte Wahrscheinlichkeit, dass ein gegebenes Irispixel eine bestimmte Intensität I hat; P(iris) ist die Wahrscheinlichkeit des Auftretens einer Iris in dem ovalen Gesichtsbereich; P(I|noniris) ist die bedingte Wahrscheinlichkeit, dass ein gegebenes Pixel, das kein Irispixel ist, eine bestimmte Intensität I hat; und P(noniris) ist die Wahrscheinlichkeit des Auftretens eines Pixels, das kein Irispixel ist, in dem ovalen Gesichtsbereich. Das Bayessche Modell wendet zudem die Wahrscheinlichkeit des Auftretens einer Iris in einem ovalen Gesichtsbereich und die Wahrscheinlichkeit des Auftretens eines Pixels, das kein Irispixel ist, in dem ovalen Gesichtsbereich an. Anhand einer Wahrscheinlichkeitsanalyse auf der Grundlage des Bayesschen Modells wird ein Pixel als ein Irispixel klassifiziert, wenn die bedingte Wahrscheinlichkeit, dass ein Pixel mit einer gegebenen Rotintensität zu einer Iris gehört, größer als beispielsweise 0,05 ist.
In dem oben beschriebenen Ausführungsbeispiel werden nur die Pixel in dem ovalförmigen Hautfarbenbereich, der durch Oval_oben 300, Oval_unten 302, Oval_links 304 und Oval_rechts 306 definiert ist, untersucht. Durch Beschränkung der zu untersuchenden Pixel auf diejenigen in den ovalförmigen Hautbereichen reduziert sich die Zahl der zu untersuchenden Pixel und die Wahrscheinlichkeit, dass Pixel, die keine Irispixel sind, als solche klassifiziert werden. Die Beschränkung der zu untersuchenden Pixel auf diejenigen in dem Hautfarbbereich, wie in anderen Ausführungsbeispielen der vorliegenden Erfindung beschrieben, bringt ähnliche Vorteile mit sich. Es sei darauf hingewiesen, dass es nicht erforderlich ist, Hautfarbbereiche zu erkennen, und dass die vorliegende Erfindung verwertbar ist, indem man die Rotintensität jedes Pixels in dem Bild misst und indem man anhand der zuvor beschriebenen Wahrscheinlichkeitsanalyse ermittelt, ob ein Pixel ein Irispixel ist.
5 zeigt ein Ablaufdiagramm zur Darstellung des Trainingsschritts 226 für das Bayessche Irisfarbmodell, das benutzt wird, um das statistische Modell zu definieren, das verwendet wird, um zu ermitteln, ob das Pixel ein Irispixel ist, und um das statistische Modell zu definieren, das verwendet wird, um zu ermitteln, ob das Pixel kein Irispixel ist. Das Verfahren nach Schritt 226 wird durchgeführt, bevor das erfindungsgemäße Verfahren zur Erkennung von Irispixeln benutzt wird, um Irispixel zu erkennen. Wie in 5 gezeigt, wird ein großes Muster an frontalen Gesichtsbildern gesammelt und untersucht. Alle Irispixel und Nicht-Iris-Pixel in dem Gesichtsbereich werden dann manuell mit 502 und 504 identifiziert. Dann wird die bedingte Wahrscheinlichkeit berechnet, dass ein gegebenes Irispixel eine bestimmte Rotintensität I hat, P(I|iris), und es wird die Wahrscheinlichkeit berechnet, dass ein Irispixel in dem ovalen Gesichtsbereich auftritt, P(iris) 506; anschließend wird die bedingte Wahrscheinlichkeit berechnet, dass ein nicht gegebenes Irispixel eine bestimmte Rotintensität I hat, P(I|noniris), und schließlich wird die Wahrscheinlichkeit des Auftretens eines Nicht-Iris-Pixels in dem ovalen Gesichtsbereich berechnet, P(noniris) 508. Die berechneten statistischen Modelle für Iris- und Nicht-Iris-Pixel werden in dem Bayesschen Modell benutzt, um die bedingte Wahrscheinlichkeit zu erzeugen, dass eine gegebene Pixelintensität zu einer Iris gehört, P(iris|I) 510. In bestimmten Ausführungsbeispielen kann das Bayessche Modell verwendet werden, um eine Transformationstabelle zu erzeugen, die in dem Schritt zur Irisfarbpixelerkennung 206 benutzt würde.
Nachdem der Schritt zur Irisfarbpixelerkennung 206 die Lage der Irispixel in dem Bild identifiziert, werden die Irisfarbpixel den Ansammlungen (Clustern) zugeordnet. Dies erfolgt in dem Schritt 208 zur Irixpixelansammlung. Eine Ansammlung ist eine nicht leere Menge von Irisfarbpixeln mit der Eigenschaft, dass ein Pixel innerhalb der Ansammlung auch in einem vorbestimmten Abstand zu einem anderen Pixel in der Ansammlung liegt. Ein Beispiel eines vorbestimmten Abstands ist ein Dreizehntel der Höhe des Digitalbildes. Der Schritt 208 zur Irispixelansammlung aus 2 gruppiert Irisfarbpixel in Ansammlungen oder Clustern, basierend auf dieser Definition eines Clusters. Es sei jedoch darauf hingewiesen, dass Pixel auch auf Basis anderer Kriterien in Clustern zusammengefasst werden können.
Unter bestimmten Umständen kann die Definition eines Clusters von Irisfarbpixeln breit genug gefasst sein, um auch ungültige Cluster zu umfassen. In diesem Fall und wie in 2 gezeigt wird der Schritt zur Bewertung der Cluster als Schritt 209 einbezogen. Ein Cluster kann ungültig sein, weil es beispielsweise zu viele Irisfarbpixel enthält oder weil die geometrischen Beziehungen der Pixel in dem Cluster darauf hinweisen, dass der Cluster auf keine Iris hinweist. Wenn beispielsweise das Verhältnis der Höhe zur Breite eines Clusters ermittelt wird und das Verhältnis größer als zwei ist, ist dieser Cluster ungültig. Ungültige Irispixelcluster werden aus weiteren Überlegungen ausgeschlossen. In den folgenden Teilen der Beschreibung werden gültige Irispixelcluster einfach als Irispixelcluster bezeichnet.
Die Anzahl der Irispixelcluster „n" wird in Schritt 210 gezählt. Die Anzahl von Irispixelclustern „n" wird in dem Entscheidungsschritt 210 benutzt, um verschiedene Möglichkeiten zur Erkennung von Augen in einem Bild auszuwählen. Wenn die Anzahl „n" von Irispixeln kleiner als zwei ist, wird das Verfahren nach Schritt 224 verzweigt, wie später beschrieben wird. Wenn die Anzahl „n" von Irispixeln mindestens zwei ist, wird das Verfahren nach Schritt 212 verzweigt, um die Mittelpunkte der Cluster aufzufinden. Der Mittelpunkt eines Clusters wird als die Mitte der Masse des Clusters ermittelt. Die mittlere Position der Cluster wird unter Bezug auf den Ursprung des Bildkoordinatensystems berechnet. Zu diesem Zweck liegt der Ursprung des Bildkoordinatensystems in der oberen linken Ecke des Bildrandes.
Nachdem die Mitte jedes Irispixelclusters lokalisiert ist, wird eine geometrische Beweisführung oder Schlussfolgerung angewandt, um Augen anhand der geometrischen Beziehung zwischen den Irispixelclustern zu erkennen. Wenn nur zwei Cluster verbleiben, einer in der linken Hälfte 604 und ein anderer in der rechten Hälfte 606, und wenn der horizontale Abstand zwischen den Mittelpunkten der beiden Cluster kleiner als das 0,4-fache des Abstands zwischen Oval_rechts 306 und Oval_links 304 ist, und wenn der vertikale Abstand zwischen den Mittelpunkten der beiden Cluster kleiner als ein Zehntel des Abstands zwischen Oval_oben 300 und Oval_unten 302 ist, dann werden die mittleren Positionen dieser beiden Cluster als die Augenpositionen behandelt, wie in 6 gezeigt.
Es sei darauf hingewiesen, dass diese Analyse sehr schnell durchgeführt werden kann. Wenn die Analyse erfolgreich ist, ist keine weitere Maßnahme erforderlich, um die Augenposition zu ermitteln. In Schritt 216 erfolgt somit eine Prüfung auf das Erkennungsergebnis, um zu ermitteln, ob Augenpositionen erkannt worden sind. Falls Augenpositionen erkannt worden sind, stoppt der Augenerkennungsprozess. Falls keine Augenpositionen erkannt worden sind, wird der Prozess mit Schritt 218 fortgesetzt.
In Schritt 218 wird die Summation über die quadratische Abweichung verwendet, um das Bild nach Augenpositionen zu durchsuchen. Im Allgemeinen umfasst das Summationsverfahren über die quadratische Abweichung die Berechnung der Summation der quadratischen Abweichung der Intensitätswerte der entsprechenden Pixel in einer Augenvorlage und einem Feld des Bildes, das die gleiche Größe wie die Vorlage hat. In diesem Verfahren ist jedem Pixel in dem Pixelfeld ein entsprechendes Pixel in der Vorlage zugeordnet. Die Differenz zwischen dem Intensitätswert jedes entsprechenden Pixels wird berechnet. Jede Abweichung wird dann quadriert. Dann wird die Summe jeder quadrierten Abweichung für jedes Pixel in der Menge berechnet. Die Summation der quadratischen Abweichungen liefert ein relatives Maß der Übereinstimmung zwischen jeder gemessenen Pixelmenge und der Vorlage. Falls keine Augenpositionen erkannt worden sind 220, wird der Prozess mit Schritt 224 fortgesetzt.
In der vorliegenden Erfindung wird die Summation der quadratischen Abweichungen für jedes Pixel in jedem Fenster in jedem Halbbereich berechnet. Diese Werte werden verglichen, und der Cluster mit der niedrigsten relativen Summation der quadratischen Abweichung wird gewählt und als eine Augenposition für den jeweiligen Halbbereich identifiziert. Dieser Pro zess wird auf die Cluster in dem linken und rechten Halbbereich des Bildes in der nachstehend beschriebenen Weise separat durchgeführt.
Zwar wurde die vorliegende Erfindung unter Verwendung der Summation der quadratischen Abweichung beschrieben, um die beste relative Korrelation zwischen der mittleren Augenvorlage und jedem der Pixelfelder zu identifizieren, aber auch andere Verfahren, die auf dem mittleren Standardfehlerverfahren basieren, sind zu diesem Zweck verwendbar.
In einem Ausführungsbeispiel der vorliegenden Erfindung werden die in dem Schritt 204 zur Extraktion eines ovalen Bereichs berechneten Parameter verwendet, um die Effizienz der Verwendung der Summation der quadratischen Abweichung zu erhöhen, indem die Zahl der Positionen in dem Bild reduziert wird, an der die Summation der quadratischen Abweichung berechnet werden muss. Wie in 6 gezeigt, wird in diesem Ausführungsbeispiel Oval_mittlere_Spalte 310 benutzt, um den ovalen Bereich in eine linke Bereichshälfte 604 und in eine rechte Bereichshälfte 606 zu teilen. Wie in 6 gezeigt, werden die Irispixelcluster 600 und die mittlere Position 602 der Irispixelcluster 600 entweder in der linken oder rechten Bereichshälfte 604 bzw. 606 angeordnet, die durch Oval_mittlere_Spalte 310 getrennt ist.
Schritt 218 führt eine Suche nach der Position eines linken Auges anhand der Summation der quadratischen Abweichung und der in der linken Bereichshälfte 604 angeordneten Pixelcluster 600 durch. Schritt 218 führt eine Suche nach der Position eines rechten Auges anhand der Summation der quadratischen Abweichung und der in der rechten Bereichshälfte 606 angeordneten Pixelcluster 600 durch.
Unter Bezug auf 7 und 8 wird nachfolgend das Verfahren zur Auswahl eines Clusters aus den Clustern in einer Bereichshälfte beschrieben. Der Suchvorgang nach der Augenposition wird gestartet, indem ein Fenster 800 in der Mitte jedes Clusters 802 in einer entsprechenden Bereichshälfte mittig angeordnet 70 wird. Die Standardgröße für das Fenster 800 beträgt ein zwanzigstel der Größe des Bildes 804. Die Berechnung der Summation der quadratischen Abweichungen 72 wird dann für jedes Pixel in jedem Fenster 800 durchgeführt. Die Position der Pixel mit der niedrigsten Summation der quadratischen Abweichung in jedem Fenster 800 wird aufgezeichnet 76. Wenn die Summation der quadratischen Abweichung für jedes Pixel in jedem Fenster der Bereichshälfte 78 berechnet worden ist, wird die Position der Pixel mit der niedrigsten Summation der quadratischen Abweichung aufgezeichnet 79. Dies ist die geschätzte Augenposition für eine Bereichshälfte. Dieser Prozess wird für die verbleibende Bereichshälfte wiederholt. Wenn von diesem Prozess zwei Augen erkannt werden, wird das Verfahren beendet.
Die Summation der quadratischen Abweichung aus Schritt 218 kann auch ohne Extraktion des ovalförmigen Hautfarbenbereichs durchgeführt werden. In einem solchen Ausführungsbeispiel kann der Hautfarbenbereich in einen linken und in einen rechten Bereich geteilt werden. Dann können Irispixelcluster in einen linken und in einen rechten Bereich geteilt werden. Die Summation der quadratischen Abweichung lässt sich wie zuvor beschrieben anwenden.
Wenn nach Ausführung des Schritts 218 keine Augen erkannt worden sind 220 oder wenn weniger als zwei Irispixelcluster in Schritt 209 erkannt worden sind, fährt der Augenerkennungsprozess mit Schritt 224 fort. Schritt 224 arbeitet in einer Weise, die der aus Schritt 218 ähnlich ist. Wie in 9 gezeigt, wird allerdings das gesamte Bild 900 geteilt, und es wird eine Summation der quadratischen Abweichung für jedes Pixel des Bildes 904 in der linken 908 bzw. rechten Bereichshälfte 910 berechnet.
Es sei darauf hingewiesen, dass auch andere Verfahren anstelle der Summation der quadratischen Abweichung zur Ermittlung der relativen Korrelation zwischen einem Feld eines Bildes und einer Augenvorlage herangezogen werden können. Ein Beispiel ist das mittlere quadratische Abweichungsverfahren. Dieses Verfahren ist in der Technik bekannt.
Die vorliegende Erfindung stellt drei verschiedene Verfahren zur Erkennung von Augen in einem Bild zur Verfügung; die geometrische Schlussfolgerung 212 und 214, die Summation der quadratischen Abweichung mittels Irispixelcluster 218 und die Summation der quadratischen Abweichung mittels Bildpixel 224. Es sei darauf hingewiesen, dass die geometrische Schlussfolgerung von diesen Verfahren das einfachste und effizienteste ist. Die geometrische Schlussfolgerung stellt zum einen das effizienteste Verarbeitungsverfahren bereit und wird zum anderen nur auf die Irispixelcluster angewandt. Diese Zahl dieser Cluster ist im Vergleich mit der Pixelzahl in dem Bild relativ klein.
Im Unterschied dazu ist die Anwendung einer Summation der quadratischen Abweichung auf jedes Pixel in einem Bild, wie in Schritt 224 erforderlich, ein rechenintensiver Schritt, der zahlreiche Verarbeitungsschritte und Berechnungen erfordert, um zu ermitteln, ob ein einzelnes Pixel in dem Bild eine Augenposition ist. Außerdem muss das Verfahren von Schritt 224 auf alle Nicht-Iris-Pixel in einem Bild angewandt werden. In einem derzeit üblichen Format werden Digitalbilder mit 2,1-Megapixel-Kameras erfasst. Es gibt jedoch auch Kameras mit 16 Megapixel. Es ist somit deutlich, dass der Einsatz von Schritt 224 zur Erkennung der Augenpositionen in einem Bild mehrerer Millionen Operationen bedarf, um ein einzelnes Bild zu verarbeiten. Dies ist ein zeit- und rechenintensiver Vorgang.
Als Zwischenschritt wendet der Schritt 218 eine rechenintensive Summation der quadratischen Abweichung an, beschränkt die Anwendung dieses Verfahrens jedoch auf die Pixel in den um die Irispixelcluster herum definierten Fenster. Dies reduziert die Zahl der Pixel wesentlich, auf die die Summation der quadratischen Abweichung angewandt werden muss und macht daher die Anwendung der Summation der quadratischen Abweichung in Schritt 220 weniger rechenintensiv als die Summation der quadratischen Abweichung aus Schritt 224.
10 zeigt eine detaillierte Darstellung des Schritts 1000 zur Lokalisierung der Gesichtsmerkmale aus 2. Zunächst wurde eine "Posen"-Bilddatenbank als Ground-Truth-Bilder 1010 gewählt. Diese Datenbank umfasst Porträtbilder, die eine Frontalansicht der Motive zeigen. Die Gesichter in der Datenbank sind mit einem exemplarischen, mittleren Interokularabstand von 83 Pixeln bemessen.
Die aktive Formenmodelltechnik stellt Objektformen mit einer oder mehreren Gruppen von verbundenen Merkmalspunkten dar. Diese Merkmalpunkte bestimmen die Positionen, an denen lokale Suchläufe durchgeführt werden. Die Verbindungen zwischen Punkten bestimmen die Grenznormalen, die zur Definition der Suchrichtungen und der Ausrichtung der Texturfenster dienen. Die Merkmalspunkte bezeichnen eine Reihe von anwendungsspezifischen "Orientierungspunkten" und werden üblicherweise entlang des Objektrandes platziert. Die Verbindungen zwischen den Punkten bezeichnen normalerweise die Kanten des Objekts. Es gibt eine Reihe von technischen Entscheidungen, die bei der Modellierung der Objektform getroffen werden müssen. Die wichtigste Entscheidung ist die, wo die Merkmalspunkte anzuordnen sind. Diese Punkte sollten auf konstanten und eindeutigen Texturen angeordnet sein, die aus dem Umgebungsbereich einfach identifizierbar sind. Kanten und Ecken eines Objekts sind normalerweise gute Orientierungspunkte. Wenn mehrere Punkte entlang einer gegebenen Kante angeordnet werden, sollten diese in festen Intervallen verteilt sein, um die Einbringung einer unnötigen Variabilität in das Formenmodell zu unterbinden.
Es ist bisweilen sinnvoll, die Punkte, die von einer bestimmten Anwendung benötigt werden, durch zusätzliche Punkte zu ergänzen. Diese zusätzlichen Punkte können verwendet werden, um die Genauigkeit der Originalmerkmale durch zusätzliche Unterstützung zu verbessern. Dies ist möglich, wenn die zusätzlichen Punkte auf einfach identifizierbaren Positionen angeordnet werden, die eine starke räumliche Korrelation zu den Originalpunkten besitzen.
Die Menge der Merkmalspunkte ist eine weitere wichtige Entscheidung. Die Erhöhung der Punktanzahl kann die Genauigkeit der Ergebnisse verbessern und stellt eine bessere Beschreibung der Objektform bereit.
Die relative Dichte der Merkmalspunkte ist ebenfalls von Bedeutung. Jeder Punkt hat einen äquivalenten Einfluss auf die resultierende Form des Objekts. Daher haben Bereiche mit einer hohen Merkmalspunktdichte eine größere Genauigkeit als Bereiche mit einer spärlichen Punktverteilung.
Schließlich muss auch die Ausrichtung der Merkmalspunkte berücksichtigt werden. Die Normalen bestimmen die vorherrschenden Suchrichtungen und beeinflussen die Wahrscheinlichkeit, dass die richtigen Punkte gefunden werden. Diese Normalen kontrollieren auch die Ausrichtung der primären Achse der Texturfenster. Dies wirkt sich auf die Fähigkeit des Modells aus, die herausragenden Texturattribute zu erfassen.
Es wurde ein exemplarisches Formenmodell aus 82 Punkten ausgewählt, um die Positionen der Gesichtsmerkmale zu bezeichnen. Dieses Modell zeigt den Umriss von Augenbrauen, Augen, Nase, Mund und Gesichtsbereich. Zudem sind Punkte in der Mitte der Pupillen und auf der Nasenspitze angeordnet. Diese Positionen der Merkmalspunkte müssen für jedes Beispielbild angegeben werden. Der Prozess wird im Allgemeinen manuell durchgeführt. 11a zeigt das Gesichtsmerkmalsmodell und die kommentierten Merkmalspositionen 1120 in einem Beispielbild 1110. Die richtige Platzierung der Merkmalspunkte ist häufig mehrdeutig. Dies kann auftreten, wenn Objekte, wie z.B. das Haar oder eine Brille, die gewünschten Merkmale verdecken. In diesen Fällen muss eine Entscheidung getroffen werden, entweder konsistente Positionen oder konsistente Texturmerkmale (Kanten) zu wählen. Die geeignete Entscheidung hängt von der Anwendung ab.
Es wird ein Texturmodell erzeugt, indem zunächst ein rechtwinkliges Texturfenster 1140 definiert wird, das mittig über dem zugeordneten Merkmalspunkt angeordnet ist, wie in 11b gezeigt. Das Fenster gibt den von dem Modell zu beschreibenden Bereich des Bildes an. Der Benutzer kann das Ausmaß und die Auflösung des Fensters angeben. In dieser Erfindung wurde eine exemplarische Auflösung von 1 bis 15 Pixel verwendet. Die Hauptachse des Fensters wird mit der Normalen an der Formengrenze ausgerichtet. Das Texturfenster wird automatisch anhand der Größe der Form skaliert. Der Skalierungsfaktor wird aus der optimalen euklidischen Transformation ermittelt, die das Beispiel mit der mittleren Form ausrichtet. Hierdurch ist gewährleistet, dass das Fenster für jedes Bild einen konstanten Teil des Objekts bedeckt.
Zur Analyse der Ground-Truth-Daten wird ein Trainingsalgorithmus verwendet. Dieser Algorithmus trainiert Modelle, die während der folgenden Suchläufe verwendet werden. Der Trainingsprozess erfordert keinen Benutzereingriff. Es werden Modelle sowohl der Form als auch der Textur erzeugt. Das Formenmodell beschreibt die erwarteten relativen Positionen der Merkmalspunkte. Die Texturmodelle stellen das antizipierte Aussehen jedes Merkmalspunktes dar. Diese Modelle müssen nur einmal erzeugt werden und können für die spätere Verwendung gespeichert werden.
Das Formenmodell beschreibt den „Raum" der zulässigen Merkmalspositionen. Dieses Modell wird benutzt, um unwahrscheinliche Suchergebnisse auf die Domäne plausibler For men zu beschränken. Das Formenmodell besteht aus der mittleren Form, den primären Modi der Formenvariation und den zugeordneten Bereichen für jeden dieser Modi.
Der erste Schritt im Erlernen des Formenmodells 1012 besteht in der Ausrichtung der Merkmalspositionen aus der Ground-Truth in einem üblichen Koordinatensystem. Hierdurch wird eine Abweichung von dem Modell verhindert, die das Ergebnis der globalen Transformation ist.
Die Schritte sind wie folgt:

1. Auswählen eines Beispiels als erste Schätzung der mittleren Form.
2. Normalisieren der Größe und Ausrichtung der mittleren Form.
3. Ausrichten aller Formen an der aktuellen Schätzung der mittleren Form. Ermitteln der optimalen euklidischen Transformation (Translation, Größe und Rotation) durch Fehlerquadratverfahren.
4. Erneute Schätzung der mittleren Form aus den ausgerichteten Formen.
5. Wiederholung der Schritte 2 bis 4, bis die Schätzung der mittleren Form konvergiert.

Formen kann man sich als Punkte in einem 2P-dimensionalen Raum vorstellen, wobei P die Anzahl der zweidimensionalen Merkmalspunkte ist. Die ausgerichtete Ground Truth bildet in diesem Raum eine Punktwolke, und weist Grenzen auf, die sich mit einer hyperelliptischen Abgrenzung modellieren lassen. Eine kompakte Darstellung dieser Abgrenzung lässt sich aus einer Hauptkomponentenanalyse (Principal Components Analysis/PCA) ableiten.
Die Hauptkomponentenanalyse stellt ein Verfahren bereit, um die Zahl der Dimensionen des Formenraums zu reduzieren, während dessen Hauptmerkmale erhalten bleiben. Hierzu wird eine Menge der orthogonalen Achsen berechnet, die mit den Richtungen der signifikantesten Abweichung in der Punktwolke der Beispielformen ausgerichtet sind. Diese Achsen bezeichnen die üblichen Abweichungsmodi in der Form. Die Achsen bilden eine optimale Grundlage, die zur Darstellung gültiger Formen mit einer minimalen Parameteranzahl verwendbar ist.
Die ausgerichteten Merkmalskoordinaten jeder Beispielform lassen sich in einem Vektor xi der Länge 2N anordnen. Die Kovarianzmatrix S wird aus folgendem Ausdruck erzeugt:
wobei N die Zahl der Ground-Truth-Beispiele ist. Eine sortierte Liste der Hauptachsen ist durch die Eigenvektoren v_k (k = 1, ..., 2N) gegeben, so dass
wobei λ_k der k^te Eigenwert ist und λ_k ≥ λ_k+1. Die Eigenvektoren, die den größten Eigenwerten entsprechen, bezeichnen die gängigsten Abweichungsmodi in der Form.
12 zeigt die drei signifikantesten Achsen des Gesichtsformenmodells. Die porträtierten Formen sind das Ergebnis der Variation der mittleren Form entlang des gegebenen Eigenvektors. Interessant ist, dass die Anzahl der primären Achsen deutlich in Beziehung steht mit semantisch bedeutenden Veränderungen in der Gesichtsform. Beispielsweise steht die erste Achse 1210 mit der Position der Haarlinie in Beziehung, die zweite Achse 1212 ist der Vorwärtsneigung des Kopfes zugeordnet und die dritte Achse 1214 steht mit der Gesichtsbreite in Korrelation.
Der Großteil des Formenraums lässt sich häufig mit relativ wenigen Hauptachsen darstellen. Die Zahl der zu verbleibenden Achsen kann aus den Eigenwerten bestimmt werden. Die Eigenwerte sind gleich der Varianz der Ground Truth entlang der von dem entsprechenden Eigenvektor spezifizierten Achse. Die geeignete Zahl von Achsen lässt sich durch Auswahl der Quantität ermitteln, die einen gegebenen Teil ⨍ der Gesamtvarianz einschließt (z.B. 0,98). Dies wird durch Auswahl der ersten M Eigenvektoren erreicht, so dass:
Aus der mittleren Form und einer linearen Kombination der Störungen (Perturbationen) entlang dieser Achsen lässt sich eine Zufallsform per Approximation erstellen mit x = x + Vb, (4)wobei V = (V₁V₂ ...V_M) die Matrix der ersten M Eigenvektoren ist, und b = (b₁b₂...b_M)^T ein Gewichtsvektor ist. Der Gewichtsvektor bildet die Parameter des Formenmodells und lässt sich berechnen aus einer gegebenen Menge an Merkmalspositionen aus dem Umkehrausdruck: b = VT(x-x) (5)
Jede Form kann an die Beispiele in der Ground Truth angeglichen werden, indem man den Gewichtsvektor ermittelt und den Bereich dieser Werte einschränkt. Geeignete Einschränkungen können von den Eigenwerten abgeleitet werden, die die Varianz der Ground Truth entlang jeder Achse angibt. Eine Möglichkeit ist die Beschränkung der Gewichte auf einen Bereich von drei Standardabweichungen entlang jeder Achse. Dies lässt sich erreichen, indem die Gewichte beschnitten werden, so dass:
In Schritt 1014 wird der Bereich des Bildes, der von dem Texturfenster abgedeckt ist, für jede Auflösung an jedem Merkmalspunkt extrahiert und für jedes Beispiel in der Ground Truth codiert, worauf Texturmodelle anhand der codierten Texturen berechnet werden.
Es gibt mehrere Wege, die Textur zu codieren. Die besten Ergebnisse erzielt man mit folgendem Verfahren. Die Textur ist ursprünglich als ein RGB-Farbbild in dem sRGB-Farbraum dargestellt. Das Intensitätsgradientenprofil wird für jeden Farbkanal berechnet. Hierzu wird die Differenz benachbarter Pixelwerte entlang der Normalrichtung berechnet. Die Gradientenprofile werden dann mittels der Intensität normalisiert und zu einem einzelnen Vektor t kombiniert. Diese Darstellung enthält Informationen über die Ausrichtung und die relativen Positionen der Farbkanten innerhalb des Texturfensters und normalisiert die absolute Intensität und Kantenstärke. Das hat den Vorzug, dass das Aussehen der Textur adäquat beschrieben wird, während Effekte aufgrund von Helligkeits- und Kontraständerungen innerhalb des Bildes minimiert werden.
Die codierten Texturen aus jedem Beispiel werden zur Berechnung des fertigen Texturmodells verwendet. Das Modell besteht aus der mittleren codierten Textur t und der Covarianzmatrix S_t. Die Matrix wird wie in Gleichung (1) berechnet, allerdings mit etwas anderen Variablennamen. Die Covarianzmatrix dient zur Beschreibung des Bereichs der Abweichung jedes Pixels in der Textur sowie der Art der Covarianz jedes einzelnen Pixels. Dies erzeugt eine vollständige statistische Darstellung der Verteilung der Beispieltexturen, wenn man von einer unimodalen Gaußschen Verteilung ausgeht.
Das Texturmodell bildet die Grundlage zur Ermittlung der Übereinstimmungsgüte der Texturkandidaten. Die Qualität der Übereinstimmung kann mithilfe der Mahalanobis-Distanzmetrik ermittelt werden. Diese Metrik ist gegeben durch: ⨍(t) = (t – t)TSt(t – t) (7)wobei f(t) die gewichtete Distanz des Kandidaten zum Mittelwert angibt. Dieser Wert wird linear in Beziehung zum Logarithmus der Wahrscheinlichkeit gesetzt, dass der Kandidat aus der Beispielverteilung stammt.
Während des Trainings muss ein separates Texturmodell für jede Auflösung an jedem Merkmalspunkt erzeugt werden. Die Modelle für die verschiedenen Ebenen werden über dem Merkmalspunkt zentriert und mithilfe derselben Anzahl von Pixeln codiert. Eine grobe Textur deckt typischerweise das Doppelte jeder jeweils folgenden feineren Textur ab.
13 zeigt ein Beispielbild 1300 für die Gesichtsmerkmalssuche. Eine aus Schritt 1012 erzeugte mittlere Form 1310 wird in Schritt 1015 an den Augenpositionen initialisiert, die aus einem der drei Schritte 216, 220 oder 224 ermittelt worden sind. Mithilfe der mittleren Form 1310 werden die Positionen der Merkmalspunkte 1120 innerhalb eines Bildes ermittelt, indem eine Reihe lokaler Suchläufe in Schritt 1016 durchgeführt wird. Die aktuellen Schätzungen der Merkmalspositionen des mittleren Formenmodells 1310 an der durch die geschätzten Augenpositionen ermittelten Ausgangsposition werden benutzt, um die Suchpositionen zu initialisieren. Eine Anzahl von Texturfenstern 1140 wird aus dem Bereich extrahiert, der jeden Punkt auf dem Formenmodell 1310 umgibt. Die Inhalte dieser Fenster werden mit dem in Schritt 1014 entwickelten Texturmodell verglichen, um die Position zu bestimmen, die mit dem erwarteten Aussehen des Merkmals am besten übereinstimmt.
Die Suchrichtung orientiert sich entlang der Normalen zur Formengrenze. Der Benutzer kann den Abstand und die Menge der Suchpositionen angeben. In der vorliegenden Erfindung wird ein exemplarischer Bereich von 3 mal 7 Positionsmengen untersucht. Die Suchintervalle werden dynamisch skaliert, um zu gewährleisten, dass ein konstanter Bereich des Gesichts abgedeckt wird.
An jeder Suchposition wird ein Texturfenster 1140 extrahiert und wie in Schritt 1014 besprochen codiert. Die Ähnlichkeit des Texturfensters zu dem Texturmodell wird mit der in Gleichung 7 beschriebenen Mahalanobis-Distanz gemessen. Die Position mit der Mindestdistanz wird als neue Merkmalsposition ausgewählt. Dieser Prozess wird für jeden Merkmalspunkt wiederholt.
Die durch den lokalen Texturübereinstimmungsschritt identifizierten Merkmalspositionen 1120 sind fehleranfällig. Dieser Fehler ist zum Teil auf das variable Aussehen der Merkmale und deren Ähnlichkeit mit den Umgebungsbereichen zurückzuführen. Die Genauigkeit ist zudem durch die kleine Größe der Texturfenster 1140 begrenzt, die zur Lokalisierung der genauen Positionen der Merkmale notwendig sind. Die Qualität dieser Suchergebnisse lässt sich deutlich verbessern, indem man die Merkmalspunkte auf den Bereich von plausiblen Formen beschränkt, der durch das Formenmodell beschrieben wird.
Die Merkmalspunkte 1120 können mithilfe des folgenden Prozesses auf gültige Formen beschränkt werden. Erstens wird die aktuelle Form mit der mittleren Form ausgerichtet, die während des Trainingsprozesses 1012 berechnet worden ist. Die euklidische Transformation, die die beiden Formen ausrichtet, wird nach einem Fehlerquadratverfahren ermittelt. Die ausgerichteten Merkmalskoordinaten werden mittels Gleichung (5) in den PCA-Formenraum projiziert. Die Formenkoeffizienten werden dann auf einen vernünftigen Bereich beschränkt.
In der vorliegenden Erfindung wurde ein Bereich verwendet, der 99,975% exemplarisch gültiger Formen umfasst. Die Merkmalspositionen 1120, die den begrenzten Formenkoeffizienten entsprechen, werden mittels Gleichung (4) berechnet. Abschließend wird die euklidische Transformation invertiert, um die ausgerichtete Form zurück in die Bildkoordinaten zu konvertieren.
Es gibt mehrere Wege, die Formenkoeffizienten einzuschränken. 14 zeigt hierzu drei Ansätze. Das einfachste Verfahren besteht darin, lediglich jeden Koeffizienten so abzuschneiden, dass er keine gegebene Anzahl von Standardabweichungen der Ground Truth 1410 entlang jeder Achse überschreitet. Diese Einschränkungen werden in Gleichung (6) beschrieben. Dies entspricht der Verwendung eines mehrdimensionalen Kastens 1450 für die in 14 gezeigten Grenzen. Eine geschätzte Form 1416 außerhalb des Ground-Truth-Raums 1410 könnte auf eine Form 1426 an der Kastenecke beschränkt werden. Das mit diesem Ansatz verbundene Problem besteht darin, dass die Formen 1426, die sich an den Ecken des Kastens befinden, mit sehr viel geringerer Wahrscheinlichkeit vorkommen, als im Schwellenwert festgelegt.
Ein besserer Ansatz ist die Verwendung einer hyperelliptischen Grenze 1452 zur Begrenzung des Koeffizientenbereichs. Dies lässt sich erreichen, indem alle Koeffizienten gleichmäßig skaliert werden, so dass:
wobei der Grenzwert l anhand der Verteilung x² gewählt wird. Dieser Ansatz wird in dem mittleren Diagramm von 14 dargestellt. Für eine geschätzte Form 1416 außerhalb des Ground-Truth-Raums 1410 wird die eingeschränkte Form des Schnittpunkts 1436 der Ellipsengrenze 1452 mit der Linie zwischen dem geschätzten Formenpunkt 1416 und der Ellipsenmitte 1460. Der Punkt 1460 ist nicht notwendigerweise der nächste Punkt auf der Ellipsengrenze zum Punkt 1416.
In dieser Erfindung kann eine bessere Form gefunden werden, indem man den Punkt 1446 auf der Grenze der Hyperellipse sucht, der der Position der Ausgangsform 1416 am nächsten liegt. Dieser Ansatz wird in dem unteren Diagram von 14 dargestellt. Der Punkt 1448, der von dem Ellipseneinschränkungsverfahren irrtümlich gewählt würde, ist durch den Schnittpunkt der Punktlinien mit der Ellipsengrenze gegeben.
Um den nächsten Punkt auf der Hyperellipsengrenze aufzufinden, muss ein hochgradiges Polynom gelöst werden. Dieses Polynom kann nicht analytisch gelöst werden. Es ist jedoch numerisch lösbar, indem man eine Erweiterung eines Algorithmus nutzt, der von Hart entwickelt wurde (siehe Hart, J. C., "Distance to an Ellipsoid," Graphics Gems IV, Paul S. Heckbert Editor, Academic Press, Boston, MA, USA, Seite 113-119, 1994.) Hart entwickelte einen Ansatz, der eine intelligente Parametrisierung des Problems verwendet, um einen Ausdruck zu erzeugen, worin die richtige Wurzel des Polynoms innerhalb einer bekannten Menge von Schranken liegt. Diese Wurzel lässt sich einfach durch Einklammern und Teilen finden. Hart beschreibt den Algorithmus für den Fall einer dreidimensionalen Ellipse. Dieser Ansatz lässt sich praktisch auf eine beliebige Zahl von Dimensionen erweitern.
In Schritt 1020 wird das Verfahren zum Auffinden der lokalen Texturübereinstimmungen und zum Beschränken der globalen Form so oft wiederholt, bis die Form bei einem stabilen Ergebnis konvergiert. Es ist möglich, die Menge der Formänderungen bei jeder Iteration zu messen und diesen Prozess zu unterbrechen, wenn die Änderung unter einen gegebenen Schwellenwert abfällt. Die Form konvergiert allerdings so schnell, dass dies nicht notwendig ist. Stattdessen wurden gute Ergebnisse erzielt, indem der Prozess lediglich für eine feste Zahl von Iterationen wiederholt wurde.
In der vorliegenden Erfindung kann der Algorithmus für das aktive Formenmodell mit Schritt 1022 in einem Rahmen mit mehreren Auflösungen implementiert werden. Das erweitert praktisch den Bereich, über den Merkmale genau identifizierbar sind. Die Version des Algorithmus für mehrere Auflösungen durchsucht das Bild mithilfe eines großen, groben Texturmodells und großen Suchbereichen. Die näherungsweisen Merkmalspositionen werden dann mithilfe aufeinanderfolgender kleinerer und feinerer Texturmodelle und kleinerer Suchbereiche verfeinert.
Die bei der Suche geprüften Positionen werden ähnlich wie die Texturfenster skaliert. Die Positionen werden über der aktuellen Schätzung der Merkmalsposition mittig angeordnet und die Anzahl der Punkte wird bei jeder Auflösung untersucht. Der Abstand zwischen den Suchpositionen, die mit einem groben Texturmodell verwendet werden, ist im Allgemeinen doppelt so groß wie der für jedes aufeinander folgende feinere Texturmodell.
Der Suchalgorithmus verwendet anfangs die gröbsten Texturmodelle und die am weitesten beabstandeten Suchpositionen. Der Prozess der lokalen Texturübereinstimmung und der Beschränkung der globalen Form wird wiederholt, bis die Form konvergiert. Dieser Prozess wird zudem für jede Auflösung mithilfe feinerer Texturmodelle und enger beabstandeter Suchintervalle wiederholt. Für diesen Vorgang wurden vier Auflösungen verwendet, um einerseits ein großes Suchintervall und andererseits eine feinere Lokalisierung der Merkmalspositionen bereitzustellen.
Es sei zudem darauf hingewiesen, dass die vorliegende Erfindung eine Möglichkeit zur automatischen Auswahl zwischen diesen Augenerkennungsverfahren und zur Kombination dieser Verfahren in einer Weise bereitstellt, die die Anzahl von Irispixelansammlungen nutzt, um das effizienteste Verfahren zur Erkennung von Augen in dem Bild auszuwählen.
Der Gegenstand der vorliegenden Erfindung betrifft die digitale Bildinterpretationstechnik, worunter die Technik zu verstehen ist, die ein Digitalbild digital verarbeitet, um menschlich verständlichen Objekten, Attributen oder Bedingungen eine sinnvolle Bedeutung zuzuweisen und dann die in der weiteren Verarbeitung des Digitalbildes erzielten Ergebnisse zu nutzen.

Claims

Verfahren zum Verarbeiten digitaler Bilder zum Erkennen von Gesichtsmerkmalen in einem digitalen Bild, mit den Schritten: Erkennen (206) von Irispixeln; Ansammeln (208) der Irispixel; Auswählen mindestens eines der folgenden Verfahren zum Identifizieren von Augenpositionen in einem Bild; i) Anwenden (214) geometrischer Beweisführungen, um unter Verwendung der Irispixelansammlungen Augenpositionen zu erkennen; ii) Verwenden (218) einer Summation über die quadratische Abweichung, um auf der Grundlage der Irispixelansammlungen Augenpositionen zu erkennen; und iii) Anwenden (224) einer Summation über die quadratische Abweichung, um anhand der Pixel im Bild Augenpositionen zu erkennen; worin das Verfahren (214), (218), (224) ausgewählt wird auf der Grundlage der Anzahl von Irispixelansammlungen; und Lokalisieren (1000) von Gesichtsmerkmalen unter Verwendung identifizierter Augenpositionen.
Verfahren nach Anspruch 1, worin weniger als zwei Irispixelansammlungen erkannt werden und das Erkennungsverfahren iii) angewandt wird.
Verfahren nach Anspruch 1, worin mindestens zwei Irispixelansammlungen erkannt werden und das Verfahren i) angewandt wird.
Verfahren nach Anspruch 3, worin das Verfahren i) Augenpositionen nicht erkennt und das Verfahren ii) dann angewandt wird, um Augenpositionen zu erkennen.
Verfahren nach Anspruch 4, worin das Verfahren ii) Augenpositionen nicht erkennt und das Verfahren iii) dann angewandt wird.
Verfahren nach Anspruch 1, worin der Schritt des Anwendens (214) die Schritte umfasst: Ermitteln (212) des Mittelpunktes einer jeden Irispixelansammlung; Aufteilen der Irispixelansammlungen in Pixelansammlungen in der linken Hälfte und Pixelansammlungen in der rechten Hälfte; und Erfassen (216) eines Augenpaares auf der Grundlage der geometrischen Beziehung zwischen den Irispixelansammlungen.
Verfahren nach Anspruch 3, worin der Schritt des Anwendens (214) die Schritte umfasst: Ermitteln (212) des Mittelpunktes einer jeden Irispixelansammlung; Aufteilen der Irispixelansammlungen in Pixelansammlungen in der linken Hälfte und Pixelansammlungen in der rechten Hälfte; und Erfassen (216) eines Augenpaares auf der Grundlage der geometrischen Beziehung zwischen den Irispixelansammlungen.
Verfahren nach Anspruch 1, worin der Schritt des Verwendens (218) die Schritte umfasst: Ermitteln (212) des Mittelpunktes einer jeden Irispixelansammlung; Ausbilden eines Fensters aus Pixeln, welche jeden Mittelpunkt der Irispixelansammlungen im Bild umgeben; Aufteilen der Irispixelansammlungen in Pixelansammlungen in der linken Hälfte und Pixelansammlungen in der rechten Hälfte; Lokalisieren der wahrscheinlichsten Position des linken Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in jedem der eine Pixelansammlung in der linken Hälfte umgebenden Fenster zentriert sind; und Lokalisieren der wahrscheinlichsten Position des rechten Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in jedem der eine Pixelansammlung in der rechten Hälfte umgebenden Fenster zentriert sind.
Verfahren nach Anspruch 4, worin der Schritt des Verwendens (218) die Schritte umfasst: Ermitteln (212) des Mittelpunktes einer jeden Irispixelansammlung; Ausbilden eines Fensters aus Pixeln, welche jeden Mittelpunkt der Irispixelansammlungen im Bild umgeben; Aufteilen der Irispixelansammlungen in Pixelansammlungen in der linken Hälfte und Pixelansammlungen in der rechten Hälfte; Lokalisieren der wahrscheinlichsten Position des linken Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in jedem der eine Pixelansammlung in der linken Hälfte umgebenden Fenster zentriert sind; und Lokalisieren der wahrscheinlichsten Position des rechten Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in jedem der eine Pixelansammlung in der rechten Hälfte umgebenden Fenster zentriert sind.
Verfahren nach Anspruch 1, worin der Schritt des Anwendens (224) die Schritte umfasst: Aufteilen der Bildpixel in Pixel in der linken Hälfte und Pixel in der rechten Hälfte; Lokalisieren der wahrscheinlichsten Position des linken Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in der linken Hälfte zentriert sind; und Lokalisieren der wahrscheinlichsten Position des rechten Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in der rechten Hälfte zentriert sind.
Verfahren nach Anspruch 10, mit dem Schritt des Erkennens eines farbigen Hautbereichs im Bild, worin die Summation über die quadratische Abweichung nur auf Pixel innerhalb des farbigen Hautbereichs angewandt wird.
Verfahren nach Anspruch 2, worin der Schritt des Anwendens (224) die Schritte umfasst: Aufteilen der Bildpixel in Pixel in der linken Hälfte und Pixel in der rechten Hälfte; Lokalisieren der wahrscheinlichsten Position des linken Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in der linken Hälfte zentriert sind; und Lokalisieren der wahrscheinlichsten Position des rechten Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in der rechten Hälfte zentriert sind.
Verfahren nach Anspruch 12, mit dem Schritt des Erkennens eines farbigen Hautbereichs im Bild, worin das Verfahren des Anwendens (224) nur auf Pixel innerhalb des farbigen Hautbereichs angewandt wird.
Verfahren nach Anspruch 5, worin der Schritt des Anwendens (224) die Schritte umfasst: Aufteilen der Bildpixel in Pixel in der linken Hälfte und Pixel in der rechten Hälfte; Lokalisieren der wahrscheinlichsten Position des linken Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in der linken Hälfte zentriert sind; und Lokalisieren der wahrscheinlichsten Position des rechten Auges auf der Grundlage der Summation über die quadratische Abweichung zwischen einem durchschnittlichen Auge und Stellen des Bildes, die an jedem der Pixel in der rechten Hälfte zentriert sind.