-
Die
Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erkennen
eines Gesichts sowie ein Gesichtserkennungsmodul, mit denen ein
Gesicht wiedererkannt werden kann.
-
Im
Stand der Technik sind unterschiedliche Verfahren bekannt, mit denen
eine Gesichtserkennung nur unbefriedigend möglich ist. Grundsätzlich unterscheidet
man Verfahren, die mit zweidimensionalen Daten, beispielsweise mit
mittels einer Kamera aufgenommenen Bildern, arbeiten, und solchen
Verfahren, die dreidimensionale Daten des Gesichts auswerten. Bei
den mit zweidimensionalen Daten arbeitenden Verfahren sind grundlegende
Probleme bisher nur unzureichend gelöst. Diese umfassen unterschiedliche
Störfaktoren,
beispielsweise eine Änderung
der Pose des Gesichts sowie eine Variation der Mimik, die eine Wiedererkennung
eines Gesichts erschweren. Unter einer Pose versteht man eine Änderung
der Kopfhaltung relativ zu der Datenerfassungseinheit. Wird beispielsweise
der Kopf um eine vertikale Achse (d. h. um die Wirbelsäulenachse)
gedreht, so gehen in diesem Fall Teile der 2D-Gesichtsinformation unwiderruflich verloren.
Daher eignen sich Verfahren, die dreidimensionale Daten auswerten,
besser, um eine hohe Wiedererkennungszuverlässigkeit zu erzielen.
-
Als
Ausgangspunkt für
Verfahren, die dreidimensionale Daten auswerten, dienen Rohdaten,
die von einer so genannten 3D-Erfassungseinheit aufgenommen werden.
Die 3D-Erfassungseinheiten erfassen Gesichtsinformationen, die Ortsinformationen über Oberflächenkonturen
des Gesichts umfassen. Gebräuchliche
3D-Erfassungseinheiten
verwenden heutzutage entweder Streifenprojektionsverfahren oder
nutzen Stereoaufnahmen des Gesichts. Bei einem Streifenprojektionsverfahren,
welches auch als aktives Verfahren bezeichnet wird, werden Streifenmuster
auf das Gesicht projiziert und eine Verzerrung der Streifen analysiert.
Ebenso wie bei Verfahren, die Stereoaufnahmen verwenden, wird die
Ortsinformation (d. h. die Koordinate eines Punktes auf einer Oberflächenkontur
des Gesichts) mit Hilfe eines Triangulationsverfahrens bestimmt.
Ein Gesichtsinformationsdatensatz kann auf unterschiedliche Weise repräsentiert
werden. Entweder kann das Gesicht als so genanntes 3D-Raummodell
repräsentiert
werden, indem die Daten als dreidimensionale Koordinaten abgelegt
sind. Alternativ kann für
jeden Konturkoordinatenpunkt, d. h. jeden Punkt auf der Oberfläche des Gesichts,
für den
Koordinaten mittels der 3D-Erfassungseinheit erfasst wurden, eine
Tiefeninformation von einer Projektionsebene gekoppelt mit einem
Projektionspunkt in die Ebene dargestellt werden. In einem solchen
Fall kann die Tiefeninformation (Abstandsinformation von der Projektionsebene)
beispielsweise als Graustufenwert codiert werden. Beide Darstellungsformen
sind ineinander überführbar, wenn
keine Oberflächenkonturen
bestehen, die weiter von der Detektionsebene entfernt liegende Oberflächenstrukturen
bei einer Betrachtung des Gesichts von der Projektionsebene aus
verdecken. Bei 3D-Erfassungseinheiten, bei denen die Erfassung im
Wesentlichen in einer Detektionsebene erfolgt, die als Projektionsebene
dient, ist diese Annahme in der Regel erfüllt.
-
Im
Stand der Technik sind unterschiedliche Verfahren bekannt, die zur
Erkennung von Gesichtern eingesetzt werden. Ein Verfahren nutzt
so genannte Eigenfaces. Dieses ist beispielsweise bei K. Chang et
al. ”Multi-Modal
2D and 3D Biometrics for Face Recognition”, Proceedings of the IEEE
International Workshop an Analysis and Modeling of Faces and Gestures
(AMFG'03), Nizza,
Frankreich, Oktober 2003, Seiten 187 bis 194, beschrieben. Anhand
einer Gesamtheit von zur Erkennung vorgesehenen Gesichtern wird
eine Anzahl von Eigenfaces berechnet, die charakteristische Merkmale
der Gesichter der Gesamtheit der zu erkennenden Gesichter herausstellen.
Die Eigenfaces werden als Basis eines Unterraums der Gesichtsdaten
betrachtet. Die einzelnen Gesichter werden hinsichtlich dieser Eigenvektoren zerlegt
und die hierbei ermittelten Zerlegungskoeffizienten als Merkmalsdatensatz,
beispielsweise in Form eines Merkmalsvektors, gespeichert. Während einer
so genannten Trainingsphase werden somit sämtliche Bilder der Menge der
zu erkennenden Gesichter zur Ermittlung der Eigenfaces und anschließenden Berechnung
der Merkmalsvektoren verwendet, die anschließend in einer Datenbank bespeichert werden.
Wird ein zu erkennendes Gesicht analysiert, so wird für dieses
zunächst
der entsprechende Merkmalsvektor ermittelt und anschließend mit
den in der Datenbank gespeicherten Merkmalsvektoren der Gesichter
aus der Menge der bekannten und zur Erkennung vorgesehenen Gesichter
verglichen. Ein Gesicht wird als ein bekanntes Gesicht erkannt,
wenn bestimmte Vergleichskriterien erfüllt sind. Hierbei können unterschiedliche
Vergleichsverfahren, beispielsweise ein Maximum-Likelihood-Verfahren, angewendet
werden.
-
Ein
weiteres Verfahren im Stand der Technik verwendet so genannte Fisherfaces.
Hierbei werden von jedem Gesicht der Menge der zur Erkennung vorgesehenen
Gesichter mehrere Gesichtsinformationsdatensätze benötigt. Die Fisherfaces werden
anhand aller bekannten Gesichtsdatensätze so ermittelt, dass die
Koeffizienten unterschiedlicher Gesichter stark voneinander abweichen,
hingegen die Koeffizienten der mehreren Gesichtsinformationsdatensätze desselben
Gesichts möglichst
eine minimale Abweichung aufweisen.
-
Die
beiden bekannten Verfahren weisen den entscheiden Nachteil auf,
dass die Eigenfaces bzw. Fisherfaces jeweils neu bestimmt werden
müssen, wenn
ein weiteres Gesicht zu der Menge der zu erkennenden Gesichter hinzugefügt wird.
Der Rechenaufwand, der hierfür
erforderlich ist, nimmt mit einer zunehmenden Anzahl von zur Erkennung
vorgesehenen Gesichtern stark zu. Ferner wird hierbei immer auf
die vollständigen
Gesichtsinformationsdatensätze
(3D-Datensätze)
der Gesichter zurückgegriffen, die
somit alle abgespeichert werden müssen.
-
Aus
der
US 6,226,396 B1 ist
ein Abbildungsverarbeitungssystem bekannt, welches eine primäre Abbildungserfassungsvorrichtung
und mehrere Referenzabbildungserfassungsvorrichtungen umfasst. Das
System ist ausgebildet, aus einer primären Abbildung eine Merkmalsregion,
die aus einer Vielzahl von Merkmalssegmenten besteht, zu extrahieren,
wobei jedes Merkmalssegment durch ein Paar Merkmalspunkte definiert
ist, die aus der primären Abbildung
extrahiert sind. Für
jeden Merkmalspunkt werden in den Referenzabbildungen entsprechende Korrespondenzpunktkandidaten
extrahiert. Basierend auf den Merkmalspunkten und den Korrespondenzpunktkandidaten
werden für
jeden der Korrespondenzpunktkandidaten in jeder der Referenzabbildungen
dreidimensionale Koordinaten korrespondierend zu den Merkmalspunkten
berechnet und die Merkmalsregion in der zweidimensionalen primären Abbildung
als Zielobjekt basierend auf den Merkmalspunkten und den dreidimensionalen
Koordinaten der zu den Merkmalspunkten korrespondierenden Korrespondenzpunktkandidaten
für jede
Referenzabbildung extrahiert. Als Ergebnis liegt somit ein extrahiertes
Zielobjekt in der zweidimensionalen primären Abbildung vor. Eine Vorbearbeitung
der Abbildung im Hinblick auf eine Erkennung des Zielobjekts ist
nicht erwähnt.
Ein Vergleichen unterschiedlicher, aus verschiedenen primären Abbildungen
extrahierter Zielobjekte ist nicht erwähnt.
-
Die
EP 0 552 770 A2 sowie
die Veröffentlichung ”Face recognition
using line edge map” von Yongsheng
Gao, et al., veröffentlicht
in IEEE Transactions an Pattern Analysis and Machine Intelligence,
Vol. 24, Nr. 6, Juni 2002 auf Seiten 764–779 beschreiben jeweils Verfahren
zur Gesichtserkennung, die einen Gesichtsvergleich anhand von Konturen
vornehmen.
-
Der
Erfindung liegt somit die technische Aufgabe zugrunde, ein verbessertes
Verfahren, eine verbesserte Vorrichtung und ein auf einem Computer ausführbares
Gesichtserkennungsmodul zu schaffen, mit denen eine zuverlässige Gesichtserkennung möglich ist,
jedoch ein Rechenaufwand, insbesondere wenn neue Gesichter einer
Menge zu erkennender Gesichter zugefügt werden, gegenüber den
bekannten Verfahren deutlich reduziert ist.
-
Die
technische Aufgabe wird erfindungsgemäß durch ein Verfahren mit den
Merkmalen des Patentanspruchs 1, eine Vorrichtung mit den Merkmalen
des Patentanspruchs 11 sowie ein Gesichtserkennungsmodul mit den
Merkmalen des Patentanspruchs 21 gelöst. Die Erfindung basiert auf
der Erkenntnis, dass Konturkoordinatenpunkte eines Gesichts jeweils
in dreidimensionalen Auswertegebieten zusammengefasst werden können. Für die einzelnen
Auswertegebiete erhält
man so Häufigkeiten, die
angeben, wie viele Konturkoordinatenpunkte in dem jeweiligen Auswertegebiet
liegen. Eine so erhaltene Häufigkeitsverteilung
für die
Auswertegebiete ist charakteristisch für ein Gesicht.
-
Insbesondere
wird daher ein Verfahren zum Erkennen eines Gesichts vorgeschlagen,
umfassend:
- – ein Erfassen von dreidimensionalen
Gesichtsinformationen eines Gesichts mittels einer 3D-Erfassungseinheit
in Form eines Gesichtsinformationsdatensatzes, wobei die erfassten
Gesichtsinformationen Ortsinformationen über Oberflächenkonturen des Gesichts umfassen,
- – ein
Normalisieren der erfassten Gesichtsinformationen, wobei eine Positionsnormierung
und Orientierungsnormierung des durch die Gesichtinformationen repräsentierten
Gesichts ausgeführt
wird und
- – Vergleichen
eines aus den normalisierten erfassten Gesichtsinformationen abgeleiteten
Merkmalsdatensatzes mit mindestens einem vorbekannten Merkmalsdatensatz
eines vorbekannten Gesichts, wobei das Gesicht als das vorbekannte Gesicht
erkannt wird, wenn ein oder mehrere vorgegebene Vergleichskriterien
erfüllt
sind, wobei erfindungsgemäß vorgesehen
ist, dass die Ortsinformationen Konturkoordinatenpunkte umfassen und
für Auswertungsgebiete
eine Häufigkeitsverteilung
ermittelt wird, die angibt, wie viele Konturkoordinatenpunkte in
den einzelnen Auswertungsgebieten liegen, und der Merkmalsdatensatz
aus den ermittelten Häufigkeiten
abgeleitet wird.
-
Ein
Normalisieren der erfassten Gesichtsinformationen ist notwendig,
um unterschiedliche Gesichter miteinander vergleichen zu können. Hierbei wird
eine Positionsnormierung durchgeführt. Diese sorgt dafür, dass
sich ein in allen Gesichtern vorhandener charakteristischer Punkt,
beispielsweise eine Nasenspitze, jeweils an einer vorfestgelegten
Position befindet, beispielsweise einen definierten Abstand senkrecht
von einem ausgezeichneten Punkt einer Detektionsebene aufweist.
Eine Orientierungsnormalisierung sorgt dafür, dass eine Orientierung des
Gesichts im dreidimensionalen Raum mit einer vorgegebenen Orientierung
möglichst
gut übereinstimmt. Hierzu
können
weitere charakteristische Punkte des Gesichts ermittelt werden,
beispielsweise eine Nasenwurzel oder die Augenpositionen, und eine
Korrektur der Gesichtsinformationen in der Art durchgeführt werden,
dass eine Verbindungslinie der Nasenspitze und der Nasenwurzel bei
einer Projektion senkrecht auf die Detektionsebene mit einer Koordinatenachse
eines dreidimensionalen Koordinatensystems zusammenfällt, wobei
die Koordinatenachse in der Detektionsebene liegt. Ein dritter charakteristischer
Punkt wird verwendet, um die Orientierung des von den normalisierten
Gesichtsinformationen repräsentierten
Gesichts einer vorgegebenen Orientierung anzugleichen. Verfahren
zur Normalisierung, verringern Einflüsse von Posen und sind dem
Fachmann bekannt und werden hier nicht näher erläutert. Das angedeutete Verfahren
ist nur beispielhaft erwähnt. Ein
beliebiges Verfahren zur Normalisierung kann angewendet werden,
sofern die Gesichtinformationen danach so beschaffen sind, dass
sie ein mit einer vorgegebenen Orientierung übereinstimmendes Gesicht an
einem festgelegten Ort repräsentieren,
vorzugsweise ein frontal zu der Detektionsebene ausgerichtetes Gesicht
in einem festgelegten Abstand senkrecht über einem ausgezeichneten Punkt
auf der Detektionsebene.
-
Eine
erfindungsgemäße Vorrichtung
zum Erkennen eines menschlichen Gesichts umfasst eine Erfassungseinheit
zum Erfassen von dreidimensionalen Gesichtsinformationen eines Gesichts
in Form eines Gesichtsinformationsdatensatzes, wobei die erfassten
Gesichtsinformationen Ortsinformationen über Oberflächenkonturen des Gesichts umfassen, eine
Normalisierungseinheit zum Normalisieren der erfassten Gesichtsinformationen,
wobei das Normalisieren eine Positionsnormalisierung und eine Orientierungsnormalisierung
umfasst, und eine Vergleichseinheit zum Vergleichen eines aus den
normalisierten erfassten Gesichtsinformationen abgeleiteten Merkmalsdatensatzes
mit mindestens einem vorbekannten Merkmalsdatensatz eines vorbekannten
Gesichts, wobei das Gesicht als das vorbekannte Gesicht erkannt
wird, wenn ein oder mehrere vorgegebene Vergleichskriterien erfüllt sind,
wobei die Ortsinformationen Konturkoordinatenpunkte umfassen, und
eine Auswerteeinheit zum Ermitteln einer Häufigkeitsverteilung für Auswertegebiete,
wobei die Häufigkeitsverteilung
angibt, wie viele Konturkoordinatenpunkte in den einzelnen Auswertegebieten
liegen, und zum Ableiten des Merkmalsdatensatzes aus den ermittelten
Häufigkeiten
vorgesehen ist. Die Normalisierung wird heutzutage häufig bereits
in den 3D-Erfassungseinheiten ausgeführt. Ein erfindungsgemäßes computerausführbares
Gesichtserkennungsmodul zum Erkennen eines Gesichts umfasst daher
eine Schnittstelle zum Empfangen erfasster dreidimensionaler Gesichtsinformationen
eines Gesichts in Form eines Gesichtsinformationsdatensatzes, wobei
die erfassten Gesichtsinformationen Ortsinformationen über Oberflächenkonturen
des Gesichts umfassen, eine Vergleichseinheit zum Vergleichen eines
aus den erfassten Gesichtsinformationen abgeleiteten Merkmalsdatensatzes
mit mindestens einem vorbekannten Merkmalsdatensatz eines vorbekannten
Gesichts, wobei das Gesicht als vorbekanntes Gesicht erkannt wird,
wenn ein oder mehrere vorgegebene Vergleichskriterien erfüllt sind,
wobei die Ortsinformationen Konturkoordinatenpunkte umfassen und eine
Auswerteeinheit zum Ermitteln einer Häufigkeitsverteilung für Auswertungsgebiete,
wobei die Häufigkeitsverteilung
angibt, wie viele Konturkoordinatenpunkte in den einzelnen Auswertungsgebieten liegen,
und zum Ableiten des Merkmalsdatensatzes aus den ermittelten Häufigkeiten
vorgesehen ist. Für das
Vergleichen des Merkmalsdatensatzes mit einem vorbekannten Merkmalsdatensatz
kann jedes beliebige, im Stand der Technik bekannte Verfahren zur
Ermittlung einer Ähnlichkeit
von Merkmalsdatensätzen
verwendet werden. Merkmalsdatensätze
werden vorzugsweise als Merkmalsvektoren dargestellt.
-
Der
große
Vorteil der Erfindung ist es, dass für ein Hinzufügen des
Gesichts zu einer Menge zu erkennender Gesichter nur ein Merkmalsdatensatz zu
ermitteln ist. Ein Rückgriff
auf sämtliche
in einer Datenbank gespeicherte Merkmalsdatensätze oder sogar ganze Gesichtsinformationsdatensätze ist nicht
erforderlich. Hierdurch wird die insgesamt zu speichernde Datenmenge
deutlich reduziert, da für keines
der Gesichter langfristig die vollständigen Gesichtsinformationen
abgespeichert werden müssen. Ferner
ist das Verfahren sehr robust gegenüber als so genannte Ausreißer bezeichneten
Messfehlern. Als solche werden solche erfassten Konturkoordinatenpunkte
angesehen, für
die ein Koordinatenwert sehr stark von den Koordinatenwerten abweicht,
die Konturkoordinatenpunkte aufweisen die bezogen auf die beiden
anderen Koordinatenwerte als benachbarte Konturkoordinatenpunkte
anzusehen sind. Die bedeutet, dass bei einer Graustufendarstellung
der Konturkoordinatenpunkte der Konturkoordinatenpunkt ein Ausreißer ist,
dessen Graustufenwert stark von den graustufenwerten der umliegenden
Punkte abweicht.
-
Eine
besonders bevorzugte Ausgestaltung der Auswertungsgebiete sieht
vor, dass diese mindestens einen Satz von Untergebieten umfassen,
die sich nur hinsichtlich eines von ihnen umfassten Tiefenbereichs
voneinander unterscheiden. Die Untergebiete können hierbei identisch mit
den Auswertungsgebieten sein. Die Tiefeninformation ist jeweils bezogen
auf eine Detektionsebene, die als Referenzebene dient. Eine jede
beliebige andere Referenzebene parallel zu der Detektionsebene kann
ebenfalls verwendet werden. Es hat sich herausgestellt, dass die
Klassifizierung der Konturkoordinatenpunkte in Tiefenklassen für ein jedes
Gesicht charakteristisch ist. Wird das Gesicht beispielsweise mittels
einer Graustufendarstellung repräsentiert,
so werden Graustufenbereiche festgelegt. Für die einzelnen Graustufenwertebereiche
wird die Anzahl ihres Vorkommens in einer Darstellung eines Gesichts
ermittelt. Die Häufigkeiten,
mit denen die einzelnen Graustufenbereiche auftreten, sind für ein jeweiliges
Gesicht charakteristisch. Um dieses Gesicht mit einem vorbekannten
Gesicht zu vergleichen, müssen
somit im Prinzip lediglich diese Häufigkeiten miteinander vergleichen
werden.
-
Da
die einzelnen Gesichter, die miteinander verglichen werden müssen, um
ein Gesicht zu erkennen, nicht alle dieselbe räumliche Ausdehnung aufweisen,
ist bei einer bevorzugten Ausführungsform der
Erfindung vorgesehen, dass die Auswertungsgebiete in einem Auswertungsraum
liegen, der nur einen Teilbereich eines Abbildungsraums umfasst,
in dem erfasste Konturkoordinatenpunkte liegen können. Insgesamt werden die
Auswertungsgebiete bei dieser Ausführungsform so festgelegt, dass
sie alle in einem Auswertungsraum liegen, der ein Teilraum des Abbildungsraums
ist, der die Menge aller Koordinatenpunkte umfasst, in denen Konturkoordinatenpunkte
eines Gesichts erfasst werden könnten.
-
Die
Häufigkeiten,
die für
die einzelnen Auswertungsgebiete ermittelt werden, weisen die größten Unterschiede
auf, wenn die einzelnen Auswertungsgebiete voneinander disjunkt
sind.
-
Andere
Ausführungsformen
können
hingegen vorsehen, dass die Auswertungsgebiete nicht disjunkt sind.
Für eine
Graustufendarstellung, bei der die Auswertungsgebiete sich lediglich
bezüglich
ihrer Tiefeninformation unterscheiden, bedeutet dies, dass einzelne
Graustufenwerte mehreren Graustufenbereichen zugeordnet sein könnten. Hierdurch
ist es möglich,
eine Gesamtanzahl von Konturkoordinatenpunkten in einem bestimmten
Tiefenbereich ins Verhältnis
zu einem hiervon umfassten Tiefenbereich zu setzen. Hierdurch können einzelne
Gesichtsmerkmale, die in einem bestimmten Tiefenbereich liegen,
besonders deutlich herausgearbeitet werden.
-
Um
den Auswertungsraum optimal bestimmen zu können, ist bei einer bevorzugten
Ausführungsform
der Erfindung vorgesehen, dass für
eine Menge von Trainingsgesichtern Trainingsgesichtsinformationsdatensätze erfasst
werden, die darin enthaltenen Gesichtsinformationen normalisiert
werden und der Auswertungsraum anhand der Trainingsgesichtsinformationsdatensätze so festgelegt
wird, dass in dem Auswertungsraum für jeden der Trainingsgesichtsinformationsdatensätze jeweils mindestens
ein festgelegter Prozentsatz der dem entsprechenden Trainingsgesicht
zuordenbaren Konturkoordinatenpunkte liegt. Dies bedeutet, dass der
Auswertungsraum so festgelegt wird, dass für alle Trainingsgesichtsinformationsdatensätze innerhalb
des dreidimensionalen Auswertungsraums mindestens ein festgelegter
Prozent Konturkoordinatenpunkte vorhanden sind, die die Konturen
des Trainingsgesichts repräsentieren,
und somit nur ein (über den
Prozentsatz definierter) Restanteil von Konturkoordinatenpunkten
vorhanden ist, die andere Objekte repräsentieren, die als „Störung” erfasst
wurden. Hierbei wird zum einen eine flächige Ausdehnung parallel zu
einer Detektionsebene betrachtet und zum andern eine Tiefenausdehnung
der Gesichtsinformation relativ zu der Detektionsebene. Anhand dieser Informationen
wird der Auswertungsraum festgelegt. Hierdurch wird es möglich, bei
dieser Ausführungsform
anhand eines kleinen Satzes von Trainingsgesichtern einen Auswertungsraum
optimal festzulegen.
-
Bei
einer bevorzugten Weiterbildung der Erfindung ist vorgesehen, dass
die Auswertungsgebiete so festgelegt werden, dass sich die Merkmalsdatensätze der einzelnen
Trainingsgesichter maximal voneinander unterscheiden. Diese Ausführungsform bietet
den Vorteil, dass erneut anhand einer kleinen Anzahl von Trainingsgesichtern
die Auswertungsgebiete optimal festgelegt werden können, um
möglichst
unterschiedliche Merkmalsdatensätze
von den einzelnen Gesichtern zu erhalten. Die Auswertungsgebiete
müssen
hierbei nicht den gesamten Auswertungsraum vollständig ausfüllen. Vielmehr
können einzelne
Raumbereiche, die als nicht aussagekräftig angesehen werden, bei
einer Auswertung unberücksichtigt
bleiben. Ferner können
die Auswertungsgebiete aus zwei oder mehr Sätzen von Untergebieten bestehen,
die sich innerhalb eines Satzes jeweils nur hinsichtlich eines von
ihnen umfassten Tiefenbereichs voneinander unterscheiden.
-
Bei
einer bevorzugten Ausführungsform
der Erfindung ist vorgesehen, dass der mindestens eine vorbekannte
Merkmalsdatensatz anhand des Verfahrens, wie es oben beschrieben
ist, ermittelt wird und in einem Datenspeicher abgelegt wird, wobei
der Verfahrensschritt des Vergleichens unterlassen werden kann,
d. h. in der Regel nicht ausgeführt
wird. Wird ein Vergleich ausgeführt,
während
ein neues Gesicht erfasst wird, so kann man hierdurch herausfinden,
ob das Gesicht eine hohe Ähnlichkeit
mit einem bereits erfassten Gesicht aufweist oder ob es sich gar
um eine Doppelerfassung des Gesichts handelt.
-
Um
eine Identifizierung eines Gesichts mit einer Person zu ermöglichen,
ist bei einer bevorzugten Ausführungsform
vorgesehen, dass der mindestens eine vorbekannte Merkmalsdatensatz
mit Identifikationsinformationen für das vorbekannte Gesicht in
einer Datenbank in dem Datenspeicher abgespeichert wird.
-
Ein
enormer Vorteil des Verfahrens liegt darin, dass eine Menge der
Trainingsgesichter als echte Teilmenge der zu erkennenden Gesichter
gewählt oder
sogar disjunkt zu der Menge der zu erkennenden Gesichter gewählt wird.
Hierdurch ist, wie oben bereits erwähnt, ein Rechenaufwand gegenüber den aus
dem Stand der Technik bekannten Verfahren drastisch reduziert.
-
Die
entsprechenden Merkmale der erfindungsgemäßen Vorrichtung und des erfindungsgemäßen Gesichtserkennungsmoduls
weisen dieselben Vorteile auf, wie die entsprechenden Merkmale des
erfindungsgemäßen Verfahrens.
-
Nachfolgend
wird die Erfindung anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme
auf eine Zeichnung näher
erläutert.
Hierbei zeigen:
-
1 ein
Ablaufdiagramm einer Ausführungsform
eines Verfahrens zum Erkennen eines Gesichts;
-
2a–2c schematische
Darstellungen erfasster Gesichtsinformationen zur Veranschaulichung
einer Orientierungsnormalisierung;
-
3a–3c schematische
Darstellungen eines Abbildungsraums, in dem ein Auswertungsraum
unterschiedlich in Auswertungsgebiete unterteilt ist;
-
4a, 4b zwei
Schnittdarstellungen durch schematische Gesichter senkrecht zu einer Detektionsebene
zur Veranschaulichung der Zuordnung von Konturkoordinatenpunkten
zu einzelnen Auswertungsgebieten zur Ermittlung der Häufigkeitsverteilungen
der Konturkoordinatenpunkte bezogen auf die Auswertungsgebiete;
-
5 eine
schematische Darstellung einer Vorrichtung für eine Gesichtserkennung; und
-
6 eine
schematische Darstellung eines Gesichtserkennungsmoduls.
-
Anhand
von 1 soll ein schematischer Ablauf eines Verfahrens 1 zum
Erkennen eines Gesichts erläutert
werden. Das Verfahren kann in drei unterschiedlichen Modi betrieben
werden. Diese drei Modi umfassen einen Trainingsmodus, einen Erkennungsmodus
und einen Zufügemodus.
Zunächst
wird abgefragt, ob das Verfahren im Trainingsmodus durchgeführt werden
soll 2. Ist dies der Fall, so werden Gesichtsinformationen
eines Trainingsgesichts mittels einer 3D-Erfassungseinheit erfasst.
Die Gesichtsinformationen umfassen Ortsinformationen über Konturen
des Gesichts. Die Gesichtsinformationen werden in Form eines Trainingsgesichtsinformationsdatensatzes
erfasst. Gegebenenfalls werden in einem weiteren Schritt Identifikationsinformationen zu
dem Trainingsgesicht erfasst 4. Die erfassten Gesichtsinformationen
werden anschließend
normalisiert 5. Der Trainingsgesichtsinformationsdatensatz kann
in Form von Raumkoordinaten, d. h. einem dreidimensionalen Gesichtsmodell,
repräsentiert
dargestellt sein oder in Form einer über einer Fläche aufgetragenen
Graustufendarstellung, bei der die Graustufen Koeffizienten bezüglich einer
dritten Koordinatenachse repräsentieren.
Eine Normalisierung kann sowohl in dem dreidimensionalen Gesichtsmodell
als auch in der Graustufendarstellung vorgenommen werden.
-
In 2a ist
schematisch ein erfasstes Gesicht 101 dargestellt. Eine
Detektionsebene ist parallel zu einer Zeichenebene ausgerichtet.
Ein rechtshändiges
Koordinatensystem 102 ist unter dem erfassten Gesicht 101 dargestellt.
Eine x-Achse 103 und
eine y-Achse 104 liegen in der Zeichenebene. Eine z-Achse
erstreckt sich senkrecht in die Abbildungsebene, was mittels eines
Kreuzes 5 dargestellt ist. Das Gesicht ist bezüglich der
Detektionsebene sowohl um die y-Achse gedreht als auch bezüglich der
y-Achse geneigt.
-
Mittels
im Stand der Technik bekannter Verfahren werden markante Punkte
des Gesichts ermittelt. Dies sind beispielsweise eine Nasenspitze 106 und
eine Nasenwurzel 107. Des Weiteren können Augen 108 und
ein Mund 109 auf diese Weise erkannt werden. In einem ersten
Schritt einer Orientierungsnormalisierung wird mittels der ermittelten
markanten Punkte die Drehung um einen Hals rechnerisch kompensiert.
Ein Ergebnis ist in 2b schematisch dargestellt.
Zu erkennen ist, dass das bezüglich
der Drehung um den Hals normalisierte erfasste Gesicht 101' bezüglich der
y-Achse noch immer geneigt ist. In einem zweiten Orientierungsnormalisierungsschritt
werden die Gesichtsinformationen so transformiert, dass eine Verbindungslinie
der Nasenspitze 106' zur
Nasenwurzel 107' parallel
zu der y-Achse 104 ausgerichtet wird. Das Ergebnis dieser Transformation
ist in 2c dargestellt. In einem weiteren
Normalisierungsschritt werden die Koordinaten so angepasst, dass
ein charakteristischer Punkt des Gesichts mit einem vorgegebenen
Punkt zusammenfällt.
So kann erreicht werden, dass die Nasenspitze 106 einen
vorgegebenen Abstand senkrecht zu einem ausgezeichneten Punkt auf
einer Detektionsebene aufweist. Die Detektionsebene ist im Prinzip
eine beliebige Referenzebene, wird jedoch in der Regel mit einer
Ebene in der 3D-Erfassungseinheit
zusammenfallen.
-
Nachdem
die Normalisierung 5 mit der Orientierungsnormalisierung 6 und
der Positionsnormalisierung 7, wie sie anhand der 2a bis 2c erläutert ist,
ausgeführt
ist, wird überprüft, ob weitere Trainingsgesichter
eingelesen werden sollen 8. Ist dies der Fall, so werden
die Verfahrensschritte 2 bis 7 erneut für ein weiteres
Trainingsgesicht ausgeführt. Dieses
findet solange statt, bis keine weiteren Trainingsgesichter eingelesen
werden sollen. Anschließend wird anhand der Trainingsgesichter ein so genannter
Auswertungsraum festgelegt 9.
-
In 3a ist
schematisch ein Abbildungsraum 120 dargestellt. Der Abbildungsraum
ist der Raum, der all jene Raumpunkte umfasst, an denen Konturkoordinatenpunkte
eines Gesichts erfasst werden können.
Er stellt quasi den Erfassungsbereich der 3D-Erfassungseinheit dar. Anhand der erfassten Gesichtsinformationen
der Trainingsgesichter, d. h. der Trainingsgesichtsinformationsdatensätze, wird ein
so genannter Auswertungsraum 121 ermittelt, der mittels
gestrichelter Linien dargestellt ist. Der Auswertungsraum wird so
gewählt,
dass darin jeweils die Gesichtsregionen der mittels der 3D-Erfassungseinheit
ermittelten Gesichtsinformationen liegen. In dem Auswertungsraum
sollen keine Konturkoordinatenpunkte liegen, die beispielsweise
andere Körperteile oder
Gegenstände
repräsentieren,
die nicht zum Gesicht gehören.
Würde man
die einzelnen Gesichter jeweils in die Detektionsebene projizieren,
so ist eine Vorderfläche 122 des
Auswertungsraums 121 durch eine Schnittmenge der in den
Gesichtsflächen
enthaltenen Bildpunkte gegeben. Eine Tiefe des Auswertungsraums 121,
welche mittels eines Pfeils 123 angedeutet ist, wird so
gewählt,
dass möglichst
alle z-Koordinatenwerte erfasst werden, d. h., alle Tiefenwerte
betrachtet von der Detektionsebene aus, an denen Konturkoordinatenpunkte
aufzufinden sind, die einen Raumpunkt auf einer Kontur eines der
Trainingsgesichter darstellen.
-
In
dem in 3a dargestellten Beispiel ist der
Auswertungsraum kubisch gewählt.
Die Vorderfläche
kann jedoch eine beliebige Form aufweisen. Insgesamt muss der Auswertungsraum
kein Extrusionskörper
der Vorderfläche
sein, sondern kann vielmehr eine beliebige Form aufweisen, sofern
in dem Auswertungsraum bei den Trainingsgesichtsdatensätzen keine
Konturkoordinatenpunkte oder nur eine begrenzten Anteil von Koordinatenpunkten
auftreten, die nicht einen Punkt auf einer Kontur eines der Trainingsgesichter
darstellen. Um das Verfahren zur Bestimmung des Auswertungsraumes
zu vereinfachen und bei Trainingsgesichtern die eine sehr unterschiedliche
Flächige
Ausdehnung aufweisen einen Ausreichend großen Auswertungsraum zu erhalten, der
tatsächlich
aussagekräftige
Gesichtsinformationen umfasst, ist bei einigen Ausführungsformen
vorgesehen sein, dass das strenge Erfordernis, dass in dem Auswertungsraum
keine Konturkoordinatenpunkte eines Trainingsgesichtsinformationsdatensatzes
liegen sollen, die keinen Punkt einer Kontur eines der Trainingsgesichter
repräsentieren,
aufgegeben wird. In einem solchen Fall wird ein Auswertungsraum
festgelegt, in dem mit einer hohen Wahrscheinlichkeit Gesichtsinformationen
und nicht Informationen anderer Gegenstände erfasst werden. Vorzugweise
wird gefordert, dass für
jeden Trainingsgesichtsdatensatz mindestens ein vorgegebener Prozentsatz
der in dem Auswertungsraum enthaltenen Konturkoordinatenpunkte einer
Kontur des jeweiligen Trainingsgesichts zuordenbar ist.
-
Ist
der Auswertungsraum festgelegt, so werden in einem weiteren Verfahrensschritt
Auswertungsgebiete in dem Auswertungsraum festgelegt 10.
Vorzugsweise umfassen die Auswertungsgebiete einen Satz von Untergebieten
oder sind sogar deckungsgleich mit einem Satz von Untergebieten,
die sich lediglich hinsichtlich ihrer Tiefenausdehnung bezogen auf
die Detektionsebene voneinander unterscheiden.
-
Bei
dem schematisch in 3a dargestellten Beispiel ist
der Auswertungsraum 121 in vier Auswertungsgebiete 124–127 unterteilt,
die jeweils gleich große,
jedoch unterschiedliche Tiefenbereiche umfassen. Die Auswertungsgebiete
sind als ein Satz von Untergebieten ausgebildet, die sich lediglich
hinsichtlich eines von ihnen umfassten Tiefenbereichs bezogen auf
eine Detektionsfläche
(oder sonstige Referenzfläche)
unterscheiden, die beispielsweise mit einer Begrenzungsfläche 128 des
Abbildungsraums 120 zusammenfällt. Bezüglich eines Koordinatensystems 102,
das eine x-Achse 103 und eine y-Achse 104 sowie
eine z-Achse 129 umfasst, ist das Gesicht jeweils wie in 2c dargestellt,
orientiert.
-
In 3b und 3c sind
jeweils anders ausgebildete Auswertungsgebiete dargestellt. In 3b sind
die Auswertungsgebiete ebenfalls als Untergebiete 131–136 eines
Satzes von Untergebieten 131–136 ausgebildet,
die sich lediglich hinsichtlich des von ihnen umfassten Tiefenbereichs
bezogen auf eine Detektionsebene, die mit einer Begrenzungsfläche 128 des
Ausbildungsraums 120 zusammenfällt, unterscheiden. Die Auswertungsgebiete bzw.
Untergebiete 131–136 sind
in diesem Falle ebenfalls disjunkt, umfassen jedoch unterschiedlich große Tiefenbereiche.
-
Bei
der Ausführungsform
nach 3c sind die Auswertungsgebiete in Form von zwei
Sätzen von
Untergebieten 141–144 und 145–148 ausgebildet.
Bei dieser Ausführungsform
umfassen die Auswertungsgebiete nicht den gesamten Auswertungsraum 121.
Andere Ausführungsformen
können
mehr Sätze
von Untergebieten, beispielsweise fünf Sätze von Untergebieten aufweisen,
die aneinander angrenzen und jeweils 6 disjunkte Untergebiete aufweisen,
die entlang der z-Achse 129 jeweils aneinander angenzend
ausgebildet sind und jeweils einen gleich großen Tiefenbereich umfassen.
Die Untergebiete der einzelnen Sätze
von Untergebieten weisen entlang der x-Achse eine größere Ausdehnung
als entlang der y-Achse auf. Eine Orientierung des Gesichts bezüglich des
Koordinatensystems 102 entspricht hierbei einer Ausrichtung,
wie sie in 2c dargestellt ist. Man erhält bei dieser
Ausführungsform
eine Häufigkeitsverteilung
mit 30 Werten.
-
Es
sind andere Ausführungsformen
denkbar, die anders ausgebildete Auswertungsgebiete aufweisen, die
jeweils Abbildungsraumregionen umfassen.
-
Ein
Festlegen des Auswertungsraums kann prinzipiell unterbleiben. Dieser
Verfahrensschritt bietet jedoch die Möglichkeit, die Auswertungsgebiete auf
einfache Weise festzulegen, indem die Auswertungsgebiete vorzugsweise
als Untergebiete, die sich lediglich hinsichtlich des von ihnen
umfassten Tiefenbereichs bezogen auf eine Referenzebene oder Detektionsebene
unterscheiden, ausgebildet werden. Die Untergebiete weisen somit
alle eine Ähnliche
geometrische Form auf, die sich lediglich in einer Dimension hinsichtlich
ihrer Ausdehnung und/oder Lage im Raum unterscheiden. Die Untergebiete
können „hintereinander” (beispielsweise
aneinander liegende Quader) oder „ineinander verschachtelt” (Quader
verschiedener Tiefe, mit einer gemeinsamen Vorderfläche) sein.
Vorzugsweise erfolgt die Festlegung der Auswertungsgebiete so, dass
der Auswertungsraum mit den Auswertungsgebieten „ausgefüllt” wird bzw. der gesamte Auswertungsraum in
Auswertungsgebiete unterteilt wird. Dieses ist besonders einfach
möglich,
wenn der Auswertungsraum ein Extrusionsraum ist, der sich mittels
der Extrusion einer Extrusionsfläche
entlang einer geraden Strecke ausspannen lässt. Als eine solche Extrusionsfläche kann
beispielsweise jene Fläche
verwendet werden, die eine Schnittmenge der auf die Detektionsebene
projizierten Gesichtsflächen
repräsentiert,
wie oben bereist erläutert
ist. Ebenso kann jene Fläche
verwendet werden, in der die auf die Detektionsfläche projizierten
Gesichtsflächen
der einzelnen Trainingsgesichter jeweils einen vorgegeben Flächenanteil überschreiten,
wie oben ebenfalls bereits erläutert
ist.
-
Die
Auswertungsgebiete werden dazu verwendet, die Konturkoordinatenpunkte
eines einzelnen Gesichts zusammenzufassen. Dies bedeutet, dass für die einzelnen
Auswertungsgebiete ermittelt wird, wie viele Konturkoordinatenpunkte
eines Gesichts jeweils in einem Auswertungsgebiet liegen. Man erhält somit
eine Häufigkeitsverteilung
für die Konturkoordinatenpunkte
bezogen auf die Auswertegebiete. Diese Häufigkeitsverteilungen sind
für einzelne
Gesichter charakteristisch.
-
Die
Festlegung der Auswertungsgebiete erfolgt somit vorteilhafterweise
anhand von Vorgaben, beispielsweise der, dass der gesamte Auswertungsraum
in Auswertungsgebiete unterteilt werden soll, die einen Satz von
Untergebieten darstellen, die sich jeweils nur hinsichtlich des
von ihnen umfassten Tiefenbereichs bezogen auf die Detektionsebene
unterscheiden. Die Festlegung wird dann anhand der Vorgaben so vorgenommen,
dass sich die Häufigkeitsverteilungen
der einzelnen Trainingsgesichter maximal voneinander unterscheiden.
Hierbei können
Iterationsverfahren verwendet werden.
-
In 4a und 4b sind
zwei Schnittlinien 161, 162 durch unterschiedliche
schematische Gesichter dargestellt. In beiden Figuren ist jeweils
eine Detektionsebene 163 dargestellt, die sich senkrecht zur
Zeichnungsebene erstreckt. Die Schnittlinien 161, 162 geben
die Gesichtskonturen von zwei unterschiedlichen Gesichtern wieder.
Die Gesichtskonturen sind bezüglich
einer Nasenspitze 164, 165 bezogen auf die Detektionsebene 163 jeweils
Positionsnormalisiert, was mittels eines Abstandspfeils 166 angedeutet
ist. Waagerecht dargestellte Linien 167 deuten Ebenen an,
in denen von einer als 3D-Scanner ausgebildeten 3D-Erfassungseinheit
Linien zur Erfassung von Ortsinformationen auf die mittels der Schnittlinien 161, 162 dargestellten
Gesichter projiziert werden. Schnittpunkte der waagerechten Linien 167 mit
den Schnittlinien 161, 162 der Gesichtskonturen
stellen jeweils Konturkoordinatenpunkte 168 in der dargestellten
Schnittebene dar. Die senkrecht verlaufenden Linien 169 geben
Grenzen von senkrecht zur Schnittebene ausgedehnten Auswertegebieten 170–175 wieder.
Um eine Häufigkeitsverteilung
der Konturkoordinatenpunkte 168 bezüglich der Auswertegebiete 170–175 zu
ermitteln, müssen
lediglich die in dem entsprechenden Auswertegebiet liegenden Konturkoordinatenpunkte 168 gezählt werden.
Hierbei ist in dem dargestellten Ausführungsbeispiel angenommen,
dass die senkrechten Linien 169, die jeweils Grenzen der
Auswertungsgebiete 170–175 darstellen,
jeweils zu dem angrenzenden der Auswertungsgebiete 170–175 gehören, dessen Abstand
von der Detektionsebene 163 größer ist. Die ermittelten Häufigkeitsverteilungen 176, 177 sind
jeweils in einem unteren Bereich der 4a und 4b als
Balkendiagramme dargestellt. Da in beiden 4a und 4b,
jeweils dieselbe Anzahl von Konturkoordinatenpunkten auftreten,
können
die Häufigkeitsverteilungen
direkt als Merkmalsdatensätze
verwendet werden. Stellt man die Häufigkeitsverteilungen als Merkmalsvektoren
dar, so erhält
man für
das in 4a dargestellte Gesicht einen
Merkmalsvektor (2, 1, 10, 4, 4, 3) und für das in 4b dargestellte
Gesicht ein Merkmalsvektor (0, 4, 4, 8, 5, 3).
-
In
der Regel können
die Häufigkeitsverteilungen
nicht direkt miteinander verglichen werden, da sich beispielsweise
eine Anzahl der Konturkoordinatenpunkte in dem von den Auswertegebieten
umfassten Raum in den einzelnen Trainingsgesichtsinformationen unterschiedlich
ist. Daher wird aus den Häufigkeitsverteilungen
ein Merkmalsdatensatz abgeleitet. Dies geschieht beispielsweise,
indem die ermittelten Häufigkeiten
auf eine Gesamtanzahl der in den Auswertegebieten liegenden Konturkoordinatenpunkte eines
Gesichts normiert werden.
-
Nach
dem Berechnen der Häufigkeitsverteilung
und dem Ableiten eines Merkmalsdatensatzes vorzugsweise in Form
eins Merkmalsvektors 11 wird in einer Abfrage abgeprüft, ob die
Auswertegebiete fertig optimiert sind 12. Ist dies nicht
der Fall, so werden die Auswertegebiete verändert 13 und eine
Berechnung der Häufigkeitsverteilungen
und ein Ableiten der Merkmalsdatensätze für die Trainingsgesichter erneut
ausgeführt 11.
Sind die Auswertegebiete fertig optimiert, so werden die Auswertungsgebiete beschreibende
Informationen abgespeichert 17 und anschließend abgefragt,
ob die Trainingsgesichter später
wiedererkannt werden sollen 14. Dies ist in der Regel der
Fall, so dass anschließend
die Merkmalsdatensätze
und gegebenenfalls erfasste Identifikationsinformationen in einem
Datenspeicher in Form einer Datenbank abgespeichert werden 15.
Der Trainingsmodus des Verfahrens 1 ist hiermit abgeschlossen 16.
-
Hat
die Abfrage 2 ergeben, dass das Verfahren nicht im Trainingsmodus
betrieben werden soll, so werden Gesichtsinformationen eines Gesichts mittels
der 3D-Erfassungseinheit
erfasst 3'.
Die erfassten Gesichtsinformationen werden anschließend normalisiert 5', was eine Orientierungsnormalisierung 6' und eine Positionsnormalisierung 7' umfasst. Die
Verfahrensschritte der Normalisierung 5' bis 7' gleichen den Normalisierungsschritten 5 bis 7,
die oben erläutert
wurden. Anschließend
wird eine Berechnung der Häufigkeitsverteilung
der Konturkoordinatenpunkte bezogen auf die im Trainingsmodus festgelegten
Auswertungsgebiete vorgenommen und hieraus ein Merkmalsdatensatz
abgeleitet 11'.
Hierbei kann auf die abgespeicherten Informationen über die
Auswertungsgebiete zurückgegriffen
werden.
-
In
einer Abfrage wird festgestellt, ob das Verfahren ein Gesicht erkennen
soll oder ob das Gesicht der Menge der zu erkennenden Gesichter
zugefügt werden
soll 19. Soll das Gesicht hinzugefügt werden, d. h. das Verfahren
in einem Zufügemodus betrieben werden,
so werden anschließend
vorteilhafterweise Identifikationsinformationen zu dem Gesicht erfasst 4'. Anschließend wird
der Merkmalsdatensatz gemeinsam mit den gegebenenfalls erfassten
Identifikationsinformationen in dem Speicherbereich in der Datenbank
abgelegt 15'.
Hiermit ist das Ende des Verfahrens im Zufügemodus erreicht 20.
-
An
dieser Stelle wird erneut darauf hingewiesen, dass auf die Daten
der Trainingsgesichter nicht zurückgegriffen
werden muss, um ein weiteres Gesicht zu der Menge der zu erkennenden
Gesichter hinzuzufügen.
Ein Zufügen
eines weiteren Gesichts oder auch ein Löschen eines Gesichts oder mehrerer Gesichter
kann erfolgen, ohne dass hierdurch ein erhöhter Rechenaufwand notwendig
ist. Ferner müssen
von dem zu erkennenden Gesicht nicht sämtliche erfasste Konturkoordinatenpunkte,
d. h. der gesamte Gesichtsinformationsdatensatz, abgelegt werden, sondern
lediglich ein deutlich reduzierter Merkmalsdatensatz. Dies führt zu einer
erheblichen Reduktion des zur Abspeicherung benötigten Speicherplatzes. Insbesondere
bei großen
Personengruppen, deren Gesichter erkannt werden sollen, ist dies
von enormem Vorteil.
-
Soll
das Verfahren nicht im Zufügemodus, sondern
im Erkennungsmodus betrieben werden, so wird nach dem Ermitteln
des Merkmaisdatensatzes 11' und
der entsprechenden Abfrage 19 ein vorbekannter Merkmalsdatensatz
aus der Datenbank eingelesen 21. Anschließend wird
der Merkmalsdatensatz mit dem vorbekannten Merkmalsdatensatz verglichen 22.
Hierbei wird eine Ähnlichkeit
des Merkmalsdatensatzes mit dem vorbekannten Merkmalsdatensatz ermittelt.
Der Merkmalsdatensatz und der vorbekannte Merkmalsdatensatz werden
in der Regel als Merkmalsvektoren (Feature-Vektoren) ausbildet.
Dem Fachmann sind Verfahren bekannt, wie die Ähnlichkeit von Merkmalsdatensätzen bzw.
Merkmalsvektoren ermittelt werden können. Hierbei können ein
oder mehrere Abfragekriterien berücksichtigt werden, um die Ähnlichkeit
eines Merkmalsvektors mit einem vorbekannten Merkmalsvektor festzustellen.
In einer Abfrage wird abgefragt, ob der Merkmalsdatensatz (Merkmalsvektor) ähnlich zu
dem vorbekannten Merkmalsdatensatz (vorbekannten Merkmalsvektor)
ist 23. Ist dies nicht der Fall, so wird anschließend überprüft, ob in
der Datenbank weitere vorbekannte Merkmalsdatensätze (vorbekannte Merkmalsvektoren)
gespeichert sind, die noch nicht mit dem Merkmalsdatensatz verglichen
wurden 24. Gibt es solche vorbekannten Merkmalsdatensätze, so
werden diese eingelesen 21 und mit dem Merkmalsdatenvektor
verglichen 22.
-
Wird
in der Abfrage 23 festgestellt, dass der Merkmalsdatensatz
mit einem vorbekannten Merkmalsdatensatz übereinstimmt, so gilt das Gesicht, aus
dessen Gesichtsinformationsdatensatz der Merkmalsdatensatz ermittelt
wurde, als das vorbekannte Gesicht erkannt, aus dessen Gesichtsinformationsdatensatz
ursprünglich
der vorbekannte Merkmalsdatensatz, mit dem eine Übereinstimmung festgestellt
wurde, ermittelt ist. Dieses Resultat wird, gegebenenfalls mit Identifikationsinformationen
des vorbekannten Merkmalsdatensatzes, ausgegeben 25. Ist
eine Übereinstimmung
nicht festgestellt 23 und ist zusätzlich die Abfrage zu verneinen,
ob noch weitere vorbekannte Datensätze in der Datenbank gespeichert
sind, die nicht mit dem Merkmalsdatensatz verglichen wurden 24,
so konnte das Gesicht nicht als eines der vorbekannten Gesichter
erkannt werden, was ebenfalls ausgegeben wird 26. Das Verfahren
ist im Erkennungsmodus beendet 27.
-
In 5 ist
schematisch eine Vorrichtung 180 für ein Erkennen eines Gesichts 181 dargestellt. Das
Gesicht 181 ist vor einer 3D-Erfassungseinheit 182 angeordnet.
Die 3D-Erfassungseinheit 182 erfasst Gesichtsinformationen
des Gesichts 181 in Form eines Gesichtsinformationsdatensatzes.
Dieser wird an eine Normalisierungseinheit 183 übermittelt. Die
Normalisierungseinheit 183 kann bei einigen Ausführungsformen
Bestandteil der 3D-Erfassungseinheit 182 sein. Bei anderen
Ausführungsformen, wie
der hier dargestellten, ist die Normalisierungseinheit 183 Bestandteil
einer Erkennungseinheit 184. Nachdem die Gesichtsinformationen
mittels der Normalisierungseinheit 183 normalisiert worden
sind, werden sie von einer Auswerteeinheit 185 ausgewertet.
Hierbei wird eine Häufigkeitsverteilung
von Konturkoordinatenpunkten des erfassten Gesichts bezüglich von
Auswertegebieten ermittelt. Aus der Häufigkeitsverteilung wird ein
Merkmalsdatensatz abgeleitet, der mit vorbekannten Merkmalsdatensätzen in einer
Vergleichseinheit 186 verglichen wird. Die hierfür benötigten vorbekannten
Merkmalsdatensätze können aus
einem Datenspeicher 187 eingelesen werden, in dem eine
Datenbank 188 die vorbekannten Merkmalsdatensätze verwaltet.
Wird eine Übereinstimmung
des Merkmalsdatensatzes des erfassten Gesichts 181 mit
einem der vorbekannten Merkmalsdatensätze festgestellt, so gilt das
Gesicht 181 als das Gesicht erkannt, aus dessen Gesichtsinformationsdatensatz
der entsprechende vorbekannte Merkmalsdatensatz einst abgeleitet
wurde. Eine Information hierüber
und gegebenenfalls Identifikationsinformationen, die zu dem vorbekannten
Merkmalsdatensatz in der Datenbank 188 abgelegt sind, werden über eine
Ausgabeeinheit 189 ausgegeben.
-
Die
Vorrichtung 180 ist so ausgestaltet, dass mit ihr ein neuer
vorbekannter Merkmalsdatensatz ermittelt werden kann. Hierfür verfügt die Vorrichtung 181 über eine
Eingabeeinheit 190, über
die die Vorrichtung 180 in einen Zufügemodus ersetzt werden kann.
Ferner können über die
Eingabeeinheit Identifikationsinformationen über die Person bzw. das Gesicht
eingegeben werden, aus dessen Gesichtsinformationen ein neuer vorbekannter
Merkmalsdatensatz abgeleitet wird und anschließend gemeinsam mit diesen Informationen
in der Datenbank 188 abgelegt wird. Die Auswerteeinheit 185 kann
ferner so ausgestaltet sein, dass ein Auswertebereich und die Auswertegebiete
in einem Trainingsmodus festgelegt werden können. Hierzu ist die Vorrichtung 180 in
der Lage, Trainingsgesichtsinformationsdatensätze für mehrere Trainingsgesichter
zu erfassen und hieraus, wie oben beschrieben, einen Auswertungsraum
und Auswertungsgebiete zu ermitteln und gegebenenfalls für die Trainingsgesichter
die ermittelten Merkmalsdatensätze
in der Datenbank 188 des Datenspeichers 187 abzulegen.
Wie durch eine gestrichelte Linie 191 angedeutet ist, kann
die Erkennungseinheit 184 auch ohne den Datenspeicher 187 und
die Datenbank 188 ausgebildet sein. In diesem Fall erfolgt die
Speicherung auf einem externen Datenspeicher 187, der nicht
notwendigerweise eine Datenbank 188 enthalten muss. Bei
dem externen Datenspeicher 187 kann es sich auch eine Smart-Card
oder einen ähnlichen
tragbaren Datenspeicher handeln, auf dem nur ein vorbekannter Merkmalsdatensatz
abgespeichert ist. Hierdurch wird erreicht, dass die personenbezogenen
Merkmalsdaten nur auf einem Datenspeicher der Person abgespeichert
werden, von dessen Gesicht sie abgeleitet wurden.
-
Bei
wieder einer anderen Ausführungsform umfasst
die Erkennungseinheit 184 auch die Vergleichseinheit 186 nicht.
Wie mittels einer gepunkteten Linie 192 angedeutet ist,
ist die Vergleichseinheit 186 mit dem Datenspeicher 187 in
einer tragbaren Einheit ausgebildet, wobei der Datenspeicher 187 ebenfalls
keine Datenbank 188 umfassen muss. So kann auch der Vergleichsschritt
in der tragbaren Einheit, die von der gepunkteten Linie 192 umrandet
ist, ausgeführt
werden. Bei dieser Ausführungsform müssen die
Merkmalsdaten nicht aus der tragbaren Einheit ausgelesen werden
und werden auch der Erkennungseinheit 184 nicht zugänglich gemacht.
Solche tragbaren Einheiten werden auch als „on card matcher” bezeichnet.
-
In 6 ist
ein Gesichtserkennungsmodul schematisch dargestellt. Ein Gesichtserkennungsmodul
ist vorzugsweise in Form eines computerausführbaren Codes ausgeführt, der
auf einem Computer ausführbar
ist. Das Gesichtserkennungsmodul 200 umfasst eine Schnittstelle 201,
mit der Gesichtsinformationsdatensätze empfangen bzw. eingelesen oder
erfasst werden können.
Die Gesichtsinformationsdatensätze
können
bereits normalisiert sein. Ebenso ist es möglich, dass das Gesichtserkennungsmodul 200 eine
Normalisierungseinheit 202 umfasst. Die normalisierten
Gesichtsinformationsdatensätze
werden in einer Auswerteeinheit 203 weiterverarbeitet.
Hierbei wird für
Auswertungsgebiete eine Häufigkeitsverteilung
der Konturkoordinatenpunkte ermittelt. Aus der Häufigkeitsverteilung wird ein
Merkmalsdatensatz abgeleitet. Wird das Gesichtserkennungsmodul in
einem Zufügemodus
betrieben, so wird der Merkmalsdatensatz über eine weitere Schnittstelle 204 ausgegeben
und kann in einer Datenbank 205 gespeichert werden. Über eine
zusätzliche
Schnittstelle 207 können
aus der Datenbank 205 vorbekannte Merkmalsdatensätze eingelesen
werden, die bei einem Betrieb des Gesichtserkennungsmoduls 200 in
einem Erkennungsmodus in einer Vergleichseinheit 208 mit
dem Merkmalsdatensatz verglichen werden. Liegt eine Ähnlichkeit
des Merkmalsdatensatzes mit einem der vorbekannten Merkmalsdatensätze vor,
so gilt das Gesicht als erkannt. Eine Information hierüber kann über die
weitere Schnittstelle 204 ausgegeben werden. Die Schnittstelle 201, die
weitere Schnittstelle 204 und die zusätzliche Schnittstelle 207 können paarweise
oder gemeinsam in einer einzigen Schnittstelle ausgeführt sein.
Die Auswerteeinheit 203 des Gesichtserkennungsmoduls 200 ist
vorzugsweise so ausgestaltet, dass sie in der Lage ist, in einem
Trainingsmodus anhand mehrerer Trainingsgesichtsinformationsdatensätze, die über die
Schnittstelle 201 empfangen werden, einen Auswertungsraum
und Auswertungsgebiete, wie dies oben erläutert ist, zu ermitteln.
-
Bei
den beschriebenen bevorzugten Verfahren und der entsprechenden Vorrichtung
bzw. dem entsprechenden Gesichtserkennungsmodul ist jeweils vorgesehen,
dass ein Trainingsmodus genutzt werden kann, um die Auswertegebiete
festzulegen. Bei einer anderen Ausführungsform kann vorgesehen
sein, dass die Auswertungsgebiete vorfestgelegt sind und nicht erst
in einem Trainingsmodus ermittelt werden.
-
- 1
- Verfahren
zum Erkennen eines Gesichts
- 2
- Trainingsmodusabfrage
- 3
- Erfassen
von 3D-Gesichtsinformationen
- 4
- Erfassen
von Identifikationsinformationen
- 5,
5'
- Normalisierung
der Gesichtsinformationen
- 6,
6'
- Positionsnormalisierung
- 7,
7'
- Orientierungsnormalisierung
- 8
- weitere
Trainingsgesichter einlesen?
- 9
- Auswertungsraumfestlegung
- 10
- Bestimmung
der Auswertegebiete
- 11,
11'
- Berechnung
der Häufigkeitsverteilung
und Ableitung eines Merkmalsdatensatzes
- 12
- Optimierung
der Auswertungsgebiete fertig?
- 13
- Verändern der
Auswertungsgebiete
- 14
- Abfrage:
Sollen Trainingsgesichter später
wiedererkannt werden?
- 15,
15'
- Speichern
in einem bestimmten Speicher in Form einer Datenbank
- 16
- Ende
Trainingsmodus
- 17
- abspeichern
von Informationen über
die Auswertungsgebiete
- 19
- Abfrage:
Zufügemodus
oder Erkennungsmodus?
- 20
- Ende
Zufügemodus
- 21
- Einlesen
vorbekannter Merkmalsdatensatz
- 22
- Vergleich
Merkmalsdatensatz mit vorbekanntem Merkmalsdatensatz
- 23
- Abfrage:
Liegt Ähnlichkeit
vor (Erkennung)?
- 24
- Abfrage:
Gibt es weitere vorbekannte Merkmalsdatensätze?
- 25
- Ausgeben
Gesicht erkannt
- 26
- Ausgeben
Gesicht nicht erkannt
- 27
- Ende
Erkennungsmodus
- 101,
101', 101''
- erfasstes
Gesicht
- 102
- Koordinatensystem
- 103
- x-Achse
- 104
- y-Achse
- 105
- Kreuz
als Darstellung der z-Achse
- 106,
106', 106''
- Nasenspitze
- 107,
107', 107''
- Nasenwurzel
- 108,
108', 108''
- Augen
- 109,
109', 109''
- Mund
- 120
- Abbildungsraum
- 121
- Auswertungsraum
- 122
- Vorderfläche des
Auswertungsraums
- 123
- Pfeil
- 124–127
- Auswertegebiete
- 128
- Grundfläche des
Abbildungsraums
- 129
- z-Achse
- 131–136
- Untergebiete
- 141–144
- Untergebiete
- 145–148
- Untergebiete
- 161,
162
- Schnittlinien
von Gesichtskonturen
- 163
- Detektionsebene
- 164,
165
- Nasenspitze
- 166
- Abstandspfeil
- 167
- waagerechte
Linien
- 168
- Konturkoordinatenpunkte
- 169
- senkrechte
Linien
- 170–175
- Auswertegebiete
- 176,
177
- Häufigkeitsverteilungen
in Form von Balkendiagrammen
- 180
- Vorrichtung
zur Gesichtserkennung
- 181
- Gesicht
- 182
- 3D-Erfassungseinheit
- 183
- Normalisierungseinheit
- 184
- Erkennungseinheit
- 185
- Auswerteeinheit
- 186
- Vergleichseinheit
- 187
- Datenspeicher
- 188
- Datenbank
- 189
- Ausgabeeinheit
- 190
- Eingabeeinheit
- 191
- gestrichelte
Linie
- 192
- gepunktete
Linie
- 200
- Gesichtserkennungsmodul
- 201
- Schnittstelle
- 202
- Normalisierungseinheit
- 203
- Auswerteeinheit
- 204
- weitere
Schnittstelle
- 205
- Datenbank
- 207
- zusätzliche
Schnittstelle
- 208
- Vergleichseinheit