DE60019786T2 - Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern - Google Patents

Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern Download PDF

Info

Publication number
DE60019786T2
DE60019786T2 DE60019786T DE60019786T DE60019786T2 DE 60019786 T2 DE60019786 T2 DE 60019786T2 DE 60019786 T DE60019786 T DE 60019786T DE 60019786 T DE60019786 T DE 60019786T DE 60019786 T2 DE60019786 T2 DE 60019786T2
Authority
DE
Germany
Prior art keywords
probability density
density function
model
appearance
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60019786T
Other languages
English (en)
Other versions
DE60019786D1 (de
Inventor
John Christopher TAYLOR
Francis Timothy COOTES
Gareth Edwards
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Manchester
Original Assignee
University of Manchester
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9926459.0A external-priority patent/GB9926459D0/en
Priority claimed from GB0017966A external-priority patent/GB0017966D0/en
Application filed by University of Manchester filed Critical University of Manchester
Application granted granted Critical
Publication of DE60019786D1 publication Critical patent/DE60019786D1/de
Publication of DE60019786T2 publication Critical patent/DE60019786T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Description

  • Die vorliegende Erfindung betrifft die Identifizierung oder Überprüfung einer Objektklasse und bezieht sich außerdem auf die Synthese von Bildern von Objekten. Die Erfindung betrifft insbesondere, wenn auch nicht ausschließlich, die Identifizierung oder Überprüfung von Gesichtern und betrifft ferner die Synthese von Bildern von Gesichtern.
  • Viele bekannte Verfahren zur Identifizierung von Gesichtern verwenden ein universelles Gesichtsraummodell, das für Gesichtsmerkmale einer nichthomogenen Bevölkerung bezeichnend ist. Gewöhnlich wird das universelle Gesichtsraummodell als eine Menge von Erscheinungsparametern dargestellt, die am besten fähig sind, Variationen zwischen Gesichtern in einem begrenzten dimensionsmäßigen Raum darzustellen (siehe z. B. US 5 164 992 ; M.A. Turk und A.P. Pentland). Ein zu identifizierendes Gesicht wird in eine Menge von Erscheinungsparametern umgewandelt und dann mit Mengen von Erscheinungsparametern verglichen, die für bekannte Gesichter bezeichnend sind.
  • Kürzlich veröffentlichte Gesichtsidentifizierungsverfahren umfassen das Aktive Erscheinungs-Verfahren und das Aktive Form-Verfahren (G.J. Edwards, C.J. Taylor und T.F. Cootes. Face recognition using Active Appearance Models. In 5th European Conference on Computer Vision, Seiten 581–595, 1998; T.F. Cootes, C.J. Taylor, D.H. Cooper und J. Graham. Active Shape Models – their training and application. Computer Vision and Image Understanding, 61(1):38–59, Jan. 1995). Das Aktive Erscheinungs-Verfahren weist ein universelles Gesichtsraummodell auf, mit dem ein unbekanntes Gesicht verglichen wird, und weist ferner vorher erlerntes Wissen auf, das angibt, wie Erscheinungsparameter im universellen Gesichtsraum einzustellen sind, um ein unter Anwendung des Modells synthetisiertes Gesicht mit einem unbekannten Gesicht in Übereinstimmung zu bringen. Die Nutzung des vorher erlernten Wissens ist vorteilhaft, weil es dadurch möglich wird, die erforderliche Anzahl von Einstellungsiterationen zu minimieren.
  • Wenn das Gesichtserscheinungsbild jeder Einzelperson unveränderlich wäre und jede Abbildung jeder Einzelperson identisch wäre, dann könnte jeder Einzelne durch einen einzigen Punkt in dem universellen Gesichtsraum dargestellt werden. Das Gesichtserscheinungsbild eines Einzelnen kann jedoch in Abhängigkeit von einer Reihe von Faktoren, beispielsweise Änderungen des Ausdrucks, der Pose oder der Beleuchtung, veränderlich sein. Die Veränderbarkeit von Erscheinungsparametern, die für die Erscheinung eines Einzelnen unter Änderungen des Ausdrucks, der Pose, der Beleuchtung oder anderer Faktoren repräsentativ sind, kann als eine Wahrscheinlichkeitsdichtefunktion ausgedrückt werden. Die Wahrscheinlichkeitsdichtefunktion definiert ein Volumen in dem universellen Gesichtsraum, das als einem gegebenen Einzelnen entsprechend angesehen wird. Beispielsweise sollte also eine Serie von Abbildungen eines Einzelnen mit einer Vielzahl von Ausdrücken vollständig in das Volumen fallen, das durch die Wahrscheinlichkeitsdichtefunktion in dem universellen Gesichtsraum beschrieben ist.
  • Bei bekannten Gesichtsidentifizierungsverfahren wird eine einzige Wahrscheinlichkeitsdichtefunktion erzeugt, die auf alle Individuen angewandt wird. Dies erfolgt durch Zentrieren der Wahrscheinlichkeitsdichtefunktion auf einen mittleren Parametervektor für ein gegebenen Individuum.
  • T.F. Cootes et al.: "A mixture model for representing shape variation", IMAGE AND VISION COMPUTING, Juni 1999, Elsevier, Niederlande, Vol. 17, Nr. 8, Seiten 567–573, definiert ein Modell auf der Grundlage von Erscheinungsparametern, das eine Wahrscheinlichkeitsdichtefunktion aufweist, die den Bereich beschreibt, über den sich Erscheinungsparameter (ein Formvektor von charakteristischen Punkten) ändern können, und den Ort der Wahrscheinlichkeitsdichtefunktion in dem Erscheinungsraum für ein gegebenes Objekt (eine gegebene Objektklasse).
  • Es ist eine Aufgabe des ersten Aspekts der Erfindung, wie sie im Anspruch 1 definiert ist, ein verbessertes Verfahren zum Identifizieren einer Objektklasse oder ein Überprüfungsverfahren bereitzustellen.
  • Das Verfahren nach dem ersten Aspekt der Erfindung ermöglicht eine verbesserte Identifizierung der Klasse eines unbekannten Objekts.
  • Bevorzugt wird ein Schwellenpegel der Wahrscheinlichkeitsdichtefunktion bestimmt, und die Erscheinungsparameter werden eingeschränkt, so daß sie eine Wahrscheinlichkeitsdichte haben, die größer als die Schwelle ist.
  • Zweckmäßigerweise sind die Objekte Gesichter, und eine gegebene Objektklasse ist ein Gesicht, das eine bestimmte Identität hat. Die Objekte können alternativ Hände, Tiere, Fahrzeuge usw. sein. In jedem Fall ist die Objektklasse ein spezifisches Beispiel dieses Objekts, beispielsweise die Hand einer bestimmten Person, ein bestimmtes Pferd oder ein bestimmtes Fahrzeugmodell.
  • Der erste Aspekt der Erfindung ist vorteilhaft, weil er die Tatsache nutzt, daß die Gesichter verschiedener Individuen auf unterschiedliche Weise verschieden sind, um den Bereich zu begrenzen, über den sich Erscheinungsparameter ändern können, wenn ein Gesicht identifiziert werden soll.
  • Zweckmäßigerweise ist die Beziehung zwischen den Erscheinungsparametern und der Wahrscheinlichkeitsdichtefunktion eine Beziehung zwischen durchschnittlichen Erscheinungsparametern, die für jede Klasse von Objekt bestimmt sind, und Wahrscheinlichkeitsdichtefunktionen, die jeder Klasse von Objekt zugeordnet sind.
  • Die Wahrscheinlichkeitsdichtefunktion kann jede geeignete Funktion, beispielsweise eine Gaußsche Funktion sein.
  • Zweckmäßigerweise wird die Wahrscheinlichkeitsdichtefunktion als eine Gaußsche Funktion mit einer gegebenen Kovarianzmatrix approximiert.
  • Zweckmäßigerweise ist das Modell das Aktive Erscheinungs-Modell bzw. AAM (Active Appearance Model). Das Modell kann alternativ das Aktive Form-Modell bzw. ASM (Active Shape Model) sein.
  • Der erste Aspekt der Erfindung kann beispielsweise auch genutzt werden, um das Verfolgen von Individuen zu verbessern, indem die vorhergesagte Veränderbarkeit in der Erscheinung eines gegebenen Individuums berücksichtigt wird. Durch Vorsehen von stärkeren Einschränkungen auf die erwartete Veränderung der Erscheinung eines Individuums kann die Anpassung des Modells an ein Bild oder eine Sequenz robuster gemacht werden.
  • Gemäß einem zweiten Aspekt der Erfindung, wie sie in Anspruch 2 definiert ist, wird ein Verfahren zum Überprüfen der Identität einer Objektklasse unter Verwendung eines Modells auf der Grundlage von Erscheinungsparametern bereitgestellt.
  • Der Ausdruck "Überprüfung" soll bedeuten, daß die Klasse eines unbekannten Objekts überprüft wird, um festzustellen, ob es einer bestimmten Objektklasse entspricht.
  • Bevorzugt wird der Schwellenpegel der Wahrscheinlichkeitsdichtefunktion bestimmt, und die Erscheinungsparameter werden eingeschränkt, um eine Wahrscheinlichkeitsdichte zu haben, die größer als die Schwelle ist.
  • Zweckmäßigerweise sind die Objekte Gesichter, und eine gegebene Klasse von Objekt ist ein Gesicht, das eine bestimmte Identität hat. Die Objekte können alternativ Hände, Tiere, Fahrzeuge usw. sein. In jedem Fall ist die Klasse von Objekt ein spezifisches Beispiel dieses Objekts, beispielsweise die Hand einer bestimmten Person, ein bestimmtes Pferd oder ein bestimmtes Fahrzeugmodell.
  • Der zweite Aspekt der Erfindung ist vorteilhaft, weil er die Tatsache nutzt, daß die Gesichter von verschiedenen Individuen sich auf verschiedene Weise ändern, um den Bereich zu begrenzen, über den sich Erscheinungsparameter ändern können, wenn die Identität eines Gesichts überprüft wird.
  • Das Verfahren nach dem zweiten Aspekt der Erfindung kann eine verbesserte Überprüfung der Klasse eines unbekannten Objekts ermöglichen. Beispielsweise kann das Gesicht eines gegebenen Individuums Erscheinungsparameter haben, die in eine relativ kompakte Wahrscheinlichkeitsdichtefunktion fallen. Das Modell gemäß dem zweiten Aspekt der Erfindung überprüft nur, daß ein Bild ein Bild des Gesichts dieses Individuums ist, wenn dessen Erscheinungsparameter in diese kompakte Wahrscheinlichkeitsdichtefunktion fallen. Eine bekannte Überprüfungsmethode, die eine einzige globale Wahrscheinlichkeitsdichtefunktion verwendet, die ein größeres Volumen hat, kann fälschlicherweise die Identität eines Bildes eines Individuums überprüfen, wenn die Erscheinungsparameter in die globale Wahrscheinlichkeitsdichtefunktion fallen (die Überprüfung ist falsch, wenn die Erscheinungsparameter aus der relativ kompakten Wahrscheinlichkeitsdichtefunktion herausgefallen wären, die von dem zweiten Aspekt der Erfindung vorgesehen worden wäre).
  • Zweckmäßigerweise ist die Beziehung zwischen den Erscheinungsparametern und der Wahrscheinlichkeitsdichtefunktion eine Beziehung zwischen durchschnittlichen Erscheinungsparametern, die für jede Klasse von Objekt bestimmt werden, und Wahrscheinlichkeitsdichtefunktionen, die zu jeder Klasse von Objekt gehören.
  • Die Wahrscheinlichkeitsdichtefunktion kann jede geeignete Funktion, z. B. eine Gaußsche Funktion sein.
  • Zweckmäßigerweise wird die Wahrscheinlichkeitsdichtefunktion als eine Gaußsche Funktion mit einer gegebenen Kovarianzmatrix approximiert.
  • Zweckmäßigerweise ist das Modell das Aktive Erscheinungs-Modell. Alternativ kann das Modell das Aktive Form-Modell sein.
  • Gemäß einem dritten Aspekt der Erfindung, wie sie in Anspruch 3 definiert ist, wird ein Verfahren zum Erzeugen eines synthetisierten Bildes einer Objektklasse unter Verwendung eines Modells auf der Grundlage von Erscheinungsparametern bereitgestellt.
  • Der dritte Aspekt der Erfindung ist vorteilhaft, weil er für Objektklassen spezifische Grenzen vorsieht, innerhalb derer Erscheinungsparameter des synthetisierten Bildes liegen sollten.
  • Bevorzugt wird ein Schwellenpegel der Wahrscheinlichkeitsdichtefunktion bestimmt, und die Erscheinungsparameter werden eingeschränkt, um eine Wahrscheinlichkeitsdichte zuhaben, die größer als die Schwelle ist.
  • Zweckmäßigerweise sind die Objekte Gesichter, und eine gegebene Klasse von Objekt ist ein Gesicht, das eine bestimmte Identität hat. Die Objekte können alternativ Hände, Tiere, Fahrzeuge usw. sein. In jedem Fall ist die Klasse von Objekt ein spezifisches Beispiel dieses Objekts, beispielsweise die Hand einer bestimmten Person, ein bestimmtes Pferd oder ein bestimmtes Fahrzeugmodell.
  • Der dritte Aspekt der Erfindung ist vorteilhaft, weil er die Tatsache nutzt, daß die Gesichter verschiedener Individuen sich auf verschiedene Weise ändern, um den Bereich zu begrenzen, über den Erscheinungsparameter sich ändern können, wenn ein Bild eines Gesichts synthetisiert wird.
  • Zweckmäßigerweise ist die Beziehung zwischen den Erscheinungsparametern und der Wahrscheinlichkeitsdichtefunktion eine Beziehung zwischen durchschnittlichen Erscheinungsparametern, die für jede Klasse von Objekt bestimmt werden, und Wahrscheinlichkeitsdichtefunktionen, die zu jeder Klasse von Objekt gehören.
  • Die Wahrscheinlichkeitsdichtefunktion kann jede geeignete Funktion, z. B. eine Gaußsche Funktion sein.
  • Zweckmäßigerweise ist die Wahrscheinlichkeitsdichtefunktion als eine Gaußsche Funktion mit einer gegebenen Kovarianzmatrix approximiert.
  • Zweckmäßigerweise ist das Modell das Aktive Erscheinungs-Modell. Alternativ kann das Modell das Aktive Form-Modell sein.
  • Im allgemeinen ist eine große Anzahl von Erscheinungsparametern erforderlich, um Gesichter mit hinreichenden Einzelheiten, die eine gute Gesichtserkennung erlauben, darzustellen. Eine alternative Möglichkeit, dies auszudrücken, ist, daß ein universelles Gesichtsraummodell eine große Anzahl von Dimensionen haben muß, um Gesichter mit hinreichenden Details darzustellen, so daß eine gute Gesichtserkennung möglich ist.
  • Typischerweise sind ungefähr 100 Erscheinungsparameter erforderlich, um Gesichter in dem universellen Gesichtsraummodell in hinreichendem Detail darzustellen, so daß eine genaue Identifizierung von Gesichtern möglich ist. Die Anzahl von Erscheinungsparametern, die sich für ein gegebenes individuelles Gesicht signifikant ändern, ist jedoch viel kleiner als 100 (typischerweise ist sie 30), und die verbleibenden Erscheinungsparameter (typischerweise 70) sind im wesentlichen redundant. Vorhandene Gesichtsidentifizierungsmodelle versuchen, ein Gesicht zu identifizieren, indem sie sämtliche Erscheinungsparameter, die das universelle Gesichtsraummodell bilden, ändern. Gleichermaßen werden alle verfügbaren Erscheinungsparameter geändert bei dem Versuch, die Klasse eines Objekts, das kein Gesicht ist, zu identifizieren.
  • Das Aktive Erscheinungs-Modell ist ein bekanntes Gesichtsidentifizierungsverfahren (G.J. Edwards, C.J. Taylor und T.F. Cootes. Face recognition using Active Appearance Models. In 5th European Conference on Computer Vision, Seiten 581–595, 1998). Während des Trainierens des Aktiven Erscheinungs-Modells werden Differenzen zwischen einem synthetischen Bild und einem Zielbild überwacht, und es wird eine Regressionsmatrix bestimmt, welche die Verschiebung des synthetischen Bildes (erzeugt durch Erscheinungsparameter) zu den gemessenen Differenzen zwischen dem synthetischen Bild und dem Zielbild in Beziehung setzt. Während der Objektidenti-fizierung unter Anwendung des Aktiven Erscheinungs-Modells wird die Regressions-matrix genutzt, um das Modell zu einer Objektklassenidentifizierung zu treiben, die einen minimalen Fehler ergibt.
  • Eine spezifische Ausführungsform des ersten und des zweiten Aspekts der Erfindung wird nachstehend nur beispielhaft beschrieben.
  • Die Erfindung kann bei einem Modell auf der Grundlage eines universellen Gesichtsraummodells angewandt werden, das Gesichtsmerkmale einer nichthomogenen Bevölkerung bezeichnet.
  • Die Veränderbarkeit von Erscheinungsparametern für ein Gesicht einer gegebenen Identität unter Änderungen im Ausdruck, in der Pose, der Beleuchtung usw. kann im universellen Gesichtsraummodell als eine Wahrscheinlichkeitsdichtefunktion (PDF [probability density function]) ausgedrückt werden. Es wird davon ausgegangen, daß für eine Wahrscheinlichkeitsdichtefunktion, die auf die durchschnittlichen Erscheinungswerte eines gegebenen Gesichts zentriert ist, jeder Ausdruck, jede Pose oder Beleuchtung dieses Gesichts durch Erscheinungsparameter, die innerhalb der Wahrscheinlichkeitsdichtefunktion liegen, beschrieben werden sollte.
  • Bei bekannten Gesichtserkennungsmethoden wird eine einzige Wahrscheinlichkeitsdichtefunktion verwendet, um die Variation aller Gesichter ungeachtet der Identität zu beschreiben. In der Praxis variieren jedoch die verschiedenen Gesichter auf unterschiedliche Weise. Der erste Aspekt der Erfindung berücksichtigt dies durch Definieren einer Beziehung zwischen den Erscheinungsparametern, die für die Gesichter verschiedener Individuen repräsentativ sind, und ihren Wahrscheinlichkeitsdichtefunktionen. Das erlaubt es, daß eine für ein bestimmtes Gesicht spezifische Wahrscheinlichkeitsdichtefunktion für ein unbekanntes Gesicht auf der Basis eines einzigen Bildes dieses Gesichts vorhergesagt werden kann.
  • Das Modell weist Wahrscheinlichkeitsdichtefunktionen auf, die für bestimmte Gesichter berechnet wurden, für die es viele Beispiele gibt, was Änderungen der Pose, der Beleuchtung, des Ausdrucks usw. einschließt. Diese "wohlbekannten" Gesichter befinden sich an verschiedenen Orten in dem universellen Gesichtsraum (gemäß der Definition durch Erscheinungsparameter). Das Modell lernt eine Beziehung zwischen Wahrscheinlichkeitsdichtefunktionen, die bestimmten Gesichtern zugeordnet sind, und dem Ort dieser Gesichter in dem universellen Gesichtsraum. Der Ort in dem universellen Gesichtsraum eines bestimmten Gesichts kann beispielsweise als der durchschnittliche Wert der für dieses Gesicht repräsentativen Erscheinungsparameter definiert werden.
  • Bei der Gesichtsidentifizierung unter Anwendung des Modells wird eine Wahrscheinlichkeitsdichtefunktion für ein unbekanntes Gesicht auf der Basis der Position von einem oder mehreren Erscheinungsparametern, die das unbekannte Gesicht darstellen, geschätzt. Das ergibt eine gesichtsspezifische Wahrscheinlichkeitsdichtefunktion, die beschreibt, wie ein bestimmtes Gesicht sich wahrscheinlich ändert, was eine effizientere Identifizierung des Gesichts erlaubt. Die gesichtsspezifische Wahrscheinlichkeitsdichtefunktion kann selbst dann bestimmt werden, wenn nur ein einziges Bild des unbekannten Gesichts gesehen worden ist.
  • Eine Ausführungsform des ersten Aspekts der Erfindung kann mathematisch wie folgt ausgedrückt werden:
    c sei ein Vektor von Erscheinungsmodellparametern.
  • p(c/x) sei eine Wahrscheinlichkeitsdichtefunktion für die Parameter c, selbst parameterisiert durch einen Vektor von Parametern, x.
  • Beispielsweise könnte die Wahrscheinlichkeitsdichtefunktion eine Gaußsche Funktion mit der Kovarianzmatrix S = S(x) sein.
  • Modelle können, ohne daß dies eine Einschränkung bedeutet, umfassen:
    • a) Ein Modell mit einem Skalierparameter, x1, (Sx1) = x1S0.
    • b) Die Darstellung der Eigenwerte der Kovarianzmatrix durch x, d. h. S(x) = P' diag(x)P (wobei P eine orthogonale Matrix ist).
  • Es sei angenommen, daß das Modell mit mi beispielhaften Gesichtsbildern von jedem von n Individuen versehen ist (i = l...n). yi sei der Mittelwert dieser mi Vektoren für ein individuelles i. Für jedes individuelle i werden die Parameter xi der Wahrscheinlichkeitsdichtefunktionen um den Mittelwert yi gefunden.
  • Das Modell lernt die Beziehung zwischen der mittleren Position in dem Raum, yi, und den Parametern der Wahrscheinlichkeitsdichtefunktion, xi: x = f(y)
  • Die Beziehung kann mit jeder geeigneten Methode gelernt werden, beispielsweise mittels multivariabler linearer Regression, Neuralnetzen usw. Wenn ausreichend Daten vorliegen, können komplexe nichtlineare Beziehungen gelernt werden.
  • Wenn daher ein einziges Bild eines Individuums vorliegt, ist das Modell imstande, die Gesichtsparameter y zu lernen, und kann dann die zugehörige Wahrscheinlichkeitsdichtefunktion als p(c/f(y)) lernen.
  • Die Wahrscheinlichkeitsdichtefunktion kann zur Klassifizierung/Identifizierung in einem Standard-Maximum-Likelihood-Klassifizierungsgerüst genutzt werden, in dem ein durch Parameter c dargestelltes Objekt als die Klasse j klassifiziert wird, die den größten Wert von pj(c) ergibt, wobei pj() die Wahrscheinlichkeitsdichtefunktion für die j-te Klasse ist.
  • Die Erfindung kann beispielsweise angewandt werden, um die Erkennung von Individuen zu verbessern, indem die vorhergesagte Veränderlichkeit in der Erscheinung eines gegebenen Individuums berücksichtigt wird.
  • Die Erfindung kann außerdem beispielsweise angewandt werden, um das Verfolgen von Individuen zu verbessern, indem die vorhergesagte Veränderlichkeit in der Erscheinung eines gegebenen Individuums berücksichtigt wird. Durch Vorsehen von stärkeren Einschränkungen an der erwarteten Änderung in der Erscheinung eines Individuums kann die Anpassung des Modells an ein Bild oder eine Sequenz robuster gemacht werden.
  • Gleichermaßen kann die Erfindung auch zur Synthese eines bekannten Gesichts angewandt werden und ermöglicht es, daß die vorhergesagte Veränderlichkeit in der Erscheinung eines gegebenen Individuums einbezogen wird. Ein synthetisiertes Gesicht kann beispielsweise als Teil eines Computerspiels oder als Teil einer allgemeinen Anwender-Computer-Schnittstelle genutzt werden. Das synthetisierte Gesicht könnte das Gesicht des Anwenders sein.
  • Die Erfindung betrifft außerdem die Verwendung einer geeigneten Wahrscheinlichkeitsdichtefunktion für Überprüfungszwecke. Die Wahrscheinlichkeitsdichtefunktion kann zur Überprüfung genutzt werden, indem ein Objekt mit Parametern c als ein gültiges Beispiel der Klasse akzeptiert wird, wenn p(c)>t0 ist, wobei t0 eine vorbestimmte Schwelle ist. Wenn eine Überprüfung gefordert wird, wird zuerst die Wahrscheinlichkeitsdichtefunktion einer bestimmten Objektklasse bestimmt unter Nutzung einer Serie von Bildern dieser Objektklasse. Nachdem dies erfolgt ist, kann die Überprüfung bei anschließenden Gelegenheiten durchgeführt werden durch Erhalten eines einzigen Bildes des Objekts und Anwenden des Modells innerhalb der Einschränkungen der für diese Objektklasse spezifischen Wahrscheinlichkeitsdichtefunktion.
  • Die Erfindung betrifft ferner die Verwendung einer geeigneten Wahrscheinlichkeitsdichtefunktion für Synthesezwecke. Ein Bild eines Objekts wird synthetisiert durch Umwandlung von Erscheinungsparametern, die für dieses Objekt im universellen Gesichtsraum repräsentativ sind, in eine zweidimensionale Intensitätsdarstellung des Objekts. Die Erscheinungsparameter sind innerhalb von Grenzen beschränkt, die durch die spezifische Wahrscheinlichkeitsdichtefunktion der relevanten Objektklasse bestimmt sind.
  • Eine Ausführungsform des vierten Aspekts der Erfindung betrifft die Gesichtsüberprüfung. Im allgemeinen kann die Erscheinung eines Gesichts dargestellt werden durch einen Vektor von n Erscheinungsmodellparametern c. Die Erscheinung eines individuellen Gesichts kann sich jedoch nur auf eine begrenzte Zahl von Möglichkeiten ändern und kann daher als c = c0 + Bb im Modell dargestellt werden, wobei b ein k-dimensionaler Vektor k<n, B eine n × k Matrix und c0 die mittlere Erscheinung für das Individuum ist.
  • Bei der Suche nach einem bekannten Individuum (d. h. bei dem Versuch der Überprüfung der Identität eines Individuums) ist es nur erforderlich, die k Parameter von b zu finden, die das Modell am besten an das Bild anpassen, und nicht die n Parameter des gesamten c. Für Gesichter gilt n ≈ 100 und k ≈ 30, und der vierte Aspekt der Erfindung führt somit zu einer rascheren und zuverlässigeren Gesichtsanpassung.
  • Die Erfindung wird zwar im Hinblick auf eine lineare Transformation beschrieben, es kann aber jede geeignete Transformation der Form c = f(b) angewandt werden.
  • Die Erfindung ist nützlich, wenn eine Serie von Bildern eines Gesichts, beispielsweise ein bewegtes Gesichtsbild, über eine Telefonleitung zu übertragen ist. Das Gesicht eines Anrufers wird von einer Kamera gefilmt und in eine Menge von Erscheinungsparametern umgewandelt. Die Menge von Erscheinungsparametern wird vor der Übermittlung in eine Menge von umgewandelten Parametern in einem neuen Koordinatenraum transformiert. Ein erster Teil der Übermittlung weist diejenigen transformierten Parameter, die sich in dem neuen Koordinatenraum nicht ändern, gemeinsam mit einer Beschreibung der Umwandlung auf. Ein zweiter Teil der Übermittlung weist diejenigen umgewandelten Parameter auf, die sich in dem neuen Koordinatenraum tatsächlich ändern; diese Parameter werden für jedes Bild der Serie übermittelt.
  • Die transformierten Parameter werden zum Empfänger übermittelt, wo sie in Erscheinungsparameter rücktransformiert werden, die zur Synthetisierung des Bilds genutzt werden.
  • Die Anzahl von transformierten Parametern, die notwendig ist, um ein gegebenes Bild zum Empfänger zu übertragen, ist deutlich geringer als die Anzahl von Erscheinungsmodellparametern, die zur Übermittlung desselben Bildes erforderlich wären. Das erlaubt die Nutzung einer Verbindung kleinerer Bandbreite zwischen Sender und Empfänger oder ermöglicht als Alternative eine häufigere Aktualisierung des Bildes. Wenn die Aktualisierungsrate eines Gesichtsbildes erhöht wird, sieht das Gesichtsbild realistischer aus, und die Unterschiede zwischen aufeinanderfolgenden Gesichtsbildern sind geringer, was die Verfolgung des Gesichts durch eine Kamera robuster macht.
  • Die Erfindung kann auch bei der Verfolgung bekannter Gesichter angewandt werden. Die Verringerung der Anzahl von erforderlichen Parametern zur Darstellung des Gesichts erlaubt eine raschere und robustere Verfolgung, was bei Anwendungen wie etwa Videotelefonen wertvoll ist (dabei wird ein an einem Ende verfolgtes Gesicht in eine kleine Anzahl von Parametern b codiert, die zum Empfänger übermittelt werden, wo sie genutzt werden, um ein synthetisches Gesicht zu rekonstruieren, welches das Original simuliert). Die erforderliche Transformation zur Umwandlung der b-Parameter in c-Parameter muß ebenfalls zum Empfänger übermittelt werden.
  • Die Erfindung ist vorteilhaft, wenn sie zur Synthetisierung eines bekannten Gesichts angewandt wird. Die Verringerung der Anzahl von erforderlichen Parametern b zur Darstellung des Gesichts ermöglicht eine raschere Synthese, wodurch die erforderliche Rechnerbelastung verringert wird. Ein synthetisiertes Gesicht kann beispielsweise als Teil eines Computerspiels oder als Teil einer allgemeinen Anwender-Computer-Schnittstelle dienen. Das synthetisierte Gesicht könnte das Gesicht des Anwenders sein.
  • Sämtliche oben angegebenen Verfahren der Erfindung können auf das Aktive Erscheinungs-Modell angewandt werden (G. Edwards, C. Taylor und T. Cootes, Interpreting face Images using active appearance models, in 3rd International Conference on Automatic Face and Gesture Recognition 1998, Seiten 300–305, Nara, Japan, Apr. 1998, IEEE Computer Society Press), das ferner beschrieben wird von Cootes et al. (T. Cootes, G. J. Edwards und C. J. Taylor, Active appearance models, in 5th European Conference on Computer Vision, Seiten 484–498, Springer, Juni 1998).
  • Das Aktive Erscheinungs-Modell nutzt die Differenz zwischen einem von einem Modell erzeugten rekonstruierten Bild und einem zu Grunde liegenden Zielbild, um Modellparameter in Richtung besserer Werte zu treiben. In einer vorhergehenden Lernphase werden bekannte Verschiebungen c auf bekannte Modellbeispiele angewandt, und die resultierende Differenz zwischen Modell und Bild, v, wird gemessen. Eine multivariable lineare Regression wird auf eine große Menge von solchen Lernverschiebungen angewandt, und es wird eine ungefähre lineare Beziehung etabliert: δc ≅ Rδv
  • Bei der Suche nach einem Bild wird die aktuelle Differenz zwischen Modell und Bild, v, genutzt zur Vorhersage einer Einstellung, – c, auf die Modellparameter, wodurch die Modellanpassung verbessert wird. Um die Bezeichnung zu vereinfachen, wird davon ausgegangen, daß der Vektor c Verschiebungen hinsichtlich Maßstab, Rotation und Translation umfaßt.
  • Das Aktive Erscheinungs-Modell wurde unter Verwendung von Mengen von Gesichtsbildern konstruiert. Zu diesem Zweck wurden Gesichtserscheinungsmodelle erzeugt unter Befolgung der Vorgehensweise, die von Edwards et al. (G. Edwards, A. Lanitis, C. Taylor und T. Cootes, Statistical model of face Images – improving specificity; Image and Vision Computing, 16:203–211, 1998) beschrieben wird. Die Modelle wurden erzeugt durch Verknüpfung eines Modells einer Gesichtsformänderung mit einem Modell der Erscheinungsänderungen eines Form-normierten Gesichts. Die Modelle wurden an 300 Gesichtsbildern trainiert, von denen jedes mit 122 charakteristischen Punkten markiert war, welche die Positionen von Schlüsselmerkmalen darstellten. Das Form-Modell wurde erzeugt durch Darstellen von Mengen von charakteristischen Punkten als ein Vektor x und Anwenden einer Hauptkomponentenanalyse (PCA) auf die Daten. Jedes Beispiel kann dann approximiert werden unter Anwendung von: x = x + Psbs (1) wobei x die mittlere Form, Ps eine Menge von orthogonalen Änderungsmoden und bs eine Menge von Formparametern ist. Jedes Beispielbild wurde so verdreht, daß seine Kontrollpunkte an die mittlere Form angepaßt wurden (unter Anwendung eines Triangulationsalgorithmus), und die Graustufeninformation g wurde von diesem Formnormierten Gesichtsteil abgetastet. Durch Anwendung der PCA auf diese Daten wurde ein ähnliches Modell erhalten: g = g + Pgbg (2)
  • Form und Erscheinung jedes Beispiels können daher durch die Vektoren bs und bg zusammengefaßt werden. Da es keine Korrelationen zwischen den Form- und den Graustufenänderungen gibt, wurde eine weitere PCA auf die verketteten Vektoren angewandt, um ein Kombinationsmodell der Form zu erhalten: x = x + QsC (3) g = g + Qgc (4) wobei c ein Vektor von Errcheinungs-Parametern ist, die sowohl die Form als auch die Graustufen des Modells steuern, und Qs und Qg den Wert von c in bezug auf Änderungen der Form und von Form-normierten Graustufendaten abbilden. Ein Gesicht kann für ein gegebenes c synthetisiert werden durch Erzeugen des formfreien Graustufenbildes aus dem Vektor g und Verdrehen desselben unter Anwendung der durch x beschriebenen Kontrollpunkte (dieser Vorgang ist im einzelnen beschrieben bei G.J. Edwards, C.J. Taylor und T. Bootes, Learning to Identify and Track Faces in Image Sequences, in British Machine Vision Conference 1997, Colchester, UK, 1997).
  • Die 400 Beispiele führen zu 23 Formparametern bs und 114 Graustufenparametern bg. Es sind jedoch nur 80 verknüpfte Erscheinungsmodellparameter c erforderlich, um 98 % der beobachteten Änderung zu erklären.
  • Nachdem das Erscheinungsmodell erzeugt worden ist, kann es genutzt werden, um Gesichter zu identifizieren und Darstellungen von Gesichtern zu erzeugen.
  • Eine Zweistufenstrategie wird angewandt, um ein Erscheinungsmodell an Gesichtsbilder anzupassen. Der erste Schritt besteht darin, eine ungefähre Übereinstimmung unter Anwendung einer einfachen und raschen Vorgehensweise zu finden. Dabei wird von keinem Anfangswissen dahingehend, wo das Gesicht in dem Bild liegen kann, oder über seinen Maßstab und seine Orientierung ausgegangen. Ein einfaches Eigengesicht-Modell (M. Turk und A. Pentland, Eigenfaces for recognition, Journal of Cognitive Neuroscience, 3(1):71–86, 1991) kann für diese Stufe der Position genutzt werden. Ein Korrelationsergebnis S zwischen der Eigengesicht-Darstellung der Bilddaten M und dem Bild I selbst kann in verschiedenen Maßstäben, Positionen und Orientierungen berechnet werden: S = |I – M2| (5)
  • Grundsätzlich könnte das Bild zwar erschöpfend abgesucht werden, es ist jedoch wesentlich effizienter, ein stochastisches Schema ähnlich demjenigen von Matas et al. anzuwenden (K.J.J. Matas und J. Kittler, Fast face localisation and verification, in British Machine Vision Conference 1997, Colchester, UK, 1997). Sowohl von dem Modell als auch von dem Bild werden Teilstichproben genommen, um das Korrelationsergebnis zu berechnen, indem nur ein kleiner Bruchteil der Modellabtastpunkte genutzt wird.
  • Nachdem eine brauchbare Ausgangsapproximation der Position eines Gesichts bestimmt worden ist, wird anschließend das Erscheinungsmodell angewandt, um das Gesicht zu identifizieren. Die Parameter des Erscheinungsmodells werden eingestellt, so daß ein synthetisches Gesicht erzeugt wird, das so nah wie möglich an das Bild angepaßt ist. Der Grundgedanke wird nachstehend umrissen, gefolgt von Einzelheiten des Algorithmus.
  • Die Interpretation wird als ein Optimierungsproblem behandelt, wobei die Differenz zwischen einem echten Gesichtsbild und einem, das durch das Erscheinungsmodell synthetisiert ist, minimiert wird. Ein Differenzvektor δI kann definiert werden: δI = Ii – Im (6) wobei Ii der Vektor von Graustufenwerten in dem Bild ist und Im der Vektor von Graustufenwerten für die aktuellen Modellparameter ist.
  • Um eine beste Übereinstimmung zwischen Modell und Bild zu lokalisieren, wird die Größe des Differenzvektors Δ = |δI2| minimiert durch Verändern der Modellparameter c.
  • Da das Modell etwa 80 Parameter hat, scheint dies zuerst ein sehr schwieriges Optimierungsproblem zu sein, das eine Suche in einem sehr hochdimensionalen Raum bedingt. Es ist jedoch zu beachten, daß jeder Versuch, das Modell an ein neues Gesichtsbild anzupassen, tatsächlich ein ähnliches Optimierungsproblem ist. Daher lernt das Modell vorher etwas darüber, wie diese Klasse von Problemen zu lösen ist. Durch Bereitstellen von A-priori-Wissen darüber, wie die Modellparameter während der Bildsuche einzustellen sind, gelangt das Modell zu einem effizienten Laufzeit-Algorithmus. Insbesondere könnte man erwarten, daß das räumliche Muster in 61, um Informationen darüber zu codieren, wie die Modellparameter geändert werden sollten, um eine bessere Anpassung zu erzielen. Wenn z. B. die größten Differenzen zwischen dem Modell und dem Bild an den Seiten des Gesichts auftreten würden, würde das bedeuten, daß ein Parameter, der die Breite des Modellgesichts einstellt, eingestellt werden sollte.
  • Bei der Ausführung dieser Vorgehensweise gibt es zwei Teile des Problems: Lernen der Beziehung zwischen δI und dem Fehler in den Modellparametern δc und Nutzen dieses Wissens in einem iterativen Algorithmus zur Minimierung von Δ.
  • Das einfachste Modell, das für die Beziehung zwischen δI und dem Fehler in den Modellparametern gewählt werden könnte (und somit die Korrektur, die durchgeführt werden muß), ist linear: δc = RδI (7)
  • Dies ist eine hinreichende Approximierung, um gute Ergebnisse zu erzielen. Um R zu finden, wird eine vielfache multivariable lineare Regression an einer großen Probe von bekannten Modellverschiebungen δc und den entsprechenden Differenzbildern δI durchgeführt. Diese großen Mengen von Zufallsverschiebungen werden erzeugt, indem die "echten" Modellparameter für die Bilder in der Trainingsmenge durch eine bekannte Menge gestört werden. Ebenso wie Störungen in den Modellparametern werden auch kleine Verschiebungen in 2D-Position, Maßstab und Orientierung modelliert. Diese zusätzlichen vier Parameter werden in die Regression eingeführt; um die Bezeichnung zu vereinfachen, können sie jedoch einfach als Extraelemente des Vektors δc betrachtet werden. Um eine sich wohl verhaltende Beziehung zu erreichen, ist es wichtig, das Bezugssystem, in dem die Bilddifferenz berechnet wird, sorgfältig zu wählen. Das bestgeeignete Bezugssystem ist der oben beschriebene Form-normierte Gesichtsbereich. Eine Differenz wird wie folgt berechnet: Für den aktuellen Ort des Modells berechnet man den Bild-Graustufenprobenvektor gi durch Verdrehen der Bilddaten an dem aktuellen Ort in den Form-normierten Gesichtsbereich. Dies wird mit dem Modell-Graustufenprobenvektor gm verglichen, der unter Anwendung von Gleichung (4) berechnet ist: δg = gi – gm (8)
  • Daher kann die Gleichung (7) wie folgt modifiziert werden: δc = Rδg (9)
  • Der beste Bereich von Werten von δc, der während des Trainings verwendet werden soll, wird experimentell bestimmt. Im Idealfall ist es erwünscht, eine Beziehung zu modellieren, die über einen möglichst großen Bereich von Fehlern δg gilt. Es wird jedoch gefunden, daß die echte Beziehung nur über einen begrenzten Bereich von Werten linear ist. Es wurde gefunden, daß der optimale Störpegel bei etwa 0,5 Standardabweichungen (über die Trainingsmenge) für jeden Modellparameter liegt. Jeder Parameter wurde ausgehend von dem Mittelwert um einen Wert zwischen 0 und 1 Standardabweichung gestört. Der Maßstab, der Winkel und die Position wurden durch Werte gestört, die zwischen 0 und +/- 10 % lagen (Positionsverschiebungen sind relativ zu der Breite des Gesichts). Nach Durchführung der linearen Regression wird eine R2-Statistik für jede Parameterstöxung δc1 errechnet, um zu messen, wie gut die Verschiebung durch den Fehlervektor δg vorhergesagt wird. Der durchschnittliche R2-Wert für die 80 Parameter war 0,82, mit einem Maximum von 0,98 (dem ersten Parameter) und einem Minimum von 0,48.
  • Bei einem gegebenen Verfahren zum Vorhersagen der Korrektur, die in den Modellparametern durchgeführt werden muß, kann eine iterative Methode zur Lösung des Optimierungsproblems konstruiert werden. Für eine gegebene Modellprojektion in das Bild, c, wird der Graustufenproben-Fehlervektor δg errechnet, und die Modellschätzung wird wie folgt aktualisiert: c' = c – Rδg (10)
  • Wenn die anfängliche Approximation weit von der korrekten Lösung entfernt ist, sind die vorhergesagten Modellparameter bei der ersten Iteration im allgemeinen nicht sehr genau, sollten jedoch die Energie in dem Differenzbild reduzieren. Dies kann dadurch gewährleistet werden, daß R so skaliert wird, daß die Vorhersage die Größe des Differenzvektors |δg2| für alle Beispiele in der Trainingsmenge reduziert. Bei gegebenem verbessertem Wert der Modellparameter sollte die bei der nächsten Iteration erhaltene Vorhersage besser sein. Das Prozedere wird bis zur Konvergenz iteriert. Typischerweise ist der Algorithmus, ausgehend von relativ schlechten Approximationen, in ungefähr 5 bis 10 Iterationen konvergent.
  • Die Erfindung kann bei dem Aktiven Erscheinungs-Modell angewandt werden. In der allgemeinen Form bei gegebenen Erscheinungs-Parametern c wird ein synthetisches Bild erzeugt, und ein Differenzvektor Z zwischen dem synthetischen Bild und dem Zielbild wird berechnet. Die Erscheinungs-Parameter werden dann aktualisiert unter Anwendung der Gleichung: c → c – RδIwobei R eine Regressionsmatrix ist, welche die Modellverschiebung zu den Bildfehlern, die während der Modelltrainingsphase gelernt wurden, in Beziehung setzt.
  • Wenn bei der Anwendung der Erfindung das Modell ein bestimmtes Individuum mit bekannter mittlerer Erscheinung c0 und einer durch B beschriebenen Änderung sucht, dann können die Parameter b wie folgt manipuliert werden: b → b – RBδI c = c0 + Bbwobei RB eine Regressionsmatrix ist, die aus der Trainingsmenge auf eine analoge Weise gelernt wurde, wie sie zur Berechnung von R angewandt wird, wobei jedoch die Beziehung zwischen kleinen Änderungen in b und dem induzierten Bildfehler gelernt wurde.
  • Wenn überprüft wird, daß ein Bild von einem bestimmten Objekt ist, wird davon ausgegangen, daß die mittlere Erscheinung c0 und die Art und Weise, wie sich das Objekt zulässig ändern kann, B, (c = c0 + Bb), bekannt sind. Das Bild wird gesucht unter Verwendung eines aktiven Erscheinungs-Modells durch Manipulation der reduzierten Menge von Parametern, b. Die beste Übereinstimmung synthetisiert ein Bild des Zielobjekts, das so nah wie möglich an dem Zielbild ist. Um zu überprüfen, daß das Objekt zu der geforderten Klasse gehört, wird die Differenz zwischen dem am besten passenden synthetisierten Bild und dem tatsächlichen Bild, dI, gemessen. Bei |dI|<tl, wobei tl eine geeignete Schwelle ist, wird das Objekt als korrekt überprüft bezeichnet.
  • Der in dem bekannten Aktiven Erscheinungs-Modell verwendete Algorithmus verwendet für alle Individuen dieselbe Regressionsmatrix R. Der siebte Aspekt der Erfindung verwendet für jedes Individuum (d. h. für das Gesicht eines jeden Subjekts) ein anderes R. Wenn dabei R innerhalb eines Modells mit t Parametern x dargestellt ist, d. h. R = R(x), dann kann die Beziehung zwischen den Parametern x und den mittleren Erscheinungsmodellparametern für ein Individuum y gelernt werden, d. h.: x = g(y).
  • Wenn also nach einem Individuum mit mittleren Erscheinungsmodellparametern y gesucht wird, verwendet das Modell eine aktualisierte Gleichung der Form: c → c – R(g(y))δI
  • Man betrachte beispielsweise ein einfaches Modell, das einen einzigen Parameter x hat, d. h. R(x) = xR0.
  • Es kann sein, daß eine Beziehung zwischen der Distanz vom Ursprung und dem besten Wert von x besteht, d. h. x = a + b|y|.
  • Die Regressionsmatrix kann an jedem Punkt in dem Raum y berechnet werden durch Anwendung des Modells, um ein Bild für die Parameter y zu synthetisieren, wonach eine große Anzahl von Verschiebungen dy und entsprechende Bildfehler δI erzeugt werden. Eine lineare Regression kann angewandt werden, um das beste R zu lernen, so daß dy = RδI für das gegebene y ist.

Claims (9)

  1. Verfahren zum Identifizieren einer Objektklasse unter Verwendung eines Modells auf Grundlage von Erscheinungsparametern, die durch Vergleichen von Bildern von Objekten von unterschiedlichen Klassen abgeleitet werden, wobei das Modell einschließt eine Darstellung einer Wahrscheinlichkeitsdichtefunktion, die einen Bereich beschreibt, über dem sich die Erscheinungsparameter für eine gegebene Klasse von Objekt verändern können, wobei das Modell ferner einschließt eine definierte Beziehung zwischen der Form der Wahrscheinlichkeitsdichtefunktion und dem Ort der Wahrscheinlichkeitsdichtefunktion in dem Erscheinungsraum, wobei das Verfahren umfasst ein Erzeugen von Erscheinungsparametern, die ein unbekanntes Objekt darstellen, Abschätzen einer geeigneten Wahrscheinlichkeitsdichtefunktion für das unbekannte Objekt auf Grundlage des Orts der Erscheinungsparameter in dem Erscheinungsraum und Verwenden der definierten Beziehung zwischen der Form der Wahrscheinlichkeitsdichtefunktion und dem Ort der Wahrscheinlichkeitsdichtefunktion in dem Erscheinungsraum, dann iteratives Modifizieren von wenigstens einigen der Erscheinungsparameter innerhalb von Grenzen, die unter Verwendung der Wahrscheinlichkeitsdichtefunktion bestimmt werden, um einen Satz von Erscheinungsparametern bereitzustellen, die eine Objektklasse identifizieren.
  2. Verfahren zum Überprüfen der Identität einer Objektklasse unter Verwendung eines Modells auf Grundlage von Erscheinungsparametern, die durch Vergleichen von Bildern von Objekten von unterschiedlichen Klassen abgeleitet werden, wobei das Modell einschließt eine Darstellung einer Wahrscheinlichkeitsdichtefunktion, die die Veränderung von Erscheinungsparametern für eine gegebene Klasse von Objekt beschreibt, wobei das Modell ferner einschließt eine definierte Beziehung zwischen der Form der Wahrscheinlichkeitsdichtefunktion und dem Ort der Wahrscheinlichkeitsdichtefunktion in dem Erscheinungsraum, wobei für eine Objektklasse, für die eine Überprüfung danach gefordert werden wird, das Verfahren umfasst eine Verwendung einer Reihe von Bildern von dieser Objektklasse, um eine Darstellung einer spezifischen Wahrscheinlichkeitsdichtefunktion zu erzeugen, die die Veränderung von Erscheinungsparametern für diese Objektklasse beschreibt, und während einer nachfolgenden Überprüfung der Objektklasse, Vergleichen eines Bilds eines Objekts von einer unbekannten Klasse mit dem Objekt von einer bekannten Klasse durch Erzeugen von Erscheinungsparametern, die das Objekt der unbekannten Klasse darstellen, und iteratives Modifizieren von wenigstens einigen der Erscheinungsparameter innerhalb von Grenzen, die unter Verwendung der spezifischen Wahrscheinlichkeitsdichtefunktion bestimmt werden, um einen Satz von Erscheinungsparametern bereitzustellen, die mit einer vorgegebenen Schwelle verglichen werden, um eine Überprüfung bereitzustellen.
  3. Verfahren zum Erzeugen eines synthetisierten Bilds einer Objektklasse unter Verwendung eines Modells auf Grundlage von Erscheinungsparametern, die durch Vergleichen von Bildern von Objekten von unterschiedlichen Klassen abgeleitet werden, wobei das Modell eine Darstellung einer Wahrscheinlichkeitsdichtefunktion einschließt, die die Veränderung von Erscheinungsparametern für eine gegebene Objektklasse beschreibt, wobei das Modell ferner eine definierte Beziehung zwischen der Form der Wahrscheinlichkeitsdichtefunktion und dem Ort der Wahrscheinlichkeitsdichtefunktion in dem Erscheinungsraum einschließt, wobei für eine Objektklasse, die synthetisiert werden soll, das Verfahren umfasst ein Verwenden einer Reihe von Bildern dieser Objektklasse um eine Darstellung einer spezifischen Wahrscheinlichkeitsdichtefunktion zu erzeugen, die die Veränderung von Erscheinungsparametern für diese Objektklasse beschreibt, und während einer nachfolgenden Synthese der Objektklasse, die Erscheinungsparameter, die verwendet werden, innerhalb von Grenzen eingeschränkt sind, die unter Verwendung der spezifischen Wahrscheinlichkeitsdichtefunktion bestimmt werden.
  4. Verfahren nach irgendeinem der Ansprüche 1 bis 3, wobei ein Schwellenpegel der Wahrscheinlichkeitsdichtefunktion bestimmt wird und die Erscheinungsparameter eingeschränkt werden, um eine Wahrscheinlichkeitsdichte größer als die Schwelle zu haben.
  5. Verfahren nach irgendeinem vorangehenden Anspruch, wobei die Objekte Gesichter sind, und eine gegebene Klasse von Objekt ein Gesicht mit einer bestimmten Identität ist.
  6. Verfahren nach irgendeinem vorangehenden Anspruch, wobei die Beziehung zwischen den Erscheinungsparametern und der Wahrscheinlichkeitsdichtefunktion eine Beziehung zwischen durchschnittlichen Erscheinungsparametern, die für jede Klasse von Objekt bestimmt werden, und Wahrscheinlichkeitsdichtefunktionen, die zu jeder Klasse von Objekt gehören, ist.
  7. Verfahren nach irgendeinem vorangehenden Anspruch, wobei die Wahrscheinlichkeitsdichtefunktion eine Gauss'sche Funktion ist.
  8. Verfahren nach irgendeinem vorangehenden Anspruch, wobei die Wahrscheinlichkeitsdichtefunktion als eine Gauss-artige mit einer gegebenen Kovarianzmatrix approximiert wird.
  9. Verfahren nach irgendeinem vorangehenden Anspruch, wobei das Modell das Aktive Erscheinungs-Modell ist.
DE60019786T 1999-11-09 2000-11-09 Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern Expired - Fee Related DE60019786T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB9926459.0A GB9926459D0 (en) 1999-11-09 1999-11-09 Object class identification or verification
GB9926459 1999-11-09
GB0017966A GB0017966D0 (en) 2000-07-21 2000-07-21 Object class identification verification or object image synthesis
GB0017966 2000-07-21
PCT/GB2000/004295 WO2001035326A1 (en) 1999-11-09 2000-11-09 Object class identification, verification or object image synthesis

Publications (2)

Publication Number Publication Date
DE60019786D1 DE60019786D1 (de) 2005-06-02
DE60019786T2 true DE60019786T2 (de) 2006-03-09

Family

ID=26244702

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60019786T Expired - Fee Related DE60019786T2 (de) 1999-11-09 2000-11-09 Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern

Country Status (9)

Country Link
US (1) US7095878B1 (de)
EP (1) EP1228479B1 (de)
JP (1) JP2003514309A (de)
AT (1) ATE294423T1 (de)
AU (1) AU772362B2 (de)
CA (1) CA2390695A1 (de)
DE (1) DE60019786T2 (de)
ES (1) ES2241667T3 (de)
WO (1) WO2001035326A1 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0114271D0 (en) 2001-06-12 2001-08-01 Univ Manchester Parameterisation
CN1313979C (zh) * 2002-05-03 2007-05-02 三星电子株式会社 产生三维漫画的装置和方法
US7454067B1 (en) * 2003-09-12 2008-11-18 Adobe Systems Incorporated Symbol classification depending on cluster shapes in difference image
US7483553B2 (en) * 2004-03-29 2009-01-27 Microsoft Corporation Caricature exaggeration
SE528068C2 (sv) 2004-08-19 2006-08-22 Jan Erik Solem Med Jsolutions Igenkänning av 3D föremål
US7287694B2 (en) 2004-08-25 2007-10-30 International Business Machines Corporation Method and system for context-based automated product identification and verification
WO2007044044A2 (en) * 2004-12-21 2007-04-19 Sarnoff Corporation Method and apparatus for tracking objects over a wide area using a network of stereo sensors
JP4093273B2 (ja) 2006-03-13 2008-06-04 オムロン株式会社 特徴点検出装置、特徴点検出方法および特徴点検出プログラム
US7672482B2 (en) 2006-05-16 2010-03-02 Eastman Kodak Company Shape detection using coherent appearance modeling
US7778446B2 (en) * 2006-12-06 2010-08-17 Honda Motor Co., Ltd Fast human pose estimation using appearance and motion via multi-dimensional boosting regression
EP2109856B1 (de) * 2007-02-05 2019-01-16 Siemens Healthcare Diagnostics Inc. System und verfahren für zellanalyse in der mikroskopie
US20080270425A1 (en) * 2007-04-27 2008-10-30 James Cotgreave System and method for connecting individuals in a social networking environment based on facial recognition software
EP2153378A1 (de) * 2007-06-01 2010-02-17 National ICT Australia Limited Gesichtserkennung
US8447100B2 (en) * 2007-10-10 2013-05-21 Samsung Electronics Co., Ltd. Detecting apparatus of human component and method thereof
US8842891B2 (en) * 2009-06-09 2014-09-23 Arizona Board Of Regents On Behalf Of Arizona State University Ultra-low dimensional representation for face recognition under varying expressions
WO2011047103A2 (en) * 2009-10-13 2011-04-21 The Charles Stark Draper Laboratory, Inc. Mathematical image analysis based cell reprogramming with applications for epigenetic and non-epigenetic base induced pluripotent stem cell derivation
US9607202B2 (en) * 2009-12-17 2017-03-28 University of Pittsburgh—of the Commonwealth System of Higher Education Methods of generating trophectoderm and neurectoderm from human embryonic stem cells
JP2012027572A (ja) * 2010-07-21 2012-02-09 Sony Corp 画像処理装置および方法、並びにプログラム
US9236024B2 (en) 2011-12-06 2016-01-12 Glasses.Com Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US9311746B2 (en) 2012-05-23 2016-04-12 Glasses.Com Inc. Systems and methods for generating a 3-D model of a virtual try-on product
US9373051B2 (en) * 2012-06-14 2016-06-21 Insitu, Inc. Statistical approach to identifying and tracking targets within captured image data
US9025811B1 (en) 2013-01-02 2015-05-05 Google Inc. Performing image similarity operations using semantic classification
US9380275B2 (en) 2013-01-30 2016-06-28 Insitu, Inc. Augmented video system providing enhanced situational awareness
US9105119B2 (en) * 2013-05-02 2015-08-11 Emotient, Inc. Anonymization of facial expressions
US9639743B2 (en) * 2013-05-02 2017-05-02 Emotient, Inc. Anonymization of facial images
US9514354B2 (en) * 2013-12-18 2016-12-06 International Business Machines Corporation Facial analysis by synthesis and biometric matching
US9576188B2 (en) 2013-12-23 2017-02-21 Atheer, Inc. Method and apparatus for subject identification
US20180157769A1 (en) * 2016-03-21 2018-06-07 Brigham Young University Multi-reference interface inheritance for concurrent cad interoperability applications
CN109460485A (zh) * 2018-10-12 2019-03-12 咪咕文化科技有限公司 一种图像库建立方法、装置和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044168A (en) * 1996-11-25 2000-03-28 Texas Instruments Incorporated Model based faced coding and decoding using feature detection and eigenface coding
US6741756B1 (en) * 1999-09-30 2004-05-25 Microsoft Corp. System and method for estimating the orientation of an object

Also Published As

Publication number Publication date
AU1165301A (en) 2001-06-06
WO2001035326A1 (en) 2001-05-17
CA2390695A1 (en) 2001-05-17
EP1228479B1 (de) 2005-04-27
DE60019786D1 (de) 2005-06-02
ES2241667T3 (es) 2005-11-01
AU772362B2 (en) 2004-04-22
JP2003514309A (ja) 2003-04-15
EP1228479A1 (de) 2002-08-07
US7095878B1 (en) 2006-08-22
ATE294423T1 (de) 2005-05-15

Similar Documents

Publication Publication Date Title
DE60019786T2 (de) Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern
DE60223361T2 (de) Objektidentifikation
Drucker et al. Boosting decision trees
DE60133840T2 (de) Vorrichtung und verfahren zur erzeugung einer dreidimensionalen darstellung aus einem zweidimensionalen bild
DE69914370T2 (de) Bestimmung von gesichtsunterräumen
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE69634221T2 (de) Verfahren und Gerät zur Verarbeitung visueller Information
DE69934478T2 (de) Verfahren und Gerät zur Bildverarbeitung auf Basis von Metamorphosemodellen
DE69838181T2 (de) Visualisierung und selbstorganisation multidimensionaler daten durch ausgeglichene orthogonale abbildung
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP3657440A1 (de) Verfahren und system zur dreidimensionalen rekonstruktion eines menschlichen kopfes aus mehreren bildern
EP0560779B1 (de) Verfahren zur erkennung und schätzung der räumlichen lage von objekten aus einer zweidimensionalen abbildung
CN109977757A (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
Kekre et al. Performance Comparison for Face Recognition using PCA, DCT &WalshTransform of Row Mean and Column Mean
DE102017216821A1 (de) Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
DE10304360A1 (de) Unstarre Bilderfassung unter Verwendung von Abstandsfunktionen
CN108345843A (zh) 一种基于混合深度回归网络的头部姿态估计方法
DE102022202017A1 (de) Konzeptbasiertes kontradiktorisches Erzeugungsverfahren mit steuerbarer und diverser Semantik
WO2019211497A2 (de) Computer implementiertes verfahren zur bewertung der integrität von neuronalen netzen
CN108734206B (zh) 一种基于深度参数学习的最大相关主成分分析方法
DE60310766T2 (de) Beleuchtungsunabhängige gesichtserkennung
CN106650754B (zh) 一种针对视觉映射的稀疏高斯过程回归方法
Al-Shaher et al. Learning mixtures of point distribution models with the EM algorithm
Gao et al. Gabor texture in active appearance models
Wang et al. Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributions

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee