DE60126040T2

DE60126040T2 - Erkennung von Gegenständen mit Verwendung linearer Unterräume

Info

Publication number: DE60126040T2
Application number: DE60126040T
Authority: DE
Inventors: David W. Jacobs; Ronen Basri
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-11-03
Filing date: 2001-07-31
Publication date: 2007-11-15
Anticipated expiration: 2021-08-01
Also published as: JP3818369B2; US6853745B1; DE60126040D1; EP1204069A2; EP1204069B1; JP2002183728A; CA2347645A1; EP1204069A3

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf das Computersehen und insbesondere auf Bilderkennungs- und Modellrekonstruktionssysteme.
2. Stand der Technik
Eines der grundlegendsten Probleme beim Sehen ist das Verständnis, wie die Veränderlichkeit der Beleuchtung die Bilder beeinflusst, die ein Objekt erzeugen kann. Es ist gezeigt worden, dass glatte Lambert-Objekte selbst dann, wenn die Lichter isotrop und verhältnismäßig weit von einem Objekt entfernt sind, unendlichdimensionale Mengen von Bildern erzeugen können.
Bei der Objekterkennung ist es sehr verbreitet, die Menge der Bilder, die ein Objekt erzeugen kann, unter Verwendung niederdimensionaler linearer Unterräume des Raums aller Bilder darzustellen. Im Gebiet wurde von einigen analytisch eine solche Darstellung für Mengen von 3D-Punkten abgeleitet, die einer skalierten orthographischen Projektion unterliegen. Von anderen wurde eine lineare 3D-Darstellung der Menge der durch ein Lambert-Objekt erzeugten Bilder als Beleuchtungsänderungen abgeleitet, wobei diese vereinfachte Darstellung aber an Stellen, wo die Oberflächennormalen von dem Licht wegweisen, negative Intensitäten zuweist. Andere verwenden eine Faktorisierung, um unter Verwendung dieser linearen Darstellung 3D-Modelle aufzubauen. Nochmals andere erweitern diese auf einen 4D-Raum, wobei sie eine diffuse Komponente für die Beleuchtung zulassen. Diese analytisch abgeleiteten Darstellungen sind auf recht einfache Umgebungen beschränkt; für komplexere Änderungsquellen sammeln die Forscher große Mengen von Bildern und führen eine Hauptkomponentenanalyse (PCA) aus, um Darstellungen aufzubauen, die Änderungen innerhalb Klassen und Änderungen der Stellung und der Beleuchtung erfassen. Die PCA ist eine numerische Technik, die den linearen Unterraum ermittelt, der einen Datensatz am besten repräsentiert. Die PCA ermittelt ausgehend von einer großen Menge von Bildern denjenigen niederdimensionalen linearen Unterraum, der am nächsten an sie angepasst ist. Im Gebiet sind Experimente ausgeführt worden, die zeigen, dass große Zahlen von Bildern realer Objekte, die mit veränderten Beleuchtungs bedingungen aufgenommen wurden, in der Nähe eines niederdimensionalen linearen Raums liegen, was diese Darstellung rechtfertigt. In jüngerer Zeit werden nichtlineare Darstellungen verwendet, die darauf hinweisen, dass das Bild eines Objekts ein konvexes Volumen einnimmt, wenn die Beleuchtung darauf beschränkt ist, positiv zu sein. A. Georghiades u. a. "Illumination Cones for Recogination Under Variable Lighting: Faces" CVPR 98: 52-59, 1998, und A. Georghiades u. a., "From Few to Many: Generative Models for Recognition Under Variable Pose and Illumination", Int. Conf. on Automatic Face and Gesture Recognition 2000, 2000 (zusammen als "Georghides" bezeichnet), verwendet diese Darstellung für die Objekterkennung.
Um die doppeltgerichtete Reflexionsgradfunktion (BRDF) verschiedener Materialien effizient darzustellen, werden in der Graphikliteratur Kugelfunktionen verwendet. Es ist vorgeschlagen worden, die Kugelfunktionsbasis durch eine andere Basis zu ersetzen, die für eine Halbkugel besser geeignet ist. M. D'Zmoura, 1991, "Shading Ambiguity: Reflectance and Illumination", in Computational Models of Visual Processing, Hrsg. von M. Landy und J. Movshon (im Folgenden "D'Zmoura"), hat dargelegt, dass der Prozess, ankommendes Licht in Reflexion umzuwandeln, hinsichtlich Kugelfunktionen beschrieben werden kann. Insbesondere ist auf den Seiten 191-197 von D'Zmoura beschrieben, wie der Prozess des Umwandelns von ankommendem Licht in Reflexion hinsichtlich Kugelfunktionen beschrieben werden kann. Mit dieser Darstellung kann der Reflexionsprozess nach dem Abschneiden von Komponenten hoher Ordnung als eine lineare Transformation beschrieben werden, sodass die Komponenten niedriger Ordnung der Beleuchtung durch Invertieren der linearen Transformation wiedergewonnen werden können. D'Zmoura verwendete diese Analyse zur Untersuchung von Mehrdeutigkeiten in der Beleuchtung. Die vorliegende Erfindung erweitert diese Arbeit von D'Zmoura durch das Ableiten von Unterraumergebnissen für die Reflexionsgradfunktion, durch Bereitstellung analytischer Beschreibungen der Basisbilder und durch Konstruktion neuer Erkennungsalgorithmen, die diese Analyse verwenden, während sie eine nichtnegative Beleuchtung erzwingen. Georghiades und D'Zmoura sind hier durch ihren Literaturhinweis eingefügt.
Angesichts des Standes der Technik besteht ein Bedarf an einem Computersehsystem, das zeigt, wie analytisch niederdimensionale lineare Unterräume zu ermitteln sind, die die Menge von Bildern, die ein Objekt erzeugen kann, genau annähern, woraus Abschnitte dieser Unterräume, die positiven Beleuchtungsbe dingungen entsprechen, abgetrennt werden können. Diese Beschreibungen können daraufhin sowohl für die Erkennung als auch für den Modellbau verwendet werden.
ZUSAMMENFASSUNG DER ERFINDUNG
Somit ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren, um aus mehreren dreidimensionalen Modellen ein Bild zu wählen, das einem Eingangsbild am nächsten ist, zu schaffen, wobei das Verfahren die Nachteile der Verfahren des Standes der Technik überwindet.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Verfahren, um aus mehreren dreidimensionalen Modellen ein Bild zu wählen, das einem Eingangsbild am nächsten ist, zu schaffen, das effizienter und schneller als die Verfahren des Standes der Technik ausgeführt werden kann.
Es ist eine nochmals weitere Aufgabe der vorliegenden Erfindung, ein Verfahren, um aus mehreren dreidimensionalen Modellen ein Bild zu wählen, das einem Eingangsbild am ähnlichsten ist, zu schaffen, das ohne komplizierte iterative Optimierungstechniken ausgeführt werden kann.
Änderungen der Beleuchtung können einen wesentlichen Einfluss auf das Erscheinen eines Objekts haben. Die vorliegende Erfindung schafft für den Fall von Lambert-Objekten eine neue Charakterisierung dieser Veränderlichkeit. Ein Lambert-Objekt ist eines mit einer Oberfläche, die Licht gemäß dem Lambert-Gesetz reflektiert, siehe J. Lambert "Photometria Sive de Mensura et Gradibus Luminus, Colorum et Umbrae", Eberhard Klett, 1760. Zunächst wird die Beleuchtung unter Verwendung von Kugelfunktionen repräsentiert, wobei die Wirkungen von Lambert-Materialien als das Analogon einer Faltung beschrieben werden; dies ist ähnlich dem Arbeiten in dem Frequenzbereich bei der Signalverarbeitung. Es ist dann ermöglicht zu zeigen, dass fast das gesamte Aussehen von Lambert-Objekten durch die ersten neun Komponenten der Beleuchtung, wenn sie als Kugelfunktionen repräsentiert wird, bestimmt ist. Es kann bewiesen werden, dass alle durch Lambert-Objekte erzeugten Reflexionsgradfunktionen (die Abbildung von der Oberflächennormalen auf die Intensität) eng innerhalb eines linearen 9D-Unterraums liegen, was frühere empirische Ergebnisse erklärt. Außerdem schafft die vorliegende Erfindung eine einfache analytische Charakterisierung des linearen Raums von Bildern, den ein Objekt erzeugen kann. Dies kann leicht in Objekterkennungsalgorithmen, die auf linearen Verfahren beruhen oder die unter Verwendung einer konvexen Optimierung nichtnegative Beleuchtungsfunktionen erzwingen, verwendet werden. In einem Fall, in dem eine lineare 4D-Approximation der Bilder eines Objekts ausreicht, zeigt die vorliegende Erfindung, dass eine nichtnegative Beleuchtung sehr einfach erzwungen werden kann.
Die vorliegende Erfindung analysiert die Menge der gemäß dem Lambert-Modell erzeugten Reflexionsgradfunktionen für beliebige Konfigurationen von Lichtern. Es wird gezeigt, dass diese Reflexionsgradfunktionen durch das Analogon einer Faltung des Lichts mit einem Kern erzeugt werden, der im Wesentlichen als ein Tiefpassfilter wirkt. Die vorliegende Erfindung verwendet dies und die Nichtnegativität des Lichts, um analytisch zu beweisen, dass unter üblichen Beleuchtungsbedingungen ein neundimensionaler linearer Unterraum z. B. 99,2 % der Veränderlichkeit der Reflexionsgradfunktion berücksichtigt. Im ungünstigsten Fall berücksichtigt dieser 9D-Raum 98 % der Veränderlichkeit. Dies legt nahe, dass die Menge von Bildern eines konvexen Lambert-Objekts allgemein durch einen linearen niederdimensionalen Raum genau angenähert werden kann. Ferner zeigt die vorliegende Erfindung, wie dieser Unterraum für ein Objektmodell analytisch abzuleiten ist. Dieses Ergebnis gibt neuen Aufschluss über vorhandene Erkennungsalgorithmen und führt zu einer Anzahl neuer, effizienter Algorithmen für die Erkennung und für die Modellkonstruktion unter veränderlichem Licht und unter veränderlicher Stellung.
Gemäß der vorliegenden Erfindung wird ein Verfahren geschaffen, wie es im unabhängigen Anspruch 1 definiert ist.
Dementsprechend wird ein Verfahren geschaffen, um aus mehreren dreidimensionalen Modellen ein Bild zu wählen, das einem Eingangsbild am ähnlichsten ist.
In dem Verfahren wird der Schritt (d) vorzugsweise für jedes dreidimensionale Modell sowohl für eine rote als auch für eine grüne und eine blaue Farbkomponente wiederholt. Vorzugsweise ist der in dem Verfahren definierte lineare Unterraum entweder vierdimensional oder neundimensional.
KURZBESCHREIBUNG DER ZEICHNUNG
Diese und weitere Merkmale, Aspekte und Vorteile der Vorrichtungen und Verfahren der vorliegenden Erfindung werden besser verständlich unter Berücksichtigung der folgenden Beschreibung, der angefügten Ansprüche und der beigefügten Zeichnung, in der:
1 eine graphische Darstellung der Koeffizienten von Gleichung (9) veranschaulicht.
2 einen 1D-Schnitt des Lambert-Kerns und seine verschiedenen Approximationen veranschaulicht.
3 die ersten neun harmonischen Bilder veranschaulicht, die von einem 3D-Modell einer Fläche abgeleitet wurden.
4 Testbilder veranschaulicht, die in den Experimenten der Verfahren der vorliegenden Erfindung verwendet wurden.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
Wenn Licht isotrop und fern von einem Objekt ist, kann es dadurch charakterisiert werden, dass die Intensität als eine Funktion der Richtung beschrieben wird. Die Menge aller möglichen Beleuchtungsbedingungen ist dann äquivalent der Menge aller Funktionen, die überall auf der Oberfläche einer Kugel positiv sind. Der Zugang der vorliegenden Erfindung beginnt damit, dass eine Darstellung dieser Funktionen unter Verwendung von Kugelflächenfunktionen angenommen wird. Dies ist analog zur Fourier-Analyse, jedoch auf der Oberfläche der Kugel. Kugelfunktionen beschreiben Funktionen, die in der Einheitskugel enthalten sind, wobei Kugelflächenfunktionen Beschränkungen dieser Funktionen auf die Kugeloberfläche sind. Um die Art und Weise zu modellieren, in der Oberflächen Licht in ein Bild umwandeln, betrachtet die vorliegende Erfindung den Reflexionsgrad als eine Funktion der Oberflächennormalen (wobei eine Albedo von eins angenommen wird). Die vorliegende Erfindung zeigt, dass die Reflexionsgradfunktionen durch das Analogon einer Faltung der Beleuchtungsfunktion mit einem Kern erzeugt werden, der eine Lambert-Reflexion repräsentiert. D'Zmoura verwendete eine solche Analyse, um Mehrdeutigkeiten im Aussehen von Objekten wegen Beleuchtungsänderungen zu erfassen. Zu dieser einfachen Betrachtung wird etwas Komplexität hinzugefügt, um zu beschreiben, was mit Objekten geschieht, die aus nicht konstanten Materialien hergestellt sind, und um Nicht-Lambert-Reflexionsgradfunktionen zu behandeln.
Mit dieser Betrachtung kann gezeigt werden, dass ein Lambert-Kern ein Tiefpassfilter ist und dass dieses Filter analytisch beschrieben werden kann. Somit kann analytisch gezeigt werden, dass für viele übliche Beleuchtungsbedingungen viel von der Änderung des Aussehens eines Objekts von den vier ersten Komponenten der harmonischen Transformation der Beleuchtungsfunktion abhängt und dass fast die gesamte Änderung durch die ersten neun Komponenten berücksichtigt ist. Tatsächlich verschlechtert sich die Qualität der Approximation sehr wenig, selbst wenn das Licht erhebliche Hochfrequenzmuster enthält. Es werden untere Schranken an die Qualität der Approximation unter irgendeiner Beleuchtungsfunktion abgeleitet. Dies schafft aus Grundprinzipien heraus ein Verständnis der empirischen Beobachtung, dass die meisten Bilder eines Objekts in der Nähe eines niederdimensionalen linearen Unterraums liegen. Darüber hinaus kann dieser lineare Unterraum analytisch aus einem Modell abgeleitet werden, während sich frühere Bemühungen auf die Ausführung einer PCA an einer großen Menge aufbereiteter Bilder stützten.
Dieses analytische Verständnis dessen, wie Beleuchtungsänderungen linear zu nähern sind, bildet den Kern einer Anzahl von Ergebnissen. Zunächst ermöglicht es eine bessere Bewertung der Nützlichkeit mehrerer vorhandener Erkennungs- und Modellkonstruktionsverfahren. Zum Beispiel kann gezeigt werden, dass das Verfahren linearer Unterräume des Standes der Technik tatsächlich auf der Verwendung eines linearen Raums beruht, der durch die drei Harmonischen erster Ordnung aufgespannt wird, dass es aber die wichtige Gleichspannungskomponente weglässt. Zweitens führt es zu neuen Verfahren zur Erkennung von Objekten mit unbekannten Stellungs- und Beleuchtungsbedingungen. Insbesondere wird ein Algorithmus für die Erkennung unter veränderlicher Stellung und Beleuchtung dargestellt, der in einem analytisch abgeleiteten niederdimensionalen Raum arbeitet. Schließlich kann die Erkennung für Fälle, in denen ein linearer 4D-Unterraum eine angemessene Approximation liefert, ohne komplexe, iterative Optimierungstechniken sehr effizient ausgeführt werden.
MODELLIERUNG DER BILDENTSTEHUNG
Es wird ein konvexes Objekt betrachtet, das durch ferne isotrope Lichtquellen beleuchtet wird. Ferner wird angenommen, dass die Oberfläche des Objekts Licht gemäß dem Lambert-Gesetz reflektiert. Dieses verhältnismäßig einfache Modell ist in einer Vielzahl von Sehanwendungen analysiert und effektiv verwendet worden. Diese Analyse kann auf Nicht-Lambert-Objekte erweitert werden. Die Menge von Bildern eines Lambert-Objekts, die mit beliebigem Licht erhalten werden, wird im Gebiet gelegentlich als "der Beleuchtungskegel" bezeichnet. Die Aufgabe der vorliegenden Erfindung ist das Analysieren von Eigenschaften des Beleuchtungskegels. Für die Analyse ist es nützlich, die Menge von unter verschiedenen Beleuchtungsbedingungen erhaltenen Reflexionsgradfunktionen zu betrachten. Eine Reflexionsgradfunktion (auch als Reflexionsabbildungshorn bezeichnet), die einer spezifischen Beleuchtungskonfiguration zugeordnet ist, ist als das von einer Kugel mit der Albedo eins reflektierte Licht als eine Funktion der Oberflächennormalen definiert. Eine Reflexionsgradfunktion bezieht sich auf ein Bild eines durch dieselbe Beleuchtungskonfiguration beleuchteten konvexen Objekts durch die folgende Abbildung. Jeder sichtbare Punkt auf der Oberfläche des Objekts erbt seine Intensität von dem Punkt auf der Kugel mit derselben Normalen, wobei diese Intensität durch die Albedo an dem Punkt weiter skaliert wird. Die Wirkung dieser Abbildung wird im Folgenden diskutiert.
Bildentstehung als das Analogon einer Faltung
Es sei S eine Einheitskugel mit dem Mittelpunkt im Ursprung. Es bezeichne p = (x, y, z) einen Punkt auf der Oberfläche von S und es bezeichne N_p = (x, y, z) die Oberflächennormale in p. Unter Verwendung der folgenden Schreibweise: (x, y, z) = (sinθcosϕ, sinθsinϕ, cosϕ), (1)wobei 0 ≤ θ ≤ π und 0 ≤ ϕ ≤ 2π ist, kann p auch als Einheitsvektor ausgedrückt werden. In diesem Koordinatensystem sind die Pole bei (0, 0, ± 1) eingestellt, bezeichnet θ den Raumwinkel zwischen p und (0, 0, 1), der sich mit der Breite ändert, während sich ϕ mit der Länge ändert. Da angenommen worden ist, dass die Kugel durch eine ferne und isotrope Menge von Lichtern beleuchtet wird, sehen alle Punkte auf der Kugel diese Lichter aus denselben Richtungen kommen, wobei sie durch gleiche Beleuchtungsbedingungen beleuchtet werden. Folglich kann die Konfiguration von Lichtern, die die Kugel beleuchten, als eine nichtnegative Funktion I (θ, ϕ) ausgedrückt werden, die die Intensität des die Kugel aus jeder Richtung (θ, ϕ) erreichenden Lichts ausdrückt. Darüber hinaus ist die Differenz des von den Punkten reflektierten Lichts gemäß dem Lambert-Gesetz vollständig eine Folge der Differenz ihrer Oberflächennormalen. Somit kann das von der Kugel reflektierte Licht als eine Funktion r(θ, ϕ) ausgedrückt werden, deren Funktionsbereich die Menge der Oberflächennormalen der Kugel ist.
Falls ein Lichtstrahl der Intensität I einen Oberflächenpunkt mit der Albedo λ erreicht, der einen Winkel θ mit der Oberflächennormalen an dem Punkt bildet, ist die von dem Punkt reflektierte Intensität gemäß dem Lambert-Gesetz durch lλmax(cosθ,0) (2)gegeben. Ohne Beschränkung der Allgemeinheit (o. B. d. A.) ist hier λ = 1 angenommen. Falls Licht einen Punkt von einer Vielzahl von Richtungen aus erreicht, wäre das von dem Punkt reflektierte Licht die Summe (oder im kontinuierlichen Fall das Integral) des Beitrags für jede Richtung. Es bezeichne k(θ) = max(cos θ, 0), wobei dann z. B. die Intensität des Punkts (0, 0, 1) durch
gegeben ist. Ähnlich wird die von einem Punkt p = (θ, ϕ) reflektierte Intensität r(θ, ϕ dadurch erhalten, dass k um p zentriert wird und sein inneres Produkt mit I über die Kugel integriert wird. Somit ist die Operation, die r(θ, ϕ) erzeugt, das Analogon einer Faltung auf der Kugel. Dies wird als eine Faltung bezeichnet, sodass
ist. Der Kern dieser Faltung, k, ist die rotationssymmetrische Kosinus-Halbwellenfunktion. Die Faltung wird dadurch erhalten, dass k so gedreht wird, dass seine Mitte auf die Oberflächennormale bei p ausgerichtet ist. Dies lässt immer noch einen Freiheitsgrad bei der Drehung des Kerns undefiniert, wobei diese Willkür aber verschwindet, da k rotationssymmetrisch ist.
Eigenschaften des Faltungskerns
Ebenso wie die Fourier-Basis für die Untersuchung der Ergebnisse von Faltungen in der Ebene zweckmäßig ist, gibt es ähnliche Hilfsmittel für das Verständnis der Ergebnisse des Analogons von Faltungen auf der Kugel. Die Kugelflächenfunktionen sind eine Menge von Funktionen, die für die Menge aller Funktionen auf der Oberfläche der Kugel eine Orthonormalbasis bilden. Diese Funktionen sind durch h_nm mit n = 0, 1, 2, ... und –n ≤ m ≤ n bezeichnet:
wobei P_nm die zugeordneten Legendre-Funktionen sind, die als
definiert sind. Der Kern k und die Beleuchtungsfunktion I werden als harmonische Reihen, d. h. als Linearkombinationen der Kugelflächenfunktionen, ausgedrückt. Dies erfolgt hauptsächlich, damit das Analogon zu dem Faltungssatz für Kugelflächenfunktionen genutzt werden kann. Eine unmittelbare Folge des Funk-Hecke-Satzes (siehe z. B. H. Groemer, Geometric applications of Fourier series and spherical harmonics, Cambridge University Press) ist, dass die "Faltung" in dem Funktionsbereich äquivalent der Multiplikation in dem Harmonischenbereich ist. Wie im Folgenden diskutiert wird, wird eine Darstellung von k als eine harmonische Reihe abgeleitet. Diese Ableitung wird verwendet, um zu zeigen, dass k nahezu ein Tiefpassfilter ist. Genauer liegt fast die gesamte Energie von k in den wenigen ersten Harmonischen. Dies ermöglicht zu zeigen, dass die möglichen Reflexionsgrade einer Kugel alle in der Nähe eines niederdimensionalen linearen Unterraums des Raums aller auf der Kugel definierten Funktionen liegen.
Daraufhin kann eine Darstellung von k als eine harmonische Reihe abgeleitet werden. Da k rotationssymmetrisch um den Pol ist, konzentriert sich seine Energie, kurz gesagt, unter einer geeigneten Wahl eines Koordinatensystems ausschließlich in den zonalen Kugelfunktionen (den Kugelfunktionen mit m = 0), während die Koeffizienten aller Harmonischen mit m ≠ 0 verschwinden. Somit kann k als
ausgedrückt werden. Der Lambert-Kern ist durch k(θ) = max(cos θ, 0) gegeben, wobei θ den Raumwinkel zwischen der Lichtrichtung und der Oberflächennormalen bezeichnet. Die harmonische Transformation von k ist als
definiert, wobei die Koeffizienten a_nm durch
gegeben sind. 0. B. d. A. wird das Koordinatensystem auf der Kugeloberfläche wie folgt eingestellt. Einer der Pole wird in der Mitte von k positioniert, wobei θ daraufhin den Winkel entlang der Länge repräsentiert und von 0 bis n variiert, während ϕ den Winkel entlang der Breite repräsentiert und von 0 bis 2π variiert. In diesem Koordinatensystem ist k unabhängig von φ und rotationssymmetrisch um den Pol. Folglich ist seine gesamte Energie zwischen den zonalen Kugelfunktionen (den Kugelfunktionen mit m = 0) aufgeteilt, während die Koeffizienten für alle m ≠ 0 verschwinden.
Daraufhin wird eine explizite Form für die Koeffizienten bestimmt. Zunächst kann die Integration dadurch, dass über θ nur bis π/2 integriert wird, auf den positiven Abschnitt der Kosinusfunktion beschränkt werden, d. h.
Da nur die Komponenten m = 0 nicht verschwinden, wird nachfolgend k_n = k_n0 bezeichnet, woraufhin dann
ist. Nun ist
wobei P_n(z) die zugeordnete Legendre-Funktion der Ordnung n ist, die durch
definiert ist. Durch Einsetzen von z = cos θ wird
erhalten. Es wird nun zur Berechnung des Integrals
übergegangen. Dieses Integral ist gleich
Partielle Integration ergibt
Der erste Term verschwindet und es verbleibt
Diese Formel verschwindet für z = 1, sodass
erhalten wird. Nun ist
Wenn die n – 2-te Ableitung gebildet wird, verschwinden alle Terme, deren Exponent kleiner als n – 2 ist. Da die Ableitung bei z = 0 berechnet wird, verschwinden darüber hinaus alle Terme, deren Exponent größer als n – 2 ist. Somit verbleibt nur der Term, dessen Exponent 2k = n – 2 ist. Der Koeffizient n – 2 wird mit b_n-2 bezeichnet, wobei dann, wenn n ungerade ist, b_n-2 = 0 ist, während dann, wenn n gerade ist,
ist. In diesem Fall ist
wobei
erhalten wird.
Obige Ableitung gilt für n ≥ 2. Die Spezialfälle n = 0 und n = 1 sollten getrennt behandelt werden. Im ersten Fall ist P₀(z) = 1 und im zweiten Fall P₁(z). Für n = 0 wird das Integral
während es für n = 1
wird. Folglich ist
Nach dieser langwierigen Manipulation wird
erhalten. Die ersten wenigen Koeffizienten sind z. B.
(k3 = k5 = k7 = 0). In 1 ist eine graphische Darstellung der Koeffizienten gezeigt. 1 zeigt von links nach rechts: eine graphische Darstellung der ersten 11 Koeffizienten des Lambert-Kerns; die durch jeden der Koeffizienten erfasste relative Energie; die akkumulierte Energie; und eine Vergrößerung der akkumulierten Energie.
Die durch jeden harmonischen Term erfasste Energie wird üblicherweise durch das Quadrat seines jeweiligen Koeffizienten, dividiert durch das Gesamtenergiequadrat der transformierten Funktion, gemessen. Das Gesamtenergiequadrat in der Kosinus-Halbwellenfunktion ist durch
gegeben. Tabelle 1 zeigt die relative Energie, die durch jeden der mehreren ersten Koeffizienten erfasst wird. Die obere Zeile aus Tabelle 1 zeigt die durch die n-te zonale Kugelfunktion für dem Lambert-Kern (0 ≤ n ≤ 8) erfasste Energie. Die mittlere Zeile aus Tabelle 1 zeigt die bis zu der Ordnung n akkumulierte Energie. Diese Energie repräsentiert die Qualität der Approximation n-ter Ordnung von r(θ, ϕ) (gemessen im relativen Fehlerquadrat). Die untere Zeile zeigt eine untere Schranke an die Qualität dieser Approximation wegen der Nichtnegativität des Lichts. Die n = 3, 5 und 7 sind weggelassen, da sie keine Energie beitragen. Die in Tabelle 1 gezeigten relativen Energien sind in Prozent gegeben. Es ist zu sehen, dass der Kern durch die ersten drei Koeffizienten dominiert wird. Somit berücksichtigt eine Approximation zweiter Ordnung bereits 99,22 % der Energie. Bei dieser Approximation kann die Kosinus-Halbwellenfunktion als
geschrieben werden. Bei Hinzunahme des Terms vierter Ordnung verbessert sich die Qualität der Approximation etwas (99,81 %), während sie sich auf 87,5 % verschlechtert, wenn eine Approximation erster Ordnung verwendet wird. 2 zeigt einen 1D-Schnitt des Lambert-Kerns und von links nach rechts in dieser Reihenfolge seine Approximationen erster, zweiter und dritter Ordnung.
TABELLE 1
Lineare Approximationen der Reflexionsgradfunktion
Die Tatsache, dass die meiste Energie des Lambert-Kerns in den Termen niedriger Ordnung konzentriert ist, bedeutet, dass die Menge der Reflexionsgradfunktionen einer Kugel mit der Albedo eins durch einen niederdimensionalen linearen Raum gut genähert werden kann. Dieser Raum wird von einer kleinen Menge sogenannter harmonischer Reflexionsgrade aufgespannt. Der harmonische Reflexionsgrad r_nm(θ, ϕ) bezeichnet den Reflexionsgrad der Kugel, wenn sie mit dem harmonischen "Licht" h_nm beleuchtet wird. Es wird angemerkt, dass die harmonischen Lichter im Allgemeinen nicht überall positiv sind, sodass sie keinen realen, physikalischen Beleuchtungsbedingungen entsprechen; sie sind Abstraktionen. Wie im Folgenden erläutert wird, wird jede Reflexionsgradfunktion r(θ, ϕ) mit ausgezeichneter Genauigkeit durch eine Linearkombination einer kleinen Anzahl harmonischer Reflexionsgrade genähert.
Um die Qualität der Approximation zu bewerten, wird als ein Beispiel zunächst die Beleuchtung betrachtet, die durch eine Punktquelle in der z-Richtung (θ = ϕ = 0) erzeugt wird. Eine Punktquelle ist eine Deltafunktion. Der Reflexionsgrad einer durch eine Punktquelle beleuchteten Kugel wird durch eine Faltung der Deltafunktion mit dem Kern erhalten, was zu dem Kern selbst führt. Wegen der Linearität der Faltung wird dann, wenn der Reflexionsgrad wegen dieser Punktquelle durch eine Linearkombination der ersten drei zonalen Kugelfunktionen r₀₀, r₁₀ und r₂₀ genähert wird, 99,22 % der Energie berücksichtigt,
wobei k, der Lambert-Kern, der Reflexionsgrad der Kugel ist, wenn sie durch eine Punktquelle in der z-Richtung beleuchtet wird. Ähnlich liefern die Approximationen erster und vierter Ordnung eine Genauigkeit von 87,5 % bzw. 99,81 %.
Falls die Kugel durch eine einzelne Punktquelle in einer anderen Richtung als der z-Richtung beleuchtet würde, wäre der erhaltene Reflexionsgrad gleich dem Kern, wobei aber die Phase verschoben wäre. Die Verschiebung der Phase einer Funktion verteilt ihre Energie zwischen den Harmonischen derselben Ordnung n (veränderliches m), wobei aber die Gesamtenergie in jedem n erhalten bleibt. Somit bleibt die Qualität der Approximation dieselbe, wobei aber nun für eine Approximation N-ter Ordnung alle Harmonischen mit n ≤ N für alle m verwendet werden müssen. Es wird daran erinnert, dass es 2n + 1 Harmonische in jeder Ordnung n gibt. Folglich erfordert eine Approximation erster Ordnung vier Harmonische. Eine Approximation zweiter Ordnung fügt fünf weitere Harmonische hinzu, was einen 9D-Raum liefert. Die Harmonischen dritter Ordnung werden durch den Kern eliminiert und brauchen somit nicht aufgenommen zu werden. Schließlich fügt eine Approximation vierter Ordnung neun weitere Harmonische hinzu, was einen 18D-Raum liefert.
Es wurde gezeigt, dass die durch die wenigen ersten Koeffizienten k_i (1 ≤ i ≤ N) erfasste Energie direkt die Genauigkeit der Approximation der Reflexionsgradfunktion angibt, wenn das Licht eine einzelne Punktquelle enthält. Andere Lichtkonfigurationen können zu einer anderen Genauigkeit führen. Wenn das Licht verbesserte diffuse Komponenten mit niedriger Frequenz enthält, werden bessere Approximationen erhalten. Falls das Licht hauptsächlich Hochfrequenzmuster enthält, sind schlechtere Approximationen zu erwarten.
Allerdings stellt sich heraus, dass die Genauigkeit der Approximation immer noch sehr hoch ist, selbst wenn das Licht im Wesentlichen Hochfrequenzmuster enthält. Dies ist eine Folge der Nichtnegativität des Lichts. Eine untere Schranke an die Genauigkeit der Approximation für irgendeine Lichtfunktion kann wie folgt abgeleitet werden. Es ist einfach zu zeigen, dass die Amplitude der Gleichspannungskomponente für irgendeine nichtnegative Funktion wenigstens so hoch wie die Amplitude irgendeiner der anderen Komponenten sein muss. Eine Möglichkeit, dies zu sehen, ist, eine solche Funktion als eine nichtnegative Summe von Deltafunktionen darzustellen. In einer solchen Summe ist die Amplitude der Gleichspannungskomponente die gewichtete Summe der Amplituden aller Gleichspannungskomponenten der verschiedenen Deltafunktionen. Die Amplitude irgendeiner anderen Frequenz kann höchstens das gleiche Niveau erreichen, ist aber wegen Interferenz meistens kleiner. Folglich wird das ungünstigste Szenarium in einer Approximation N-ter Ordnung dann erhalten, wenn die Amplituden in allen Frequenzen höher als N auf die gleiche Amplitude wie die Gleichspannungskomponente gesättigt sind, während die Amplituden der Ordnungen 1 ≤ n ≤ N null gesetzt sind. In diesem Fall wird das relative Energiequadrat
Tabelle 1 zeigt die Schranke, die für mehrere verschiedene Approximationen erhalten wird. Es ist zu sehen, dass die Genauigkeit der Approximation für irgendeine Lichtfunktion unter Verwendung einer Approximation zweiter Ordnung (die neun Harmonische umfasst) 97,96 % übersteigt. Bei einer Approximation vierter Ordnung (die 18 Harmonische umfasst) übersteigt die Genauigkeit 99,48 %. Es wird angemerkt, dass die in Gleichung 13 berechnete Schranke nicht eng ist, da der Fall, dass alle Terme höherer Ordnung gesättigt sind, eine Funktion mit einigen negativen Werten liefern kann (und im Allgemeinen tatsächlich liefert).
Folglich kann die Genauigkeit des ungünstigsten Falls noch höher als die Schranke sein.
Erzeugung harmonischer Reflexionsgrade
Die Konstruktion einer Basis für den Raum, der die Reflexionsgradfunktionen annähert, ist unkompliziert und kann analytisch erfolgen. Zur Konstruktion der Basis wird auf den Funk-Hecke-Satz zurückgegriffen. Es wird daran erinnert, dass dieser Raum durch die harmonischen Reflexionsgrade aufgespannt wird, d. h. durch die Reflexionsgrade, die erhalten werden, wenn eine Kugeloberfläche mit der Albedo eins durch harmonische Lichter beleuchtet wird. Diese Reflexionsgrade sind das Ergebnis der Faltung des Kosinus-Halbwellenkerns mit den einzelnen Harmonischen. Wegen der Orthonormalität der Kugelflächenfunktionen kann eine solche Faltung keine Energie in irgendwelchen der anderen Harmonischen erzeugen. Folglich ist dann, wenn das harmonische Licht durch h_nm bezeichnet wird, der Reflexionsgrad wegen dieser Harmonischen dieselbe Harmonische, aber skaliert. Formal ist rnm = k×hnm = cnhnm. (14)
Es kann leicht überprüft werden, dass die Harmonischen derselben Ordnung n, aber mit unterschiedlicher Phase m, denselben Skalenfaktor c_n gemeinsam haben. Somit braucht lediglich c_n bestimmt zu werden.
Zur Bestimmung von c_n wird die Tatsache verwendet, dass der Kosinus-Halbwellenkern k ein Bild ist, das erhalten wird, wenn das Licht eine in der z-Richtung zentrierte Deltafunktion ist. Die Transformation der Deltafunktion ist durch
gegeben und das Bild, das sie erzeugt, ist
wobei die Koeffizienten k_n in Gleichung 8 gegeben sind. c_n bestimmt, um wie viel die Harmonische nach der Faltung skaliert wird; somit ist es das Verhältnis zwischen k_n und dem jeweiligen Koeffizienten der Deltafunktion, d. h.
Die wenigen ersten harmonischen Reflexionsgrade sind durch
für –n ≤ m ≤ n (und r_3m = r_5m = r_7m = 0).
gegeben.
Für die Konstruktion der harmonischen Reflexionsgrade ist es nützlich, die Harmonischen eher unter Verwendung von Raumkoordinaten (x, y, z) als unter Verwendung von Winkeln (θ, ϕ) auszudrücken. Dies kann dadurch erfolgen, dass für die Winkel die folgenden Gleichungen θ = cos–1 z ϕ = tan–1 yx (19)substituiert werden. Die ersten neun Harmonischen werden dann
wobei die oberen Indizes e und o die geraden bzw. die ungeraden Komponenten der Harmonischen bezeichnen (gemäß dem Vorzeichen von m ist h_nm = h^e _n|m| ± ih^o _n|m|; tatsächlich sind die geraden und ungeraden Versionen der Harmonischen zur Verwendung in der Praxis zweckmäßiger, da die Reflexionsgradfunktion reell ist). Es wird angemerkt, dass die Harmonischen in diesen Raumkoordinaten einfache Polynome sind. Wie im Folgenden diskutiert wird, werden zur Bezeichnung der Harmonischen, ausgedrückt in Winkel- und Raumkoordinaten, ausnahmslos h_nm(θ, ϕ) bzw. h_nm(x, y, z) verwendet.
Von Reflexionsgraden zu Bildern
Bis zu diesem Punkt sind die Reflexionsgradfunktionen analysiert worden, die durch Beleuchten einer Kugel mit der Albedo eins mit beliebigem Licht erhalten werden. Die Aufgabe der vorliegenden Erfindung ist die Verwendung dieser Analyse zur effizienten Darstellung der Menge von Bildern von Objekten, die unter veränderlicher Beleuchtung gesehen werden. Ein Bild eines Objekts unter bestimmten Beleuchtungsbedingungen kann aus der jeweiligen Reflexionsgradfunktion auf einfache Weise konstruiert werden: Jeder Punkt des Objekts erbt seine Intensität von dem Punkt auf der Kugeloberfläche, dessen Normale dieselbe ist. Diese Intensität wird durch seine Albedo weiter skaliert. Mit anderen Worten, bei gegebener Reflexionsgradfunktion r(x, y, z) ist das Bild eines Punkts p mit der Oberflächennormalen n = (n_x, n_y, n_Z) und mit der Albedo λ durch I(p) = λr(nx, ny, nz) (21)gegeben. Es wird nun diskutiert, wie die Genauigkeit dieser niederdimensionalen linearen Approximation an die Bilder eines Modells durch die Abbildung von der Reflexionsgradfunktion auf Bilder beeinflusst werden kann. Es werden zwei Punkte ausgeführt. Zunächst kann diese diese Approximation in dem ungünstigsten Fall beliebig schlecht machen. Zweitens macht sie diese Approximation in typischen Fällen weniger genau.
Es gibt zwei Komponenten, um eine Reflexionsgradfunktion in ein Bild umzuwandeln. Eine ist, dass es eine Umordnung in den x-y-Positionen der Punkte gibt. Das heißt, eine bestimmte Oberflächennormale erscheint an einem Ort auf der Einheitskugel und kann an einem vollständig anderen Ort in dem Bild erscheinen. Diese Umordnung hat auf diese Approximation keine Wirkung. Bilder werden in einem linearen Unterraum dargestellt, in dem jede Koordinate die Intensität eines Pixels repräsentiert. Die Entscheidung, welches Pixel mit welcher Koordinate zu repräsentieren ist, ist beliebig, wobei die Änderung dieser Entscheidung durch Umordnen der Abbildung von (x, y) auf eine Oberflächennormale lediglich die Koordinaten des Raums umordnet.
Der zweite und wichtigere Unterschied zwischen Bildern und Reflexionsgradfunktionen ist, dass Verdeckung, Formänderung und Albedoänderungen den Umfang beeinflussen, in dem jede Oberflächennormale auf der Kugel das Bild bestimmen hilft. Zum Beispiel stellt die Verdeckung sicher, dass die Hälfte der Oberflächennormalen auf der Kugeloberfläche von der Kamera wegweist und keine sichtbaren Intensitäten erzeugt. Eine unstetige Oberfläche kann einige Oberflächennormalen nicht enthalten und eine Oberfläche mit planaren Ausschnitten enthält über ein erweitertes Gebiet eine einzelne Normale. Zwischen diesen Extrema bestimmt die Oberfläche eines Punkts den Umfang, in dem ihre Oberflächennormale zu dem Bild beiträgt. Die Albedo hat eine ähnliche Wirkung. Falls ein Punkt schwarz ist (Albedo null), hat seine Oberflächennormale keine Wirkung auf das Bild. Hinsichtlich der Energie tragen dunklere Pixel weniger als hellere Pixel zu dem Bild bei. Insgesamt werden diese Wirkungen dadurch erfasst, dass beachtet wird, dass der Umfang, in dem der Reflexionsgrad jedes Punkts auf der Einheitskugel das Bild beeinflusst, von null bis zu dem gesamten Bild reichen kann.
Es wird ein Beispiel gegeben, um zu zeigen, dass dies im ungünstigsten Fall diese Approximation beliebig schlecht machen kann. Zunächst sollte beachtet werden, dass eine harmonische Approximation niedriger Ordnung an eine Funktion an irgendeinem einzelnen Punkt beliebig schlecht sein kann (dies kann mit der Gibbs-Erscheinung in dem Fourier-Bereich in Verbindung gebracht werden). Es wird der Fall eines Objekts betrachtet, das eine Kugel konstanter Albedo ist. Falls das Licht aus einer Richtung kommt, die der Sehrichtung entgegengesetzt ist, beleuchtet es keine sichtbaren Pixel. Das Licht kann etwas verschoben werden, sodass es nur ein Pixel an der Grenze des Objekts beleuchtet; durch Ändern der Intensität des Lichts kann dieses Pixel irgendeine gewünschte Intensität erhalten. Eine Reihe von Lichtern können dies für jedes Pixel an dem Rand der Kugel tun. Falls es n solcher Pixel gibt, belegt die Menge erhaltener Bilder vollständig den positiven Orthanten eines n-dimensionalen Raums. Offensichtlich können Punkte in diesem Raum beliebig weit von irgendeinem 9D-Raum sein. Was geschieht, ist, dass die gesamte Energie in dem Bild in jenen Oberflächennormalen konzentriert ist, für die die Approximation zufällig schlecht ist.
Allerdings sind die Dinge im Allgemeinen nicht so schlecht. Im Allgemeinen macht eine Verdeckung eine beliebige Hälfte der Normalen auf der Einheitskugel unsichtbar. Albedoänderungen und Krümmung heben einige Normalen hervor und schwächen andere ab. Im Allgemeinen werden aber die Normalen, deren Reflexionsgrade schlecht genähert sind, nicht mehr hervorgehoben als irgendwelche anderen Reflexionsgrade, wobei zu erwarten ist, dass die Approximation der Reflexionsgrade auf der gesamten Einheitskugel etwa so gut über jene Pixel ist, die die in dem Bild sichtbaren Intensitäten erzeugen.
Somit wird angenommen, dass sich die Unterraumergebnisse für die Reflexionsgradfunktionen auf die Bilder von Objekten übertragen lassen. Somit wird die Menge von Bildern eines Objekts durch einen linearen Raum genähert, der durch sogenannte harmonische Bilder, die durch b_nm bezeichnet werden, aufgespannt wird. Diese sind unter harmonischem Licht gesehene Bilder des Objekts. Diese Bilder werden wie in Gleichung 21 wie folgt konstruiert: bnm(p) = λrnm(nz, ny, nz) (22)
Es wird angemerkt, das b₀₀ ein Bild ist, das unter konstantem Umgebungslicht erhalten wird und so (bis auf einen Skalierungsfaktor) einfach die Oberflächenalbedo enthält. Die harmonischen Bilder b_1m erster Ordnung sind Bilder, die unter Kosinusbeleuchtung erhalten werden, die bei den drei Hauptachsen zentriert ist. Diese Bilder enthalten die drei Komponenten der Oberflächennormalen, skaliert um die Albedo. Die harmonischen Bilder höherer Ordnung enthalten Polynome der Oberflächennormalen, skaliert um die Albedo. 3 zeigt die aus einem 3D-Modell einer Fläche abgeleiteten ersten neun harmonischen Bilder. Die erste Reihe enthält links das nullte harmonische Bild und zwei der ersten harmonischen Bilder. Die zweite Reihe zeigt links das dritte der ersten harmonischen Bilder. Die verbleibenden Bilder sind Bilder, die von den zweiten Harmonischen abgeleitet sind.
Erkennung
Die vorliegende Erfindung entwickelt eine analytische Beschreibung des linearen Unterraums, der in der Nähe von Bildern liegt, die ein Objekt erzeugen kann. Daraufhin wird gezeigt, wie diese Beschreibung zur Erkennung von Objekten verwendet werden kann. Obgleich das Verfahren der vorliegenden Erfindung für allgemeine Objekte geeignet ist, werden lediglich beispielhaft und nicht, um den Umfang der vorliegenden Erfindung zu beschränken, Beispiele gegeben, die sich auf das Problem der Gesichtserkennung beziehen. Es wird angenommen, dass ein Bild mit einer Datenbank von Modellen von 3D-Objekten verglichen werden muss. Außerdem wird angenommen, dass die Stellung des Objekts bereits bekannt ist, dass aber seine Intensitäts- und Beleuchtungsbedingungen nicht bekannt sind. Zum Beispiel soll ein Gesicht identifiziert werden, von dem bekannt ist, dass es der Kamera zugewandt ist. Oder es kann angenommen werden, dass entweder ein Mensch oder ein automatisches System Merkmale wie etwa die Augen und die Nasenspitze identifiziert hat, die es ermöglichen, für jedes Gesicht in der Datenbank die Stellung zu bestimmen, wobei die Datenbank aber zu groß ist, um zu ermöglichen, dass ein Mensch die beste Anpassung auswählt.
Die Erkennung schreitet dadurch fort, dass ein neues Bild der Reihe nach mit jedem Modell verglichen wird. Um mit einem Modell zu vergleichen, wird der Abstand zwischen dem Bild und dem besten Bild, das das Modell erzeugen kann, berechnet. Es werden zwei Klassen von Algorithmen dargestellt, die sich in Bezug auf ihre Darstellung der Bilder eines Modells unterscheiden. Der lineare Unter raum kann direkt für die Erkennung verwendet werden oder kann auf eine Untermenge des linearen Unterraums beschränkt werden, die physikalisch realisierbaren Beleuchtungsbedingungen entspricht.
In den Verfahren der vorliegenden Erfindung werden die Vorteile betont, die im Gegensatz zu früheren Verfahren, in denen die PCA verwendet werden konnte, um einen Unterraum aus einer Stichprobe von Bildern des Objekts abzuleiten, dadurch gewonnen werden können, dass eine analytische Beschreibung des Unterraums verfügbar ist. Ein Vorteil einer analytischen Beschreibung ist, dass diese eine genaue Darstellung der Bilder eines Objekts liefert, die nicht den Wechselfällen einer bestimmten Stichprobe von Bildern ausgesetzt ist. Ein zweiter Vorteil ist die Effizienz; eine Beschreibung dieses Unterraums kann viel schneller erzeugt werden, als es die PCA zulassen würde. Die Bedeutung dieses Vorteils hängt von dem Typ der Erkennungsproblems ab, das gelöst wird. Insbesondere besteht allgemein Interesse an Erkennungsproblemen, in denen die Position eines Objekts im Voraus nicht bekannt ist, sondern unter Verwendung von Merkmalsentsprechungen zur Laufzeit berechnet werden kann. In diesem Fall muss der lineare Unterraum ebenfalls zur Laufzeit berechnet werden, wobei die Kosten hierfür wichtig sind. Im Folgenden wird diskutiert, wie diese Berechnung zu einem Teil der inneren Schleife eines Modellbaualgorithmus werden kann, wo die Effizienz ebenfalls entscheidend ist. Schließlich wird gezeigt, dass die Nebenbedingung, dass die Beleuchtung physikalisch realisierbar ist, auf eine besonders einfache und effiziente Weise integriert werden kann, wenn ein linearer 4D-Unterraum verwendet wird.
Lineare Verfahren
Die unkomplizierteste Art und Weise, die früheren Ergebnisse für die Erkennung zu verwenden, ist, ein neues Bild mit dem linearen Unterraum von Bildern zu vergleichen, die einem Modell entsprechen. Hierfür werden die harmonischen Basisbilder jedes Modells erzeugt. Vorausgesetzt, dass ein Bild I gegeben ist, wird ein Vektor a gesucht, der ||Ba – I|| minimiert, wobei B die Basisbilder bezeichnet, B gleich p × r ist, p die Anzahl der Punkte in dem Bild ist und r die Anzahl der verwendeten Basisbilder ist. Wie oben diskutiert wurde, ist ein natürlicher für r zu verwendender Wert neun, wobei aber r = 4 eine höhere Effizienz bietet, während r = 18 eine noch bessere potentielle Genauigkeit bietet. Jede Spalte von B enthält ein harmonisches Bild b_nm. Diese Bilder bilden eine Basis für den linearen Unter raum, wenn auch keine orthonormale. Um eine solche Basis Q zu erhalten, wird auf B eine QR-Zerlegung angewendet. Daraufhin können die Entfernung von dem Bild I und der durch B aufgespannte Raum als ||QQ^TI – I|| berechnet werden. Unter der Annahme p » r sind die Kosten der QR-Zerlegung O(pr²).
Im Gegensatz dazu haben frühere Verfahren gelegentlich eine PCA auf einer Stichprobe von Bildern ausgeführt, um einen linearen Unterraum zu ermitteln, der ein Objekt repräsentiert. Zum Beispiel bereitet Georghides die Bilder eines Objekts auf und ermittelt einen 11D-Unterraum, der diese Bilder annähert. Wenn s abgetastete Bilder verwendet werden (üblicherweise s » r), erfordert die PCA mit s « p O(ps²). Außerdem scheint die PCA einer dünnen Rechteckmatrix in MATLAB genau doppelt so lange wie ihre QR-Zerlegung zu dauern. Somit würde in der Praxis die PCA an der durch die Verfahren von Georghides konstruierten Matrix etwa 150-mal solange wie unter Verwendung des Verfahrens der vorliegenden Erfindung zum Aufbauen einer linearen 9D-Approximation an die Bilder eines Modells dauern. Möglicherweise ist dies nicht zu wichtig, falls die Stellung bereits vorher bekannt ist und diese Berechnung offline stattfindet. Die Vorteile der Verfahren der vorliegenden Erfindung können aber sehr groß werden, wenn die Stellung zur Laufzeit berechnet wird.
Außerdem ist es interessant, die Verfahren der vorliegenden Erfindung mit einem weiteren linearen Verfahren von A. Shashua, "On Photometric Issues in 3D Visual Recognition from a Single 2D Image", Int. J. of Comp. Vis., 21(1-2): 99-122, 1997, (im Folgenden "Shashua") zu vergleichen. Shashua weist darauf hin, dass jedes mögliche Bild eines Objekts in Abwesenheit angebrachter Schatten eine Linearkombination der x-, y- und z-Komponenten der Oberflächennormalen, skaliert um die Albedo, ist. Somit schlägt Shashua vor, diese drei Komponenten zu verwenden, um einen linearen 3D-Unterraum zu erzeugen, um die Bilder eines Modells zu repräsentieren. Es wird angemerkt, dass diese drei Vektoren bis auf einen Skalenfaktor gleich den Basisbildern sind, die in den Verfahren der vorliegenden Erfindung durch die erste Harmonische erzeugt werden.
Obgleich diese Äquivalenz algebraisch klar ist, kann sie auch wie folgt erläutert werden. Die harmonischen Bilder erster Ordnung sind Bilder irgendeines Objekts, das einer Beleuchtungsbedingung ausgesetzt wird, die durch eine einzelne Harmonische beschrieben wird. Der Funk-Hecke-Satz stellt sicher, dass alle Komponenten des Kerns, der die Reflexionsgradfunktion beschreibt, mit Aus nahme der Komponenten erster Ordnung für dieses Bild irrelevant sind. In der Arbeit von Shashua werden die Basisbilder unter Verwendung einer Punktquelle als die Beleuchtungsfunktion, die alle Harmonischen enthält, erzeugt. Allerdings ist der verwendete Kern eine vollständige Kosinusfunktion des Winkels zwischen dem Licht und der Oberflächennormalen. Dieser Kern besitzt nur in der ersten Harmonischen Komponenten. Somit sind alle weiteren Komponenten der Beleuchtung für das Bild irrelevant. Auf jeden Fall sind die Basisbilder lediglich eine Folge der ersten Menge von Harmonischen.
Erzwingen von positivem Licht
Wenn beliebige Linearkombinationen der harmonischen Basisbilder verwendet werden, können Bilder erhalten werden, die nicht physikalisch realisierbar sind. Dies ist so, da die entsprechende Linearkombination der Harmonischen, die die Beleuchtung repräsentiert, negative Werte enthalten kann. Das heißt, das Aufbereiten dieser Bilder kann negatives "Licht" erfordern, was natürlich physikalisch unmöglich ist. Es wird nun gezeigt, wie die Basisbilder zu verwenden sind, während die Nebenbedingung nichtnegativen Lichts erzwungen wird. Im Gebiet ist gezeigt worden, dass die Menge von Bildern eines Objekts, das durch nichtnegative Beleuchtung erzeugt wird, in dem Raum aller möglichen Bilder ein konvexer Kegel ist. Wie oben diskutiert wurde, wird dieser als der Beleuchtungskegel bezeichnet. Außerdem wird gezeigt, wie Approximationen an diesen Kegel in dem durch die harmonischen Basisbilder aufgespannten Raum zu berechnen sind.
Genauer wird bei einem vorgegebenen Bild I versucht, ||Ba – I|| unter der Nebenbedingung zu minimieren, dass das Licht überall entlang der Kugeloberfläche nichtnegativ ist. Ein unkompliziertes Verfahren zum Erzwingen von positivem Licht ist, das Licht aus den Bildern durch Invertieren der Faltung zu folgern. Dies würde lineare Nebenbedingungen in den Komponenten von a, Ha ≥ 0, liefern, wobei die Spalten von H die Kugelfunktionen h_nm enthalten. Leider ist dieses naive Verfahren problematisch, da das Licht Terme höherer Ordnung enthalten kann, die nicht aus einer Approximation niedriger Ordnung der Bilder des Objekts wiedergewonnen werden können. Außerdem kann die harmonische Approximation des nichtnegativen Lichts gelegentlich negative Werte enthalten. Zu erzwingen, dass diese Werte nichtnegativ sind, führt zu einer falschen Wiedergewinnung des Lichts. Wie im Folgenden diskutiert wird, wird ein anderes Verfahren diskutiert, in dem der Beleuchtungskegel auf den niederdimensionalen Raum projiziert wird und diese Projektion verwendet wird, um eine nichtnegative Beleuchtung zu erzwingen.
Zunächst wird ein Verfahren dargestellt, das irgendeine Anzahl harmonischer Basisbilder verwenden kann. Eine nichtnegative Beleuchtungsfunktion kann als eine nichtnegative Kombination von Deltafunktionen geschrieben werden, die jeweils eine Punktquelle repräsentieren. δ_θϕ bezeichne die Funktion, die bei (θ, ϕ) 1 und ansonsten 0 zurückgibt. Diese Beleuchtungsfunktion repräsentiert eine Punktquelle in der Richtung (θ, ϕ). Um die Deltafunktion auf die wenigen ersten Harmonischen zu projizieren, braucht lediglich die harmonische Transformation der Deltafunktion betrachtet zu werden. Da das innere Produkt von δ_θϕ mit einer Funktion f einfach f(θ, ϕ) zurückgibt, kann gefolgert werden, dass die harmonische Transformation der Deltafunktion durch
gegeben ist. Somit wird die Projektion der Deltafunktion auf die wenigen ersten Harmonischen dadurch erhalten, dass nur die Summe über die wenigen ersten Terme gebildet wird.
Es wird nun angenommen, dass eine nichtnegative Beleuchtungsfunktion I (θ, ϕ) als eine nichtnegative Kombination von Deltafunktionen
für einige s ausgedrückt wird. Wegen der Linearität der harmonischen Transformation ist die Transformation von I offensichtlich eine nichtnegative Kombination der Transformationen der Deltafunktionen mit denselben Koeffizienten. Das heißt
Gleichfalls kann das Bild eines durch I beleuchteten Objekts wie folgt als nichtnegative Kombination ausgedrückt werden,
wobei b_nm = k_nh_nm (siehe voriger Abschnitt) ist.
Bei einem gegebenen Bild ist eine Aufgabe der vorliegenden Erfindung, die nichtnegativen Koeffizienten a_j wiederzugewinnen. Es wird eine Approximation der Ordnung N angenommen und die Anzahl der Harmonischen, die zum Aufspannen des Raums erforderlich sind, durch r = r(N) bezeichnet (wobei z. B. dann, wenn N = 2 ist, r = 9 ist). In der Matrixschreibweise werden die harmonischen Funktionen durch H bezeichnet, wobei H = s × r ist, wo s die Anzahl der Abtastpunkte auf der Kugeloberfläche ist. Die Spalten von H enthalten eine Abtastung der harmonischen Funktionen, während ihre Zeilen die Transformation der Deltafunktionen enthalten. Ferner ist B durch die Basisbilder bezeichnet, wobei B = p × r ist, wo p die Anzahl der Punkte in dem Bild ist. Jede Spalte von B enthält ein harmonisches Bild b_nm. Schließlich bezeichne a^T = (a₁, ..., a_s). Daraufhin ist es die Aufgabe, das nichtnegative Problem der kleinsten Quadrate
zu lösen. Ferner kann das Bild auf den r-dimensionalen Raum projiziert werden, der durch die harmonischen Bilder aufgespannt wird, und das Optimierungsproblem in diesem kleineren Raum gelöst werden. Hierfür wird auf B ein QR-Zerlegung angewendet, sodass B = QR ist, wobei Q eins und R eine obere Dreiecksmatrix ist. Wenn für Q nur r Spalten erhalten werden und die Optimierungsfunktion von links mit Q^T multipliziert wird, ist
Nun ist R = r × r und Q^TI ein r-Vektor.
Es wird angemerkt, dass dieses Verfahren ähnlich dem in Georghides u. a. dargestellten ist. Der Hauptunterschied ist, dass in einem niederdimensionalen Raum gearbeitet wird, der für jedes Modell unter Verwendung seiner harmonischen Basisbilder konstruiert ist. Georghides u. a. führen eine ähnliche Berechnung durch, nachdem alle Bilder in einen 100-dimensionalen Raum projiziert worden sind, der unter Verwendung der PCA an Bildern konstruiert wird, die aus Modellen in einer 10-Modell-Datenbank aufbereitet worden sind. Die Verfahren der vorliegenden Erfindung sind durch ihre Arbeit im Gebiet motiviert, wobei aber davon ausgegangen wird, dass sie sie dadurch verbessert, dass in einem Raum gearbeitet wird, der analytisch und effizient konstruiert werden kann. Darüber hinaus ist bekannt, dass dieser Raum eine genaue Darstellung der Bilder eines Modells schafft.
Erkennung mit vier Harmonischen
Eine weitere Vereinfachung kann erhalten werden, falls die Menge von Bildern eines Objekts nur bis zu einer ersten Ordnung angenähert wird. In diesem Fall sind vier Harmonische erforderlich. Eine ist die Gleichspannungskomponente, die das Aussehen eines Objekts unter gleichförmigem Umgebungslicht repräsentiert, und drei sind die auch von Shashua verwendeten Basisbilder. Es wird wieder versucht, ||Ba – I|| (wobei B nun p × 4 ist) unter der Nebenbedingung minimal zu machen, dass das Licht überall entlang der Kugel nichtnegativ ist.
Wie zuvor werden die Nebenbedingungen dadurch bestimmt, dass die Deltafunktionen auf den durch die ersten vier Harmonischen aufgespannten Raum projiziert werden. Allerdings nimmt diese Projektion nun eine besonders einfache Form an. Es wird eine Deltafunktion δ_θϕ betrachtet. In der Approximation erster Ordnung ist sie durch
gegeben. Unter Verwendung von Raumkoordinaten wird diese Approximation
Es sei l ≈ a0 + a1x + a2y + a3z (31)die Approximation erster Ordnung einer nichtnegativen Beleuchtungsfunktion I. I ist eine nichtnegative Kombination von Deltafunktionen. Es kann leicht überprüft werden, dass eine solche Funktion den Koeffizienten nullter Ordnung in Bezug auf diejenigen erster Ordnung nicht verringern kann. Folglich muss irgendeine nichtnegative Kombination von Deltafunktionen
genügen. (Die Gleichheit wird erhalten, wenn das Licht eine Deltafunktion ist, siehe Gleichung 30.) Somit kann das Problem der Erkennung eines Objekts mit einem harmonischen 4D-Raum als Minimalmachen von ||Ba – I|| gemäß Gleichung 32 ausgedrückt werden.
In dem Fall vierer Harmonischer sind die harmonischen Bilder gerade die Albedos, wobei die Komponenten der Oberflächennormalen um die Albedos skaliert wer den, wobei sie jeweils um einen Faktor skaliert werden. Somit ist es natürlich, diese direkt zu verwenden und die Skalierungskoeffizienten in den Nebenbedingungen zu verbergen. Es sei I ein Bild des durch I beleuchteten Objekts, wobei dann unter Verwendungen der Gleichungen 18 und 22
ist, wobei λ und (n_x, n_y, n_z) die Albedo bzw. die Oberflächennormale eines Objektpunkts sind. Unter Verwendung der unskalierten Basisbilder λ, λn_x, λn_y und λn_z kann diese Gleichung als I ≈ b0λ + b1λnx + b2λny + b3λnz (34)mit b₀ = πa₀ und bi = 2π3 ai (1 ≤ i ≤ 3) geschrieben werden. Durch Substituieren für die a_i wird
erhalten, was sich zu 4b20 ≥ b21 + b22 + b23 (36)vereinfacht. Folglich wird zum Lösen des 4D-Falls die Differenz zwischen den zwei Seiten von Gleichung 34 gemäß Gleichung 36 minimal gemacht.
Es wird nun gezeigt, dass das Ermitteln des nächsten Bildes in dem von den ersten vier harmonischen Bildern mit nichtnegativem Licht aufgespannten Raum in ein Polynom sechsten Grades mit einer einzigen Variablen, dem Lagrange-Multiplizierer, transformiert werden kann. Mit diesem Polynom wird das Lösen des Minimierungsproblems unkompliziert.
Das Ermitteln des nächsten Bildes in dem harmonischen 4D-Raum gemäß der Nebenbedingung, dass das Licht nichtnegativ ist, hat die allgemeine Form min||Ax – b|| s.t. xTBx = 0,wobei A(n × 4), b(n × 1) in dem Spaltenraum von A und B (4 × 4) liegen. In dieser Darstellung enthalten die Spalten von A die harmonischen Bilder, ist b das zu erkennende Bild und ist B = diag(4, –1, –1, –1). Allerdings erkennt der Fachmann auf dem Gebiet, dass die Verfahren der vorliegenden Erfindung auch mit einer beliebigen nicht singulären Matrix B verwendet werden können.
Zunächst kann das Minimum des linearen Systems min||Ax – b||gelöst werden und geprüft werden, ob diese Lösung der Nebenbedingung genügt. Wenn dies der Fall ist, ist dies abgeschlossen. Wenn nicht, muss das Minimum gesucht werden, das auftritt, wenn die Nebenbedingung bei Gleichheit erfüllt ist. Die Lösung wird in zwei Teile geteilt. In dem ersten Teil wird das Problem in die Form min||z – c|| s.t zTDz ≥ 0umgesetzt. Wie im Folgenden diskutiert wird, kann das neue Problem in ein Polynom sechster Ordnung umgewandelt werden.
Schritt 1:
Es wird ein b' derart definiert, das Ab' = bist (dies ist möglich, da b in dem Spaltenraum von A liegt). Daraufhin ist Ax – b = A(x – b'), was bedeutet, dass dieses Problem äquivalent min||A(x – b')|| s.t. xTBx = 0ist. Unter Verwendung des in Golub und van Loan dargestellten Verfahrens (siehe die zweite Auflage, S. 466-471, insbesondere Algorithmus 8.7.1) werden A^T A und und B gleichzeitig diagonalisiert. Dies erzeugt eine nicht singuläre Matrix X derart, dass X^T A^T AX = 1 und X^TBX = D ist, wobei I die Einheitsmatrix bezeichnet und D eine 4 × 4-Diagonalmatrix ist. Somit wird min||X–1(x – b')|| s.t.xT xTX–TDX–1x = 0erhalten, wobei X^–1 die Inverse von X und X^T ihre Transponierte bezeichnet. Es bezeichnen z = X^–1 x und c = X^–1 b', wobei dann das Minimum min||z – c|| s.t. zTDz = 0erhalten wird. Dies hat die geforderte Form.
Schritt 2:
An diesem Punkt versucht die vorliegende Erfindung, ein Problem der Form min||z – c|| s.t. zTDz = 0zu lösen. Dieses Minimierungsproblem wird unter Verwendung von Lagrange-Multiplikatoren gelöst. Das heißt min||z – c|| + λzTDz = 0.
Wenn die Ableitung nach x und λ gebildet wird, wird z – c + λDz = 0und zTDz = 0erhalten. Aus der ersten Gleichung wird z = (I + λD)–1cerhalten. Da D diagonal ist, sind die Komponenten von z durch
gegeben. Somit wird die Nebenbedingung z^TDz = 0
was nach Ausmultiplizieren des Nenners ein Polynom sechsten Grades in λ wird. Dieses Polynom kann unter Verwendung von Standardtechniken (wobei die MATLAB-Funktion roots verwendet wird) effizient und genau gelöst werden. Es werden alle Lösungen eingesetzt, um wie oben angegeben x zu bestimmen und diejenige reelle Lösung zu wählen, die die Optimierungskriterien minimiert.
Experimente
Mit den Erkennungsverfahren der vorliegenden Erfindung sind unter Verwendung einer Untermenge einer Datenbank von Gesichtern Experimente ausgeführt worden. Die Untermenge enthält 3D-Modelle von zehn Gesichtern einschließlich Modellen ihrer Albedos in dem roten, grünen und blauen Farbkanal. Als Testbilder werden 42 Bilder einer Person verwendet, die über sieben verschiedene Stellungen und sechs verschiedene Beleuchtungsbedingungen aufgenommen worden sind (in 4 gezeigt). In diesen Experimenten wird jedes Bild mit jedem Modell verglichen und der Rang der richtigen Antwort bestimmt (d. h. ein Rang eins heißt, dass die richtige Antwort zuerst gewählt wurde). Diese Untermenge der Daten bank ist zu klein, um zu ermöglichen, dass aus den Experimenten irgendwelche endgültigen Schlussfolgerungen gezogen werden. Eher ist sie klein genug, um zu ermöglichen, dass eine Anzahl verschiedener Verfahren verglichen werden, von denen einige zu langsam sind, um sie an einem großen Datensatz auszuführen.
Bei der Implementierung aller Verfahren muss zunächst eine 3D-Ausrichtung zwischen dem Modell und dem Bild, (als "Positionierung" bezeichnet) erhalten werden. Dies kann durch im Gebiet bekannte vorhandene Verfahren erfolgen wie etwa mit dem Verfahren, das in der gleichzeitig anhängigen US-Patentanmeldung lfd. Nr. 09/538.209 offenbart ist, die hier durch Literaturhinweis eingefügt ist. Kurz gesagt, können Merkmale der Gesichter von Hand identifiziert werden und kann daraufhin eine starre 3D-Transformation ermittelt werden, um die 3D-Merkmale auf die entsprechenden 2D-Bildmerkmale auszurichten. Zum Beispiel wird angenommen, dass die 3D-Modelle Modelle der Gesichter vieler Menschen sind. Vor der Erkennung kann eine Person auf Punkte auf dem Gesicht klicken, wobei sie den Ort von Merkmalen wie die Mitte der Augen oder die Nasenspitze angibt. Wenn das Eingangsbild ankommt, kann eine Person auf entsprechende Merkmale in dem Eingangsbild klicken. Bei gegebener Anpassung zwischen den Bildmerkmalen und den Modellmerkmalen kann für jedes Modell diejenige Position dieses Objekts in Bezug auf die Kamera bestimmt werden, die die Modellmerkmale am besten an die Eingangsbildmerkmale anpasst. Die Bestimmung dieser Positionierung ist ein im Gebiet gut untersuchtes Problem, für das viele Lösungen abgeleitet worden sind.
Zur Bestimmung der Beleuchtungsbedingungen werden nur Bildpixel beachtet, die an einen Punkt in dem 3D-Modell des Gesichts angepasst worden sind. Bildpixel mit maximaler Intensität werden ebenfalls ignoriert, da diese gesättigt sein können und irreführende Werte liefern können. Schließlich werden sowohl das Modell als auch das Bild unterabgetastet, wobei jedes m × m-Quadrat durch seine Durchschnittswerte ersetzt wird. Dies ist so, da einige der im Folgenden beschriebenen Verfahren, insbesondere das von Georghides, zu langsam sind, um an Vollbildern ausgeführt zu werden. Um Approximationen zu vermeiden, wird eine leichte Änderung des Verfahrens von Georghides implementiert. Jedes Modell wird unter Verwendung von 100 verschiedenen Punktquellen aufbereitet. Daraufhin werden diese 100 Bilder zusammen mit dem Testbild in einem 101D-Raum projiziert, wo eine Optimierung nichtnegativer kleinster Quadrate ausgeführt wird. Dies ist äquivalent der Ausführung der Optimierung in dem vollen Raum, aber effizienter als diese. Allerdings erfordert es immer noch die Verwendung der SVD an 101 Bildern, die zu langsam ist, wenn sie an den gesamten Bildern ausführt wird. In ihren Experimenten wurde diese Einzelwertezerlegung (SVD) offline ausgeführt, wobei aber die SVD in diesen Experimenten, da die Stellung im Voraus nicht bekannt ist, für jede Stellung online ausgeführt werden muss. Die SVD ist ein Standardverfahren der Zerlegung einer Matrix, das ihre wichtigsten Komponenten explizit macht. Allerdings geben frühere Experimente an, dass die Verfahren der vorliegenden Erfindung ein ganzes Stück unterabtasten, ohne die Genauigkeit wesentlich zu verringern. In den folgenden Experimenten wurde die Unterabtastung aller Algorithmen mit 16 × 16-Quadraten ausgeführt. Einige weitere Algorithmen wurden auch mit weniger Unterabtastung ausgeführt.
Wenn die Beleuchtungsbedingungen an dem unterabgetasteten Bild bestimmt wurden, wurden sie verwendet, um das Modell in einem Bild voller Größe aufzubereiten. So erzeugen die Verfahren der vorliegenden Erfindung z. B. Koeffizienten, die besagen, wie die harmonischen Bilder linear zu kombinieren sind, um das aufbereitete Bild zu erzeugen. Diese Koeffizienten wurden an dem abgetasteten Bild berechnet, daraufhin aber auf die harmonischen Bilder des vollen, unabgetasteten Bildes angewendet. Dieser Prozess wurde für jeden Farbkanal getrennt wiederholt. Daraufhin wurde ein Modell mit dem Bild verglichen, indem der mittlere quadratische Fehler gebildet wurde, der aus dem Abstand zwischen dem aufbereiteten Gesichtsmodell und dem Abschnitt des Bildes, den es schnitt, abgeleitet wurde.
TABELLE 2
Die Ergebnisse dieser Experimente sind in Tabelle 2 gezeigt. "Georghides" gibt in Tabelle 2 Ergebnisse an, die die Beleuchtung durch Anpassung des Bildes an die nichtnegative Kombination von Bildern ermitteln, die mit Punktquellen erzeugt wurden. "Nichtnegatives Licht 4 und 9" gibt die Verfahren der vorliegenden Erfindung unter Verwendung vier- und neundimensionaler harmonischer Basisbilder zusammen mit einer Nebenbedingung, dass die Beleuchtung positiv ist, an. "Linear 9" gibt das lineare Verfahren der vorliegenden Erfindung unter Verwendung eines 9D-Raums an. Außerdem zeigt Tabelle 2 die Ergebnisse der Anwendung von "linear 9" mit einer kleineren Unterabtastung. "Prozent richtig" gibt an, welcher Anteil der Bilder an das richtige Ergebnis angepasst war. Außerdem zeigt Tabelle 2 einen "durchschnittlichen Rang", wo ein Rang k angibt, dass das richtige Ergebnis k' herausgegriffen wurde (d. h. ein Rang eins bedeutet, dass das richtige Ergebnis gewählt wurde). Es ist zu sehen, dass die Verfahren der vorliegenden Erfindung, die eine harmonische 9D-Basis verwenden, genauer als vorhandene Verfahren sind. Die 4D-Harmonische kann weniger genau sein, ist aber viel effizienter als die anderen Verfahren.
Obgleich das, was hier gezeigt und beschrieben wurde, als die bevorzugten Ausführungsformen der Erfindung betrachtet wird, können selbstverständlich verschiedene Abwandlungen und Änderungen in Bezug auf die Form oder auf Einzelheiten, die im Umfang der beigefügten Ansprüche liegen, leicht vorgenommen werden.

Claims

Verfahren zum Erkennen eines Objekts in einem Eingangsbild durch Wählen eines aufbereiteten Bildes aus mehreren dreidimensionalen Objektmodellen, das dem Eingangsbild am ähnlichsten ist; wobei das Verfahren die folgenden Schritte umfasst: (a) Bereitstellen einer Datenbank der mehreren dreidimensionalen Objektmodelle; (b) Bereitstellen des Eingangsbildes; (c) Positionieren jedes dreidimensionalen Objektmodells in Bezug auf das Eingangsbild; (d) Bestimmen eines aufbereiteten Bildes, das dem Eingangsbild am ähnlichsten ist, für jedes dreidimensionale Objektmodell durch: (i) Berechnen eines linearen Unterraums harmonischer Bilder, der eine Approximation an die Menge aller möglichen aufbereiteten Bilder jedes dreidimensionalen Objektmodells beschreibt, wobei der Oberflächenreflexionsgrad eines Objektmodells in einem aufbereiteten Bild durch Kugelfunktionen repräsentiert wird, wobei jeder Punkt in dem linearen Unterraum ein mögliches aufbereitetes Bild repräsentiert; und (ii) Ermitteln eines Punkts in dem linearen Unterraum, der sich am nächsten bei dem Punkt befindet, der durch Darstellen des Eingangsbildes in dem Unterraum erhalten wird, wobei der erstgenannte Punkt durch Suchen eines Vektors a erhalten wird, der ||Ba-I|| minimal macht, wobei B die harmonischen Bilder bezeichnet und I das Eingangsbild ist; und (e) Auswählen des dreidimensionalen Objektmodells, das dem aufbereiteten Bild entspricht, dessen zugeordneter Punkt sich in dem linearen Unterraum, der im Schritt (d)(ii) identifiziert wird, am nächsten bei dem Unterraumpunkt des Eingangsbildes befindet.
Verfahren nach Anspruch 1, bei dem der Schritt (a) das Aufbauen jedes dreidimensionalen Objektmodells aus einer Reihe von Bildern, die unter vorgegebenen Beleuchtungsbedingungen aufgenommen werden, umfasst.
Verfahren nach Anspruch 1, bei dem der Schritt (a) das Zuweisen eines Ortes zu jedem Punkt der Oberfläche jedes dreidimensionalen Objektmodells und wenigstens eines entsprechenden Identifizierers, der den Anteil des Lichts identifiziert, das an jedem Punkt reflektiert wird, umfasst.
Verfahren nach Anspruch 3, bei dem der wenigstens eine entsprechende Identifizierer drei Albedos umfasst, jeweils eine für die Angabe, wieviel rotes, blaues bzw. grünes Licht reflektiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt (b) das Bereitstellen eines zweidimensionalen Eingangsbildes umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt (c) das Ausrichten vorgegebener Punkte auf dem dreidimensionalen Objektmodell auf das Eingangsbild umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt (d) für eine rote, eine grüne und eine blaue Farbkomponente für jedes dreidimensionale Objektmodell wiederholt wird.
Verfahren nach einem der Ansprüche 3 bis 7, bei dem der Schritt (d)(i) das Berechnen von Polynomen aus Beschreibungen der Richtung der Oberflächennormalen an jedem Punkt und aus dem wenigstens einen entsprechenden Identifizierer umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der lineare Unterraum vierdimensional ist.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem der lineare Unterraum neundimensional ist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt (e) das Bestimmen der Größe der Differenz zwischen dem Eingangsbild und jedem aufbereiteten Bild umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt (d)(ii) das Berechnen des Punkts in dem linearen Unterraum, der sich am näch sten bei dem Eingangsbild befindet, unter Verwendung einer linearen Projektion umfasst.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem der lineare Unterraum achtzehndimensional ist.