DE60209989T2

DE60209989T2 - Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung

Info

Publication number: DE60209989T2
Application number: DE60209989T
Authority: DE
Inventors: Allan D. Oakville Jepson; David J. Menlo Park Fleet; Thomas F. Toronto El-Maraghi
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2001-12-07
Filing date: 2002-12-06
Publication date: 2006-08-17
Anticipated expiration: 2022-12-07
Also published as: JP2003196661A; JP4824791B2; JP2009217855A; US7058205B2; EP1318477A3; US20030108220A1; EP1318477A2; BR0204991A; DE60209989D1; EP1318477B1; JP4372411B2

Description

Die vorliegende Erfindung bezieht sich allgemein auf eine auf einem Prozessor basierende Technik zum Erzeugen und Aktualisieren eines Ansichts-Modells, und, insbesondere, auf ein Verfahren zum Erzeugen eines Ansichts-Modells unter Verwendung von Mehrfach-Modell-Komponenten.
Automatisierte, visuelle Nachführungssysteme werden oftmals dazu verwendet, ein Sollbild, das in einer Reihe von Bild-Einzelbildern erscheint, nachzuführen. Allgemein bestimmt, wenn einmal ein Ziel-Objekt identifiziert ist, das Nachführungssystem die Position des Ziel-Objekts in jedem darauf folgenden Bild-Einzelbild durch Unterscheiden des Ziel-Objekts von einem Hintergrund und anderen Nicht-Soll-Bilddaten. Solche Nachführungssysteme verwenden oftmals einen Bewegungs-Abschätzungs-Algorithmus, um eine Bewegung der Position des Ziel-Objekts in einem neuen (momentanen) Bild-Einzelbild durch Analysieren von Bewegungsmustern des Ziel-Objekts in zwei oder mehr Bild-Einzelbildern, die dem neuen Einzelbild vorhergehen, vorherzusagen.
Obwohl nicht immer beschrieben, führen herkömmliche Bewegungs-Abschätzungs- und Nachführungssysteme eine bestimmte Form eines Ansichts-Modells aus, das dazu verwendet wird, das Ziel-Objekt in jedem Bild-Einzelbild zu identifizieren. Allgemein ist das Ansichts-Modell eine Beschreibung des Ziel-Objekts, das durch das Bewegungs-Abschätzungs/Nachführungssystem verwendet werden kann, um das Ziel-Objekt von Nicht-Soll-Bilddaten, die das Ziel-Objekt in jedem Bild-Einzelbild umgeben, zu unterscheiden. Wenn das Ziel-Objekt seinen Ort ändert, identifiziert das Bewegungs-Abschätzungs/Nachführungssystem jede neue Stelle durch Identifizieren eines Bereichs des neuen Einzelbilds, das die zuvor eingerichtete Beschreibung, bereitgestellt durch das Ansichts-Modell, erfüllt.
Einer der Hauptfaktoren, der die Funktionsweise von Bewegungs-Abschätzungs- und Nachführungssystemen begrenzt, ist das Fehlverhalten des Ansichtsmodells, Änderungen der Ziel-Objekt-Ansicht anzupassen. Das Bild, befördert durch ein dreidimensio nales (3D) Ziel-Objekt, angeordnet in einem 3D-Raum auf einem zweidimensionalen Bild-Einzelbild, wird typischerweise Bilddeformationen, verursacht durch eine relative Verschiebung zwischen dem Ziel-Objekt und der das Bild-Einzelbild erzeugenden Vorrichtung (z.B. eine Kamera), unterworfen. Zum Beispiel wächst die Größe des Ziel-Objekts typischerweise schneller oder geringer an, wenn ein Abstand zwischen der Position des Ziel-Objekts relativ zu der Kamera geändert wird. Ähnlich ändert sich die Form und/oder das Licht, das von dem Ziel-Objekt reflektiert ist, typischerweise aufgrund von Änderungen in der Orientierung des Ziel-Objekts relativ zu der Kamera (z.B. Bewegung oder Translation des Ziel-Objekts oder der Kamera). Zusätzlich tritt eine Bildverzerrung dann auf, wenn das Nicht-Ziel-Objekt teilweise oder vollständig das Ziel-Objekt verdeckt (d.h. zwischen dem Ziel-Objekt und der Kamera vorhanden ist). Weiterhin führen komplexe, natürliche Objekte (d.h. Objekte, deren Ansicht Änderungen unterworfen werden, die von einer relativen Verschiebung zwischen dem Ziel-Objekt und der Kamera unabhängig sind, wie beispielsweise Änderungen in einem Gesichtsausdruck) eine zusätzliche Ansichts-Variation ein, die durch das Ansichts-Modell berücksichtigt werden muss. Wie in zusätzlichem Detail nachfolgend beschrieben ist, schlagen herkömmliche Ansichts-Modelle, wie beispielsweise Vorlage-Anpassungs-Modelle, globale, statistische Modelle, eine 2-Einzelbild-Bewegungs-Abschätzung und temporär gefilterte bewegungs-kompensierte Bild-Modelle dahingehend fehl, eine oder mehrere dieser Deformationen) zu berücksichtigen, wodurch verursacht wird, dass eine Bewegungsabschätzung und ein Nachführungssystem gelegentlich eine Nachführung eines Ziel-Objekts verlieren.
Vorlage-Anpassungs-Ansichts-Modelle sind zuvor gelernte, fixierte Bild-Modelle („Vorlagen") des Ziel-Objekts, die durch ein Nachführungssystem verwendet werden, um das Ziel-Objekt in einem Bild-Einzelbild zu identifizieren („anzupassen"), um dadurch dessen Ort zu bestimmen. Während solche Nachführungssysteme über kurze Dauern zuverlässig sein können (d.h. während die Ansicht des Ziel-Objekts mit dem fixierten Bild-Modell übereinstimmend verbleibt), passen sie nur schlecht die Ansichts-Änderungen von Ziel-Objekten über längere Dauern an, die üblicherweise in den meisten Anwendungen auftreten. Die Zuverlässigkeit dieser Nachführungssysteme kann durch Darstellen der Variabilität jedes Pixels in der Vorlage verbessert werden (siehe B. Frey, „Filing in Scenes by Propagating Probabilities Through Layers into Appeareance Models"; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Volume I, Seiten 185–192, Hilton Head, Juni 2000). Allerdings ist eine Lernstufe vor einer Nachführung erforderlich, in der die Varianz der Helligkeit des Bilds an jedem Pixel über die Trainings-Bilddaten abgeschätzt wird.
Die Zuverlässigkeit eines Nachführungssystems kann mit der Verwendung von Unterraum-Modellen der Ansicht erhöht werden (siehe, zum Beispiel, M. J. Black und A. D. Jepson, „EigenTracking: Robust Matching and Tracking of Articulated Objects using a View-Based Representation", International Journal of Computer Vision, 26 (1): 63–84, 1998). Allerdings haben sie auch den Nachteil, dass sie objekt-spezifisch sind und dass sie erfordern, dass das Training vor der Nachführung auftritt, um den Unterraum zu erlernen.
Die Verwendung von lokalen und globalen Bild-Statistiken, wie beispielsweise Farb-Histogrammen, sind auch als grobe Ansichts-Modelle für die Nachführung von Ziel-Objekten verwendet worden (siehe, zum Beispiel, S. Birchfield, „Elliptical Head Tracking Using Intensity Gradients and Color Histograms", Proc. IEEE Conference on Computer Vision and Pattern Recognition, Seiten 232–237, Santa Barbara, Juni 1998). Diese Ansichts-Modelle bieten eine Robustheit dann, wenn Bildverzerrungen und Verdeckungen vorgefunden werden, sind schnell zu erlernen und können zum Suchen ebenso wie zum Nachführen verwendet werden. Allerdings fehlt es globalen, statistischen Beschreibungen an einer räumlichen Struktur der Ansicht. Dieses Fehlen einer Ausdrucksfähigkeit begrenzt die Fähigkeit von globalen, statistischen Beschreibungen, um genau das Ansichtsmodell zu dem Ziel-Objekt in vielen Fällen auszurichten. Zusätzlich können diese groben Ansichtsmodelle auch dahingehend fehlschlagen, genau Objekte in Bereichen, die von Interesse sind, nachzuführen, die ähnliche Statistiken mit nahe dazu liegenden Bereichen teilen.
Auf eine Bewegung basierende Nachführungsverfahren integrieren Bewegungsabschätzungen über die Zeit. Für eine 2-Einzelbild-Bewegungsabschätzung wird eine Bewegung zwischen jedem aufeinanderfolgenden Paar von Einzelbildern berechnet. Da eine Bewegung zwischen jedem aufeinander folgenden Paar von Einzelbildern berechnet wird, ist das einzige Modell einer Ansicht, das durch das auf einer Bewegung basierende Nachführungssystem verwendet wird, die Ansicht des Zielobjekts innerhalb des Bereichs, der von Interesse ist, in dem letzten Einzelbild. Als eine Folge können sich Fehler bei diesem Verfahren schnell über die Zeit akkumulieren. Das Ansichts-Modell in einer 2- Einzelbild-Bewegungsabschätzung ist in der Lage, schnell Ansichtsänderungen anzupassen. Allerdings driftet das Ansichts-Modell oftmals von dem Zielobjekt weg, wenn das Zielobjekt eine Ansicht schnell ändert. Als eine Folge gleitet der Bereich, der von Interesse ist, oftmals von dem Zielobjekt weg und auf den Hintergrund oder zu einem anderen Objekt.
Auf einer Bewegung basierende Nachführungsverfahren sind durch Akkumulieren eines adaptiven Ansichts-Modells über die Zeit verbessert worden. Tatsächlich kann eine optimale Bewegungsabschätzung als die Abschätzung von sowohl einer Bewegung als auch einer Ansicht gleichzeitig formuliert werden (siehe Y. Weiss und D. J. Fleet, „Velocity Likelihoods in Biological and Machine Vision", Probabilistic Models of the Brain: Perception and Neural Function, Seiten 81–100, Cambridge, 2001. MIT Press). In diesem Sinne wird, ähnlich den Maßnahmen eines erlernten Unterraums vorstehend, eine optimale Bewegungsabschätzung durch Ausrichten des Bilds gegenüber einem Ansichtsmodell, das über die Zeit erhalten ist, erreicht. Zum Beispiel kann eine stabilisierte Bildsequenz aus den Bewegungsabschätzungen gebildet werden, um das Ansichts-Modell zu erlernen. Diese stabilisierte Bildsequenz kann mit einem rekursiven Tiefpassfilter, wie beispielsweise einem linearen IIR Tiefpassfilter, geglättet werden, um ein bestimmtes Rauschen und eine Gewichtung der am kürzesten vorher liegenden Einzelbilder zu entfernen. Allerdings schafft eine lineare Filterung keine Maßnahmen für eine Stabilität, die eine Robustheit in Bezug auf Okklusionen und auf lokale Verzerrungen der Ansicht erzeugen.
Der Artikel von T. Meier et al, „Automatic Video Sequenced Segmentation Using Object Tracking", conference proceedings of IEEE TENCON '97, Seiten 283–286, führt ein Verfahren zum Zerlegen eines Bilds in mehrere Segmente, die den sogenannten Video-Objekt-Plains (VOP) entsprechen, die aus dem MPEG-4 Standard bekannt sind, ein. Für die Segmentierung erfasst das Verfahren die Grenzen von sich bewegenden Objekten, die vor dem Bild-Hintergrund angeordnet sind. Ein Bewegungsobjekt wird über eine Folge von Einzelbildern zum Aktualisieren eines binären Modells davon, basierend auf zwei Komponenten, verfolgt. Eine erste Komponente beschreibt sich langsam variierende Bereiche (die sich mit dem Objekt bewegen) und eine zweite Komponente beschreibt sich schnell variierende Bereiche (die sich schneller oder in einer unterschiedlichen Art und Weise, verglichen mit dem Objekt, bewegen).
Eine Klassifikation von Änderungen in der Ansicht eines Bilds eines Objekts, die für ein robustes Abschätzen von Änderungen in der Ansicht verwendet werden kann, wird in dem Artikel von M. J. Black et al, „Robustly Estimating Changes in Image Appearance", Computer Vision and Image Understanding, Vol. 78, Nr. 1 (2000), Seiten 8–31, eingeführt. Die Ursachen für die Ansichts-Änderungen werden als (1) Bewegung (von Objekt oder Kamera), (2) Beleuchtungsvariationen, (3) Spiegelung und (4) ikonische Änderungen (d.h. interne Änderungen der Objekte, wie beispielsweise Variationen des Ausdrucks eines menschlichen Gesichts) klassifiziert. Jede dieser Klassen von Änderungen wird durch ein entsprechendes, mathematisches Modell beschrieben. Ein fünftes Modell beschreibt Pixel, die nicht in der Art und Weise, die vorstehend angegeben ist, klassifiziert werden kann, d.h. „Ausreißer".
Dasjenige, was benötigt wird, ist ein robustes, adaptives Ansichts-Modell für eine auf einer Bewegung basierenden Nachführung von komplexen, natürlichen Objekten. Das Ansichts-Modell sollte an eine sich langsam ändernde Ansicht angepasst sein, ebenso wie sie ein natürliches Maß der Stabilität der Struktur des beobachteten Bilds während einer Nachführung beibehält. Das Ansichts-Modell sollte in Bezug auf Verdeckungen, signifikante Bilddeformationen und Änderungen in dem natürlichen Erscheinungsbild, ähnlich solchen Vorgängen, die in Bezug auf Gesichtsausdrücke und Kleidung auftreten, robust sein. Das Ansichts-Modell-Grundgerüst sollte eine Nachführung und akkurate Bildausrichtung für eine Vielfalt von möglichen Anwendungen unterstützen, wie beispielsweise Nachführung eines lokalisierten Merkmals, und Nachführungsmodelle, für die eine relative Ausrichtung und Position wichtig ist, wie beispielsweise die Gliedmaßen eines menschlichen Körpers.
Dies wird durch die Merkmale der unabhängigen Ansprüche gelöst.
Die vorliegende Erfindung schafft ein robustes, adaptives Ansichts-Modell, das gleichzeitig zwei oder mehr Modell-Komponenten (d.h. ein oder mehrere stabile Komponente(n) und eine oder mehrere Übergangs-Komponente(n)) verwendet, die Bilddaten über zwei oder mehr Zeitskalen zusammenstellen, um eine auf einer Bewegung basierenden Nachführung von komplexen, natürlichen Objekten zu erleichtern.
Die stabile Komponente baut relativ stabile Bilddaten modellmäßig auf (d.h. Bilddaten, die gering über eine relativ große Anzahl von Bild-Einzelbildern, die einem am kürzesten vorher liegenden, aufgenommenen Einzelbild vorausgehen, variieren). Durch Einsetzen der stabilen Komponenten ist das Ansichts-Modell der vorliegenden Erfindung in der Lage, an sich langsam entwickelnde Ansichts-Änderungen anzupassen, während ein natürliches Maß der Stabilität der Struktur des beobachteten Bilds beibehalten wird. Das bedeutet, dass die stabile Komponente eine hoch zuverlässige Identifikation einer Bildstruktur durch Gewichten von Eigenschaften einer stabilen Bildstruktur stärker in Bezug auf eine Bewegungsabschätzung als von instabilen Eigenschaften, die proportional nach unten gewichtet werden, erleichtert.
Im Gegensatz zu der stabilen Komponenten bilden die Übergangs-Komponenten-Modelle Bilddaten von einer relativ kleinen Zahl von Bild-Einzelbildern, die dem am kürzesten vorher aufgenommenen Einzelbild vorausgehen, ab. Durch Einsetzen der Übergangs-Komponenten ist das Ansichts-Modell in der Lage, ein Ziel-Objekt zu lokalisieren, das Verdeckungen, wesentlichen Bilddeformationen und Änderungen des natürlichen Erscheinungsbilds unterworfen sind, ähnlich solchen, die bei Gesichtsausdrücken und Kleidung auftreten. Das bedeutet, dass dann, wenn Bereiche der Bildstruktur plötzlich instabil werden, der Einfluss der Übergangskomponenten in Bezug auf den Nachführungsvorgang nach oben gewichtet wird, um einen Ziel-Kontakt beizubehalten, bis eine Stabilität wieder eingerichtet ist.
Durch Kombinieren sowohl der Komponenten des stabilen Modells als auch der Komponenten des Übergangs-Modells, um ein Ziel-Objekt zu identifizieren, schafft die vorliegende Erfindung ein robustes und adaptives Ansichts-Modell, das eine Nachführung und eine genaue Bildausrichtung für eine Vielzahl von möglichen Anwendungen erleichtert, wie beispielsweise Nachführen eines lokalisierten Merkmals, und Nachführungsmodelle, für die eine relative Ausrichtung und Position wichtig ist, wie beispielsweise Gliedmaßen eines menschlichen Körpers.
1 zeigt ein Blockdiagramm, das ein Nachführungssystem darstellt, das ein Ansichtsmodell gemäß einer Ausführungsform der vorliegenden Erfindung umfasst;
2 zeigt ein Flussdiagramm, das den allgemeinen Betrieb des Ansichts-Modells, verwendet in dem Nachführungssystem der 1, verwendet;
3(A), 3(B), 3(C) und 3(D) zeigen Fotografien, die verschiedene Bildverzerrungen, denen sich durch das Ansichts-Modell zugewandt wird, darstellen;
4(A) und 4(B) zeigen Diagramme, die Bilddaten und zugeordnete Ansichts-Modell-Mischparameter darstellen;
5 zeigt eine Tabelle, die eine Reihe von Zeitwerten und zugeordneten Bilddaten-Werten auflistet;
6(A), 6(B) und 6(C) zeigen Diagramme, die Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine relativ stabile Anfangsperiode hin, darstellen;
7 zeigt ein Diagramm, das Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine kurze Verdeckung hin, darstellt;
8 zeigt ein Diagramm, das Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine graduelle Änderung von Bilddaten hin, darstellt;
9(A) und 9(B) zeigen Diagramme, die Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine Langzeit-Bild-Verzerrung hin, darstellen;
10(A), 10(B) und 10(C) zeigen Bilder, die das Nachführen eines sich drehenden 3D-Ziel-Objekts darstellen;
11(A) und 11(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 10(A) zugeordnet sind;
12(A) und 12(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 10(B) zugeordnet sind;
13(A) und 13(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 10(C) zugeordnet sind;
14(A) und 14(B) zeigen zusammengesetzte Fotografien, die die Nachführung eines 3D-Ziel-Objekts, das sich zu einer Kamera hin bewegt, darstellen;
15(A) zeigt eine Fotografie, die Bilddaten umfasst, die einem Ziel-Objekt vor einer Verdeckung zugeordnet sind;
15(B), 15(C) und 15(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 15(A), zeigen;
16(A) zeigt eine Fotografie, die Bilddaten, zugeordnet zu dem Ziel-Objekt der 15(A), an dem Beginn einer Verdeckung, umfasst;
16(B), 16(C) und 16(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 16(A), zeigen;
17(A) zeigt eine Fotografie, die Bilddaten, zugeordnet zu dem Ziel-Objekt der 15(A), nach einer relativ langen Periode einer Verdeckung, umfasst;
17(B), 17(C) und 17(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 17(A), zeigen;
18(A) zeigt eine Fotografie, die Bilddaten, zugeordnet zu dem Ziel-Objekt der 15(A), nachdem die Verdeckung beseitigt ist, zugeordnet sind;
18(B), 18(C) und 18(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 18(A), zeigen;
19(A), 19(B) und 19(C) zeigen Bilder, die das Nachführen eines Gegenstands, der eine natürliche Verzerrung zeigt, darstellen;
20(A) und 20(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 19(A) zugeordnet sind;
21(A) und 21(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 19(B) zugeordnet sind; und
22(A) und 22(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 19(C) zugeordnet sind.
1 zeigt ein vereinfachtes Blockdiagramm, das einen Computer 100 darstellt, der so aufgebaut ist, um ein Bildnachführungssystem 110 auszuführen, das ein Ansichts-Modell 120 verwendet, um ein ausgewähltes Ziel-Objekt nachzuführen, das in einer Reihe von temporär sequenziellen Bilddaten-Einzelbildern 101 auftritt, die geeignet digitalisiert und in einen Computer 100, unter Verwendung von herkömmlichen Verfahren, eingegeben werden. Das Nachführungssystem 110 umfasst auch verschiedene Software-Untersysteme (tools), umfassend ein optisches Filter/Prozessor-Untersystem 150, das eine oder mehrere Datenfolge(n), zugeordnet zu dem Feld von Bild-Pixel-Daten, erstellt, die ein momentanes Bild-Einzelbild darstellen, eine Bewegungs-Abschätzeinrichtung 160, ein Bildverzerrungs-Tool 170 und ein Ansichts-Modell-Aktualisierungs-Tool 180. Die individuellen Funktionen, die durch diese Untersysteme durchgeführt werden, werden nachfolgend beschrieben. Diese Untersysteme arbeiten so zusammen, um die Nachführungsfunktion auszuführen und um das Ansichts-Modell 120 in der Art und Weise zu aktualisieren, die in zusätzlichem Detail nachfolgend beschrieben ist. Es ist anzumerken, dass die Blöcke des separaten Untersystems, angegeben in 1, zu Beschreibungszwecken nur vorgesehen sind, und dass zumindest einige Funktionen, durchgeführt durch einige dieser Untersysteme, in andere Untersysteme, unter Verwendung von bekannten Techniken, integriert sein können.
Gemäß einer Ausführungsform der vorliegenden Erfindung umfasst das Ansichts-Modell 120, für eine oder mehrere Datenfolge(n) eine stabile (S) Komponente 130 und eine oder mehrere Übergangs-Komponente(n) 140 (z.B. eine „wandernde" (W) Komponente 140A und/oder eine Verlust-(L)-Komponente 140B), die zusammen eine digitale Online-Darstellung des ausgewählten Ziel-Objekts definieren. Der Ausdruck „Online" wird hier dahingehend verwendet, dass er bedeutet, dass die digitale Darstellung des ausgewählten Ziel-Objekts zunehmend unter Verwendung eines Messwerts von einem momentanen (d.h. am kürzesten vorher liegenden) Bild-Einzelbild aktualisiert wird. Insbesondere wird, nach Einrichten einer digitalen Darstellung des Ziel-Objekts (wie durch die Parameter der stabilen Komponenten 230 und der Übergangs-Komponenten 140 definiert), unter Verwendung von Daten, die in einer Anfangsreihe von Bild-Einzelbildern aufgenommen sind, eine eingerichtete, digitale Darstellung mit entsprechenden Daten von einem neuen Bild-Einzelbild verglichen, und dann wird die eingerichtete, digitale Darstellung aktualisiert (geändert), und zwar entsprechend zu Differenzen zwischen der zuvor eingerichteten, digitalen Darstellung und den neuen Daten, um dadurch eine inkrementale, „neue", eingerichtete, digitale Darstellung zu erzeugen. Dementsprechend ist die digitale Darstellung „Online" in dem Sinne, dass sie sowohl durch zuvor aufgenommene Daten von einem oder mehreren Bild-Einzelbildern als auch von neuen Daten von einem momentanen Bild-Einzelbild definiert ist.
Allgemein unterscheidet sich eine stabile Komponente 130 von einer Übergangs-Komponenten 140 dahingehend, dass die digitale Darstellungs-Komponente, definiert durch die stabile Komponente 130, auf einer längeren, temporären Historik (d.h. längere Zeitskala) als diejenige der Übergangskomponenten 140 basiert. Das bedeutet, dass die Parameter der stabilen Komponenten 130 die „Stabilität" von Bilddaten in jeder zunehmend eingerichteten digitalen Darstellung wiedergeben werden. Demzufolge wird der Ausdruck „Übergang" hier dazu verwendet, Bilddatenwerte zu beschreiben, die instabil sind (z.B. Ausreißer), oder Bilddaten, die für nur eine relativ kurze Zeitskala stabil gewesen sind (z.B. geringer als fünf aufeinanderfolgende Bild-Einzelbilder). Zum Beispiel arbeitet in der beispielhaften Ausführungsform, die nachfolgend angegeben ist, eine W-Komponente 140A in einer Art und Weise ähnlich zu einer herkömmlichen 2-Einzelbild- Bewegungsabschätzeinrichtung dahingehend, dass deren Parameter unter Verwendung nur eines momentanen Bild-Einzelbilds und des Bild-Einzelbilds unmittelbar vorhergehend dem momentanen Bild-Einzelbild berechnet werden. In alternativen Ausführungsformen kann die W-Komponente 140A so modifiziert werden, um Daten von einer kleinen Anzahl (z.B. zwei oder drei) von Einzelbildern, die dem momentanen Einzelbild vorhergehen, zu vergleichen. Alternativ wird, wie in der beispielhaften Ausführungsform, die nachfolgend angegeben ist, beschrieben ist, die L-Komponente 140B dazu verwendet, Ausreißer-Daten zu speichern, und wird deshalb unter Verwendung von Daten von nur einem Bild-Einzelbild (d.h. dem momentanen Einzelbild) aktualisiert.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird jeder Teil der Bilddaten von einer ausgewählten Datenfolge (z.B. Daten, die die relative Helligkeit eines zugeordneten Anzeige-Pixels oder eines Filter-Ausgangs darstellen) kollektiv durch sowohl eine stabile Komponente 130 als auch eine Übergangs-Komponente 140 dargestellt. Mit anderen Worten umfasst jede stabile Komponente 130 und jede Übergangs-Komponente 140 einen Beitrag-Parameter (z.B. eine Misch-Wahrscheinlichkeit), der einen Prozentsatz eines zugeordneten Datenwerts, dargestellt durch die zugeordnete Komponente, anzeigt. Zum Beispiel wird ein gegebener Teil der Bilddaten in der stabilen Komponenten 130 in einem Umfang, angezeigt durch einen Beitrag-Parameter 132, dargestellt, und wird auch in der Übergangs-Komponenten 140 durch entsprechende Beitrag-Parameter 142A und 142B (zugeordnet einer W-Komponenten 140A und einer L-Komponenten 140B, jeweils) dargestellt. Die Summe von Beitrag-Parametern 132, 142A und 142B aller Komponenten, die das Ansichts-Modell 120 bilden, ist gleich zu eins (d.h. einhundert Prozent). Diese Beitrag-Parameter zeigen ein Maß einer Vertraulichkeit an, dass der gegebene Datenwert für das Ziel-Objekt beschreibend ist. Zum Beispiel wird, wie im Detail nachfolgend beschrieben ist, falls ein Datenwert stabil für eine lange Zeitperiode verbleibt, dann der Beitrag-Parameter 132 relativ hoch zu Übergangs-Beitrag-Parametern 142A und 142B sein. Im Gegensatz dazu werden sich, falls sich der Datenwert abrupt ändert oder schnell variiert, die Prozentsätze, dargestellt durch Übergangs-Beitrag-Parameter 142A und 142B, typischerweise erhöhen, und der Prozentsatz, dargestellt durch den stabilen Beitrag-Parameter 132, wird sich entsprechend verringern.
Gemäß einem noch anderen Aspekt der vorliegenden Erfindung umfasst die stabile Komponente 130 einen oder mehrere stabile Daten-Parameter 134, die dazu verwendet werden, zu bestimmen, wie gut sich ein neuer Messwert mit zuvor empfangenen Bilddaten vergleicht. Wie vorstehend erwähnt ist, speichert die stabile Komponente 130 eine digitale Darstellung eines Ziel-Bilds, basierend auf einer relativ großen Anzahl von Bild-Einzelbildern. Dementsprechend wird, in den Ausführungsformen, die nachfolgend beschrieben sind, der stabile Daten-Parameter 134 unter Verwendung von statistischen Verfahren dargestellt, wie Durchschnitts-μ_s- und Standard-Abweichungs-σ_s-Parameter, die unter Verwendung von Datenwerten berechnet werden, die über eine vorbestimmte Anzahl (z.B. fünfzehn) von Bild-Einzelbildern, die dem momentan aufgenommenen Bild-Einzelbild vorausgehen, berechnet werden, vorausgesetzt, dass die Datenwerte, verwendet in der Berechnung, innerhalb eines vorbestimmten Bereichs des Durchschnitts fallen (d.h. Ausreißer sind ausgeschlossen). Alternativ können stabile Daten-Parameter 134 unter Verwendung irgendeines alternativen Verfahrens berechnet werden, wie beispielsweise ein Durchschnitt eines ausgewählten (z.B. alle dreißig) Datenwerts. Wie zusätzlich im Detail nachfolgend beschrieben ist, wird jeder stabile Daten-Parameter 134 mit jedem neuen Messwert verglichen, und der erhaltene Vergleich wird dazu verwendet, Beitrag-Parameter 132, 142A und 142B zu aktualisieren. Das bedeutet, dass, wie vorstehend erwähnt ist, wenn der stabile Daten-Parameter 134 identisch zu einem neuen Messwert ist, dann der neue Messwert eine relative Stabilität anzeigt, und der stabile Beitrag-Parameter 132 tendiert dazu, sich zu erhöhen (oder einen maximalen Wert beizubehalten). Umgekehrt tendiert, wenn der neue Messwert wesentlich von dem stabilen Daten-Parameter 134 unterschiedlich ist, der stabile Beitrag 132 dazu, sich zu verringern, was zu einer proportionalen Erhöhung in einem oder beiden der Übergangs-Beitrag-Parameter 142A und 142B führt.
Gemäß einem noch anderen Aspekt der vorliegenden Erfindung umfasst die Übergangs-Komponente 140 einen oder mehrere Übergangs-Daten-Parameter 144A und 144B, die optional dazu verwendet werden, weiterhin zu bestimmen, wie gut sich ein neuer Messwert mit zuvor empfangenen Bilddaten vergleicht. Zum Beispiel umfasst die Komponente 140A, wenn sie in dem Ansichts-Modell 120 verwendet wird, Durchschnitts-μ_w- und Standard-Abweichungs-σ_w-Parameter, die über eine relativ kleine Anzahl von Einzelbildern berechnet werden. Alternativ ist der „Durchschnitt", wie er in der beispielhaften Ausführungsform, die nachfolgend beschrieben ist, verwendet wird, einfach der zuvor aufgenommene Datenwert, und die „Standardabweichung" ist ein vordefinierter, festgelegter Bereich. Es ist anzumerken, dass für eine L-Komponente 140B, die in zusätzlichem Detail nachfolgend beschrieben ist, ein „Durchschnitts" Parameter μ_L verwendet oder weggelassen werden kann.
Wie wiederum 1 zeigt, arbeitet das Nachführungssystem 110 allgemein wie folgt. Bilddaten 101 werden zu einem Filter/Prozessor 150 weitergeführt, der die Bilddaten entsprechend eingerichteten Techniken so filtert und/oder verarbeitet, um, zum Beispiel, Rauschen oder andere unnötige Daten zu entfernen. In der beispielhaften Ausführungsform, die nachfolgend beschrieben ist, wird dieser Filtervorgang unter Verwendung von auf einem Wavelet basierenden Filtertechniken durchgeführt, die die Bilddaten in einer Art und Weise modifizieren, die für darauf folgende Nachführungsvorgänge geeignet sind. Die gefilterten/verarbeiteten Bilddaten (oder Ursprungsdaten, falls kein Filter/Prozessor verwendet wird) werden dann zu einer Bewegungs-Abschätzeinrichtung 160 weitergeführt, die auch die existierende Bildbeschreibung, gespeichert durch das Ansichts-Modell 120, aufnimmt. Die Bewegungs-Abschätzeinrichtung 160 bestimmt den Ort des Ziel-Objekts in dem momentanen Bild-Einzelbild unter Verwendung des Ansichts-Modells 120 und einer Bewegungs-Historik, die dem Ziel-Objekt zugeordnet ist, das durch die Bewegungs-Abschätzeinrichtung 160 entsprechend zu eingerichteten Techniken erzeugt ist. Unter Bestimmen der Stelle des Ziel-Objekts in dem Bild-Einzelbild wird ein Bild-Verzerrungs-Tool 170 verwendet, um das Ansichts-Modell 120 (oder einen neuen Bild-Messwert) zu modifizieren, um auf einer Bewegung basierende Deformationen zu berücksichtigen (z.B. Größe und/oder axiale Drehung). Nachdem eine Verzerrung durchgeführt ist, wird die Bildbeschreibung, geliefert in dem Ansichts-Modell 120, zu einem Modell-Aktualisierungs-Tool 180 geführt, das das Ansichts-Modell 120 entsprechend den Verfahren, die hier beschrieben sind, aktualisiert. Die aktualisierten Ansichts-Modell-Parameter werden dann verwendet, um ein darauf folgend empfangenes Daten-Einzelbild zu verarbeiten.
2 zeigt ein vereinfachtes Flussdiagramm, das ein allgemeines Verfahren darstellt, das dazu verwendet wird, ein Ansichtsmodell 120 (1), gemäß einer Ausführungsform der vorliegenden Erfindung, zu erzeugen und zu aktualisieren. Das vereinfachte Flussdiagramm nimmt an, dass ein einzelner Datenpunkt während jeder Iteration verarbeitet wird, und lässt Funktionen weg, die der Nachführung zugeordnet sind (z.B. Bewegungs-Abschätzung und Bild-Verzerrung). Eine detailliertere Beschreibung des dargestellten Vorgangs wird nachfolgend vorgenommen. Wie der obere Bereich der 2 zeigt, beginnt das Verfahren durch Initialisieren der Parameter der stabilen und Übergangs-Komponenten (Block 210). Zum Beispiel kann, wie 1 zeigt, eine stabile Beitrags-Komponente 132 und eine stabile Daten-Komponente 134 der stabilen Komponenten 130 auf einen vorbestimmten Wert eingestellt werden. Es ist anzumerken, dass der vorbestimmte Wert für die Beitrags-Komponente 132 in dem Fall eines Reset-Vorgangs (beschrieben nachfolgend) verwendet wird.
Wie wiederum 2 zeigt, wird, nach einer Initialisierung, ein Bild-Messwert in der Art und Weise, die vorstehend beschrieben ist, aufgenommen (Block 220), und dann wird der Bild-Messwert mit den eingerichteten Komponenten-Parametern verglichen (Block 230). Gemäß einer Ausführungsform der vorliegenden Erfindung wird, während dieses Vergleichs, ein Log-Wahrscheinlichkeits-(„Wahrscheinlichkeit")-Wert für jede Komponente, basierend auf einer Differenz zwischen dem Messwert und dem (den) existierenden Daten-Parameter(n), entsprechend bekannten, statistischen Verfahren berechnet. Dieser Wahrscheinlichkeitsweit zeigt an, wie gut der Messwert zu den eingerichteten Daten-Parametern passt. Zum Beispiel wird angenommen, dass stabile Daten-Parameter einen Durchschnitt μ_s von 14 und eine Standard-Abweichung von 2 umfassen. Falls der Messwert gleich zu 14 ist, dann wird der berechnete Wahrscheinlichkeitswert für die stabile Komponente maximiert werden. Umgekehrt wird, falls der Messwert gleich zu 24 ist, der Wahrscheinlichkeitswert relativ sehr niedrig sein. Ein Wahrscheinlichkeitswert wird in einer ähnlichen Art und Weise für die W-Komponente (falls verwendet) berechnet, kann allerdings für die L-Komponente (falls verwendet) weggelassen werden.
Die Ergebnisse des Vergleichs zwischen dem Messwert und den eingerichteten Daten-Parametern werden dann dazu verwendet, die Beitrag-Parameter (nachfolgend bezeichnet als Misch-Wahrscheinlichkeiten) zu aktualisieren und um neue Daten-Parameter für jede der Ansichts-Modell-Komponenten zu erzeugen (Block 240). In einer Ausführungsform setzt dieser Vorgang den optionalen Schritt eines Berechnens von Eigner-Werten für jede Komponente, unter Verwendung der Wahrscheinlichkeitswerte, ein (Block 242), was in zusätzlichem Detail nachfolgend beschrieben wird. Als nächstes (oder alternativ) werden neue Misch-Wahrscheinlichkeiten für jede Komponente unter Verwendung der Eigner-Wahrscheinlichkeiten und/oder der Wahrscheinlichkeitswerte berechnet (Block 244). Der neu berechnete, stabile Beitragswert (z.B. ms) wird dann gegenüber einem vordefinierten, minimalen Wert verglichen (Block 245). Falls der neu berechnete, stabile Bei tragswert geringer als der vordefinierte, minimale Wert ist (JA), dann werden alle Komponenten-Parameter auf vordefinierte Werte zurückgesetzt (Block 246). Umgekehrt werden, falls der neu berechnete, stabile Beitragswert größer als der vordefinierte, minimale Wert ist (NEIN im Block 245), dann die Daten-Parameter jeder Komponenten aktualisiert, um den neuen Messwert wiederzugeben (Block 248).
Die vorstehende Folge wird dann für jeden neuen Messwert, der jeder neuen Datenfolge zugeordnet ist, wiederholt. Es ist anzumerken, dass der Aktualisierungsvorgang für den Komponenten-Parameter (Block 240) so geändert werden kann, um die Minimalwert-Bestimmung (Block 245) nach der Neuberechnung der Daten-Parameter (Block 248) ohne Schmälern des letztendlichen Ergebnisses zu platzieren.
Während das neuartige und vorteilhafte Ansichts-Modell unter Verwendung der stabilen Komponenten und mindestens einer der Übergangs-Komponenten in Kombination mit dem Verfahren, das unter Bezugnahme auf 2 beschrieben ist, erzeugt wird, umfasst eine derzeit bevorzugte Ausführungsform der vorliegenden Erfindung ein Ansichts-Modell, das alle stabilen (S) Komponenten 130, die wandernde (W) Komponente 140A und die verlorene (L) Komponente 140B (siehe 1) entsprechend der nachfolgenden Beschreibung einsetzt. Ein solches Ansichts-Modell wird hier als ein „WSL Ansichts-Modell" bezeichnet.
Das WSL Ansichts-Modell der vorliegenden Erfindung wird nachfolgend unter Bezugnahme auf eine einzelne, real bewertete Datenbeobachtung eingeführt. Nach Beschreibung des Vorgangs des WSL Ansichts-Modells unter Bezugnahme auf einen Signal-Datenwert, wird die Beschreibung dahingehend gerichtet, sich der Behandlung von gesamten Daten-Einzelbildern zuzuwenden.
Die 3(A) bis 3(D) stellen eine unterbrochene Folge von Bilddaten-Einzelbildern dar, die ein Gesicht als einen Nachführungsbereich (Ziel-Objekt) unter Verwendung eines einfachen, parametrischen Bewegungs-Modells darstellen, und beschreiben typische Bild-Verzerrungs-Phänomene, die durch das WSL Ansichts-Modell berücksichtigt werden müssen. 3(A) zeigt eine anfängliche, relativ stabile Periode, während der dem WSL Ansichts-Modell ermöglicht wird, sich zu stabilisieren. Es ist anzumerken, dass Bereiche eines hohen Kontrasts, wie beispielsweise der Stirnbereich 310 und der Mundbereich 320, dazu tendieren, sehr stabile Bilddaten zu erzeugen. 3(B) stellt eine Teilverdeckung dar, während der die Hand des Subjekts kurz über dem Mundbereich 320 positioniert wird, allerdings verbleibt der Stirnbereich 310 relativ ungestört. 3(C) zeigt eine wesentliche Ansichts-Diskontinuität, die einen Neustart bewirkt (d.h. eine plötzliche, ruckartige Kopfbewegung, während der der Kopf des Subjekts gekippt wird und schnell von der Kamera weg bewegt wird, und Brillengläser von dem Augenbereich 330 entfernt werden). Schließlich zeigt 3(D) einen sich ändernden Gesichtsausdruck als ein Beispiel einer natürlichen Verzerrung. Insbesondere wird, wie in dem Bereich 340 angezeigt wird, angenommen, dass das Subjekt breit lacht, ohne eine wesentliche andere Bewegung (Kontrast-Mundbereich 310 in 3(A)).
Das Phänomen, das in den 3(A) bis 3(D) gezeigt ist, begründet die verschiedenen Komponenten-Daten-Parameter des WSL Ansichts-Modells. Das relativ stabile Bild, das in 3(A) gezeigt ist, begründet die S-Komponente, die dazu vorgesehen ist, das Verhalten von Beobachtungen eines temporär stabilen Bilds zu erfassen, wann und wo sie auftreten. Insbesondere wird, unter der Annahme, dass d_t einen Datenwert an jedem Einzelbild t darstellt, unter der Vorgabe, dass die stabile Komponente die Beobachtung d_t erzeugte, die Wahrscheinlichkeitsdichte durch die Gauss'sche Dichte p_s(d_t|μ_s,t, σ² _s,t) modellmäßig angegeben. Hierbei sind μ_s,t und σ² _s,t sich stückweise langsam variierende Funktionen, die den Durchschnitt und die Varianz des Gauss'schen Modells spezifizieren.
Die zweite Komponente des WSL Ansichts-Modells berücksichtigt Daten-Ausreißer, die dahingehend erwartet werden, dass sie aufgrund von Fehlern in der Nachführung, oder durch Verdeckung, entstehen. Wie vorstehend diskutiert ist, wird der entsprechende Zufalls-Prozess hier als die „verlorene" oder L-Komponente des WSL Ansichts-Modells bezeichnet. Die Wahrscheinlichkeitsdichte für die L-Komponente, bezeichnet mit p_t(d_t), wird so angenommen, dass sie eine gleichförmige Verteilung über die Beobachtungsdomäne ist.
Das synthetische Signal, das in 4(A) gezeigt ist, liefert ein idealisiertes Beispiel von diesen generativen Prozessen für eine einzelne Datenfolge. Die unterbrochene Linie stellt ein stückweises langsam variierendes Ansichtssignal AS dar. Die beobachteten Daten OD sind in Bezug auf ein Rauschen mit einem lang abklingenden Ende, gebildet aus einer Mischung der Gauss'schen Dichte p_s(d_t|μ_s,t, σ² _s,t), und der Breitenverteilung p_t(d_t) für die L-Komponente, verdorben worden. Die durchgezogene, dunkle Linie zeigt einen abgeschätzten Durchschnitt EM für die S-Komponente an. Entsprechend der Diskussion vorstehend wird die Sequenz von Bilddaten-Einzelbildern an einem Bereich 400 initiiert, und tritt dann in eine relativ stabile Phase (Bereich 410), zugeordnet zu 3(A), ein. Der Bereich 420 des synthetischen Signals zeigt ein Burst von Ausreißern zwischen Einzelbildern 300 und 315 analog zu der Verdeckung der 3(B) an. Der Bereich 430 zeigt einen Neustart an einem Einzelbild 600 analog zu der Ansichts-Diskontinuität der 3(C) an. Schließlich zeigt der Bereich 440 lokalisierte Signalverzerrungen, erzeugt durch den sich ändernden Gesichtsausdruck der 3(D), an.
Die W-Komponente des WSL Ansichts-Modells wird durch den Wunsch begründet, das Ansichts-Modell mit einem auf einem Bild basierenden Nachführungs-Algorithmus zu integrieren. Das bedeutet, dass, für einen ausgewählten Bildbereich, das Ziel dasjenige ist, ein Modell für die dominante, stabile Bildstruktur innerhalb des Bereichs zu lernen und sie gleichzeitig nachzuführen. Dies ist dann schwierig, wenn weder ein anfängliches, stabiles Ansichts-Modell vorgesehen ist noch Informationen darüber, wie sich das Objekt bewegt. Die W-Komponente bestimmt, was in einer solchen Situation verfolgt werden sollte. Wie vorstehend erwähnt ist, ermöglicht tatsächlich die W-Komponente ein Nachführungssystem (beschrieben nachfolgend), um genau zu einem 2-Einzelbild-Bewegungs-Tracker zu verschlechtern, wenn das Ansichts-Modell nicht genug vergangene Datenbeobachtungen berücksichtigt. Die W-Komponente muss sowohl schnellere, temporäre Variationen als auch kürzere, temporäre Historiken als solche für die zuverlässige Abschätzung der S-Komponenten-Parameter zulassen. Als solche wird die Wahrscheinlichkeitsdichte für d_t so ausgewählt, dass, unter der Vorgabe, dass sie durch die W-Komponente erzeugt wird, die Gauss'sche Dichte p_w(d_t|d_t-1) ist. Hierbei ist der Durchschnitt einfach die Beobachtung von dem vorherigen Einzelbild, d_t-1, und die Varianz ist bei σ² _w festgelegt.
Die drei Komponenten, W, S und L, werden in einem Wahrscheinlichkeits-Mischungs-Modell für d_t kombiniert, p(dt|qt, mt, dt-1) = mwpw(dt|dt-1) + msps(dt|gt) + mlpl(dt) GLEICHUNG (1)wobei m = (m_w, m_s, m_l) die Mischwahrscheinlichkeiten sind, und q_t = (μ_s,t, σ² _s,t) den Durchschnitts- und Varianz-Parameter der stabilen Komponenten des Modells enthält.
Um das WSL Ansichts-Modell in einem herkömmlichen Nachführungssystem auszuführen, ist es notwendig, die Parameter des generativen Modells in (1) abzuschätzen, nämlich den Durchschnitt und die Varianz der Vorhersage der Daten, d_t, durch den stabilen Prozess, q = (μ_s, σ² _s), und der Misch-Wahrscheinlichkeiten m = (m_w, m_s, m_l). Weiterhin wird, um das Abschätzungsschema dabei anzuwenden, das Ansprechverhalten zu filtern, davon ausgegangen, dass ein einfacher Rechen-Algorithmus einen geringen Umfang eines Speichers für jede Beobachtung benötigt.
Unter Vorhersagen einer rekursiven Formulierung und unter Zulassen einer temporären Addition der Modell-Parameter wird angenommen, dass Datenbeobachtungen unter einer exponentiellen Einhüllenden, angeordnet zu der momentanen Zeit,
für k ≤ t, vorliegen. Hierbei gilt τ = η_s/log2, wobei η_s die Halbwertzeit der Einhüllenden in Einzelbildern ist, und α = 1 – e^–1/τ ist, so dass sich die Einhüllungs-Gewichtungen S_t(k) zu 1 aufsummieren. Mit dieser Einhüllenden wird die Log-Wahrscheinlichkeit der Beobachtungs-Historik,
entsprechend der Dichte in (1) ausgedrückt wird:
wobei m_t und q_t Parameter bezeichnen, die für die Daten unter der temporären Unterstützungs-Einhüllenden S_t(k) relevant sind. Obwohl sich diese Parameter langsam über die Zeit ändern, wird ein EM-Algorithmus (siehe, zum Beispiel A. P. Dempster, N. M. Laird und D. B. Rubin, „Maximum Likelihood from Incomplete Data Via the EM Algorithm", J. Royal Statistical Society Series B, 39: 1–38, 1977) für eine Abschätzung von m_t und q_t berücksichtigt, die annimmt, dass sie konstant unter dem temporären Fenster sind. Die Form dieser EM-Aktualisierungen liefert die Basis für das Online-Verfahren, das hier beschrieben ist.
Unter Vorgabe einer momentanen Vermutung für die Zustands-Variablen m_t und q_t (konstant über das temporäre Fenster) liefert der E-Schritt die Eigner-Wahrscheinlichkeiten für jede Beobachtung d_k:
für i ∊ {w, s, l}. Konditioniert auf diese Inhaberschaften berechnet dann der M-Schritt die neuen, maximalen Wahrscheinlichkeitsabschätzungen für die Parameter m_t und q_t. Zuerst werden die aktualisierten Mischungswahrscheinlichkeiten, m_t, gegeben durch
für i ∊ {w, s, l} (die Angabe m_i,t wird wieder dazu verwendet, die aktualisierten Werte zu bezeichnen). Ähnlich ist der M-Schritt für den Durchschnitt und die Varianz
wobei M_j,t die Inhaberschaft, die gewichtet ist, von j^–ten Ordnung von Daten-Momenten, definiert durch
sind.
Es muss hier nicht gesagt werden, dass das zu Null gemachte Daten-Moment, die in der Zeit gemittelten Inhaberschaften des stabilen Prozesses, präzise das Mischverhältnis für die S-Komponente des WSL Ansichts-Modells, M_0,t = M_s,t, ist. Der Standard-EM-Algorithmus besteht dann aus einem Iterieren der Schritte, die in den Gleichungen (3)–(6) angegeben sind.
Dieser EM-Algorithmus erfordert, dass die Daten von vorherigen Zeitpunkten beibehalten werden, um o_s,t(d_k) zu berechnen, was für eine Online-Maßnahme unpraktisch ist. Anstelle davon wird eine Approximation auf Gleichungen (3)–(6) angewandt. Hierbei wird ein rekursiver Ausdruck für die exponentielle Unterstützung S_t(k) angewandt, um zu erhalten:
Um zu vermeiden, die vergangenen Daten beibehalten zu müssen, wird der momentane Besitz der vergangenen Daten durch den Besitz zu den Zeitpunkten, zu denen die Daten zuerst beobachtet wurden, approximiert. Das bedeutet, dass o_s,t(d_k) durch o_s,k(d_k) ersetzt wird, um die approximierten Momente zu erhalten
M ^j,t = αdjt os,t(dt) + (1 – α)M ^j,t-1 GLEICHUNG (8B)
Auch werden die Misch-Wahrscheinlichkeiten in derselben Art und Weise approximiert m ^i,t = αoi,t(dt) + (1 – α)m ^i,t-1 GLEICHUNG (9)für i ∊ {w, s, l}. Eine weitere Abweichung von diesen Gleichungen wird dazu verwendet, singuläre Situationen zu vermeiden; d.h. eine untere Nicht-Null-Grenze wird den Misch-Wahrscheinlichkeiten und σ_s,t auferlegt.
In dieser Approximation zu dem Batch EM in den Gleichungen (3)–(6), wie dies vorstehend erwähnt ist, werden die Daten-Inhaberschaften der vergangenen Beobachtungen nicht aktualisiert. Deshalb ist, wenn sich die Modell-Parameter schnell ändern, diese Online-Approximation schlecht. Allerdings tritt dies typischerweise dann auf, wenn die Daten nicht stabil sind, was gewöhnlich zu einer niedrigen Misch-Wahrscheinlichkeit und einer breiten Varianz für die S-Komponente in jedem Fall führt. Umgekehrt ist, wenn der Durchschnitt und die Varianz langsam driften, die Online-Approximation typischerweise sehr gut (siehe 4(A)).
Unter Vorgabe von plötzlichen Änderungen in der Ansicht, oder von instabilen Daten, verliert die S-Komponente oftmals die Nachführung des Durchschnitts, und ihr wird eine kleine Misch-Wahrscheinlichkeit gegeben (siehe 4(B), diskutiert nachfolgend). Demzufolge ist es notwendig, gelegentlich das Ansichts-Modell erneut zu starten. Hierbei wird das WSL Ansichts-Modell immer dann erneut gestartet, wenn die stabile Misch-Wahrscheinlichkeit m_s,t unterhalb eines festgelegten Schwellwerts fällt (z.B. 0,1). Dies wird durch einfaches, erneutes Einstellen der Werte aller Zustands-Variablen vorgenommen. In einer Ausführungsform sind die neuen Werte, verwendet für die Misch-Wahrscheinlichkeiten m_i,t, 0,4, 0,15 und 0,45 für i = w, s, l. Der kleine Wert für m_s,t gibt eine anfängliche Unsicherheit für die S-Komponente wieder. Die neuen Werte für die Momente M_j,t für j = 0, 1, 2 werden so herangezogen, dass sie m_s,t, d_tm_s,t und σ² _s,0m_s,t, jeweils, sind. Tatsächlich startet dies erneut die S-Komponente mit einem Durchschnitt, der durch die momentane Beobachtung d_t gegeben ist, und einer Varianz, die durch die Konstante σ² _s,0 gegeben ist. Hierbei wird σ_s,0 = σ_w/1,5 verwendet. Diese selben Werte werden für die Initialisierung des ersten Einzelbilds verwendet.
4(B) stellt den EM-Vorgang unter Bezugnahme auf das 1D Beispiel der 4(A) unter Verwendung einer Halbwertzeit n_s = 8 dar. Zu der Anfangsperiode, angezeigt in dem Bereich 405 (entsprechend zu einem Bereich 400) der 4(A), nimmt jede der W-, S- und L-Komponenten deren vorbestimmte Reset-Werte an. Zu Anfang erhöht sich die Misch-Wahrscheinlichkeit der W-Komponenten von den Reset-Werten, was einen proportional größeren Besitz der Daten anzeigt, bis die S-Komponente eine Vertraulichkeit erreicht, wie dies im Bereich 415 angezeigt ist (entsprechend zu dem Bereich 410 der 4(A)). Der Bereich 425 zeigt an, dass, während des Ausreißer-Bursts an dem Einzelbild 300 (entsprechend zu einem Bereich 420 der 4(A)), sich die Misch-Wahrscheinlichkeit der L-Komponenten erhöht, dann zurück abfällt, da die Stabilität zurückkehrt. Es ist anzumerken, dass die Okklusion unzureichend war, um einen Neustart zu veranlassen, und zwar aufgrund von Daten eines nicht verdeckten, stabilen Bilds (z.B. Bereich 310 in 3(B)). Der Bereich 435 stellt ein Ansprechen auf die Ansichts-Diskontinuität an dem Einzelbild 600 (entsprechend zu einem Bereich 430 der 4(A)) dar, wo die S-Komponente eine schlechte Vorhersage-Komponente für die Daten ist, und deren Misch-Wahrscheinlichkeit fällt schnell ab. Es ist anzumerken, dass, da die W-Komponente die Daten erläutern kann, sich deren Misch-Wahrscheinlichkeit erhöht. An einem Einzelbild 625 fällt die Misch-Wahrscheinlichkeit der S-Komponenten ausreichend niedrig ab, so dass der Vorgang erneut startet, wonach die S-Komponente zurück auf den wahren Zustand verriegelt.
Die 5 bis 9(B) stellen die Effekte von verschiedenen Datenänderungen in Bezug auf das WSL Ansichts-Modell der vorliegenden Erfindung unter Verwendung eines anderen, vereinfachten Beispiels dar. 5 zeigt sequenzielle Daten an, die die Helligkeit (Grauskala) eines ausgewählten Pixels während einer Zeitsequenz beschreiben, die sich zwischen Zeiten t₀ und t₁₆ erstrecken. Es ist anzumerken, dass die Periode zwischen jedem angezeigten Zeitpunkt gleichförmig sein kann oder nicht. Eine relativ stabile Anfangsstufe ist zwischen Zeiten t₀ und t₅ vorgesehen, während der dem Ansichts-Modell ermöglicht wird, sich zu stabilisieren, ähnlich zu demjenigen, was vorstehend unter Bezugnahme auf 3(A) beschrieben ist. Eine kurze Verdeckung wird zu der Zeit t₆, ähnlich zu der Verdeckung, die unter Bezugnahme auf 3(B) diskutiert ist, eingeführt, die durch eine relativ schnelle und signifikante, allerdings kurze, Änderung in den Bilddaten von einem ersten stabilen Wert (z.B. 12) zu einem zweiten stabilen Wert (z.B. 24), und dann zurück zu dem ersten stabilen Wert, charakterisiert ist. Eine graduelle Helligkeitsänderung wird zwischen den Zeiten t₇ und t₁₁ angezeigt, während denen sich die Periode der Bilddaten relativ langsam und über einen relativ kleinen Bereich ändert (z.B. von 12 auf 14). Schließlich wird eine Ansichts-Diskontinuität zu der Zeit t₁₂ angezeigt, die durch eine relativ schnelle, wesentliche und relativ permanente Änderung der Bilddaten von einem ersten stabilen Wert (z.B. 14) zu einem zweiten stabilen Wert (z.B. 24) charakterisiert ist.
6(A), 6(B) und 6(C) zeigen Grafiken, die Einstellungen in Bezug auf die S-Komponente, die W-Komponente und die L-Komponente während der anfänglichen, stabilen Zeitperiode zwischen den Zeiten t₀ und t₅, jeweils, anzeigen. Bei einem Reset (Zeit t₀) nehmen die Beitrag-Parameter (d.h. die Misch-Wahrscheinlichkeiten, die durch die vertikale Skala jeder Grafik angegeben sind) vorbestimmte Reset-Werte an. Diese Werte sind durch die vertikale Stelle jeder Komponenten zu der Zeit t₀ gezeigt. Zum Beispiel ist, wie 6(A) zeigt, die Komponente S(t₀) an dem unteren Bereich der Grafik angeordnet und ist zu dem Reset-Wert 0,15 ausgerichtet. Ähnlich sind, unter Bezugnahme auf die 6(B) und 6(C), Komponenten W(t₀) und L(t₀) zu Reset-Werten 0,4 und 0,45, jeweils, ausgerichtet. Es ist erneut anzumerken, dass diese Reset-Werte geändert werden können. Auf eine Zeit t₀ folgend erhöht sich, da die Daten stabil verbleiben, der Beitrag-Parameter für die S-Komponente graduell auf einen maximalen (Scheitel) Wert von 0,85 zu der Zeit t₅. Dieser maximale Wert wird nur zu Erläuterungszwecken ausgewählt. Zusätzlich erzeugt der konsistente Datenwert 12 über diese Zeitperiode einen stabilen Durchschnitts-Parameter μ_s, der auf 12 zentriert verbleibt, während sich die Standardabweichung verringert (gezeigt durch eine graduelle Verschmälerung des Balkens, der die Standardabweichungs-Parameter +σ_s und –σ_s separiert). Wie die 6(B) und 6(C) zeigen, treten, während die S-Komponente auf diesen maximalen Wert ansteigt, die W-Komponente und die L-Komponente für den verbleibenden Besitzbereich der Daten in Konkurrenz. In dem offenbarten Beispiel erhöht sich, da der Datenwert stabil verbleibt, der Beitragswert der W-Komponenten schneller als derjenige der L-Komponenten, die sich graduell verringert, da konsistente Datenwerte empfangen werden. Zu Anfang erhöht sich die W-Komponente von deren Reset-Wert zu einem maximalen Wert (angezeigt durch eine Komponente W(t₁)) und geht dann zu einem minimalen Wert zurück (z.B. 0,15), da das S-Modell eine Vertraulichkeit erhält und ihren maximalen Wert erreicht. Es ist anzumerken, dass, unter Annahme einer relativ langen, stabilen Periode, die L-Komponente zu einer sehr kleinen Zahl, allerdings niemals zu Null, zurückgeht.
Wie 7 zeigt, bewirkt eine kurze Verdeckung zu der Zeit t₁, die einen Sprung in einem Datenwert von 12 auf 24 anzeigte, eine Verringerung in den Beitrag-Parametern für sowohl die S-Komponente als auch die W-Komponente. Insbesondere werden, da der Datenwert (d.h. 24) außerhalb der Varianz für sowohl die S-Komponente als auch die W-Komponente liegt, die Daten als ein Ausreißer behandelt, und der Besitz des Datenwerts wird vorherrschend zu der L-Komponenten zugeordnet. Dementsprechend wird, wie auf der rechten Seite der 7 angegeben ist, die Komponente L(t₅) zu einem etwas größeren Beitrag-Parameter von, zum Beispiel, 0,35 zugeordnet. Dieser erhöhte Besitz durch die L-Komponente bewirkt eine Verringerung in den Beitrag-Parametern der S- und W-Komponenten, was durch S(t₅) und W(t₅), jeweils, angezeigt wird. In der offenbarten Ausführungsform wird, da der Datenwert zu der Zeit t₅ als ein Ausreißer angesehen wird, dieser nicht verwendet, um den Durchschnitt und die Varianz der S-Komponente erneut zu berechnen. Deshalb verbleibt der Durchschnittswert μ_s(t₅) auf dem Datenwert 12 zentriert und die Varianz wird nicht von demjenigen von S(t₄) geändert (siehe 6(A)). Nachdem die Verdeckung entfernt ist (Zeit t₆), und die stabilen Daten wieder erscheinen, erhält die S-Komponente wiederum eine Vertraulichkeit, und deren Beitrag-Parameter erhöht sich auf Kosten der L-Komponenten, bis deren maximaler Wert wieder erreicht ist (Zeit t₇). Es ist auch anzumerken, dass der Durchschnitt der W-Komponenten durch den vorherigen Datenwert bestimmt wird, so dass der Durchschnitt μ_w auch auf 12 zu der Zeit t₅ zentriert verbleibt, sich dann zu 24 zu der Zeit t₆ verschiebt und dann zu 12 zu der Zeit t₇ zurückkehrt.
Wie in 8 gezeigt ist, führt, im Gegensatz zu einer Verdeckung, die unter Bezugnahme auf 7 beschrieben ist, die nicht die Daten-Parameter der S-Komponenten ändert, eine graduelle Datenänderung zwischen den Zeiten t₆ und t₁₁ zu einer Migration des Durchschnittswerts der S-Komponenten und zu einer Erhöhung in der Standardabweichung. Das Beispiel, das in 8 dargestellt ist, nimmt an, dass der Beitrag-Parameter der S-Komponenten maximiert ist, so dass auch eine kleine Änderung in dem Datenwert die Vertraulichkeit des S-Modells verringern wird, was eine zugeordnete Verringerung in dem Beitrag-Parameter bewirkt. Falls der Beitrag-Parameter nicht maximiert ist, dann kann er sich sogar dann erhöhen, obwohl sich der neue Datenwert von dem zuvor berechneten Durchschnitt unterscheidet. In diesem Beispiel werden die Daten-Parameter (z.B. Durchschnitt und Standard-Abweichung) der S-Komponenten geändert, da die Bild datenänderung zwischen den Zeiten t₇ und t₈ (d.h. von 12 auf 13) so ausgewählt wird, dass sie innerhalb der Standardabweichung der S-Komponenten liegt. Dementsprechend wird die Bilddatenänderung nicht als ein Ausreißer behandelt, und wird bei der Berechnung eines neuen Durchschnittswerts μ_s(t₈) verwendet, der sich graduell von 12 zu 14 hin verschiebt. Es ist anzumerken, dass irgendeine Verringerung in dem Beitrag-Parameter der S-Komponenten durch eine Erhöhung in derjenigen der W-Komponenten, deren Durchschnitt auch mit den sich ändernden Datenwerten migriert, berücksichtigt wird. Manchmal kehrt, nachdem sich die Bilddaten erneut bei 14 stabilisieren (z.B. Zeit t₁₀), die Vertraulichkeit der S-Komponenten zurück, der Durchschnitt zentriert sich auf dem neuen, stabilen Wert, wie dies durch die Komponente S(t₁₁) angezeigt ist. Dementsprechend zeigt das Beispiel, dargestellt in 8, wie sich die S-Komponente eines Ansichts-Modells, erzeugt gemäß der vorliegenden Erfindung, langsam an sich ändernde Bilddaten anpasst, um dadurch die Nachführung von 3D Objekten zu erleichtern.
Die 9(A) und 9(B) zeigen ein Endbeispiel, in dem sich Bilddaten wesentlich von einem stabilen Wert (z.B. 14 zu der Zeit t₁₁) zu einem anderen stabilen Wert (z.B. 24 zu der Zeit t₁₂) ändern. Wie vorstehend erwähnt ist, und in 9(A) dargestellt ist, bewirkt ein plötzliches Auftreten einer relativ großen Bilddatenänderung eine Verringerung in den Beitrag-Parametern der W- und S-Komponenten und einen Sprung in dem Beitrag der L-Komponenten. Es ist wiederum anzumerken, dass der neue Messwert nicht in der Berechnung der Daten-Parameter (Durchschnitt und Varianz) für die S-Komponente umfasst ist. Da sich der Datenwert bei 24 stabilisiert, fährt der Beitrag-Parameter der S-Komponenten fort, abzufallen, und die W-Komponente beginnt damit, sich zu erhöhen (die L-Komponente verringert sich). Letztendlich fällt der Beitrag-Parameter der S-Komponenten unterhalb eines vorbestimmten Reset-Werts ab (siehe Schritt 245, 2), um dadurch einen Neustart zu der Zeit t₁₅ zu bewirken, was in 9(B) dargestellt ist. Es ist anzumerken, dass, bei dem Neustart, der Durchschnittswert μ_s(t₁₆) über einen am kürzesten vorher liegenden Datenwert (d.h. 24) zentriert ist. Darauf folgend ist der Wiederaufbau des Ansichts-Modells im Wesentlichen identisch zu demjenigen, der vorstehend unter Bezugnahme auf die 6(A), 6(B) und 6(C) beschrieben ist.
Es ist anzumerken, dass, nachdem die verschiedenen Parameter-Ansprechverhalten des WSL Ansichts-Modells unter Bezugnahme auf einen einzelnen Datenwert beschrieben worden sind, nun eine Abweichung der Komponenten, verwendet dazu, das WSL Ansichts-Modell in dem Nachführungssystem 110 (siehe 1) auszuführen, beschrieben wird. Insbesondere wird, wie nachfolgend angegeben ist, die Filterung/Verarbeitung, durchgeführt durch das Filter/den Prozessor 150, unter Verwendung von lenkbaren Pyramiden ausgeführt, wie dies nachfolgend beschrieben ist. Zusätzlich werden die Bewegungsabschätzung und die Bild-Verzerrungs-Funktionen, durchgeführt durch die Bewegungs-Abschätzeinrichtung 160, und das Bild-Verzerrungs-Tool 170, diskutiert.
Dabei sind viele Eigenschaften einer Bildansicht vorhanden, die als Datenfolgen verwendet werden könnten, von denen man Ansichts-Modelle für ein Nachführen und eine Objektsuche lernen könnte. Beispiele umfassen lokale Farbstatistiken, Mehrfachstufen-Filter-Ansprechverhalten und lokalisierte Kanten-Fragmente. In dieser Arbeit werden die Datenfolgen, abgeleitet von den Ansprechverhalten einer lenkbaren Filter-Pyramide, angewandt (d.h. basierend auf den G₂ und H₂ Filtern; siehe W. Freeman und E. H. Adelson, „The Design and Use of Steerable Filters", IEEE Transactions on Pattern Analysis and Machine Intelligence, 13: 891–906, 1991). Lenkbare Pyramiden liefern eine Beschreibung des Bilds unter unterschiedlichen Maßstäben und Orientierungen, die für eine grob-zu-fein Differenzial-Bewegungsabschätzung und zum Isolieren einer Stabilität unter unterschiedlichen Maßstäben und unter unterschiedlichen räumlichen Orten, und unterschiedlichen Bildorientierungen nützlich ist. Hierbei werden G₂ und H₂ Filter unter zwei Maßstäben, abgestimmt auf Wellenlängen von acht und sechzehn Pixeln (unterabgetastet mit Faktoren von zwei und vier), mit vier Orientierungen bei jedem Maßstab, verwendet.
Aus den Filterausgängen wählen die vorliegenden Erfinder aus, um eine Darstellung der Phasenstruktur als das Ansichts-Modell beizubehalten. Dies liefert einen natürlichen Grad einer Amplituden- und Beleuchtungsunabhängigkeit und liefert die Wiedergabetreue für eine akkurate Bildausrichtung, unterstützt durch auf einer Phase basierenden Verfahren (siehe, zum Beispiel, D. J. Fleet und A. D. Jepson, „Stability of Phase Information", IEEE Transactions on PAMI, 15 (12): 1253–1268, 1993). Phasen-Ansprechverhalten, die kleinen Filter-Amplituden zugeordnet sind, oder solche, die als instabil behandelt sind, und zwar entsprechend den Techniken, die in dem vorstehend angegebenen Papier beschrieben sind, wurden als Ausreißer behandelt. Bei dem, was folgt, unter Vorgabe einer Bild-Pyramide und eines Zielbereichs N_t, wird angenommen, dass d_t = {d(x, t)} x ∊ N_t den Satz von Phasenbeobachtungen von allen Filtern zu der Zeit t in dem Bereich bezeichnet. Es wird angenommen, dass A_t = {m(x, t), q(x, t)} x ∊ N_t das gesamte Ansichts-Modell der Phase bei jeder Orientierung, bei jedem Maßstab und an jedem räumlichen Ort in N_t bezeichnen. Die Halbwertzeit der exponentiellen, temporären Unterstützung, S_t(k), wurde auf n_s = 20 Einzelbilder eingestellt. Die anderen Parameter der Online-EM-Abschätzeinrichtung sind: 1) die Ausreißer-Wahrscheinlichkeit, die gleichförmig an [–π; π] ist; 2) die Standardabweichung der W-Komponenten an den Phasendifferenzen, die so herangezogen wird, dass sie durchschnittlich Null einer Gauss'schen Verteilung mit σ_w = 0,35π ist; und 3) die minimale Standardabweichung der S-Komponenten, σ_s,0 = 0,1π. Diese letzteren Parameter sind zu der Benutzung der Phase spezifisch.
Die vorliegenden Erfinder werden nun das Verhalten des adaptiven, auf einer Phase basierenden Ansichts-Modells in dem Zusammenhang eines Nachführens von nicht festen Objekten demonstrieren. Für diese Demonstration wird ein elliptischer Bereich N_o zu der Zeit 0 manuell spezifiziert. Der Nachführungs-Algorithmus schätzt dann die Bildbewegung und das Ansichts-Modell ab, wenn er die dominante Bildstruktur in N_t über die Zeit nachführt.
Die Bewegung wird in Termen von parametrisierten Bild-Verzerrungen Einzelbild-zu-Einzelbild dargestellt. Insbesondere entspricht, unter Vorgabe der Verzerrungs-Parameter c_t, ein Pixel x an einem Einzelbild t-1 der Bildstelle x_t = w(x; c_t) zu der Zeit t, wobei w(x; c_t) die Verzerrungsfunktion ist. Ähnliche Transformationen werden hier verwendet, so dass c_t = (μ_t, θ_t, ρ_t) einen 4-Vektor beschreibende Translations-, Rotations- und Maßstabs-Anderungen, jeweils, sind. Translationen werden in Pixeln, Rotationen in Radian spezifiziert, und der Maßstab-Parameter bezeichnet einen multiplikativen Faktor, so dass η ‿ ≡ (0,0,0,1) die Identitäts-Verzerrung ist. Anhand einer Nachführung wird die Ziel-Nachbarschaft nach vorwärts an jedem Einzelbild durch die Bewegungs-Parameter konvektiert (d.h. verzerrt). Das bedeutet, dass, unter Vorgabe des Parameter-Vektors c_t, N_t, gerade der elliptische Bereich, geliefert durch eine Verzerrung N_t-1 mit w(x; c_t), ist. Andere, parametrisierte Bild-Verzerrungen und andere, parametrisierte Bereich-Darstellungen könnten auch verwendet werden (z.B. siehe F. G. Meyer und P. Bouthemy, „Region-Based Tracking Using Affine Motion Models in Long Image Sequences", CVGIP: Image Understanding, 60 (2): 119–140, 1994). Um eine optimale Verzerrung zu finden, wird die Summe der Daten-Log-Wahrscheinlichkeit und ein Log zuvor (lokal) maximiert, um eine Präferenz bereitzustellen, um eine Präferenz für Verlangsamungs- und Glättungs-Bewegungen be reitzustellen. In Termen der Bewegungs- und Ansichts-Modelle, die vorstehend angegeben sind, kann die Daten-Log-Wahrscheinlichkeit ausgedrückt werden als
wobei, für eine erleichterte Schreibweise, Daten von dem vorherigen Einzelbild mit D_t-1 ≡ {d_x,t-1}x ∊ N_t-1 bezeichnet sind, wobei ein individueller Messwert d_x,t-1 ≡ d(x, t-1) ist. Ähnlich werden die momentanen Daten, zurück zu dem vorherigen Einzelbild der Referenz verzerrt, mit d^d^_x,t ≡ d(w(x; c_t), t) bezeichnet und schließlich definieren die Erfinder A_x,t-1 ≡ (m_x,t-1, q_x,t-1). Intuitiv kann diese Log-Wahrscheinlichkeit wie folgt verstanden werden: Daten an dem momentanen Einzelbild t werden zurück zu den Koordinaten des Einzelbilds t-1 entsprechend zu den Parametern c_t verzerrt. Die Log-Wahrscheinlichkeit dieser verzerrten Daten {d^d^_x,t}x ∊ N_t-1 werden dann in Bezug auf das Ansichts-Modell A_t-1 in dem Einzelbild der Referenz des Zielbereichs N_t-1 in dem vorherigen Einzelbild berechnet.
A davor wird hauptsächlich dazu eingeführt, Verdeckungen zu erfassen, und um das Vorhandensein der stabilen Komponenten S auszudrücken. Die Erfinder ziehen die vorherige Dichte gegenüber den Bewegungs-Parametern c_t = (μ_t, θ_t, ρ_t), konditioniert auf die Bewegung zu der Zeit t-1, c_t-1, heran, so dass es ein Produkt von zwei 4D-Gauss'schen Anteilen ist: p(ct|ct-1) = G(ct; η →, V1)G(ct; ct-1, V2) GLEICHUNG(11)
Der erste Gauss'sche Faktor bevorzugt langsame Bewegungen, mit seinem Durchschnitt gleich zu der Identitäts-Verzerrung η ‿, und wobei dessen Kovarianz durch V₁ ≡ diag(8², 8², 0,05², 0,01²) gegeben ist. Der zweite Gauss'sche Faktor bevorzugt langsame Änderungen in der Bewegung, mit V₂ ≡ diag(1,1,0,02², 0,01²).
Um c_t abzuschätzen, wird die Summe der Log-Wahrscheinlichkeit und dem Log davor, der gegeben ist, maximiert durch E(ct) = L(Dt|At-1; Dt-1, ct) + logp(ct|ct-1) GLEICHUNG (12)
Um E(c_t) zu maximieren, wird eine direkte Variante des Erwartungs-Maximierungs-(EM)-Algorithmus verwendet, wie dies durch A. Jepson und M. J. Black in „Mixture Models for Optical Flow Computation", In Proc. IEEE Computer Vision and Pattern Recognition, CVPR-93, Seiten 760–761, New York, Juni 1993, beschrieben ist. Dies ist ein iterativer, grob-zu-fein Algorithmus, wobei ein Annealing dazu verwendet wird, das Verfahren zu kontrollieren, das in lokalen Minima eingefangen wird. Kurz gesagt bestimmt der E-Schritt die Besitzwahrscheinlichkeiten für die nach unten verzerrten Daten D ^_t, wie in Gleichung (3) vorstehend. Der M-Schritt verwendet diese Inhaberschaften, um ein lineares System für die Aktualisierung zu c_t zu bilden. Diese Komponenten des linearen Systems werden aus Bewegungsbeschränkungen, gewichtet durch die Besitzwahrscheinlichkeiten für den W- und den S-Prozess, erhalten.
Die Abweichung des EM-Algorithmus hier beginnt mit der Tatsache, dass Extrema von E(c_t) erfüllen:
Mit den verzerrten Daten, bezeichnet durch d ^_x,t ≡ d(w(x, c_t), t), wie in Gleichung (10), ist die Ableitung der Log-Wahrscheinlichkeit:
Unter Ausnutzen der Identität,
und Erweitern der Wahrscheinlichkeitsfunktion entsprechend zu Gleichung (1), wird Gleichung (14) vereinfacht wie folgt:
Schließlich wird, unter Definieren der Besitzwahrscheinlichkeiten als
der Ausdruck für den Gradienten der Log-Wahrscheinlichkeit vereinfacht zu
Ein Kombinieren von Gleichung (16) mit der Ableitung der Log zuvor, die direkt zu der Ableitung von Gleichung (11) ist, führt zu der Form des Gradienten der objektiven Funktion:
Der EM-Algorithmus ist ein iteratives Verfahren zum Maximieren von E(c_t). In dem E-Schritt werden, unter Vorgabe einer momentane Abschätzung für die Bewegungs-Parameter, c_t, die Besitzwahrscheinlichkeiten, o_w(d ^_x,t) und o_s(d ^_x,t), mit den Bewegungs-Parametern fixiert gehalten, berechnet. In dem darauf folgenden M-Schritt wird eine Aktualisierung zu den Bewegungs-Parametern, δc, durch Maximieren der objektiven Funktion, mit den Besitzwahrscheinlichkeiten fixiert gehalten, abgeschätzt.
Hierbei werden die M-Gleichungen nicht direkt gelöst. Anstelle davon wird, ähnlich zu der Art und Weise, in der der optische Fluss oftmals mit auf einem Gradienten basierenden Beschränkungen abgeschätzt wird, eine approximierte, objektive Funktion maximiert. Die approximierte Funktion, E ~(δc; c_t) wird durch Linearisieren der momentanen Beobachtungen über die Anfangsabschätzung, c_t, für die Bewegungs-Parameter erhalten. Insbesondere wird d(w(x; c_t), t) durch die Taylor-Reihen erster Ordnung, genommen um c_t, approximiert. Formeller gilt d(w(x; ct + δc), t) ≈ d(w(x; ct), t) + ∇d(w(x; ct), t)Wδc GLEICHUNG (18)wobei ∇d(x, t) ≡ (d_x(x, t)d_y(x, t)) die räumlichen Teilabweichungen der Datenbeobachtungen bezeichnet, und wobei W = δw/δc_t die 2 × 4 Jacobische Angabe der Verzerrungsliste bei c_t bezeichnet. Durch Substituieren dieser Approximation gegen d(w(x; c_t + δc), t) in die objektive Funktion wird die nachfolgende Form für die stabile Komponente der Ansichts-Modelle erhalten:
wobei δd_s ≡ d(w(x; c_t), t) – μ_s,t, q = (μ_s,t, σ_s,t) der Durchschnitt und die Standardabweichung der S-Ansichts-Modell-Komponenten ist, ∇d = ∇d(w(x; c_t), t) gilt und k_s eine Konstante ist, die von c_t unabhängig ist. Ähnlich gilt, für die W-Komponente des Ansichts-Modells
wobei δd_w ≡ d(w(x; c_t), t) – d(x, t-1) – d(w(x, t-1) und k_w eine Konstante ist, die von c_t unabhängig ist. Mit diesen Linearisierungen ist die approximierte, objektive Funktion dann gegeben durch
wobei k eine Konstante, unabhängig von c_t, ist. Da die approximierte, objektive Funktion in der Aktualisierung quadratisch ist, δc, ergibt deren Ableitung ein lineares System für δc:
Alternativ können die sich ergebenden, linearen Gleichungen für die Aktualisierung von δc geschrieben werden als (As + ∊ Aw + Ap)δc = bs + ∊ bw + bp GLEICHUNG (23)wobei jedes A_i eine 4 × 4 Matrix ist und jedes b_i ein 4-Vektor ist, für i = w, s, p:
Jede lineare Gleichung in diesem System ist aus einer unterschiedlichen Bewegungsbedingung gebildet, gewichtet mit den Besitzwahrscheinlichkeiten für die W- und S-Komponenten, jeweils. In Gleichung (23) ist ε ein Gewichtungsfaktor für die W-Komponenten-Bedingungen. Ein mathematisch geeigneter M-Schritt zum Maximieren der geeigneten, objektiven Funktionen von Gleichung (21) würde die Gewichtung ε = 1 ergeben. Die Erfinder haben als nützlich herausgefunden, die Bedingungen, die zu der W-Komponenten gehören, nach unten um einen Faktor von ε = 1/n_s zu gewichten, wobei n_s die Halbwertzeit des exponentiellen, temporären Fensters, verwendet in dem Ansichts-Modell, ist. Zusätzlich wird das Verfahren, beschrieben von D. J. Fleet und A. D. Jepson, „Stability of Phase Information" (zitiert vorstehend), dazu verwendet, lokale Phasen-Instabilitäten zu erfassen, die mit Bandpass-Signalen auftreten. Immer wenn eine lokale Phasenbeobachtung, d_x,t, als instabil betrachtet wird, sind die entsprechenden Gradienten-Bedingungen nicht definiert und nicht in Gleichung (23) enthalten. Wenn eine instabile Beobachtung zu einer Zeit t-1 zu einer guten Beobachtung zu einer Zeit t unter der momentanen Verzerrung auflistet, dann ist die Wahrscheinlichkeit ρ_w(d ^_x,t, d ^_x,t-1) nicht definiert. Anstelle davon wird ρ_w = 0,05 verwendet, wenn die vorherige Beobachtung als instabil angesehen wurde. Auch werden die entsprechenden W-Komponenten-Bedingungen von dem linearen System durch Einstellen von ε auf 0 in diesen Fällen entfernt.
In der Praxis ist es, um dabei zu helfen, zu vermeiden, dass an lokalen Minima hängengeblieben wird, nützlich, den EM-Algorithmus mit einer grob-zu-fein Strategie und einem deterministischen Annealing beim Anpassen der Bewegungs-Parameter anzuwenden (z.B. siehe, zum Beispiel, A. Jepson und M. J. Black, „Mixture Models for Optical Flow Computation", Proc. IEEE Computer Vision and Pattern Recognition, CVPR-93, Seiten 760–761, New York, Juni 1993). Die anfängliche Abschätzung für die Verzerrungs-Parameter basiert auf einem konstanten Geschwindigkeitsmodell, so dass die anfängliche Abschätzung einfach gleich zu den abgeschätzten Verzerrungs-Parametern gegenüber dem vorherigen Einzelbild ist. Anhand eines Annealing werden, anstelle einer Verwendung der Varianzen σ² _s,t und σ² _w beim Berechnen der Besitzherrschaften und der Gradienten der Gleichung (22) für die S- und W-Komponenten, die Parameter σ_s und σ_w verwendet. Bei jeder Iteration des EM-Algorithmus werden diese Werten verringert entsprechend zu σs ← min(0,95σs, σ ^s) σw ← min(0,95σw, σ ^w) GLEICHUNG (24)wobei σ_s und σ_w die maximalen Wahrscheinlichkeits-Varianz-Abschätzungen der S-Komponenten- und der W-Komponenten-Phasen-Differenzen, über der gesamten Nachbarschaft, sind, N_t, unter Vorgabe der Bewegungs-Abschätzung, erhalten in der momentanen EM-Iteration. Wenn einmal die Varianten einen minimalen Wert erreichen, wird das Annealing abgeschaltet und es wird ermöglicht, dass sie entsprechend den momentanen Bewegungs-Parametern fluktuieren. Weiterhin werden, wenn sich die Varianz der S-Komponenten entsprechend der räumlichen Anordnung der Datenbeobachtungen bei jeder EM-Iteration verringert, die Varianzen, verwendet für jede individuelle Beobachtung beim Berechnen von Besitzherrschaften und Wahrscheinlichkeitsgradienten, niemals so zugelassen, dass sie niedriger als die entsprechende Varianz von σ² _s,t sind.
Schließlich wird, wenn einmal die Verzerrungs-Parameter c_t bestimmt worden sind, das Ansichts-Modell A_s-1 nach vorne zu der momentanen Zeit t, unter Verwendung der Verzerrung, spezifiziert durch c_t, konvektiert (verzerrt). Um diese Verzerrung vorzunehmen, wird eine stückweise, konstante Interpolation für die WSL-Zustands-Variablen m(x, t-1) und σ_x(x, t-1) verwendet. In Bezug auf diese Interpolation wurde erwartet, dass sie zu grob ist, um sie für die Interpolation des Durchschnitts μ(x,t-1) für den stabilen Prozess zu verwenden, so dass anstelle davon der Durchschnitt unter Verwendung eines stückweisen, linearen Modells interpoliert wird. Der räumliche Phasen-Gradient für diese Interpolation wird von dem Gradienten der Filter-Ansprechverhalten an dem nächsten Pixel zu der erwünschten Stelle x auf der Bild-Pyramide, die das Gitter abtastet, bestimmt (siehe D. J. Fleet, A. D. Jepson und M. Jenkin, „Phase-Based Disparity Measurement", Computer Vision and Image Understanding, 53 (2): 198–210, 1991).
Ein Nachführungssystem, das das WSL Ansichts-Modell in der Art und Weise verwendet, die vorstehend angegeben ist, wurde durch die Erfinder unter Verwendung einer SUN Workstation, die auf einem Unix Betriebssystem läuft, und die in der C Programmiersprache geschrieben ist, die eine oder mehrere MatlabPyrTools und MatLab Software Toolboxes einsetzt, ausgeführt. Verschiedene Beispiele, die die Funktionsweise dieses umgesetzten Nachführungssystems beschreiben, sind nachfolgend beschrieben.
Die 10(A) bis 10(C) stellen Bilder dar, die von einer Sequenz herangezogen sind, während der ein Untersatz, der in einer ersten Richtung läuft (d.h. von links nach rechts in dem Bild-Einzelbild, 10(A)), sich zu der Kamera hin wendet (10(B)) und dann in der entgegengesetzten Richtung läuft (d.h. von rechts nach links, 10(C)). Dieses Beispiel stellt die Fähigkeit der S-Komponenten dar, um sich an graduelle Deformationen, verursacht durch eine Drehung eines 3D-Ziel-Objekts (z.B. der Kopf des Subjekts), anzupassen. In den 10(A) bis 10(C) zeigt das erhellte Oval einen manuell ausgewählten Objektbereich, ausgewählt in dem ersten Frame, an. Dieses Oval bleibt auf dem Kopf des Subjekts fixiert, während der Abbiegevorgang für ein erfolgreiches Nachführen kennzeichnend ist.
Wie in den 11(A) bis 13(B) gezeigt ist, wird der Erfolg des Nachführungssystems stark durch die Fähigkeit der S-Komponenten beeinflusst, eine stabile Bildstruktur während des Abbiegens des Subjekts hinweg zu identifizieren. 11(A) und 11(B) zeigen die Misch-Wahrscheinlichkeit und den Durchschnittswert, jeweils, für die Mehrfach-Datenfolgen, erzeugt durch das Bild-Einzelbild der 10(A), an. Dunkle Bereiche der 11(A) zeigen dicht gepackte Bereiche von Werten mit einer relativ hohen Misch-Wahrscheinlichkeit an (bezeichnend eine stabile Struktur), während hellere Bereiche niedrige Misch-Wahrscheinlichkeitswerte anzeigen (bezeichnend eine instabile Struktur). Wie in den Bereichen 1110 und 1120 angezeigt ist, wird eine hoch stabile Struktur in den Bereichen eines hohen Kontrasts, zugeordnet zu den Augen und Ohren, jeweils, des Subjekts, identifiziert. Die 12(A) und 12(B) zeigen Änderungen in Bezug auf die Misch-Wahrscheinlichkeit und die Durchschnittswerte, wenn das Subjekt abbiegt (dargestellt in 10(B)). Es ist anzumerken, dass die Misch-Wahrscheinlichkeiten in dem Augenbereich 1210 und dem Ohrbereich 1220 relativ hoch verbleiben, was anzeigt, dass die stabilen Bilddaten in diesen Bereichen beibehalten werden. Schließlich zeigen die 13(A) und 13(B) Änderungen in der Misch-Wahrscheinlichkeit und den Durchschnittswerten an, nachdem das Abbiegen des Subjekts abgeschlossen ist (dargestellt in 10(B)). Es ist anzumerken, dass, obwohl stark verringert in der Zahl, ausreichende, stabile Daten von dem Augenbereich 1310 und dem Ohrbereich 1320 erhalten werden, um eine erfolgreiche Nachführung zu erleichtern.
Die 14(A) und 14(B) zeigen zusammengesetzte Bilder, die die Stabilität der Verbindungsabschätzung einer Bewegung und einer Ansicht des Nachführungssystems darstellen, ungeachtet von wesentlichen Änderungen in der Größe und in den Beleuchtungsbedingungen. Eine noch größere Herausforderung für das momentane Verfahren sind (zu Zeiten) kleine Zielbereiche und die kleine Separation der Objektbewegung von der Hintergrundbewegung (ungefähr ein Pixel pro Einzelbild). Auch wird grob die Hälfte des Zielbereichs durch die Büsche manchmal verdeckt. Die Kamera war während des Filmens stationär, und die Sequenzen sind jeweils grob 250 Einzelbilder. Die zwei Abläufe, gezeigt in den 14(A) und 14(B), stellen den erhellten Zielbereich für ausgewählte Einzelbilder, überlagert auf dem letzten Einzelbild, dar.
Die 15(A) bis 18(D) stellen das Verhalten des Nachführungssystems auf eine Teilverdeckung hin dar. Die 15(A), 16(A), 17(A) und 18(A) zeigen ausgewählte Bild-Einzelbilder von der Sequenz, während der sich das Subjekt von einem nicht verdeckten Anfangszustand (15(A)) zu einer Teilverdeckung durch ein Signal (16(A) und 17(A)) bewegt, und schließlich hinter dem Signal wieder hervortritt (18(A)). Die 15(B)–18(B) drucken die Misch-Wahrscheinlichkeit m_s(x, t), aus, die 15(C)–18(C) drucken den Durchschnitt μ_s(x, t) aus und die 15(D)–18(D) drucken den Besitz o_s,t(x, t) für die S-Komponente aus.
Die 15(A)–15(D) stellen eine Verarbeitung nach ungefähr 70 Einzelbildern dar. Die wesentlichen Ansprechverhalten für m_s,t und o_s,t (15(B) und 15(D)) demonstrieren, dass das Ansichts-Modell erfolgreich eine stabile Struktur, typischerweise innerhalb der Objektgrenze, identifizierte. In den 16(A)–16(D) und 17(A)–17(D), wo der Gegenstand durch das Signal verdeckt ist, ist festzustellen, dass sich m_s(x, t) sanft in dem verdeckten Bereich aufgrund des Vorhandenseins einer Datenunterstützung absenkt, während der Durchschnitt μ_s(x, t) grob festgelegt verbleibt, bis m_s unterhalb des ausdruckenden Schwellwerts fällt. Dies zeigt deutlich die Gültigkeit des Ansichts-Modells. Die 17(A)–17(D) zeigen das Subjekt und das Ansichts-Modell nach grob 20 Einzelbildern einer Verdeckung (es wird daran erinnert, dass die Halbwertzeit des Modells n_s = 20 ist), wobei zu dieser Zeit die schwächeren Datenpunkte in der S-Komponente verschwunden sind. Allerdings fährt das Modell fort, durch dieses Verdeckungs-Ereignis nachzufahren, und behält das stabile Modell an dem sichtbaren Bereich des Subjekts bei (z.B. Bereich 1710; 17(D)). In 18(A)–18(D) baut, wenn die Person hinter der Verdeckung hervortritt, das Ansichts-Modell das verschwundene, stabile Modell wieder auf.
Die 19(A)–22(B) stellen die Fähigkeit des WSL Ansichts-Modells dar, um stabile Eigenschaften in Bildern von nicht-festen bzw. steifen (z.B. natürlichen) Objekten nachzuführen und zu identifizieren, wie beispielsweise die Änderung eines Ausdrucks, dargestellt in der Reihe von Bildern, dargestellt in den 19(A)–19(C). Wie in den Beispielen vorstehend zeigen die 20(A), 21(A) und 22(A) Misch-Wahrscheinlichkeiten der S-Komponenten, und die 20(A), 21(A) und 22(A) stellen jeweilige Durchschnittswerte dar. Anhand der 20(A) ist festzustellen, dass der Mundbereich 2010 zu Anfang als relativ stabil identifiziert ist. In 21(A) wird, unmittelbar nachdem das Subjekt lacht, die Stabilität in dem Mundbereich 2110 wesentlich geschwächt (angezeigt durch die hellere Schattierung). Wie in 22(A) dargestellt ist, wird, wenn einmal der neue Ausdruck für ungefähr 20 Einzelbilder gehalten worden ist, die Stabilität in dem Mundbereich 2210 erneut eingerichtet. Andere Teile des Gesichts, wie beispielsweise die Augenbrauen, zeigen ein ähnliches Verhalten. Umgekehrt fahren die Werte von m_s, nahe dem Haaransatz und auf der Nase, fort, sich durch diese Ereignisse zu erhöhen, was anzeigt, dass sie übereinstimmend stabil sind, und insgesamt wird der Kopf genau nachgeführt.

Claims

Verfahren zum Erzeugen eines Ansichts-Modells (120) unter Verwendung von Bilddaten, bereitgestellt in einer Vielzahl von sequenziellen Bild-Einzelbildern, wobei das Ansichts-Modell (120) eine stabile Komponente (130) und eine Übergangs-Komponente (140) umfasst, wobei das Verfahren einen Bild-Messwert entsprechend zu einem momentanen Bild-Einzelbild der Vielzahl der sequenziellen Bild-Einzelbilder aufnimmt; dadurch gekennzeichnet, dass die stabile Komponente (130) einen ersten Daten-Parameter (134), definiert durch Bilddaten, bereitgestellt in einer ersten Anzahl der sequenziellen Bild-Einzelbilder, und eine erste Mischwahrscheinlichkeit (132) aufweist; und die Übergangs-Komponente (140) einen zweiten Daten-Parameter (144), definiert durch Bilddaten, bereitgestellt durch eine zweite Anzahl der sequenziellen Bild-Einzelbilder, wobei die zweite Anzahl kleiner als die erste Anzahl ist, und eine zweite Mischwahrscheinlichkeit (142) aufweist; wobei das Verfahren weiterhin die Schritte aufweist: Bestimmen eines ersten Wahrscheinlichkeitswerts für die stabile Komponente (130) und eines zweiten Wahrscheinlichkeitswerts für die Übergangs-Komponente (140), wobei der erste Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem ersten Daten-Parameter (134) anzeigt und der zweite Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem zweiten Daten-Parameter (144) anzeigt; und Aktualisieren der ersten Mischwahrscheinlichkeit (132) der stabilen Komponente und der zweiten Mischwahrscheinlichkeit (142) der Übergangs-Komponente unter Verwendung des ersten und des zweiten Wahrscheinlichkeitswerts jeweils.
Vorrichtung zum Erzeugen eines Ansichts-Modells (120) unter Verwendung von Bilddaten, bereitgestellt in einer Vielzahl von sequenziellen Bild-Einzelbildern, wobei das Ansichts-Modell (120) eine stabile Komponente (130) und eine Übergangs-Komponente (140) umfasst, und die Vorrichtung einen Bild-Messwert entsprechend zu einem momentanen Bild-Einzelbild der Vielzahl der sequenziellen Bild-Einzelbilder aufnimmt; dadurch gekennzeichnet, dass die stabile Komponente (130) einen ersten Daten-Parameter (134), definiert durch Bilddaten, bereitgestellt in einer ersten Anzahl der sequenziellen Bild-Einzelbilder, und eine erste Mischwahrscheinlichkeit (132) aufweist; und die Übergangs-Komponente (140) einen zweiten Daten-Parameter (144), definiert durch Bilddaten, bereitgestellt durch eine zweite Anzahl der sequenziellen Bild-Einzelbilder, wobei die zweite Anzahl kleiner als die erste Anzahl ist, und eine zweite Mischwahrscheinlichkeit (142) aufweist; wobei die Vorrichtung weiterhin aufweist: eine Analysiereinrichtung zum Bestimmen eines ersten Wahrscheinlichkeitswerts für die stabile Komponente (130) und eines zweiten Wahrscheinlichkeitswerts für die Übergangs-Komponente (140), wobei der erste Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem ersten Daten-Parameter (134) anzeigt und der zweite Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem zweiten Daten-Parameter (144) anzeigt; und eine eine Mischwahrscheinlichkeit aktualisierende Einrichtung zum Aktualisieren der ersten Mischwahrscheinlichkeit (132) der stabilen Komponente und der zweiten Mischwahrscheinlichkeit (142) der Übergangs-Komponente unter Verwendung des ersten und des zweiten Wahrscheinlichkeitswerts jeweils.