DE60209989T2 - Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung - Google Patents

Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung Download PDF

Info

Publication number
DE60209989T2
DE60209989T2 DE60209989T DE60209989T DE60209989T2 DE 60209989 T2 DE60209989 T2 DE 60209989T2 DE 60209989 T DE60209989 T DE 60209989T DE 60209989 T DE60209989 T DE 60209989T DE 60209989 T2 DE60209989 T2 DE 60209989T2
Authority
DE
Germany
Prior art keywords
component
image
data
stable
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60209989T
Other languages
English (en)
Other versions
DE60209989D1 (de
Inventor
Allan D. Oakville Jepson
David J. Menlo Park Fleet
Thomas F. Toronto El-Maraghi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Application granted granted Critical
Publication of DE60209989D1 publication Critical patent/DE60209989D1/de
Publication of DE60209989T2 publication Critical patent/DE60209989T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung bezieht sich allgemein auf eine auf einem Prozessor basierende Technik zum Erzeugen und Aktualisieren eines Ansichts-Modells, und, insbesondere, auf ein Verfahren zum Erzeugen eines Ansichts-Modells unter Verwendung von Mehrfach-Modell-Komponenten.
  • Automatisierte, visuelle Nachführungssysteme werden oftmals dazu verwendet, ein Sollbild, das in einer Reihe von Bild-Einzelbildern erscheint, nachzuführen. Allgemein bestimmt, wenn einmal ein Ziel-Objekt identifiziert ist, das Nachführungssystem die Position des Ziel-Objekts in jedem darauf folgenden Bild-Einzelbild durch Unterscheiden des Ziel-Objekts von einem Hintergrund und anderen Nicht-Soll-Bilddaten. Solche Nachführungssysteme verwenden oftmals einen Bewegungs-Abschätzungs-Algorithmus, um eine Bewegung der Position des Ziel-Objekts in einem neuen (momentanen) Bild-Einzelbild durch Analysieren von Bewegungsmustern des Ziel-Objekts in zwei oder mehr Bild-Einzelbildern, die dem neuen Einzelbild vorhergehen, vorherzusagen.
  • Obwohl nicht immer beschrieben, führen herkömmliche Bewegungs-Abschätzungs- und Nachführungssysteme eine bestimmte Form eines Ansichts-Modells aus, das dazu verwendet wird, das Ziel-Objekt in jedem Bild-Einzelbild zu identifizieren. Allgemein ist das Ansichts-Modell eine Beschreibung des Ziel-Objekts, das durch das Bewegungs-Abschätzungs/Nachführungssystem verwendet werden kann, um das Ziel-Objekt von Nicht-Soll-Bilddaten, die das Ziel-Objekt in jedem Bild-Einzelbild umgeben, zu unterscheiden. Wenn das Ziel-Objekt seinen Ort ändert, identifiziert das Bewegungs-Abschätzungs/Nachführungssystem jede neue Stelle durch Identifizieren eines Bereichs des neuen Einzelbilds, das die zuvor eingerichtete Beschreibung, bereitgestellt durch das Ansichts-Modell, erfüllt.
  • Einer der Hauptfaktoren, der die Funktionsweise von Bewegungs-Abschätzungs- und Nachführungssystemen begrenzt, ist das Fehlverhalten des Ansichtsmodells, Änderungen der Ziel-Objekt-Ansicht anzupassen. Das Bild, befördert durch ein dreidimensio nales (3D) Ziel-Objekt, angeordnet in einem 3D-Raum auf einem zweidimensionalen Bild-Einzelbild, wird typischerweise Bilddeformationen, verursacht durch eine relative Verschiebung zwischen dem Ziel-Objekt und der das Bild-Einzelbild erzeugenden Vorrichtung (z.B. eine Kamera), unterworfen. Zum Beispiel wächst die Größe des Ziel-Objekts typischerweise schneller oder geringer an, wenn ein Abstand zwischen der Position des Ziel-Objekts relativ zu der Kamera geändert wird. Ähnlich ändert sich die Form und/oder das Licht, das von dem Ziel-Objekt reflektiert ist, typischerweise aufgrund von Änderungen in der Orientierung des Ziel-Objekts relativ zu der Kamera (z.B. Bewegung oder Translation des Ziel-Objekts oder der Kamera). Zusätzlich tritt eine Bildverzerrung dann auf, wenn das Nicht-Ziel-Objekt teilweise oder vollständig das Ziel-Objekt verdeckt (d.h. zwischen dem Ziel-Objekt und der Kamera vorhanden ist). Weiterhin führen komplexe, natürliche Objekte (d.h. Objekte, deren Ansicht Änderungen unterworfen werden, die von einer relativen Verschiebung zwischen dem Ziel-Objekt und der Kamera unabhängig sind, wie beispielsweise Änderungen in einem Gesichtsausdruck) eine zusätzliche Ansichts-Variation ein, die durch das Ansichts-Modell berücksichtigt werden muss. Wie in zusätzlichem Detail nachfolgend beschrieben ist, schlagen herkömmliche Ansichts-Modelle, wie beispielsweise Vorlage-Anpassungs-Modelle, globale, statistische Modelle, eine 2-Einzelbild-Bewegungs-Abschätzung und temporär gefilterte bewegungs-kompensierte Bild-Modelle dahingehend fehl, eine oder mehrere dieser Deformationen) zu berücksichtigen, wodurch verursacht wird, dass eine Bewegungsabschätzung und ein Nachführungssystem gelegentlich eine Nachführung eines Ziel-Objekts verlieren.
  • Vorlage-Anpassungs-Ansichts-Modelle sind zuvor gelernte, fixierte Bild-Modelle („Vorlagen") des Ziel-Objekts, die durch ein Nachführungssystem verwendet werden, um das Ziel-Objekt in einem Bild-Einzelbild zu identifizieren („anzupassen"), um dadurch dessen Ort zu bestimmen. Während solche Nachführungssysteme über kurze Dauern zuverlässig sein können (d.h. während die Ansicht des Ziel-Objekts mit dem fixierten Bild-Modell übereinstimmend verbleibt), passen sie nur schlecht die Ansichts-Änderungen von Ziel-Objekten über längere Dauern an, die üblicherweise in den meisten Anwendungen auftreten. Die Zuverlässigkeit dieser Nachführungssysteme kann durch Darstellen der Variabilität jedes Pixels in der Vorlage verbessert werden (siehe B. Frey, „Filing in Scenes by Propagating Probabilities Through Layers into Appeareance Models"; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Volume I, Seiten 185–192, Hilton Head, Juni 2000). Allerdings ist eine Lernstufe vor einer Nachführung erforderlich, in der die Varianz der Helligkeit des Bilds an jedem Pixel über die Trainings-Bilddaten abgeschätzt wird.
  • Die Zuverlässigkeit eines Nachführungssystems kann mit der Verwendung von Unterraum-Modellen der Ansicht erhöht werden (siehe, zum Beispiel, M. J. Black und A. D. Jepson, „EigenTracking: Robust Matching and Tracking of Articulated Objects using a View-Based Representation", International Journal of Computer Vision, 26 (1): 63–84, 1998). Allerdings haben sie auch den Nachteil, dass sie objekt-spezifisch sind und dass sie erfordern, dass das Training vor der Nachführung auftritt, um den Unterraum zu erlernen.
  • Die Verwendung von lokalen und globalen Bild-Statistiken, wie beispielsweise Farb-Histogrammen, sind auch als grobe Ansichts-Modelle für die Nachführung von Ziel-Objekten verwendet worden (siehe, zum Beispiel, S. Birchfield, „Elliptical Head Tracking Using Intensity Gradients and Color Histograms", Proc. IEEE Conference on Computer Vision and Pattern Recognition, Seiten 232–237, Santa Barbara, Juni 1998). Diese Ansichts-Modelle bieten eine Robustheit dann, wenn Bildverzerrungen und Verdeckungen vorgefunden werden, sind schnell zu erlernen und können zum Suchen ebenso wie zum Nachführen verwendet werden. Allerdings fehlt es globalen, statistischen Beschreibungen an einer räumlichen Struktur der Ansicht. Dieses Fehlen einer Ausdrucksfähigkeit begrenzt die Fähigkeit von globalen, statistischen Beschreibungen, um genau das Ansichtsmodell zu dem Ziel-Objekt in vielen Fällen auszurichten. Zusätzlich können diese groben Ansichtsmodelle auch dahingehend fehlschlagen, genau Objekte in Bereichen, die von Interesse sind, nachzuführen, die ähnliche Statistiken mit nahe dazu liegenden Bereichen teilen.
  • Auf eine Bewegung basierende Nachführungsverfahren integrieren Bewegungsabschätzungen über die Zeit. Für eine 2-Einzelbild-Bewegungsabschätzung wird eine Bewegung zwischen jedem aufeinanderfolgenden Paar von Einzelbildern berechnet. Da eine Bewegung zwischen jedem aufeinander folgenden Paar von Einzelbildern berechnet wird, ist das einzige Modell einer Ansicht, das durch das auf einer Bewegung basierende Nachführungssystem verwendet wird, die Ansicht des Zielobjekts innerhalb des Bereichs, der von Interesse ist, in dem letzten Einzelbild. Als eine Folge können sich Fehler bei diesem Verfahren schnell über die Zeit akkumulieren. Das Ansichts-Modell in einer 2- Einzelbild-Bewegungsabschätzung ist in der Lage, schnell Ansichtsänderungen anzupassen. Allerdings driftet das Ansichts-Modell oftmals von dem Zielobjekt weg, wenn das Zielobjekt eine Ansicht schnell ändert. Als eine Folge gleitet der Bereich, der von Interesse ist, oftmals von dem Zielobjekt weg und auf den Hintergrund oder zu einem anderen Objekt.
  • Auf einer Bewegung basierende Nachführungsverfahren sind durch Akkumulieren eines adaptiven Ansichts-Modells über die Zeit verbessert worden. Tatsächlich kann eine optimale Bewegungsabschätzung als die Abschätzung von sowohl einer Bewegung als auch einer Ansicht gleichzeitig formuliert werden (siehe Y. Weiss und D. J. Fleet, „Velocity Likelihoods in Biological and Machine Vision", Probabilistic Models of the Brain: Perception and Neural Function, Seiten 81–100, Cambridge, 2001. MIT Press). In diesem Sinne wird, ähnlich den Maßnahmen eines erlernten Unterraums vorstehend, eine optimale Bewegungsabschätzung durch Ausrichten des Bilds gegenüber einem Ansichtsmodell, das über die Zeit erhalten ist, erreicht. Zum Beispiel kann eine stabilisierte Bildsequenz aus den Bewegungsabschätzungen gebildet werden, um das Ansichts-Modell zu erlernen. Diese stabilisierte Bildsequenz kann mit einem rekursiven Tiefpassfilter, wie beispielsweise einem linearen IIR Tiefpassfilter, geglättet werden, um ein bestimmtes Rauschen und eine Gewichtung der am kürzesten vorher liegenden Einzelbilder zu entfernen. Allerdings schafft eine lineare Filterung keine Maßnahmen für eine Stabilität, die eine Robustheit in Bezug auf Okklusionen und auf lokale Verzerrungen der Ansicht erzeugen.
  • Der Artikel von T. Meier et al, „Automatic Video Sequenced Segmentation Using Object Tracking", conference proceedings of IEEE TENCON '97, Seiten 283–286, führt ein Verfahren zum Zerlegen eines Bilds in mehrere Segmente, die den sogenannten Video-Objekt-Plains (VOP) entsprechen, die aus dem MPEG-4 Standard bekannt sind, ein. Für die Segmentierung erfasst das Verfahren die Grenzen von sich bewegenden Objekten, die vor dem Bild-Hintergrund angeordnet sind. Ein Bewegungsobjekt wird über eine Folge von Einzelbildern zum Aktualisieren eines binären Modells davon, basierend auf zwei Komponenten, verfolgt. Eine erste Komponente beschreibt sich langsam variierende Bereiche (die sich mit dem Objekt bewegen) und eine zweite Komponente beschreibt sich schnell variierende Bereiche (die sich schneller oder in einer unterschiedlichen Art und Weise, verglichen mit dem Objekt, bewegen).
  • Eine Klassifikation von Änderungen in der Ansicht eines Bilds eines Objekts, die für ein robustes Abschätzen von Änderungen in der Ansicht verwendet werden kann, wird in dem Artikel von M. J. Black et al, „Robustly Estimating Changes in Image Appearance", Computer Vision and Image Understanding, Vol. 78, Nr. 1 (2000), Seiten 8–31, eingeführt. Die Ursachen für die Ansichts-Änderungen werden als (1) Bewegung (von Objekt oder Kamera), (2) Beleuchtungsvariationen, (3) Spiegelung und (4) ikonische Änderungen (d.h. interne Änderungen der Objekte, wie beispielsweise Variationen des Ausdrucks eines menschlichen Gesichts) klassifiziert. Jede dieser Klassen von Änderungen wird durch ein entsprechendes, mathematisches Modell beschrieben. Ein fünftes Modell beschreibt Pixel, die nicht in der Art und Weise, die vorstehend angegeben ist, klassifiziert werden kann, d.h. „Ausreißer".
  • Dasjenige, was benötigt wird, ist ein robustes, adaptives Ansichts-Modell für eine auf einer Bewegung basierenden Nachführung von komplexen, natürlichen Objekten. Das Ansichts-Modell sollte an eine sich langsam ändernde Ansicht angepasst sein, ebenso wie sie ein natürliches Maß der Stabilität der Struktur des beobachteten Bilds während einer Nachführung beibehält. Das Ansichts-Modell sollte in Bezug auf Verdeckungen, signifikante Bilddeformationen und Änderungen in dem natürlichen Erscheinungsbild, ähnlich solchen Vorgängen, die in Bezug auf Gesichtsausdrücke und Kleidung auftreten, robust sein. Das Ansichts-Modell-Grundgerüst sollte eine Nachführung und akkurate Bildausrichtung für eine Vielfalt von möglichen Anwendungen unterstützen, wie beispielsweise Nachführung eines lokalisierten Merkmals, und Nachführungsmodelle, für die eine relative Ausrichtung und Position wichtig ist, wie beispielsweise die Gliedmaßen eines menschlichen Körpers.
  • Dies wird durch die Merkmale der unabhängigen Ansprüche gelöst.
  • Die vorliegende Erfindung schafft ein robustes, adaptives Ansichts-Modell, das gleichzeitig zwei oder mehr Modell-Komponenten (d.h. ein oder mehrere stabile Komponente(n) und eine oder mehrere Übergangs-Komponente(n)) verwendet, die Bilddaten über zwei oder mehr Zeitskalen zusammenstellen, um eine auf einer Bewegung basierenden Nachführung von komplexen, natürlichen Objekten zu erleichtern.
  • Die stabile Komponente baut relativ stabile Bilddaten modellmäßig auf (d.h. Bilddaten, die gering über eine relativ große Anzahl von Bild-Einzelbildern, die einem am kürzesten vorher liegenden, aufgenommenen Einzelbild vorausgehen, variieren). Durch Einsetzen der stabilen Komponenten ist das Ansichts-Modell der vorliegenden Erfindung in der Lage, an sich langsam entwickelnde Ansichts-Änderungen anzupassen, während ein natürliches Maß der Stabilität der Struktur des beobachteten Bilds beibehalten wird. Das bedeutet, dass die stabile Komponente eine hoch zuverlässige Identifikation einer Bildstruktur durch Gewichten von Eigenschaften einer stabilen Bildstruktur stärker in Bezug auf eine Bewegungsabschätzung als von instabilen Eigenschaften, die proportional nach unten gewichtet werden, erleichtert.
  • Im Gegensatz zu der stabilen Komponenten bilden die Übergangs-Komponenten-Modelle Bilddaten von einer relativ kleinen Zahl von Bild-Einzelbildern, die dem am kürzesten vorher aufgenommenen Einzelbild vorausgehen, ab. Durch Einsetzen der Übergangs-Komponenten ist das Ansichts-Modell in der Lage, ein Ziel-Objekt zu lokalisieren, das Verdeckungen, wesentlichen Bilddeformationen und Änderungen des natürlichen Erscheinungsbilds unterworfen sind, ähnlich solchen, die bei Gesichtsausdrücken und Kleidung auftreten. Das bedeutet, dass dann, wenn Bereiche der Bildstruktur plötzlich instabil werden, der Einfluss der Übergangskomponenten in Bezug auf den Nachführungsvorgang nach oben gewichtet wird, um einen Ziel-Kontakt beizubehalten, bis eine Stabilität wieder eingerichtet ist.
  • Durch Kombinieren sowohl der Komponenten des stabilen Modells als auch der Komponenten des Übergangs-Modells, um ein Ziel-Objekt zu identifizieren, schafft die vorliegende Erfindung ein robustes und adaptives Ansichts-Modell, das eine Nachführung und eine genaue Bildausrichtung für eine Vielzahl von möglichen Anwendungen erleichtert, wie beispielsweise Nachführen eines lokalisierten Merkmals, und Nachführungsmodelle, für die eine relative Ausrichtung und Position wichtig ist, wie beispielsweise Gliedmaßen eines menschlichen Körpers.
  • 1 zeigt ein Blockdiagramm, das ein Nachführungssystem darstellt, das ein Ansichtsmodell gemäß einer Ausführungsform der vorliegenden Erfindung umfasst;
  • 2 zeigt ein Flussdiagramm, das den allgemeinen Betrieb des Ansichts-Modells, verwendet in dem Nachführungssystem der 1, verwendet;
  • 3(A), 3(B), 3(C) und 3(D) zeigen Fotografien, die verschiedene Bildverzerrungen, denen sich durch das Ansichts-Modell zugewandt wird, darstellen;
  • 4(A) und 4(B) zeigen Diagramme, die Bilddaten und zugeordnete Ansichts-Modell-Mischparameter darstellen;
  • 5 zeigt eine Tabelle, die eine Reihe von Zeitwerten und zugeordneten Bilddaten-Werten auflistet;
  • 6(A), 6(B) und 6(C) zeigen Diagramme, die Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine relativ stabile Anfangsperiode hin, darstellen;
  • 7 zeigt ein Diagramm, das Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine kurze Verdeckung hin, darstellt;
  • 8 zeigt ein Diagramm, das Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine graduelle Änderung von Bilddaten hin, darstellt;
  • 9(A) und 9(B) zeigen Diagramme, die Ansichts-Modell-Komponenten-Parameter, erzeugt auf eine Langzeit-Bild-Verzerrung hin, darstellen;
  • 10(A), 10(B) und 10(C) zeigen Bilder, die das Nachführen eines sich drehenden 3D-Ziel-Objekts darstellen;
  • 11(A) und 11(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 10(A) zugeordnet sind;
  • 12(A) und 12(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 10(B) zugeordnet sind;
  • 13(A) und 13(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 10(C) zugeordnet sind;
  • 14(A) und 14(B) zeigen zusammengesetzte Fotografien, die die Nachführung eines 3D-Ziel-Objekts, das sich zu einer Kamera hin bewegt, darstellen;
  • 15(A) zeigt eine Fotografie, die Bilddaten umfasst, die einem Ziel-Objekt vor einer Verdeckung zugeordnet sind;
  • 15(B), 15(C) und 15(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 15(A), zeigen;
  • 16(A) zeigt eine Fotografie, die Bilddaten, zugeordnet zu dem Ziel-Objekt der 15(A), an dem Beginn einer Verdeckung, umfasst;
  • 16(B), 16(C) und 16(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 16(A), zeigen;
  • 17(A) zeigt eine Fotografie, die Bilddaten, zugeordnet zu dem Ziel-Objekt der 15(A), nach einer relativ langen Periode einer Verdeckung, umfasst;
  • 17(B), 17(C) und 17(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 17(A), zeigen;
  • 18(A) zeigt eine Fotografie, die Bilddaten, zugeordnet zu dem Ziel-Objekt der 15(A), nachdem die Verdeckung beseitigt ist, zugeordnet sind;
  • 18(B), 18(C) und 18(D) zeigen Diagramme, die eine Misch-Wahrscheinlichkeit, einen Durchschnitts-Datenwert und Eigner-Daten, zugeordnet zu den Bilddaten, dargestellt in 18(A), zeigen;
  • 19(A), 19(B) und 19(C) zeigen Bilder, die das Nachführen eines Gegenstands, der eine natürliche Verzerrung zeigt, darstellen;
  • 20(A) und 20(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 19(A) zugeordnet sind;
  • 21(A) und 21(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 19(B) zugeordnet sind; und
  • 22(A) und 22(B) zeigen Misch-Wahrscheinlichkeiten und Durchschnitts-Bilddatenwerte, die dem Bild der 19(C) zugeordnet sind.
  • 1 zeigt ein vereinfachtes Blockdiagramm, das einen Computer 100 darstellt, der so aufgebaut ist, um ein Bildnachführungssystem 110 auszuführen, das ein Ansichts-Modell 120 verwendet, um ein ausgewähltes Ziel-Objekt nachzuführen, das in einer Reihe von temporär sequenziellen Bilddaten-Einzelbildern 101 auftritt, die geeignet digitalisiert und in einen Computer 100, unter Verwendung von herkömmlichen Verfahren, eingegeben werden. Das Nachführungssystem 110 umfasst auch verschiedene Software-Untersysteme (tools), umfassend ein optisches Filter/Prozessor-Untersystem 150, das eine oder mehrere Datenfolge(n), zugeordnet zu dem Feld von Bild-Pixel-Daten, erstellt, die ein momentanes Bild-Einzelbild darstellen, eine Bewegungs-Abschätzeinrichtung 160, ein Bildverzerrungs-Tool 170 und ein Ansichts-Modell-Aktualisierungs-Tool 180. Die individuellen Funktionen, die durch diese Untersysteme durchgeführt werden, werden nachfolgend beschrieben. Diese Untersysteme arbeiten so zusammen, um die Nachführungsfunktion auszuführen und um das Ansichts-Modell 120 in der Art und Weise zu aktualisieren, die in zusätzlichem Detail nachfolgend beschrieben ist. Es ist anzumerken, dass die Blöcke des separaten Untersystems, angegeben in 1, zu Beschreibungszwecken nur vorgesehen sind, und dass zumindest einige Funktionen, durchgeführt durch einige dieser Untersysteme, in andere Untersysteme, unter Verwendung von bekannten Techniken, integriert sein können.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung umfasst das Ansichts-Modell 120, für eine oder mehrere Datenfolge(n) eine stabile (S) Komponente 130 und eine oder mehrere Übergangs-Komponente(n) 140 (z.B. eine „wandernde" (W) Komponente 140A und/oder eine Verlust-(L)-Komponente 140B), die zusammen eine digitale Online-Darstellung des ausgewählten Ziel-Objekts definieren. Der Ausdruck „Online" wird hier dahingehend verwendet, dass er bedeutet, dass die digitale Darstellung des ausgewählten Ziel-Objekts zunehmend unter Verwendung eines Messwerts von einem momentanen (d.h. am kürzesten vorher liegenden) Bild-Einzelbild aktualisiert wird. Insbesondere wird, nach Einrichten einer digitalen Darstellung des Ziel-Objekts (wie durch die Parameter der stabilen Komponenten 230 und der Übergangs-Komponenten 140 definiert), unter Verwendung von Daten, die in einer Anfangsreihe von Bild-Einzelbildern aufgenommen sind, eine eingerichtete, digitale Darstellung mit entsprechenden Daten von einem neuen Bild-Einzelbild verglichen, und dann wird die eingerichtete, digitale Darstellung aktualisiert (geändert), und zwar entsprechend zu Differenzen zwischen der zuvor eingerichteten, digitalen Darstellung und den neuen Daten, um dadurch eine inkrementale, „neue", eingerichtete, digitale Darstellung zu erzeugen. Dementsprechend ist die digitale Darstellung „Online" in dem Sinne, dass sie sowohl durch zuvor aufgenommene Daten von einem oder mehreren Bild-Einzelbildern als auch von neuen Daten von einem momentanen Bild-Einzelbild definiert ist.
  • Allgemein unterscheidet sich eine stabile Komponente 130 von einer Übergangs-Komponenten 140 dahingehend, dass die digitale Darstellungs-Komponente, definiert durch die stabile Komponente 130, auf einer längeren, temporären Historik (d.h. längere Zeitskala) als diejenige der Übergangskomponenten 140 basiert. Das bedeutet, dass die Parameter der stabilen Komponenten 130 die „Stabilität" von Bilddaten in jeder zunehmend eingerichteten digitalen Darstellung wiedergeben werden. Demzufolge wird der Ausdruck „Übergang" hier dazu verwendet, Bilddatenwerte zu beschreiben, die instabil sind (z.B. Ausreißer), oder Bilddaten, die für nur eine relativ kurze Zeitskala stabil gewesen sind (z.B. geringer als fünf aufeinanderfolgende Bild-Einzelbilder). Zum Beispiel arbeitet in der beispielhaften Ausführungsform, die nachfolgend angegeben ist, eine W-Komponente 140A in einer Art und Weise ähnlich zu einer herkömmlichen 2-Einzelbild- Bewegungsabschätzeinrichtung dahingehend, dass deren Parameter unter Verwendung nur eines momentanen Bild-Einzelbilds und des Bild-Einzelbilds unmittelbar vorhergehend dem momentanen Bild-Einzelbild berechnet werden. In alternativen Ausführungsformen kann die W-Komponente 140A so modifiziert werden, um Daten von einer kleinen Anzahl (z.B. zwei oder drei) von Einzelbildern, die dem momentanen Einzelbild vorhergehen, zu vergleichen. Alternativ wird, wie in der beispielhaften Ausführungsform, die nachfolgend angegeben ist, beschrieben ist, die L-Komponente 140B dazu verwendet, Ausreißer-Daten zu speichern, und wird deshalb unter Verwendung von Daten von nur einem Bild-Einzelbild (d.h. dem momentanen Einzelbild) aktualisiert.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird jeder Teil der Bilddaten von einer ausgewählten Datenfolge (z.B. Daten, die die relative Helligkeit eines zugeordneten Anzeige-Pixels oder eines Filter-Ausgangs darstellen) kollektiv durch sowohl eine stabile Komponente 130 als auch eine Übergangs-Komponente 140 dargestellt. Mit anderen Worten umfasst jede stabile Komponente 130 und jede Übergangs-Komponente 140 einen Beitrag-Parameter (z.B. eine Misch-Wahrscheinlichkeit), der einen Prozentsatz eines zugeordneten Datenwerts, dargestellt durch die zugeordnete Komponente, anzeigt. Zum Beispiel wird ein gegebener Teil der Bilddaten in der stabilen Komponenten 130 in einem Umfang, angezeigt durch einen Beitrag-Parameter 132, dargestellt, und wird auch in der Übergangs-Komponenten 140 durch entsprechende Beitrag-Parameter 142A und 142B (zugeordnet einer W-Komponenten 140A und einer L-Komponenten 140B, jeweils) dargestellt. Die Summe von Beitrag-Parametern 132, 142A und 142B aller Komponenten, die das Ansichts-Modell 120 bilden, ist gleich zu eins (d.h. einhundert Prozent). Diese Beitrag-Parameter zeigen ein Maß einer Vertraulichkeit an, dass der gegebene Datenwert für das Ziel-Objekt beschreibend ist. Zum Beispiel wird, wie im Detail nachfolgend beschrieben ist, falls ein Datenwert stabil für eine lange Zeitperiode verbleibt, dann der Beitrag-Parameter 132 relativ hoch zu Übergangs-Beitrag-Parametern 142A und 142B sein. Im Gegensatz dazu werden sich, falls sich der Datenwert abrupt ändert oder schnell variiert, die Prozentsätze, dargestellt durch Übergangs-Beitrag-Parameter 142A und 142B, typischerweise erhöhen, und der Prozentsatz, dargestellt durch den stabilen Beitrag-Parameter 132, wird sich entsprechend verringern.
  • Gemäß einem noch anderen Aspekt der vorliegenden Erfindung umfasst die stabile Komponente 130 einen oder mehrere stabile Daten-Parameter 134, die dazu verwendet werden, zu bestimmen, wie gut sich ein neuer Messwert mit zuvor empfangenen Bilddaten vergleicht. Wie vorstehend erwähnt ist, speichert die stabile Komponente 130 eine digitale Darstellung eines Ziel-Bilds, basierend auf einer relativ großen Anzahl von Bild-Einzelbildern. Dementsprechend wird, in den Ausführungsformen, die nachfolgend beschrieben sind, der stabile Daten-Parameter 134 unter Verwendung von statistischen Verfahren dargestellt, wie Durchschnitts-μs- und Standard-Abweichungs-σs-Parameter, die unter Verwendung von Datenwerten berechnet werden, die über eine vorbestimmte Anzahl (z.B. fünfzehn) von Bild-Einzelbildern, die dem momentan aufgenommenen Bild-Einzelbild vorausgehen, berechnet werden, vorausgesetzt, dass die Datenwerte, verwendet in der Berechnung, innerhalb eines vorbestimmten Bereichs des Durchschnitts fallen (d.h. Ausreißer sind ausgeschlossen). Alternativ können stabile Daten-Parameter 134 unter Verwendung irgendeines alternativen Verfahrens berechnet werden, wie beispielsweise ein Durchschnitt eines ausgewählten (z.B. alle dreißig) Datenwerts. Wie zusätzlich im Detail nachfolgend beschrieben ist, wird jeder stabile Daten-Parameter 134 mit jedem neuen Messwert verglichen, und der erhaltene Vergleich wird dazu verwendet, Beitrag-Parameter 132, 142A und 142B zu aktualisieren. Das bedeutet, dass, wie vorstehend erwähnt ist, wenn der stabile Daten-Parameter 134 identisch zu einem neuen Messwert ist, dann der neue Messwert eine relative Stabilität anzeigt, und der stabile Beitrag-Parameter 132 tendiert dazu, sich zu erhöhen (oder einen maximalen Wert beizubehalten). Umgekehrt tendiert, wenn der neue Messwert wesentlich von dem stabilen Daten-Parameter 134 unterschiedlich ist, der stabile Beitrag 132 dazu, sich zu verringern, was zu einer proportionalen Erhöhung in einem oder beiden der Übergangs-Beitrag-Parameter 142A und 142B führt.
  • Gemäß einem noch anderen Aspekt der vorliegenden Erfindung umfasst die Übergangs-Komponente 140 einen oder mehrere Übergangs-Daten-Parameter 144A und 144B, die optional dazu verwendet werden, weiterhin zu bestimmen, wie gut sich ein neuer Messwert mit zuvor empfangenen Bilddaten vergleicht. Zum Beispiel umfasst die Komponente 140A, wenn sie in dem Ansichts-Modell 120 verwendet wird, Durchschnitts-μw- und Standard-Abweichungs-σw-Parameter, die über eine relativ kleine Anzahl von Einzelbildern berechnet werden. Alternativ ist der „Durchschnitt", wie er in der beispielhaften Ausführungsform, die nachfolgend beschrieben ist, verwendet wird, einfach der zuvor aufgenommene Datenwert, und die „Standardabweichung" ist ein vordefinierter, festgelegter Bereich. Es ist anzumerken, dass für eine L-Komponente 140B, die in zusätzlichem Detail nachfolgend beschrieben ist, ein „Durchschnitts" Parameter μL verwendet oder weggelassen werden kann.
  • Wie wiederum 1 zeigt, arbeitet das Nachführungssystem 110 allgemein wie folgt. Bilddaten 101 werden zu einem Filter/Prozessor 150 weitergeführt, der die Bilddaten entsprechend eingerichteten Techniken so filtert und/oder verarbeitet, um, zum Beispiel, Rauschen oder andere unnötige Daten zu entfernen. In der beispielhaften Ausführungsform, die nachfolgend beschrieben ist, wird dieser Filtervorgang unter Verwendung von auf einem Wavelet basierenden Filtertechniken durchgeführt, die die Bilddaten in einer Art und Weise modifizieren, die für darauf folgende Nachführungsvorgänge geeignet sind. Die gefilterten/verarbeiteten Bilddaten (oder Ursprungsdaten, falls kein Filter/Prozessor verwendet wird) werden dann zu einer Bewegungs-Abschätzeinrichtung 160 weitergeführt, die auch die existierende Bildbeschreibung, gespeichert durch das Ansichts-Modell 120, aufnimmt. Die Bewegungs-Abschätzeinrichtung 160 bestimmt den Ort des Ziel-Objekts in dem momentanen Bild-Einzelbild unter Verwendung des Ansichts-Modells 120 und einer Bewegungs-Historik, die dem Ziel-Objekt zugeordnet ist, das durch die Bewegungs-Abschätzeinrichtung 160 entsprechend zu eingerichteten Techniken erzeugt ist. Unter Bestimmen der Stelle des Ziel-Objekts in dem Bild-Einzelbild wird ein Bild-Verzerrungs-Tool 170 verwendet, um das Ansichts-Modell 120 (oder einen neuen Bild-Messwert) zu modifizieren, um auf einer Bewegung basierende Deformationen zu berücksichtigen (z.B. Größe und/oder axiale Drehung). Nachdem eine Verzerrung durchgeführt ist, wird die Bildbeschreibung, geliefert in dem Ansichts-Modell 120, zu einem Modell-Aktualisierungs-Tool 180 geführt, das das Ansichts-Modell 120 entsprechend den Verfahren, die hier beschrieben sind, aktualisiert. Die aktualisierten Ansichts-Modell-Parameter werden dann verwendet, um ein darauf folgend empfangenes Daten-Einzelbild zu verarbeiten.
  • 2 zeigt ein vereinfachtes Flussdiagramm, das ein allgemeines Verfahren darstellt, das dazu verwendet wird, ein Ansichtsmodell 120 (1), gemäß einer Ausführungsform der vorliegenden Erfindung, zu erzeugen und zu aktualisieren. Das vereinfachte Flussdiagramm nimmt an, dass ein einzelner Datenpunkt während jeder Iteration verarbeitet wird, und lässt Funktionen weg, die der Nachführung zugeordnet sind (z.B. Bewegungs-Abschätzung und Bild-Verzerrung). Eine detailliertere Beschreibung des dargestellten Vorgangs wird nachfolgend vorgenommen. Wie der obere Bereich der 2 zeigt, beginnt das Verfahren durch Initialisieren der Parameter der stabilen und Übergangs-Komponenten (Block 210). Zum Beispiel kann, wie 1 zeigt, eine stabile Beitrags-Komponente 132 und eine stabile Daten-Komponente 134 der stabilen Komponenten 130 auf einen vorbestimmten Wert eingestellt werden. Es ist anzumerken, dass der vorbestimmte Wert für die Beitrags-Komponente 132 in dem Fall eines Reset-Vorgangs (beschrieben nachfolgend) verwendet wird.
  • Wie wiederum 2 zeigt, wird, nach einer Initialisierung, ein Bild-Messwert in der Art und Weise, die vorstehend beschrieben ist, aufgenommen (Block 220), und dann wird der Bild-Messwert mit den eingerichteten Komponenten-Parametern verglichen (Block 230). Gemäß einer Ausführungsform der vorliegenden Erfindung wird, während dieses Vergleichs, ein Log-Wahrscheinlichkeits-(„Wahrscheinlichkeit")-Wert für jede Komponente, basierend auf einer Differenz zwischen dem Messwert und dem (den) existierenden Daten-Parameter(n), entsprechend bekannten, statistischen Verfahren berechnet. Dieser Wahrscheinlichkeitsweit zeigt an, wie gut der Messwert zu den eingerichteten Daten-Parametern passt. Zum Beispiel wird angenommen, dass stabile Daten-Parameter einen Durchschnitt μs von 14 und eine Standard-Abweichung von 2 umfassen. Falls der Messwert gleich zu 14 ist, dann wird der berechnete Wahrscheinlichkeitswert für die stabile Komponente maximiert werden. Umgekehrt wird, falls der Messwert gleich zu 24 ist, der Wahrscheinlichkeitswert relativ sehr niedrig sein. Ein Wahrscheinlichkeitswert wird in einer ähnlichen Art und Weise für die W-Komponente (falls verwendet) berechnet, kann allerdings für die L-Komponente (falls verwendet) weggelassen werden.
  • Die Ergebnisse des Vergleichs zwischen dem Messwert und den eingerichteten Daten-Parametern werden dann dazu verwendet, die Beitrag-Parameter (nachfolgend bezeichnet als Misch-Wahrscheinlichkeiten) zu aktualisieren und um neue Daten-Parameter für jede der Ansichts-Modell-Komponenten zu erzeugen (Block 240). In einer Ausführungsform setzt dieser Vorgang den optionalen Schritt eines Berechnens von Eigner-Werten für jede Komponente, unter Verwendung der Wahrscheinlichkeitswerte, ein (Block 242), was in zusätzlichem Detail nachfolgend beschrieben wird. Als nächstes (oder alternativ) werden neue Misch-Wahrscheinlichkeiten für jede Komponente unter Verwendung der Eigner-Wahrscheinlichkeiten und/oder der Wahrscheinlichkeitswerte berechnet (Block 244). Der neu berechnete, stabile Beitragswert (z.B. ms) wird dann gegenüber einem vordefinierten, minimalen Wert verglichen (Block 245). Falls der neu berechnete, stabile Bei tragswert geringer als der vordefinierte, minimale Wert ist (JA), dann werden alle Komponenten-Parameter auf vordefinierte Werte zurückgesetzt (Block 246). Umgekehrt werden, falls der neu berechnete, stabile Beitragswert größer als der vordefinierte, minimale Wert ist (NEIN im Block 245), dann die Daten-Parameter jeder Komponenten aktualisiert, um den neuen Messwert wiederzugeben (Block 248).
  • Die vorstehende Folge wird dann für jeden neuen Messwert, der jeder neuen Datenfolge zugeordnet ist, wiederholt. Es ist anzumerken, dass der Aktualisierungsvorgang für den Komponenten-Parameter (Block 240) so geändert werden kann, um die Minimalwert-Bestimmung (Block 245) nach der Neuberechnung der Daten-Parameter (Block 248) ohne Schmälern des letztendlichen Ergebnisses zu platzieren.
  • Während das neuartige und vorteilhafte Ansichts-Modell unter Verwendung der stabilen Komponenten und mindestens einer der Übergangs-Komponenten in Kombination mit dem Verfahren, das unter Bezugnahme auf 2 beschrieben ist, erzeugt wird, umfasst eine derzeit bevorzugte Ausführungsform der vorliegenden Erfindung ein Ansichts-Modell, das alle stabilen (S) Komponenten 130, die wandernde (W) Komponente 140A und die verlorene (L) Komponente 140B (siehe 1) entsprechend der nachfolgenden Beschreibung einsetzt. Ein solches Ansichts-Modell wird hier als ein „WSL Ansichts-Modell" bezeichnet.
  • Das WSL Ansichts-Modell der vorliegenden Erfindung wird nachfolgend unter Bezugnahme auf eine einzelne, real bewertete Datenbeobachtung eingeführt. Nach Beschreibung des Vorgangs des WSL Ansichts-Modells unter Bezugnahme auf einen Signal-Datenwert, wird die Beschreibung dahingehend gerichtet, sich der Behandlung von gesamten Daten-Einzelbildern zuzuwenden.
  • Die 3(A) bis 3(D) stellen eine unterbrochene Folge von Bilddaten-Einzelbildern dar, die ein Gesicht als einen Nachführungsbereich (Ziel-Objekt) unter Verwendung eines einfachen, parametrischen Bewegungs-Modells darstellen, und beschreiben typische Bild-Verzerrungs-Phänomene, die durch das WSL Ansichts-Modell berücksichtigt werden müssen. 3(A) zeigt eine anfängliche, relativ stabile Periode, während der dem WSL Ansichts-Modell ermöglicht wird, sich zu stabilisieren. Es ist anzumerken, dass Bereiche eines hohen Kontrasts, wie beispielsweise der Stirnbereich 310 und der Mundbereich 320, dazu tendieren, sehr stabile Bilddaten zu erzeugen. 3(B) stellt eine Teilverdeckung dar, während der die Hand des Subjekts kurz über dem Mundbereich 320 positioniert wird, allerdings verbleibt der Stirnbereich 310 relativ ungestört. 3(C) zeigt eine wesentliche Ansichts-Diskontinuität, die einen Neustart bewirkt (d.h. eine plötzliche, ruckartige Kopfbewegung, während der der Kopf des Subjekts gekippt wird und schnell von der Kamera weg bewegt wird, und Brillengläser von dem Augenbereich 330 entfernt werden). Schließlich zeigt 3(D) einen sich ändernden Gesichtsausdruck als ein Beispiel einer natürlichen Verzerrung. Insbesondere wird, wie in dem Bereich 340 angezeigt wird, angenommen, dass das Subjekt breit lacht, ohne eine wesentliche andere Bewegung (Kontrast-Mundbereich 310 in 3(A)).
  • Das Phänomen, das in den 3(A) bis 3(D) gezeigt ist, begründet die verschiedenen Komponenten-Daten-Parameter des WSL Ansichts-Modells. Das relativ stabile Bild, das in 3(A) gezeigt ist, begründet die S-Komponente, die dazu vorgesehen ist, das Verhalten von Beobachtungen eines temporär stabilen Bilds zu erfassen, wann und wo sie auftreten. Insbesondere wird, unter der Annahme, dass dt einen Datenwert an jedem Einzelbild t darstellt, unter der Vorgabe, dass die stabile Komponente die Beobachtung dt erzeugte, die Wahrscheinlichkeitsdichte durch die Gauss'sche Dichte ps(dts,t, σ2 s,t) modellmäßig angegeben. Hierbei sind μs,t und σ2 s,t sich stückweise langsam variierende Funktionen, die den Durchschnitt und die Varianz des Gauss'schen Modells spezifizieren.
  • Die zweite Komponente des WSL Ansichts-Modells berücksichtigt Daten-Ausreißer, die dahingehend erwartet werden, dass sie aufgrund von Fehlern in der Nachführung, oder durch Verdeckung, entstehen. Wie vorstehend diskutiert ist, wird der entsprechende Zufalls-Prozess hier als die „verlorene" oder L-Komponente des WSL Ansichts-Modells bezeichnet. Die Wahrscheinlichkeitsdichte für die L-Komponente, bezeichnet mit pt(dt), wird so angenommen, dass sie eine gleichförmige Verteilung über die Beobachtungsdomäne ist.
  • Das synthetische Signal, das in 4(A) gezeigt ist, liefert ein idealisiertes Beispiel von diesen generativen Prozessen für eine einzelne Datenfolge. Die unterbrochene Linie stellt ein stückweises langsam variierendes Ansichtssignal AS dar. Die beobachteten Daten OD sind in Bezug auf ein Rauschen mit einem lang abklingenden Ende, gebildet aus einer Mischung der Gauss'schen Dichte ps(dts,t, σ2 s,t), und der Breitenverteilung pt(dt) für die L-Komponente, verdorben worden. Die durchgezogene, dunkle Linie zeigt einen abgeschätzten Durchschnitt EM für die S-Komponente an. Entsprechend der Diskussion vorstehend wird die Sequenz von Bilddaten-Einzelbildern an einem Bereich 400 initiiert, und tritt dann in eine relativ stabile Phase (Bereich 410), zugeordnet zu 3(A), ein. Der Bereich 420 des synthetischen Signals zeigt ein Burst von Ausreißern zwischen Einzelbildern 300 und 315 analog zu der Verdeckung der 3(B) an. Der Bereich 430 zeigt einen Neustart an einem Einzelbild 600 analog zu der Ansichts-Diskontinuität der 3(C) an. Schließlich zeigt der Bereich 440 lokalisierte Signalverzerrungen, erzeugt durch den sich ändernden Gesichtsausdruck der 3(D), an.
  • Die W-Komponente des WSL Ansichts-Modells wird durch den Wunsch begründet, das Ansichts-Modell mit einem auf einem Bild basierenden Nachführungs-Algorithmus zu integrieren. Das bedeutet, dass, für einen ausgewählten Bildbereich, das Ziel dasjenige ist, ein Modell für die dominante, stabile Bildstruktur innerhalb des Bereichs zu lernen und sie gleichzeitig nachzuführen. Dies ist dann schwierig, wenn weder ein anfängliches, stabiles Ansichts-Modell vorgesehen ist noch Informationen darüber, wie sich das Objekt bewegt. Die W-Komponente bestimmt, was in einer solchen Situation verfolgt werden sollte. Wie vorstehend erwähnt ist, ermöglicht tatsächlich die W-Komponente ein Nachführungssystem (beschrieben nachfolgend), um genau zu einem 2-Einzelbild-Bewegungs-Tracker zu verschlechtern, wenn das Ansichts-Modell nicht genug vergangene Datenbeobachtungen berücksichtigt. Die W-Komponente muss sowohl schnellere, temporäre Variationen als auch kürzere, temporäre Historiken als solche für die zuverlässige Abschätzung der S-Komponenten-Parameter zulassen. Als solche wird die Wahrscheinlichkeitsdichte für dt so ausgewählt, dass, unter der Vorgabe, dass sie durch die W-Komponente erzeugt wird, die Gauss'sche Dichte pw(dt|dt-1) ist. Hierbei ist der Durchschnitt einfach die Beobachtung von dem vorherigen Einzelbild, dt-1, und die Varianz ist bei σ2 w festgelegt.
  • Die drei Komponenten, W, S und L, werden in einem Wahrscheinlichkeits-Mischungs-Modell für dt kombiniert, p(dt|qt, mt, dt-1) = mwpw(dt|dt-1) + msps(dt|gt) + mlpl(dt) GLEICHUNG (1)wobei m = (mw, ms, ml) die Mischwahrscheinlichkeiten sind, und qt = (μs,t, σ2 s,t) den Durchschnitts- und Varianz-Parameter der stabilen Komponenten des Modells enthält.
  • Um das WSL Ansichts-Modell in einem herkömmlichen Nachführungssystem auszuführen, ist es notwendig, die Parameter des generativen Modells in (1) abzuschätzen, nämlich den Durchschnitt und die Varianz der Vorhersage der Daten, dt, durch den stabilen Prozess, q = (μs, σ2 s), und der Misch-Wahrscheinlichkeiten m = (mw, ms, ml). Weiterhin wird, um das Abschätzungsschema dabei anzuwenden, das Ansprechverhalten zu filtern, davon ausgegangen, dass ein einfacher Rechen-Algorithmus einen geringen Umfang eines Speichers für jede Beobachtung benötigt.
  • Unter Vorhersagen einer rekursiven Formulierung und unter Zulassen einer temporären Addition der Modell-Parameter wird angenommen, dass Datenbeobachtungen unter einer exponentiellen Einhüllenden, angeordnet zu der momentanen Zeit,
    Figure 00170001
    für k ≤ t, vorliegen. Hierbei gilt τ = ηs/log2, wobei ηs die Halbwertzeit der Einhüllenden in Einzelbildern ist, und α = 1 – e–1/τ ist, so dass sich die Einhüllungs-Gewichtungen St(k) zu 1 aufsummieren. Mit dieser Einhüllenden wird die Log-Wahrscheinlichkeit der Beobachtungs-Historik,
    Figure 00170002
    entsprechend der Dichte in (1) ausgedrückt wird:
    Figure 00170003
    wobei mt und qt Parameter bezeichnen, die für die Daten unter der temporären Unterstützungs-Einhüllenden St(k) relevant sind. Obwohl sich diese Parameter langsam über die Zeit ändern, wird ein EM-Algorithmus (siehe, zum Beispiel A. P. Dempster, N. M. Laird und D. B. Rubin, „Maximum Likelihood from Incomplete Data Via the EM Algorithm", J. Royal Statistical Society Series B, 39: 1–38, 1977) für eine Abschätzung von mt und qt berücksichtigt, die annimmt, dass sie konstant unter dem temporären Fenster sind. Die Form dieser EM-Aktualisierungen liefert die Basis für das Online-Verfahren, das hier beschrieben ist.
  • Unter Vorgabe einer momentanen Vermutung für die Zustands-Variablen mt und qt (konstant über das temporäre Fenster) liefert der E-Schritt die Eigner-Wahrscheinlichkeiten für jede Beobachtung dk:
    Figure 00170004
    für i ∊ {w, s, l}. Konditioniert auf diese Inhaberschaften berechnet dann der M-Schritt die neuen, maximalen Wahrscheinlichkeitsabschätzungen für die Parameter mt und qt. Zuerst werden die aktualisierten Mischungswahrscheinlichkeiten, mt, gegeben durch
    Figure 00170005
    für i ∊ {w, s, l} (die Angabe mi,t wird wieder dazu verwendet, die aktualisierten Werte zu bezeichnen). Ähnlich ist der M-Schritt für den Durchschnitt und die Varianz
    Figure 00180001
    wobei Mj,t die Inhaberschaft, die gewichtet ist, von j–ten Ordnung von Daten-Momenten, definiert durch
    Figure 00180002
    sind.
  • Es muss hier nicht gesagt werden, dass das zu Null gemachte Daten-Moment, die in der Zeit gemittelten Inhaberschaften des stabilen Prozesses, präzise das Mischverhältnis für die S-Komponente des WSL Ansichts-Modells, M0,t = Ms,t, ist. Der Standard-EM-Algorithmus besteht dann aus einem Iterieren der Schritte, die in den Gleichungen (3)–(6) angegeben sind.
  • Dieser EM-Algorithmus erfordert, dass die Daten von vorherigen Zeitpunkten beibehalten werden, um os,t(dk) zu berechnen, was für eine Online-Maßnahme unpraktisch ist. Anstelle davon wird eine Approximation auf Gleichungen (3)–(6) angewandt. Hierbei wird ein rekursiver Ausdruck für die exponentielle Unterstützung St(k) angewandt, um zu erhalten:
  • Figure 00180003
  • Um zu vermeiden, die vergangenen Daten beibehalten zu müssen, wird der momentane Besitz der vergangenen Daten durch den Besitz zu den Zeitpunkten, zu denen die Daten zuerst beobachtet wurden, approximiert. Das bedeutet, dass os,t(dk) durch os,k(dk) ersetzt wird, um die approximierten Momente zu erhalten
    Figure 00180004
    M ^j,t = αdjt os,t(dt) + (1 – α)M ^j,t-1 GLEICHUNG (8B)
  • Auch werden die Misch-Wahrscheinlichkeiten in derselben Art und Weise approximiert m ^i,t = αoi,t(dt) + (1 – α)m ^i,t-1 GLEICHUNG (9)für i ∊ {w, s, l}. Eine weitere Abweichung von diesen Gleichungen wird dazu verwendet, singuläre Situationen zu vermeiden; d.h. eine untere Nicht-Null-Grenze wird den Misch-Wahrscheinlichkeiten und σs,t auferlegt.
  • In dieser Approximation zu dem Batch EM in den Gleichungen (3)–(6), wie dies vorstehend erwähnt ist, werden die Daten-Inhaberschaften der vergangenen Beobachtungen nicht aktualisiert. Deshalb ist, wenn sich die Modell-Parameter schnell ändern, diese Online-Approximation schlecht. Allerdings tritt dies typischerweise dann auf, wenn die Daten nicht stabil sind, was gewöhnlich zu einer niedrigen Misch-Wahrscheinlichkeit und einer breiten Varianz für die S-Komponente in jedem Fall führt. Umgekehrt ist, wenn der Durchschnitt und die Varianz langsam driften, die Online-Approximation typischerweise sehr gut (siehe 4(A)).
  • Unter Vorgabe von plötzlichen Änderungen in der Ansicht, oder von instabilen Daten, verliert die S-Komponente oftmals die Nachführung des Durchschnitts, und ihr wird eine kleine Misch-Wahrscheinlichkeit gegeben (siehe 4(B), diskutiert nachfolgend). Demzufolge ist es notwendig, gelegentlich das Ansichts-Modell erneut zu starten. Hierbei wird das WSL Ansichts-Modell immer dann erneut gestartet, wenn die stabile Misch-Wahrscheinlichkeit ms,t unterhalb eines festgelegten Schwellwerts fällt (z.B. 0,1). Dies wird durch einfaches, erneutes Einstellen der Werte aller Zustands-Variablen vorgenommen. In einer Ausführungsform sind die neuen Werte, verwendet für die Misch-Wahrscheinlichkeiten mi,t, 0,4, 0,15 und 0,45 für i = w, s, l. Der kleine Wert für ms,t gibt eine anfängliche Unsicherheit für die S-Komponente wieder. Die neuen Werte für die Momente Mj,t für j = 0, 1, 2 werden so herangezogen, dass sie ms,t, dtms,t und σ2 s,0ms,t, jeweils, sind. Tatsächlich startet dies erneut die S-Komponente mit einem Durchschnitt, der durch die momentane Beobachtung dt gegeben ist, und einer Varianz, die durch die Konstante σ2 s,0 gegeben ist. Hierbei wird σs,0 = σw/1,5 verwendet. Diese selben Werte werden für die Initialisierung des ersten Einzelbilds verwendet.
  • 4(B) stellt den EM-Vorgang unter Bezugnahme auf das 1D Beispiel der 4(A) unter Verwendung einer Halbwertzeit ns = 8 dar. Zu der Anfangsperiode, angezeigt in dem Bereich 405 (entsprechend zu einem Bereich 400) der 4(A), nimmt jede der W-, S- und L-Komponenten deren vorbestimmte Reset-Werte an. Zu Anfang erhöht sich die Misch-Wahrscheinlichkeit der W-Komponenten von den Reset-Werten, was einen proportional größeren Besitz der Daten anzeigt, bis die S-Komponente eine Vertraulichkeit erreicht, wie dies im Bereich 415 angezeigt ist (entsprechend zu dem Bereich 410 der 4(A)). Der Bereich 425 zeigt an, dass, während des Ausreißer-Bursts an dem Einzelbild 300 (entsprechend zu einem Bereich 420 der 4(A)), sich die Misch-Wahrscheinlichkeit der L-Komponenten erhöht, dann zurück abfällt, da die Stabilität zurückkehrt. Es ist anzumerken, dass die Okklusion unzureichend war, um einen Neustart zu veranlassen, und zwar aufgrund von Daten eines nicht verdeckten, stabilen Bilds (z.B. Bereich 310 in 3(B)). Der Bereich 435 stellt ein Ansprechen auf die Ansichts-Diskontinuität an dem Einzelbild 600 (entsprechend zu einem Bereich 430 der 4(A)) dar, wo die S-Komponente eine schlechte Vorhersage-Komponente für die Daten ist, und deren Misch-Wahrscheinlichkeit fällt schnell ab. Es ist anzumerken, dass, da die W-Komponente die Daten erläutern kann, sich deren Misch-Wahrscheinlichkeit erhöht. An einem Einzelbild 625 fällt die Misch-Wahrscheinlichkeit der S-Komponenten ausreichend niedrig ab, so dass der Vorgang erneut startet, wonach die S-Komponente zurück auf den wahren Zustand verriegelt.
  • Die 5 bis 9(B) stellen die Effekte von verschiedenen Datenänderungen in Bezug auf das WSL Ansichts-Modell der vorliegenden Erfindung unter Verwendung eines anderen, vereinfachten Beispiels dar. 5 zeigt sequenzielle Daten an, die die Helligkeit (Grauskala) eines ausgewählten Pixels während einer Zeitsequenz beschreiben, die sich zwischen Zeiten t0 und t16 erstrecken. Es ist anzumerken, dass die Periode zwischen jedem angezeigten Zeitpunkt gleichförmig sein kann oder nicht. Eine relativ stabile Anfangsstufe ist zwischen Zeiten t0 und t5 vorgesehen, während der dem Ansichts-Modell ermöglicht wird, sich zu stabilisieren, ähnlich zu demjenigen, was vorstehend unter Bezugnahme auf 3(A) beschrieben ist. Eine kurze Verdeckung wird zu der Zeit t6, ähnlich zu der Verdeckung, die unter Bezugnahme auf 3(B) diskutiert ist, eingeführt, die durch eine relativ schnelle und signifikante, allerdings kurze, Änderung in den Bilddaten von einem ersten stabilen Wert (z.B. 12) zu einem zweiten stabilen Wert (z.B. 24), und dann zurück zu dem ersten stabilen Wert, charakterisiert ist. Eine graduelle Helligkeitsänderung wird zwischen den Zeiten t7 und t11 angezeigt, während denen sich die Periode der Bilddaten relativ langsam und über einen relativ kleinen Bereich ändert (z.B. von 12 auf 14). Schließlich wird eine Ansichts-Diskontinuität zu der Zeit t12 angezeigt, die durch eine relativ schnelle, wesentliche und relativ permanente Änderung der Bilddaten von einem ersten stabilen Wert (z.B. 14) zu einem zweiten stabilen Wert (z.B. 24) charakterisiert ist.
  • 6(A), 6(B) und 6(C) zeigen Grafiken, die Einstellungen in Bezug auf die S-Komponente, die W-Komponente und die L-Komponente während der anfänglichen, stabilen Zeitperiode zwischen den Zeiten t0 und t5, jeweils, anzeigen. Bei einem Reset (Zeit t0) nehmen die Beitrag-Parameter (d.h. die Misch-Wahrscheinlichkeiten, die durch die vertikale Skala jeder Grafik angegeben sind) vorbestimmte Reset-Werte an. Diese Werte sind durch die vertikale Stelle jeder Komponenten zu der Zeit t0 gezeigt. Zum Beispiel ist, wie 6(A) zeigt, die Komponente S(t0) an dem unteren Bereich der Grafik angeordnet und ist zu dem Reset-Wert 0,15 ausgerichtet. Ähnlich sind, unter Bezugnahme auf die 6(B) und 6(C), Komponenten W(t0) und L(t0) zu Reset-Werten 0,4 und 0,45, jeweils, ausgerichtet. Es ist erneut anzumerken, dass diese Reset-Werte geändert werden können. Auf eine Zeit t0 folgend erhöht sich, da die Daten stabil verbleiben, der Beitrag-Parameter für die S-Komponente graduell auf einen maximalen (Scheitel) Wert von 0,85 zu der Zeit t5. Dieser maximale Wert wird nur zu Erläuterungszwecken ausgewählt. Zusätzlich erzeugt der konsistente Datenwert 12 über diese Zeitperiode einen stabilen Durchschnitts-Parameter μs, der auf 12 zentriert verbleibt, während sich die Standardabweichung verringert (gezeigt durch eine graduelle Verschmälerung des Balkens, der die Standardabweichungs-Parameter +σs und –σs separiert). Wie die 6(B) und 6(C) zeigen, treten, während die S-Komponente auf diesen maximalen Wert ansteigt, die W-Komponente und die L-Komponente für den verbleibenden Besitzbereich der Daten in Konkurrenz. In dem offenbarten Beispiel erhöht sich, da der Datenwert stabil verbleibt, der Beitragswert der W-Komponenten schneller als derjenige der L-Komponenten, die sich graduell verringert, da konsistente Datenwerte empfangen werden. Zu Anfang erhöht sich die W-Komponente von deren Reset-Wert zu einem maximalen Wert (angezeigt durch eine Komponente W(t1)) und geht dann zu einem minimalen Wert zurück (z.B. 0,15), da das S-Modell eine Vertraulichkeit erhält und ihren maximalen Wert erreicht. Es ist anzumerken, dass, unter Annahme einer relativ langen, stabilen Periode, die L-Komponente zu einer sehr kleinen Zahl, allerdings niemals zu Null, zurückgeht.
  • Wie 7 zeigt, bewirkt eine kurze Verdeckung zu der Zeit t1, die einen Sprung in einem Datenwert von 12 auf 24 anzeigte, eine Verringerung in den Beitrag-Parametern für sowohl die S-Komponente als auch die W-Komponente. Insbesondere werden, da der Datenwert (d.h. 24) außerhalb der Varianz für sowohl die S-Komponente als auch die W-Komponente liegt, die Daten als ein Ausreißer behandelt, und der Besitz des Datenwerts wird vorherrschend zu der L-Komponenten zugeordnet. Dementsprechend wird, wie auf der rechten Seite der 7 angegeben ist, die Komponente L(t5) zu einem etwas größeren Beitrag-Parameter von, zum Beispiel, 0,35 zugeordnet. Dieser erhöhte Besitz durch die L-Komponente bewirkt eine Verringerung in den Beitrag-Parametern der S- und W-Komponenten, was durch S(t5) und W(t5), jeweils, angezeigt wird. In der offenbarten Ausführungsform wird, da der Datenwert zu der Zeit t5 als ein Ausreißer angesehen wird, dieser nicht verwendet, um den Durchschnitt und die Varianz der S-Komponente erneut zu berechnen. Deshalb verbleibt der Durchschnittswert μs(t5) auf dem Datenwert 12 zentriert und die Varianz wird nicht von demjenigen von S(t4) geändert (siehe 6(A)). Nachdem die Verdeckung entfernt ist (Zeit t6), und die stabilen Daten wieder erscheinen, erhält die S-Komponente wiederum eine Vertraulichkeit, und deren Beitrag-Parameter erhöht sich auf Kosten der L-Komponenten, bis deren maximaler Wert wieder erreicht ist (Zeit t7). Es ist auch anzumerken, dass der Durchschnitt der W-Komponenten durch den vorherigen Datenwert bestimmt wird, so dass der Durchschnitt μw auch auf 12 zu der Zeit t5 zentriert verbleibt, sich dann zu 24 zu der Zeit t6 verschiebt und dann zu 12 zu der Zeit t7 zurückkehrt.
  • Wie in 8 gezeigt ist, führt, im Gegensatz zu einer Verdeckung, die unter Bezugnahme auf 7 beschrieben ist, die nicht die Daten-Parameter der S-Komponenten ändert, eine graduelle Datenänderung zwischen den Zeiten t6 und t11 zu einer Migration des Durchschnittswerts der S-Komponenten und zu einer Erhöhung in der Standardabweichung. Das Beispiel, das in 8 dargestellt ist, nimmt an, dass der Beitrag-Parameter der S-Komponenten maximiert ist, so dass auch eine kleine Änderung in dem Datenwert die Vertraulichkeit des S-Modells verringern wird, was eine zugeordnete Verringerung in dem Beitrag-Parameter bewirkt. Falls der Beitrag-Parameter nicht maximiert ist, dann kann er sich sogar dann erhöhen, obwohl sich der neue Datenwert von dem zuvor berechneten Durchschnitt unterscheidet. In diesem Beispiel werden die Daten-Parameter (z.B. Durchschnitt und Standard-Abweichung) der S-Komponenten geändert, da die Bild datenänderung zwischen den Zeiten t7 und t8 (d.h. von 12 auf 13) so ausgewählt wird, dass sie innerhalb der Standardabweichung der S-Komponenten liegt. Dementsprechend wird die Bilddatenänderung nicht als ein Ausreißer behandelt, und wird bei der Berechnung eines neuen Durchschnittswerts μs(t8) verwendet, der sich graduell von 12 zu 14 hin verschiebt. Es ist anzumerken, dass irgendeine Verringerung in dem Beitrag-Parameter der S-Komponenten durch eine Erhöhung in derjenigen der W-Komponenten, deren Durchschnitt auch mit den sich ändernden Datenwerten migriert, berücksichtigt wird. Manchmal kehrt, nachdem sich die Bilddaten erneut bei 14 stabilisieren (z.B. Zeit t10), die Vertraulichkeit der S-Komponenten zurück, der Durchschnitt zentriert sich auf dem neuen, stabilen Wert, wie dies durch die Komponente S(t11) angezeigt ist. Dementsprechend zeigt das Beispiel, dargestellt in 8, wie sich die S-Komponente eines Ansichts-Modells, erzeugt gemäß der vorliegenden Erfindung, langsam an sich ändernde Bilddaten anpasst, um dadurch die Nachführung von 3D Objekten zu erleichtern.
  • Die 9(A) und 9(B) zeigen ein Endbeispiel, in dem sich Bilddaten wesentlich von einem stabilen Wert (z.B. 14 zu der Zeit t11) zu einem anderen stabilen Wert (z.B. 24 zu der Zeit t12) ändern. Wie vorstehend erwähnt ist, und in 9(A) dargestellt ist, bewirkt ein plötzliches Auftreten einer relativ großen Bilddatenänderung eine Verringerung in den Beitrag-Parametern der W- und S-Komponenten und einen Sprung in dem Beitrag der L-Komponenten. Es ist wiederum anzumerken, dass der neue Messwert nicht in der Berechnung der Daten-Parameter (Durchschnitt und Varianz) für die S-Komponente umfasst ist. Da sich der Datenwert bei 24 stabilisiert, fährt der Beitrag-Parameter der S-Komponenten fort, abzufallen, und die W-Komponente beginnt damit, sich zu erhöhen (die L-Komponente verringert sich). Letztendlich fällt der Beitrag-Parameter der S-Komponenten unterhalb eines vorbestimmten Reset-Werts ab (siehe Schritt 245, 2), um dadurch einen Neustart zu der Zeit t15 zu bewirken, was in 9(B) dargestellt ist. Es ist anzumerken, dass, bei dem Neustart, der Durchschnittswert μs(t16) über einen am kürzesten vorher liegenden Datenwert (d.h. 24) zentriert ist. Darauf folgend ist der Wiederaufbau des Ansichts-Modells im Wesentlichen identisch zu demjenigen, der vorstehend unter Bezugnahme auf die 6(A), 6(B) und 6(C) beschrieben ist.
  • Es ist anzumerken, dass, nachdem die verschiedenen Parameter-Ansprechverhalten des WSL Ansichts-Modells unter Bezugnahme auf einen einzelnen Datenwert beschrieben worden sind, nun eine Abweichung der Komponenten, verwendet dazu, das WSL Ansichts-Modell in dem Nachführungssystem 110 (siehe 1) auszuführen, beschrieben wird. Insbesondere wird, wie nachfolgend angegeben ist, die Filterung/Verarbeitung, durchgeführt durch das Filter/den Prozessor 150, unter Verwendung von lenkbaren Pyramiden ausgeführt, wie dies nachfolgend beschrieben ist. Zusätzlich werden die Bewegungsabschätzung und die Bild-Verzerrungs-Funktionen, durchgeführt durch die Bewegungs-Abschätzeinrichtung 160, und das Bild-Verzerrungs-Tool 170, diskutiert.
  • Dabei sind viele Eigenschaften einer Bildansicht vorhanden, die als Datenfolgen verwendet werden könnten, von denen man Ansichts-Modelle für ein Nachführen und eine Objektsuche lernen könnte. Beispiele umfassen lokale Farbstatistiken, Mehrfachstufen-Filter-Ansprechverhalten und lokalisierte Kanten-Fragmente. In dieser Arbeit werden die Datenfolgen, abgeleitet von den Ansprechverhalten einer lenkbaren Filter-Pyramide, angewandt (d.h. basierend auf den G2 und H2 Filtern; siehe W. Freeman und E. H. Adelson, „The Design and Use of Steerable Filters", IEEE Transactions on Pattern Analysis and Machine Intelligence, 13: 891–906, 1991). Lenkbare Pyramiden liefern eine Beschreibung des Bilds unter unterschiedlichen Maßstäben und Orientierungen, die für eine grob-zu-fein Differenzial-Bewegungsabschätzung und zum Isolieren einer Stabilität unter unterschiedlichen Maßstäben und unter unterschiedlichen räumlichen Orten, und unterschiedlichen Bildorientierungen nützlich ist. Hierbei werden G2 und H2 Filter unter zwei Maßstäben, abgestimmt auf Wellenlängen von acht und sechzehn Pixeln (unterabgetastet mit Faktoren von zwei und vier), mit vier Orientierungen bei jedem Maßstab, verwendet.
  • Aus den Filterausgängen wählen die vorliegenden Erfinder aus, um eine Darstellung der Phasenstruktur als das Ansichts-Modell beizubehalten. Dies liefert einen natürlichen Grad einer Amplituden- und Beleuchtungsunabhängigkeit und liefert die Wiedergabetreue für eine akkurate Bildausrichtung, unterstützt durch auf einer Phase basierenden Verfahren (siehe, zum Beispiel, D. J. Fleet und A. D. Jepson, „Stability of Phase Information", IEEE Transactions on PAMI, 15 (12): 1253–1268, 1993). Phasen-Ansprechverhalten, die kleinen Filter-Amplituden zugeordnet sind, oder solche, die als instabil behandelt sind, und zwar entsprechend den Techniken, die in dem vorstehend angegebenen Papier beschrieben sind, wurden als Ausreißer behandelt. Bei dem, was folgt, unter Vorgabe einer Bild-Pyramide und eines Zielbereichs Nt, wird angenommen, dass dt = {d(x, t)} x ∊ Nt den Satz von Phasenbeobachtungen von allen Filtern zu der Zeit t in dem Bereich bezeichnet. Es wird angenommen, dass At = {m(x, t), q(x, t)} x ∊ Nt das gesamte Ansichts-Modell der Phase bei jeder Orientierung, bei jedem Maßstab und an jedem räumlichen Ort in Nt bezeichnen. Die Halbwertzeit der exponentiellen, temporären Unterstützung, St(k), wurde auf ns = 20 Einzelbilder eingestellt. Die anderen Parameter der Online-EM-Abschätzeinrichtung sind: 1) die Ausreißer-Wahrscheinlichkeit, die gleichförmig an [–π; π] ist; 2) die Standardabweichung der W-Komponenten an den Phasendifferenzen, die so herangezogen wird, dass sie durchschnittlich Null einer Gauss'schen Verteilung mit σw = 0,35π ist; und 3) die minimale Standardabweichung der S-Komponenten, σs,0 = 0,1π. Diese letzteren Parameter sind zu der Benutzung der Phase spezifisch.
  • Die vorliegenden Erfinder werden nun das Verhalten des adaptiven, auf einer Phase basierenden Ansichts-Modells in dem Zusammenhang eines Nachführens von nicht festen Objekten demonstrieren. Für diese Demonstration wird ein elliptischer Bereich No zu der Zeit 0 manuell spezifiziert. Der Nachführungs-Algorithmus schätzt dann die Bildbewegung und das Ansichts-Modell ab, wenn er die dominante Bildstruktur in Nt über die Zeit nachführt.
  • Die Bewegung wird in Termen von parametrisierten Bild-Verzerrungen Einzelbild-zu-Einzelbild dargestellt. Insbesondere entspricht, unter Vorgabe der Verzerrungs-Parameter ct, ein Pixel x an einem Einzelbild t-1 der Bildstelle xt = w(x; ct) zu der Zeit t, wobei w(x; ct) die Verzerrungsfunktion ist. Ähnliche Transformationen werden hier verwendet, so dass ct = (μt, θt, ρt) einen 4-Vektor beschreibende Translations-, Rotations- und Maßstabs-Anderungen, jeweils, sind. Translationen werden in Pixeln, Rotationen in Radian spezifiziert, und der Maßstab-Parameter bezeichnet einen multiplikativen Faktor, so dass η ‿ ≡ (0,0,0,1) die Identitäts-Verzerrung ist. Anhand einer Nachführung wird die Ziel-Nachbarschaft nach vorwärts an jedem Einzelbild durch die Bewegungs-Parameter konvektiert (d.h. verzerrt). Das bedeutet, dass, unter Vorgabe des Parameter-Vektors ct, Nt, gerade der elliptische Bereich, geliefert durch eine Verzerrung Nt-1 mit w(x; ct), ist. Andere, parametrisierte Bild-Verzerrungen und andere, parametrisierte Bereich-Darstellungen könnten auch verwendet werden (z.B. siehe F. G. Meyer und P. Bouthemy, „Region-Based Tracking Using Affine Motion Models in Long Image Sequences", CVGIP: Image Understanding, 60 (2): 119–140, 1994). Um eine optimale Verzerrung zu finden, wird die Summe der Daten-Log-Wahrscheinlichkeit und ein Log zuvor (lokal) maximiert, um eine Präferenz bereitzustellen, um eine Präferenz für Verlangsamungs- und Glättungs-Bewegungen be reitzustellen. In Termen der Bewegungs- und Ansichts-Modelle, die vorstehend angegeben sind, kann die Daten-Log-Wahrscheinlichkeit ausgedrückt werden als
    Figure 00260001
    wobei, für eine erleichterte Schreibweise, Daten von dem vorherigen Einzelbild mit Dt-1 ≡ {dx,t-1}x ∊ Nt-1 bezeichnet sind, wobei ein individueller Messwert dx,t-1 ≡ d(x, t-1) ist. Ähnlich werden die momentanen Daten, zurück zu dem vorherigen Einzelbild der Referenz verzerrt, mit d^d^x,t ≡ d(w(x; ct), t) bezeichnet und schließlich definieren die Erfinder Ax,t-1 ≡ (mx,t-1, qx,t-1). Intuitiv kann diese Log-Wahrscheinlichkeit wie folgt verstanden werden: Daten an dem momentanen Einzelbild t werden zurück zu den Koordinaten des Einzelbilds t-1 entsprechend zu den Parametern ct verzerrt. Die Log-Wahrscheinlichkeit dieser verzerrten Daten {d^d^x,t}x ∊ Nt-1 werden dann in Bezug auf das Ansichts-Modell At-1 in dem Einzelbild der Referenz des Zielbereichs Nt-1 in dem vorherigen Einzelbild berechnet.
  • A davor wird hauptsächlich dazu eingeführt, Verdeckungen zu erfassen, und um das Vorhandensein der stabilen Komponenten S auszudrücken. Die Erfinder ziehen die vorherige Dichte gegenüber den Bewegungs-Parametern ct = (μt, θt, ρt), konditioniert auf die Bewegung zu der Zeit t-1, ct-1, heran, so dass es ein Produkt von zwei 4D-Gauss'schen Anteilen ist: p(ct|ct-1) = G(ct; η →, V1)G(ct; ct-1, V2) GLEICHUNG(11)
  • Der erste Gauss'sche Faktor bevorzugt langsame Bewegungen, mit seinem Durchschnitt gleich zu der Identitäts-Verzerrung η ‿, und wobei dessen Kovarianz durch V1 ≡ diag(82, 82, 0,052, 0,012) gegeben ist. Der zweite Gauss'sche Faktor bevorzugt langsame Änderungen in der Bewegung, mit V2 ≡ diag(1,1,0,022, 0,012).
  • Um ct abzuschätzen, wird die Summe der Log-Wahrscheinlichkeit und dem Log davor, der gegeben ist, maximiert durch E(ct) = L(Dt|At-1; Dt-1, ct) + logp(ct|ct-1) GLEICHUNG (12)
  • Um E(ct) zu maximieren, wird eine direkte Variante des Erwartungs-Maximierungs-(EM)-Algorithmus verwendet, wie dies durch A. Jepson und M. J. Black in „Mixture Models for Optical Flow Computation", In Proc. IEEE Computer Vision and Pattern Recognition, CVPR-93, Seiten 760–761, New York, Juni 1993, beschrieben ist. Dies ist ein iterativer, grob-zu-fein Algorithmus, wobei ein Annealing dazu verwendet wird, das Verfahren zu kontrollieren, das in lokalen Minima eingefangen wird. Kurz gesagt bestimmt der E-Schritt die Besitzwahrscheinlichkeiten für die nach unten verzerrten Daten D ^t, wie in Gleichung (3) vorstehend. Der M-Schritt verwendet diese Inhaberschaften, um ein lineares System für die Aktualisierung zu ct zu bilden. Diese Komponenten des linearen Systems werden aus Bewegungsbeschränkungen, gewichtet durch die Besitzwahrscheinlichkeiten für den W- und den S-Prozess, erhalten.
  • Die Abweichung des EM-Algorithmus hier beginnt mit der Tatsache, dass Extrema von E(ct) erfüllen:
  • Figure 00270001
  • Mit den verzerrten Daten, bezeichnet durch d ^x,t ≡ d(w(x, ct), t), wie in Gleichung (10), ist die Ableitung der Log-Wahrscheinlichkeit:
  • Figure 00270002
  • Unter Ausnutzen der Identität,
    Figure 00270003
    und Erweitern der Wahrscheinlichkeitsfunktion entsprechend zu Gleichung (1), wird Gleichung (14) vereinfacht wie folgt:
  • Figure 00270004
  • Schließlich wird, unter Definieren der Besitzwahrscheinlichkeiten als
    Figure 00280001
    der Ausdruck für den Gradienten der Log-Wahrscheinlichkeit vereinfacht zu
  • Figure 00280002
  • Ein Kombinieren von Gleichung (16) mit der Ableitung der Log zuvor, die direkt zu der Ableitung von Gleichung (11) ist, führt zu der Form des Gradienten der objektiven Funktion:
  • Figure 00280003
  • Der EM-Algorithmus ist ein iteratives Verfahren zum Maximieren von E(ct). In dem E-Schritt werden, unter Vorgabe einer momentane Abschätzung für die Bewegungs-Parameter, ct, die Besitzwahrscheinlichkeiten, ow(d ^x,t) und os(d ^x,t), mit den Bewegungs-Parametern fixiert gehalten, berechnet. In dem darauf folgenden M-Schritt wird eine Aktualisierung zu den Bewegungs-Parametern, δc, durch Maximieren der objektiven Funktion, mit den Besitzwahrscheinlichkeiten fixiert gehalten, abgeschätzt.
  • Hierbei werden die M-Gleichungen nicht direkt gelöst. Anstelle davon wird, ähnlich zu der Art und Weise, in der der optische Fluss oftmals mit auf einem Gradienten basierenden Beschränkungen abgeschätzt wird, eine approximierte, objektive Funktion maximiert. Die approximierte Funktion, E ~(δc; ct) wird durch Linearisieren der momentanen Beobachtungen über die Anfangsabschätzung, ct, für die Bewegungs-Parameter erhalten. Insbesondere wird d(w(x; ct), t) durch die Taylor-Reihen erster Ordnung, genommen um ct, approximiert. Formeller gilt d(w(x; ct + δc), t) ≈ d(w(x; ct), t) + ∇d(w(x; ct), t)Wδc GLEICHUNG (18)wobei ∇d(x, t) ≡ (dx(x, t)dy(x, t)) die räumlichen Teilabweichungen der Datenbeobachtungen bezeichnet, und wobei W = δw/δct die 2 × 4 Jacobische Angabe der Verzerrungsliste bei ct bezeichnet. Durch Substituieren dieser Approximation gegen d(w(x; ct + δc), t) in die objektive Funktion wird die nachfolgende Form für die stabile Komponente der Ansichts-Modelle erhalten:
    Figure 00290001
    wobei δds ≡ d(w(x; ct), t) – μs,t, q = (μs,t, σs,t) der Durchschnitt und die Standardabweichung der S-Ansichts-Modell-Komponenten ist, ∇d = ∇d(w(x; ct), t) gilt und ks eine Konstante ist, die von ct unabhängig ist. Ähnlich gilt, für die W-Komponente des Ansichts-Modells
    Figure 00290002
    wobei δdw ≡ d(w(x; ct), t) – d(x, t-1) – d(w(x, t-1) und kw eine Konstante ist, die von ct unabhängig ist. Mit diesen Linearisierungen ist die approximierte, objektive Funktion dann gegeben durch
    Figure 00290003
    wobei k eine Konstante, unabhängig von ct, ist. Da die approximierte, objektive Funktion in der Aktualisierung quadratisch ist, δc, ergibt deren Ableitung ein lineares System für δc:
  • Figure 00290004
  • Alternativ können die sich ergebenden, linearen Gleichungen für die Aktualisierung von δc geschrieben werden als (As + ∊ Aw + Ap)δc = bs + ∊ bw + bp GLEICHUNG (23)wobei jedes Ai eine 4 × 4 Matrix ist und jedes bi ein 4-Vektor ist, für i = w, s, p:
  • Figure 00300001
  • Jede lineare Gleichung in diesem System ist aus einer unterschiedlichen Bewegungsbedingung gebildet, gewichtet mit den Besitzwahrscheinlichkeiten für die W- und S-Komponenten, jeweils. In Gleichung (23) ist ε ein Gewichtungsfaktor für die W-Komponenten-Bedingungen. Ein mathematisch geeigneter M-Schritt zum Maximieren der geeigneten, objektiven Funktionen von Gleichung (21) würde die Gewichtung ε = 1 ergeben. Die Erfinder haben als nützlich herausgefunden, die Bedingungen, die zu der W-Komponenten gehören, nach unten um einen Faktor von ε = 1/ns zu gewichten, wobei ns die Halbwertzeit des exponentiellen, temporären Fensters, verwendet in dem Ansichts-Modell, ist. Zusätzlich wird das Verfahren, beschrieben von D. J. Fleet und A. D. Jepson, „Stability of Phase Information" (zitiert vorstehend), dazu verwendet, lokale Phasen-Instabilitäten zu erfassen, die mit Bandpass-Signalen auftreten. Immer wenn eine lokale Phasenbeobachtung, dx,t, als instabil betrachtet wird, sind die entsprechenden Gradienten-Bedingungen nicht definiert und nicht in Gleichung (23) enthalten. Wenn eine instabile Beobachtung zu einer Zeit t-1 zu einer guten Beobachtung zu einer Zeit t unter der momentanen Verzerrung auflistet, dann ist die Wahrscheinlichkeit ρw(d ^x,t, d ^x,t-1) nicht definiert. Anstelle davon wird ρw = 0,05 verwendet, wenn die vorherige Beobachtung als instabil angesehen wurde. Auch werden die entsprechenden W-Komponenten-Bedingungen von dem linearen System durch Einstellen von ε auf 0 in diesen Fällen entfernt.
  • In der Praxis ist es, um dabei zu helfen, zu vermeiden, dass an lokalen Minima hängengeblieben wird, nützlich, den EM-Algorithmus mit einer grob-zu-fein Strategie und einem deterministischen Annealing beim Anpassen der Bewegungs-Parameter anzuwenden (z.B. siehe, zum Beispiel, A. Jepson und M. J. Black, „Mixture Models for Optical Flow Computation", Proc. IEEE Computer Vision and Pattern Recognition, CVPR-93, Seiten 760–761, New York, Juni 1993). Die anfängliche Abschätzung für die Verzerrungs-Parameter basiert auf einem konstanten Geschwindigkeitsmodell, so dass die anfängliche Abschätzung einfach gleich zu den abgeschätzten Verzerrungs-Parametern gegenüber dem vorherigen Einzelbild ist. Anhand eines Annealing werden, anstelle einer Verwendung der Varianzen σ2 s,t und σ2 w beim Berechnen der Besitzherrschaften und der Gradienten der Gleichung (22) für die S- und W-Komponenten, die Parameter σs und σw verwendet. Bei jeder Iteration des EM-Algorithmus werden diese Werten verringert entsprechend zu σs ← min(0,95σs, σ ^s) σw ← min(0,95σw, σ ^w) GLEICHUNG (24)wobei σs und σw die maximalen Wahrscheinlichkeits-Varianz-Abschätzungen der S-Komponenten- und der W-Komponenten-Phasen-Differenzen, über der gesamten Nachbarschaft, sind, Nt, unter Vorgabe der Bewegungs-Abschätzung, erhalten in der momentanen EM-Iteration. Wenn einmal die Varianten einen minimalen Wert erreichen, wird das Annealing abgeschaltet und es wird ermöglicht, dass sie entsprechend den momentanen Bewegungs-Parametern fluktuieren. Weiterhin werden, wenn sich die Varianz der S-Komponenten entsprechend der räumlichen Anordnung der Datenbeobachtungen bei jeder EM-Iteration verringert, die Varianzen, verwendet für jede individuelle Beobachtung beim Berechnen von Besitzherrschaften und Wahrscheinlichkeitsgradienten, niemals so zugelassen, dass sie niedriger als die entsprechende Varianz von σ2 s,t sind.
  • Schließlich wird, wenn einmal die Verzerrungs-Parameter ct bestimmt worden sind, das Ansichts-Modell As-1 nach vorne zu der momentanen Zeit t, unter Verwendung der Verzerrung, spezifiziert durch ct, konvektiert (verzerrt). Um diese Verzerrung vorzunehmen, wird eine stückweise, konstante Interpolation für die WSL-Zustands-Variablen m(x, t-1) und σx(x, t-1) verwendet. In Bezug auf diese Interpolation wurde erwartet, dass sie zu grob ist, um sie für die Interpolation des Durchschnitts μ(x,t-1) für den stabilen Prozess zu verwenden, so dass anstelle davon der Durchschnitt unter Verwendung eines stückweisen, linearen Modells interpoliert wird. Der räumliche Phasen-Gradient für diese Interpolation wird von dem Gradienten der Filter-Ansprechverhalten an dem nächsten Pixel zu der erwünschten Stelle x auf der Bild-Pyramide, die das Gitter abtastet, bestimmt (siehe D. J. Fleet, A. D. Jepson und M. Jenkin, „Phase-Based Disparity Measurement", Computer Vision and Image Understanding, 53 (2): 198–210, 1991).
  • Ein Nachführungssystem, das das WSL Ansichts-Modell in der Art und Weise verwendet, die vorstehend angegeben ist, wurde durch die Erfinder unter Verwendung einer SUN Workstation, die auf einem Unix Betriebssystem läuft, und die in der C Programmiersprache geschrieben ist, die eine oder mehrere MatlabPyrTools und MatLab Software Toolboxes einsetzt, ausgeführt. Verschiedene Beispiele, die die Funktionsweise dieses umgesetzten Nachführungssystems beschreiben, sind nachfolgend beschrieben.
  • Die 10(A) bis 10(C) stellen Bilder dar, die von einer Sequenz herangezogen sind, während der ein Untersatz, der in einer ersten Richtung läuft (d.h. von links nach rechts in dem Bild-Einzelbild, 10(A)), sich zu der Kamera hin wendet (10(B)) und dann in der entgegengesetzten Richtung läuft (d.h. von rechts nach links, 10(C)). Dieses Beispiel stellt die Fähigkeit der S-Komponenten dar, um sich an graduelle Deformationen, verursacht durch eine Drehung eines 3D-Ziel-Objekts (z.B. der Kopf des Subjekts), anzupassen. In den 10(A) bis 10(C) zeigt das erhellte Oval einen manuell ausgewählten Objektbereich, ausgewählt in dem ersten Frame, an. Dieses Oval bleibt auf dem Kopf des Subjekts fixiert, während der Abbiegevorgang für ein erfolgreiches Nachführen kennzeichnend ist.
  • Wie in den 11(A) bis 13(B) gezeigt ist, wird der Erfolg des Nachführungssystems stark durch die Fähigkeit der S-Komponenten beeinflusst, eine stabile Bildstruktur während des Abbiegens des Subjekts hinweg zu identifizieren. 11(A) und 11(B) zeigen die Misch-Wahrscheinlichkeit und den Durchschnittswert, jeweils, für die Mehrfach-Datenfolgen, erzeugt durch das Bild-Einzelbild der 10(A), an. Dunkle Bereiche der 11(A) zeigen dicht gepackte Bereiche von Werten mit einer relativ hohen Misch-Wahrscheinlichkeit an (bezeichnend eine stabile Struktur), während hellere Bereiche niedrige Misch-Wahrscheinlichkeitswerte anzeigen (bezeichnend eine instabile Struktur). Wie in den Bereichen 1110 und 1120 angezeigt ist, wird eine hoch stabile Struktur in den Bereichen eines hohen Kontrasts, zugeordnet zu den Augen und Ohren, jeweils, des Subjekts, identifiziert. Die 12(A) und 12(B) zeigen Änderungen in Bezug auf die Misch-Wahrscheinlichkeit und die Durchschnittswerte, wenn das Subjekt abbiegt (dargestellt in 10(B)). Es ist anzumerken, dass die Misch-Wahrscheinlichkeiten in dem Augenbereich 1210 und dem Ohrbereich 1220 relativ hoch verbleiben, was anzeigt, dass die stabilen Bilddaten in diesen Bereichen beibehalten werden. Schließlich zeigen die 13(A) und 13(B) Änderungen in der Misch-Wahrscheinlichkeit und den Durchschnittswerten an, nachdem das Abbiegen des Subjekts abgeschlossen ist (dargestellt in 10(B)). Es ist anzumerken, dass, obwohl stark verringert in der Zahl, ausreichende, stabile Daten von dem Augenbereich 1310 und dem Ohrbereich 1320 erhalten werden, um eine erfolgreiche Nachführung zu erleichtern.
  • Die 14(A) und 14(B) zeigen zusammengesetzte Bilder, die die Stabilität der Verbindungsabschätzung einer Bewegung und einer Ansicht des Nachführungssystems darstellen, ungeachtet von wesentlichen Änderungen in der Größe und in den Beleuchtungsbedingungen. Eine noch größere Herausforderung für das momentane Verfahren sind (zu Zeiten) kleine Zielbereiche und die kleine Separation der Objektbewegung von der Hintergrundbewegung (ungefähr ein Pixel pro Einzelbild). Auch wird grob die Hälfte des Zielbereichs durch die Büsche manchmal verdeckt. Die Kamera war während des Filmens stationär, und die Sequenzen sind jeweils grob 250 Einzelbilder. Die zwei Abläufe, gezeigt in den 14(A) und 14(B), stellen den erhellten Zielbereich für ausgewählte Einzelbilder, überlagert auf dem letzten Einzelbild, dar.
  • Die 15(A) bis 18(D) stellen das Verhalten des Nachführungssystems auf eine Teilverdeckung hin dar. Die 15(A), 16(A), 17(A) und 18(A) zeigen ausgewählte Bild-Einzelbilder von der Sequenz, während der sich das Subjekt von einem nicht verdeckten Anfangszustand (15(A)) zu einer Teilverdeckung durch ein Signal (16(A) und 17(A)) bewegt, und schließlich hinter dem Signal wieder hervortritt (18(A)). Die 15(B)18(B) drucken die Misch-Wahrscheinlichkeit ms(x, t), aus, die 15(C)18(C) drucken den Durchschnitt μs(x, t) aus und die 15(D)18(D) drucken den Besitz os,t(x, t) für die S-Komponente aus.
  • Die 15(A)15(D) stellen eine Verarbeitung nach ungefähr 70 Einzelbildern dar. Die wesentlichen Ansprechverhalten für ms,t und os,t (15(B) und 15(D)) demonstrieren, dass das Ansichts-Modell erfolgreich eine stabile Struktur, typischerweise innerhalb der Objektgrenze, identifizierte. In den 16(A)16(D) und 17(A)17(D), wo der Gegenstand durch das Signal verdeckt ist, ist festzustellen, dass sich ms(x, t) sanft in dem verdeckten Bereich aufgrund des Vorhandenseins einer Datenunterstützung absenkt, während der Durchschnitt μs(x, t) grob festgelegt verbleibt, bis ms unterhalb des ausdruckenden Schwellwerts fällt. Dies zeigt deutlich die Gültigkeit des Ansichts-Modells. Die 17(A)17(D) zeigen das Subjekt und das Ansichts-Modell nach grob 20 Einzelbildern einer Verdeckung (es wird daran erinnert, dass die Halbwertzeit des Modells ns = 20 ist), wobei zu dieser Zeit die schwächeren Datenpunkte in der S-Komponente verschwunden sind. Allerdings fährt das Modell fort, durch dieses Verdeckungs-Ereignis nachzufahren, und behält das stabile Modell an dem sichtbaren Bereich des Subjekts bei (z.B. Bereich 1710; 17(D)). In 18(A)18(D) baut, wenn die Person hinter der Verdeckung hervortritt, das Ansichts-Modell das verschwundene, stabile Modell wieder auf.
  • Die 19(A)22(B) stellen die Fähigkeit des WSL Ansichts-Modells dar, um stabile Eigenschaften in Bildern von nicht-festen bzw. steifen (z.B. natürlichen) Objekten nachzuführen und zu identifizieren, wie beispielsweise die Änderung eines Ausdrucks, dargestellt in der Reihe von Bildern, dargestellt in den 19(A)19(C). Wie in den Beispielen vorstehend zeigen die 20(A), 21(A) und 22(A) Misch-Wahrscheinlichkeiten der S-Komponenten, und die 20(A), 21(A) und 22(A) stellen jeweilige Durchschnittswerte dar. Anhand der 20(A) ist festzustellen, dass der Mundbereich 2010 zu Anfang als relativ stabil identifiziert ist. In 21(A) wird, unmittelbar nachdem das Subjekt lacht, die Stabilität in dem Mundbereich 2110 wesentlich geschwächt (angezeigt durch die hellere Schattierung). Wie in 22(A) dargestellt ist, wird, wenn einmal der neue Ausdruck für ungefähr 20 Einzelbilder gehalten worden ist, die Stabilität in dem Mundbereich 2210 erneut eingerichtet. Andere Teile des Gesichts, wie beispielsweise die Augenbrauen, zeigen ein ähnliches Verhalten. Umgekehrt fahren die Werte von ms, nahe dem Haaransatz und auf der Nase, fort, sich durch diese Ereignisse zu erhöhen, was anzeigt, dass sie übereinstimmend stabil sind, und insgesamt wird der Kopf genau nachgeführt.

Claims (2)

  1. Verfahren zum Erzeugen eines Ansichts-Modells (120) unter Verwendung von Bilddaten, bereitgestellt in einer Vielzahl von sequenziellen Bild-Einzelbildern, wobei das Ansichts-Modell (120) eine stabile Komponente (130) und eine Übergangs-Komponente (140) umfasst, wobei das Verfahren einen Bild-Messwert entsprechend zu einem momentanen Bild-Einzelbild der Vielzahl der sequenziellen Bild-Einzelbilder aufnimmt; dadurch gekennzeichnet, dass die stabile Komponente (130) einen ersten Daten-Parameter (134), definiert durch Bilddaten, bereitgestellt in einer ersten Anzahl der sequenziellen Bild-Einzelbilder, und eine erste Mischwahrscheinlichkeit (132) aufweist; und die Übergangs-Komponente (140) einen zweiten Daten-Parameter (144), definiert durch Bilddaten, bereitgestellt durch eine zweite Anzahl der sequenziellen Bild-Einzelbilder, wobei die zweite Anzahl kleiner als die erste Anzahl ist, und eine zweite Mischwahrscheinlichkeit (142) aufweist; wobei das Verfahren weiterhin die Schritte aufweist: Bestimmen eines ersten Wahrscheinlichkeitswerts für die stabile Komponente (130) und eines zweiten Wahrscheinlichkeitswerts für die Übergangs-Komponente (140), wobei der erste Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem ersten Daten-Parameter (134) anzeigt und der zweite Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem zweiten Daten-Parameter (144) anzeigt; und Aktualisieren der ersten Mischwahrscheinlichkeit (132) der stabilen Komponente und der zweiten Mischwahrscheinlichkeit (142) der Übergangs-Komponente unter Verwendung des ersten und des zweiten Wahrscheinlichkeitswerts jeweils.
  2. Vorrichtung zum Erzeugen eines Ansichts-Modells (120) unter Verwendung von Bilddaten, bereitgestellt in einer Vielzahl von sequenziellen Bild-Einzelbildern, wobei das Ansichts-Modell (120) eine stabile Komponente (130) und eine Übergangs-Komponente (140) umfasst, und die Vorrichtung einen Bild-Messwert entsprechend zu einem momentanen Bild-Einzelbild der Vielzahl der sequenziellen Bild-Einzelbilder aufnimmt; dadurch gekennzeichnet, dass die stabile Komponente (130) einen ersten Daten-Parameter (134), definiert durch Bilddaten, bereitgestellt in einer ersten Anzahl der sequenziellen Bild-Einzelbilder, und eine erste Mischwahrscheinlichkeit (132) aufweist; und die Übergangs-Komponente (140) einen zweiten Daten-Parameter (144), definiert durch Bilddaten, bereitgestellt durch eine zweite Anzahl der sequenziellen Bild-Einzelbilder, wobei die zweite Anzahl kleiner als die erste Anzahl ist, und eine zweite Mischwahrscheinlichkeit (142) aufweist; wobei die Vorrichtung weiterhin aufweist: eine Analysiereinrichtung zum Bestimmen eines ersten Wahrscheinlichkeitswerts für die stabile Komponente (130) und eines zweiten Wahrscheinlichkeitswerts für die Übergangs-Komponente (140), wobei der erste Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem ersten Daten-Parameter (134) anzeigt und der zweite Wahrscheinlichkeitswert eine relative Konsistenz zwischen dem Bild-Messwert und dem zweiten Daten-Parameter (144) anzeigt; und eine eine Mischwahrscheinlichkeit aktualisierende Einrichtung zum Aktualisieren der ersten Mischwahrscheinlichkeit (132) der stabilen Komponente und der zweiten Mischwahrscheinlichkeit (142) der Übergangs-Komponente unter Verwendung des ersten und des zweiten Wahrscheinlichkeitswerts jeweils.
DE60209989T 2001-12-07 2002-12-06 Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung Expired - Lifetime DE60209989T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/016,659 US7058205B2 (en) 2001-12-07 2001-12-07 Robust, on-line, view-based appearance models for visual motion analysis and visual tracking
US16659 2001-12-07

Publications (2)

Publication Number Publication Date
DE60209989D1 DE60209989D1 (de) 2006-05-11
DE60209989T2 true DE60209989T2 (de) 2006-08-17

Family

ID=21778275

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60209989T Expired - Lifetime DE60209989T2 (de) 2001-12-07 2002-12-06 Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung

Country Status (5)

Country Link
US (1) US7058205B2 (de)
EP (1) EP1318477B1 (de)
JP (2) JP4372411B2 (de)
BR (1) BR0204991A (de)
DE (1) DE60209989T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010023313A1 (de) * 2010-06-10 2011-12-15 Jörg Mudrak Verfahren zur Erzeugung von Bewegungsartefakten in einem Bild und eine dafür benötigte Einrichtung

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058205B2 (en) * 2001-12-07 2006-06-06 Xerox Corporation Robust, on-line, view-based appearance models for visual motion analysis and visual tracking
US6954544B2 (en) * 2002-05-23 2005-10-11 Xerox Corporation Visual motion analysis method for detecting arbitrary numbers of moving objects in image sequences
GB0218982D0 (en) * 2002-08-15 2002-09-25 Roke Manor Research Video motion anomaly detector
US7072494B2 (en) 2004-02-20 2006-07-04 Siemens Corporate Research, Inc. Method and system for multi-modal component-based tracking of an object using robust information fusion
EP1602321A1 (de) * 2004-06-02 2005-12-07 SensoMotoric Instruments GmbH Methode und Gerät zur bildgestützten Augenverfolgung bei Apparaten zur Diagnose oder Chirurgie der Retina
US7639841B2 (en) * 2004-12-20 2009-12-29 Siemens Corporation System and method for on-road detection of a vehicle using knowledge fusion
US7599549B2 (en) * 2004-12-22 2009-10-06 Fujifilm Corporation Image processing method, image processing apparatus, and computer readable medium, in which an image processing program is recorded
GB0502371D0 (en) * 2005-02-04 2005-03-16 British Telecomm Identifying spurious regions in a video frame
ATE486332T1 (de) * 2005-03-17 2010-11-15 British Telecomm Verfahren zur verfolgung von objekten in einer videosequenz
US7664962B2 (en) * 2006-03-13 2010-02-16 Motorola, Inc. Multiple-input, automatic recognition method and apparatus
US8026931B2 (en) 2006-03-16 2011-09-27 Microsoft Corporation Digital video effects
US20110123067A1 (en) * 2006-06-12 2011-05-26 D & S Consultants, Inc. Method And System for Tracking a Target
EP1879149B1 (de) * 2006-07-10 2016-03-16 Fondazione Bruno Kessler Vorrichtung und Verfahren zur Verfolgung einer Anzahl von Objekten oder Objektteilen in einer Bildsequenz
US8154600B2 (en) * 2007-04-20 2012-04-10 Utc Fire & Security Americas Corporation, Inc. Method and system for distributed multiple target tracking
US20090002489A1 (en) * 2007-06-29 2009-01-01 Fuji Xerox Co., Ltd. Efficient tracking multiple objects through occlusion
GB2452512B (en) * 2007-09-05 2012-02-29 Sony Corp Apparatus and method of object tracking
US8160371B2 (en) * 2007-12-03 2012-04-17 Honeywell International Inc. System for finding archived objects in video data
US8190549B2 (en) * 2007-12-21 2012-05-29 Honda Motor Co., Ltd. Online sparse matrix Gaussian process regression and visual applications
US7782490B2 (en) * 2008-02-01 2010-08-24 Xerox Corporation Sensitivity matrix determination for adaptive color control
EP2131212A3 (de) * 2008-06-05 2011-10-05 Medison Co., Ltd. Nicht starre Registrierung zwischen CT-Bildern und Ultraschallbildern
US8200017B2 (en) * 2008-10-04 2012-06-12 Microsoft Corporation Face alignment via component-based discriminative search
US8099442B2 (en) * 2008-10-24 2012-01-17 Seiko Epson Corporation Robust generative features
US8611590B2 (en) 2008-12-23 2013-12-17 Canon Kabushiki Kaisha Video object fragmentation detection and management
AU2008264232B2 (en) * 2008-12-30 2012-05-17 Canon Kabushiki Kaisha Multi-modal object signature
WO2010118629A1 (en) * 2009-04-17 2010-10-21 The Hong Kong University Of Science And Technology Method, device and system for facilitating motion estimation and compensation of feature-motion decorrelation
US8989438B2 (en) * 2009-08-20 2015-03-24 Nec Corporation Mobile body track identification system
AU2009243528B2 (en) * 2009-12-04 2013-08-01 Canon Kabushiki Kaisha Location-based signature selection for multi-camera object tracking
US20110187703A1 (en) * 2010-01-29 2011-08-04 Kedar Anil Patwardhan Method and system for object tracking using appearance model
US8873798B2 (en) * 2010-02-05 2014-10-28 Rochester Institue Of Technology Methods for tracking objects using random projections, distance learning and a hybrid template library and apparatuses thereof
US9429940B2 (en) 2011-01-05 2016-08-30 Sphero, Inc. Self propelled device with magnetic coupling
US8571781B2 (en) 2011-01-05 2013-10-29 Orbotix, Inc. Self-propelled device with actively engaged drive system
US9218316B2 (en) 2011-01-05 2015-12-22 Sphero, Inc. Remotely controlling a self-propelled device in a virtualized environment
US9090214B2 (en) 2011-01-05 2015-07-28 Orbotix, Inc. Magnetically coupled accessory for a self-propelled device
US10281915B2 (en) 2011-01-05 2019-05-07 Sphero, Inc. Multi-purposed self-propelled device
US8948447B2 (en) * 2011-07-12 2015-02-03 Lucasfilm Entertainment Companyy, Ltd. Scale independent tracking pattern
US9619699B2 (en) 2011-11-09 2017-04-11 Tata Consultancy Services Limited System and method for enhancing human counting by fusing results of human detection modalities
CN104428791A (zh) * 2012-05-14 2015-03-18 澳宝提克斯公司 通过检测图像中的圆形物体操作计算装置
US9827487B2 (en) 2012-05-14 2017-11-28 Sphero, Inc. Interactive augmented reality using a self-propelled device
US9292758B2 (en) 2012-05-14 2016-03-22 Sphero, Inc. Augmentation of elements in data content
US10056791B2 (en) 2012-07-13 2018-08-21 Sphero, Inc. Self-optimizing power transfer
US9087403B2 (en) * 2012-07-26 2015-07-21 Qualcomm Incorporated Maintaining continuity of augmentations
KR101977802B1 (ko) * 2012-10-10 2019-05-13 삼성전자주식회사 영상 시스템에서 움직임 추정 장치 및 방법
US8995719B2 (en) * 2012-12-10 2015-03-31 Intel Corporation Techniques for improved image disparity estimation
US20140176548A1 (en) * 2012-12-21 2014-06-26 Nvidia Corporation Facial image enhancement for video communication
US9025825B2 (en) 2013-05-10 2015-05-05 Palo Alto Research Center Incorporated System and method for visual motion based object segmentation and tracking
US9070289B2 (en) 2013-05-10 2015-06-30 Palo Alto Research Incorporated System and method for detecting, tracking and estimating the speed of vehicles from a mobile platform
CN103593856A (zh) * 2013-11-20 2014-02-19 中国科学院深圳先进技术研究院 单目标跟踪方法及系统
US9829882B2 (en) 2013-12-20 2017-11-28 Sphero, Inc. Self-propelled device with center of mass drive system
CN104408768B (zh) * 2014-11-20 2017-06-09 浙江大学 一种基于联合字典的三维人脸表情去除的方法
US9697614B2 (en) 2014-12-08 2017-07-04 Mitsubishi Electric Research Laboratories, Inc. Method for segmenting and tracking content in videos using low-dimensional subspaces and sparse vectors
US10252417B2 (en) * 2016-03-02 2019-04-09 Canon Kabushiki Kaisha Information processing apparatus, method of controlling information processing apparatus, and storage medium
EP3340104B1 (de) * 2016-12-21 2023-11-29 Axis AB Verfahren zur alarmerzeugung in einem videoüberwachungssystem
JP7080615B2 (ja) * 2017-10-04 2022-06-06 株式会社日立製作所 監視装置、その方法および、そのシステム
CN111291739B (zh) * 2020-05-09 2020-09-18 腾讯科技(深圳)有限公司 面部检测、图像检测神经网络训练方法、装置和设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9019538D0 (en) * 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
JPH04372411A (ja) * 1991-06-19 1992-12-25 Toyota Motor Corp アクティブサスペンションの制御装置
US6724915B1 (en) * 1998-03-13 2004-04-20 Siemens Corporate Research, Inc. Method for tracking a video object in a time-ordered sequence of image frames
US6798897B1 (en) * 1999-09-05 2004-09-28 Protrack Ltd. Real time image registration, motion detection and background replacement using discrete local motion estimation
US6741756B1 (en) * 1999-09-30 2004-05-25 Microsoft Corp. System and method for estimating the orientation of an object
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7058205B2 (en) * 2001-12-07 2006-06-06 Xerox Corporation Robust, on-line, view-based appearance models for visual motion analysis and visual tracking

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010023313A1 (de) * 2010-06-10 2011-12-15 Jörg Mudrak Verfahren zur Erzeugung von Bewegungsartefakten in einem Bild und eine dafür benötigte Einrichtung

Also Published As

Publication number Publication date
JP2003196661A (ja) 2003-07-11
JP4824791B2 (ja) 2011-11-30
JP2009217855A (ja) 2009-09-24
US7058205B2 (en) 2006-06-06
EP1318477A3 (de) 2003-09-17
US20030108220A1 (en) 2003-06-12
EP1318477A2 (de) 2003-06-11
BR0204991A (pt) 2004-06-29
DE60209989D1 (de) 2006-05-11
EP1318477B1 (de) 2006-03-22
JP4372411B2 (ja) 2009-11-25

Similar Documents

Publication Publication Date Title
DE60209989T2 (de) Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung
DE60213032T2 (de) Gerät zur Gesichtsdetektion, Gerät zur Detektion der Gesichtspose, Gerät zur Extraktion von Teilbildern und Verfahren für diese Geräte
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE602005002802T2 (de) Anordnung, Verfahren und Programm zur Bestimmung der Zentralposition eines Gesichts
EP2467828B1 (de) Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform
DE69823001T2 (de) Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen
DE69910757T2 (de) Wavelet-basierte gesichtsbewegungserfassung für avataranimation
DE60223361T2 (de) Objektidentifikation
DE102006059172B4 (de) Bildprozessor
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE19831413C2 (de) Bildverarbeitungsverfahren und Vorrichtungen zur Erkennung von Objekten im Verkehr
DE102019106277A1 (de) Bildanalysevorrichtung, -verfahren und -programm
EP3542211A1 (de) Verfahren und vorrichtung sowie computerprogramm zum ermitteln einer repräsentation eines brillenglasrands
DE102010001520A1 (de) Durch einen Flugzeugsensor unterstütztes Iriserfassungssystem und -Verfahren
EP2284795A2 (de) Quantitative Analyse, Visualisierung und Bewegungskorrektur in dynamischen Prozessen
DE19634768A1 (de) Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild
DE102014100352B4 (de) Verfahren zum Detektieren einer Bedingung mit von der Straße abgewandten Augen
EP3103060A1 (de) 2d-bildanalysator
WO2009062945A1 (de) Verfahren und vorrichtung zum auffinden und verfolgen von augenpaaren
DE10297574T5 (de) Verfahren und Vorrichtung zur Augenerfassung
DE102006035637A1 (de) Verfahren zum Erfassen und Verfolgen von deformierbaren Objekten
DE112019007390T5 (de) Verfahren, Vorrichtung und Computerprogramm zur Verfolgung von sich bewegenden Objekten
DE112020005223T5 (de) Objektverfolgungseinrichtung und Objektverfolgungsverfahren
EP2483834A1 (de) Verfahren und vorrichtung zum erkennen einer fehldetektion eines objekts in einem bild
DE10145608B4 (de) Modellbasierte Objektklassifikation und Zielerkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition