DE102006050364A1

DE102006050364A1 - Verfahren zum Detektieren und Verfolgen deformierbarer Objekte unter Verwendung eines adaptiven zeitvariierenden autoregressiven Modells

Info

Publication number: DE102006050364A1
Application number: DE102006050364A
Authority: DE
Inventors: Charles Florin; Nikolaos Paragios; James P. Williams
Original assignee: Siemens Medical Solutions USA Inc
Current assignee: Siemens Medical Solutions USA Inc
Priority date: 2005-10-27
Filing date: 2006-10-25
Publication date: 2007-05-03
Also published as: US20070098221A1

Abstract

Ein Verfahren wird geschaffen zum Segmentieren eines sich bewegenden Objektes, das in einen Hintergrund eingetaucht ist, enthaltend: Gewinnen eines zeitvariierenden autoregressiven Modells der Vorbewegung des Objektes zur Vorhersage einer zukünftigen Bewegung des Objektes; Voraussagen einer Folgekontur des Objektes aus dem Hintergrund unter Verwendung des zeitvariierenden autoregressiven Modells, enthaltend das Verwenden des gewonnenen zeitvariierenden autoregressiven Modells zur Initialisierung und/oder Beschränkung der Segmentierung des Objektes aus dem Hintergrund; und Segmentieren des Objektes unter Verwendung der vorausgesagten Folgekontur und Aktualisieren des autoregressiven Modells, während das segmentierte Objekt verfolgt wird.

Description

Die Erfindung betrifft allgemein die Aufgabe der Detektion und spezieller die Detektion und die Verfolgung von deformierbaren Objekten.

Das Verfolgen von sich starke deformierenden Strukturen in Raum und Zeit tritt in vielen Anwendungen in der Computer-Vision auf. Statistische Modelle werden oft bezeichnet als lineare Kombinationen eines Durchschnittsmodells und Modi von Änderungen, die von Trainingsbeispielen gelehrt werden. In der dynamischen Modellierung (Dynamic Modeling), ist die Form dargestellt als Funktion von Formen vorangegangener Zeitschritte.

Es ist beispielsweise oft wünschenswert ein Objekt von einem Hintergrund anderer Objekte und/oder von einem Hintergrund von Rauschen, was hier allgemein als Hintergrund bezeichnet wird, zu detektieren und zu segmentieren. Eine Anwendung ist beispielsweise in MRI, wo es wünschenswert ist ein anatomisches Merkmal eines menschlichen Patienten, beispielsweise einen Wirbel des Patienten zu segmentieren, wo der Hintergrund die umgebenden, Organe und/oder das Gewebe ist. In anderen Fällen wäre es wünschenswert, ein sich bewegendes deformierbares anatomisches Merkmal, beispielsweise das Herz zu segmentieren.

Die Bewegungswahrnehmung ist eine fundamentale Aufgabe der biologischen Vision, wobei die Bewegungsschätzung und das Verfolgen die populärsten Anwendungen sind. Bei einer gegebenen Sequenz von Bildern möchte man eine 2 D Zeitposition der Objekte, die von bestimmtem Interesse sind, wieder herstellen. Diese Anwendungen dienen oft als Eingabe für Visionsaufgaben höherer Ebene, wie etwa 3 D Rekonstruktion, etc.

Das Verfolgen nicht starrer Objekte ist eine Aufgabe, die spezielle Beachtung in der Computer-Vision erhalten hat. Beginnend bei der bahnbrechenden Formulierung des Schlangenmodells, das beschrieben wird von Kass, A. Witkin, und D. Terzopoulos in der Veröffentlichung mit dem Titel „Snakes: Active Contour Models", veröffentlicht in IEEE International Conference in Computer Vision, Seiten 261–268, 1987, können verschiedene Versuche zum Behandeln des Verfolgens durch die Deformation von Konturen in der Literatur gefunden werden, entweder modellfrei (siehe M. Isard und A. Blake, Contour Tracking by Stochastic Propagation of Conditional Density) oder modelbasiert, T. Cootes, C. Taylor, D. Cooper und J. Graham. Active shape models – their training and application. (Siehe Computer Vision and Image Understanding, 61:38-59, 1995). Pegeleinstellungsverfahren (Level-Set Verfahren) (siehe S. Osher and J. Sethian. Fronts propagating with curvature-dependent speed: Algorithms based on the Hamilton-Jacobi formulation. Journal of Computational Pyhsics, 79: 12-49, 1988) ist eine alternative Technik (siehe S. Osher and N. Paragios. Geomoetric Level Set Methods in Imaging, Vidsion and Graphics, Springer Verlag, 2003) zum Verfolgen von sich bewegenden Schnittstellen (Interfaces) durch modellfreie Verfahren (siehe N. Paragios und R. Deriche. Geodesic Active Contours and Level Sets fort he Detectin and Tracking of Moving Objects. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22: 266–280, 2000) oder modellbasierte Verfahren (siehe D. Cremers. A Variational Framework for Image Segmentation Combining Motion Estimation and Shape Regularization. In IEEE Conference on Computer Vision and Pattern Recognition, Seiten 53–58, 2003) mit dem Vorteil, dass sie implizit, intrinsisch und parameterfrei sind. Derartige Verfahren sind in der Lage wichtige nicht lineare Deformierungen zu erfassen.

Das Einführen des obigen Wissens in die visuelle Wahrnehmung ist ein fortschreitender Versuch für eine Anzahl von Visionsaufgaben, wie etwa die Segmentierung, Bewegungsanalyse, 3 D Rekonstruktion, etc. Das Verfolgen war eine Domäne, die von derartigen Anstrengungen profitiert hat, insbesondere wenn Objekte und Strukturen behandelt werden, die eine begrenzte Änderung in Raum und Zeit haben. Zu diesem Zweck sind verschiedene Ansätze betrachtet worden, entweder basierend auf Schlangen (Snakes) (siehe D. Cremers, F. Tischhauser, J. Weickert, und C. Schnorr. Diffusion snakes: Introducing statistical shape knowledge into mumford-shah functional. International Journal Computer Vision, 50(3): 295–313, 2002), basierend auf aktiven Form- und Erscheinungsmodellen (siehe T. F. Cootes, G. J. Edwards, und C. J. Taylor. Active appearance models. Lecture Notes in Computer Scinece, 1407: 484 1998 und T. F. Cootes, C. J. Taylor, D. H. Cooper und J. Graham. Active Shape models – their training and application. Comput. Vis. Image Underst., 61(1): 38–59, 1995), Pegeleinstellungen (Level-Sets) (siehe T. Zhang und D. Freedman. Tracking objects using density matching and shape priors. In ICCV, Seiten 1056–162, 2003), etc. Derartige Ansätze modellieren die räumliche Änderung der Struktur, die von Interesse ist, in einer wahrscheinlichkeitstheoreti schen Art und Weise. Während des Rückschlussprozesses wird eine Einschränkung (Bedingung) für das Wiederherstellen der Formen eingeführt, die zu der gelernten Familie gehört.

Zeitmodelle, wie etwa Kalman-Snakes (siehe D. Terzopoulos und R. Szeliski. Tracking with Kalman Snakes. In A. Blake und A. Yuille, editors, Active Visio, Seiten 3–20. MIT), Multiple Hypotheses Trackers (siehe M. Isard und A. Blake. Contour Tracking by Stochastic Propagation of Cinditional Density. In European Conference on Computer Vision, Ausgabe I, Seiten 343–356, 1996 und K. Toyama und A. Blake. Probabilistic Tracking in a Metric Space. In IEEE International Conference in Computer Vision, Seiten 50–59, 2001) behandelt das Verfolgen in einer anderen Dimension. Einschränkungen/Modelle werden in die zeitliche Entwicklung des Ziels eingeführt, und Vorhersagemechanismen werden verwendet für das Durchführen des Verfolgens. Formverfolgen mit autoregressiven dynamischen Modellen ist ein Schritt vorwärts in dieser Richtung, mit unterschiedlichen Formräumen, die untersucht worden sind in der Veröffentlichung J. C. Nascimento, J. S. Marques und J. M. Sanches. Estimation of cardiac phases in echo-graphic images using multiple models, ICIP (2), Seiten 149–152, 2003, ein Model erster Ordnung wird verwendet, um Herzzyklen echokardiographischer Sequenzen zu verfolgen, während in C.-B. Liu und N. Ahuja, A model of dynamic shape and ist applications. In CVPR (2), Seiten 129–134, 2004 Fourier Deskriptoren verwendet werden um Formen zu beschreiben, und ein LDM verfolgt deren zeitliche Entwicklung. Das Verfolgen von Gelenkstrukturen ist ein Problem, das für autoregressive Modelle gut geeignet ist, und folglich wird in einer Veröffentlichung von A. Agarwal und B. Triggs. Tracking articulated motion using a mixture of autoregressive models, European Conference on Computer Vision, Seiten III 54–65, Prag, Mai 2004 ein Verfahren basierend auf einem linearen dynamischen Modell vorgeschlagen. Die Haupteinschränkung derartiger Modelle betrifft ihre zeitinvariante Natur. Zeitmodelle sowie Formdarstellungen werden aus vorherigen Sequenzen gelernt, die innerhalb der Verfolgung verwendet, und nicht aktualisiert werden. Folglich ist entweder eine komplexe Heuristik entwickelt worden, um Modelle zu mischen, oder Markov-Felder sind eingeführt worden für eine Multimodalität.

Gemäß der vorliegenden Erfindung wird ein Verfahren geschaffen zum Segmentieren eines sich bewegendes Objektes, das in einem Hintergrund eingetaucht ist, enthaltend: Gewinnen eines zeitvariierenden autoregressiven Modells einer vorherigen Bewegung des Objekts um zukünftige Bewegungen des Objekts vorauszusagen; Vorraussagen einer folgenden Kontur des Objekts von dem Hintergrund unter Verwendung des gewonnenen zeitvariierenden autoregressiven Modells enthaltend ein Verwenden des gewonnenen zeitvariierenden autoregressiven Modells, um eine Segmentierung des Objekts aus dem Hintergrund zu starten und/oder zu beschränken, und Segmentieren des Objekts unter Verwendung der vorausgesagten Folgekontur und Aktualisieren des autoregressiven Modells während der Verfolgung des segmentierten Objekts.

Das Verfahren enthält ein Modellieren der Objektform aus vorheriger Information und ein Aktualisieren der Objektform während der Objektverfolgung.

Das Verfahren verwendet die räumliche und die zeitliche Information der Objektdeformierung. Aufgrund ihrer zeitvariierenden Natur formuliert das Verfahren das Verfolgen neu als Zeitserienvoraussagemechanismus hoher Ordnung, der über Kalmanpartikel-Filter (KPF) hinausgeht. Abtastwerte (in Richtung Dimensionsreduktion) werden in einer orthogonalen Basis dargestellt und in ein autoregressives (AR) Modell eingeführt, das durch einen Optimierungsprozess in geeigneten metrischen Räumen bestimmt wird. Für zu erfassende Entwicklungsdeformierungen, sowie in Fällen, die nicht Teil der Lernstufe sind, wird ein Prozess beschrieben, der online sowohl den orthogonalen Basisabbau sowie die Parameter des autoregressiven Modells aktualisiert. Vielversprechende experimentelle Ergebnisse bei der Verfolgung expliziter Formen in einer Videosequenz sind erhalten worden, die verwendet werden können, um das vorherige Wissen einzuführen.

Das Verfahren verwendet eine online Technik zum Verfolgen basierend auf autoregressiven Modellen höherer Ordnung. Eine derartige Technik basiert auf einer Dimensionsreduktion des Parameterraums unter Verwendung eines orthogonalen Abbaus des Trainingssatzes. Dann wird ein lineares autoregressives Model in einem derartigen Raum aufgebaut, das in der Lage ist gegenwärtige Zustände aus vorherigen Zuständen vorherzusagen. Ein derartiges Model sowie dessen Merkmalsraum (orthogonaler Abbau von Formen) werden online unter Verwendung neuer Hinweise aktualisiert. Zu diesem Zweck wird ein geeigneter geometrischer Abstand in einem robusten System (Framework) verwendet, um die Parameter des Modells zu bestimmen.

Die Einzelheiten von einem oder von mehreren Ausführungsbeispielen der Erfindung werden im Folgenden unter Bezugnahme auf die Zeichnungen beschrieben. Andere Merkmale, Aufgaben und Vorteile der Erfindung werden aus der Beschreibung und den Zeichnungen und aus den Ansprüchen offensichtlich.
1A zeigt links ein Trainingsbeispiel, das ein Objekt aufweist, das durch den Prozess gemäß 8 zu verfolgen ist, der zur Segmentierung und Verfolgung des Objekts verwendet wird, das in einem Hintergrund aus Rauschen eingetaucht ist, gemäß der Erfindung;
1B zeigt eine Konturabbildung des Objekts; und
1C zeigt eine Durchschnittskontur (Umriss) des Objekts;
2 zeigt registrierte Trainingsbeispiele, die von der Principal Component Analysis (prinzipielle Komponentenanalyse), die in dem Prozess gemäß 8 verwendet wird; verwendet werden;
3 zeigt die wahren Umrisse bzw. Konturen (gestrichelt) und die Umrisse oder Konturen, die aus vorherigen Zuständen vorausgesagt werden, und ein adaptives zeitvariierendes (TVAR) Modell (durchgezogenen Linie);
4 zeigt wahre Konturen und vorausgesagte Projektionskonturen, die auf das Bild des Objekts projiziert werden;
5 zeigt einen Graphen, der die Summe der Fehlerquadrate im Beobachtungsraum zwischen der Vorraussagung und realen Zuständen zeigt bezüglich auf die Rausch-Standardabweichung;
6 zeigt einen Graphen, der die Summe der Fehlerquadrate im Beobachtungsraum zwischen der Voraussagung und den realen Zuständen zeigt bezüglich der Anzahl an Zeitschritten nachdem sich das Modell geändert hat;
7 zeigt das Objekt, nachdem die Kontur vorausgesagt worden ist gemäß dem Prozess von 8 mit einem Bildterm, der verwendet wird zur Korrektur der Voraussagung; und
8 zeigt ein Flussdiagramm eines Prozesses, der verwendet wird zum Segmentieren und Verfolgen eines sich bewegenden Objektes, das in einen Hintergrund von Rauschen eingetaucht ist gemäß der Erfindung, wobei Bereiche in den 8A und 8B genauer gezeigt sind.
Ähnliche Bezugszeichen werden in den verschiedenen Zeichnungen verwendet für ähnliche Elemente.
8 zeigt ein Flussdiagramm zum Segmentieren und Verfolgen eines sich bewegenden Objektes, das in einen Hintergrund eingetaucht ist, wobei der Hintergrund Rauschen ist, enthaltend: Gewinnen eines zeitvariierenden autoregressiven Modells einer vorherigen Bewegung des Objektes, um eine zukünftige Bewegung des Objekts vorauszusagen (im Einzelnen beschrieben in Schritt 122A); und Verfolgen des Objektes, enthaltend ein Segmentieren des Objektes aus dem Hintergrund unter Verwendung des autoregressiven Modells; und ein Aktualisieren des autoregressiven Modells während der Verfolgung des segmentierten Objektes (genauer in den Schritten 122B und 120A beschrieben). Spezieller enthält das Verfahren ein Gewinnen eines zeitvariierenden autoregressiven Modells einer vorherigen Bewegung des Objektes, um eine Zukünftige Bewegung des Objektes vorauszusagen (Schritte 120 und 122); ein Vorraussagen einer Folgekontur des Objektes aus dem Hintergrund unter Verwendung des gewinnenden zeitvariierenden autoregressiven Modells, enthaltend ein Verwenden des gewonnenen zeitvariierenden autoregressiven Modells, um eine Segmentierung des Objektes aus dem Hintergrund zu initialisieren und/oder einzuschränken (Schritt 126); und ein Segmentieren des Objektes unter Verwendung des Vorraussagens einer Folgekontur und des Aktualisierens des autoregressiven Modells während des Verfolgens des segmentierten Objektes (Schritt 128).
Ein zeitvariierendes autoregressives Modell einer vorherigen Bewegung des Objektes, um eine zukünftige Bewegung des Objektes vorauszusagen, enthält das Haben von Anfangskonturdaten des Objektes, die über eine Benutzerschnittstelle von einem Benutzer eingegeben werden, Schritt 110. Dies kann erfolgen durch den Benutzer, der die Kontur des Objektes unter Verwendung eines Verfolgungsstiftes auf einer Anzeiger eines MRI-Systems beispielsweise verfolgt, Schritt 110. Ebenso liefert eine Datenbank sequentiell geordnete Bilddaten des Objektes ohne Hintergrund, um dadurch eine Sequenz von Konturen des Objektes bereitzustellen (Schritt 116), wodurch die Vorraussagung des nächsten Objektes in der Sequenz ermöglicht wird. In diesem Fall ist das Objekt beispielsweise eine Person, wobei das Objekt deformiert wird, wenn die Person geht. In einer MRI-Anwendung kann das Objekt ein menschliches Herz sein, das deformiert wird durch die Schlagaktion des Herzens. Folglich wird in Schritt 114 ein Anfangssatz von zeitsequentiellen Bildern, hier k-Bilder bereitgestellt, die das Objekt im Hintergrund enthalten. Diese Bilder werden segmentiert unter Verwendung einer Benutzerinteraktion (Schritt 110), um die Anfangskonturen zu liefern (Schritt 116).
Ebenso werden vorsegmentierte vorher gewonnene Sequenzen (Schritt 118) verwendet zur Bereitstellung eines offline lernenden autoregressiven Modells (Schritt 120) und eines Modells, das das Objekt darstellt, um im Merkmalsraum verfolgt zu werden (Schritt 122). Spezieller können die ersten k-Konturen nicht ausreichen zum Schätzen des Objektes. Folglich ist eine vorherige Kenntnis des Objektes, das zu verfolgen ist, notwendig (Schritt 118), um eine grobe Schätzung des dynamischen Modells zu haben (Schritt 120) und des zukünftigen Raumes, der dargestellt wird in einer orthogonalen Basis, beispielsweise die Principle Component Analysis (PCA), Schritt 120. Es soll verstanden werden, dass andere Verfahren als PCA verwendet werden können, siehe beispielsweise Kernel PCA: „Nonlinear component analysis as a kernel eigenvalue problem", von Bernhard Schölkopf, Alexander Smola und Klaus-Robert Müller, Neural Computation; 10:1299–1319, 1998 und Fourier Koeffiziente: „ Fourier-based invariante shape prior for snakes" von Derrode, S. und Chermi, M.A: und Ghorbel, F., ICASSP 2006.
Die vorausgesagte nächste Kontur, die in Schritt 116 bereitgestellt wird, wird verwendet für das augenblickliche (online aktualisierte autoregressive Modell) dynamisch autoregressive (AR) Modell (Schritt 124), im Einzelnen in Schritt 120B beschrieben, wobei ein derartiges Model initialisiert wird durch ein offline gelerntes autoregressives Model (für Schritt 120) und das Model, das das Objekt darstellt, um den Merkmalsraum zu verfolgen (Schritt 122).
Der Prozess des Verfolgens des Objektes enthält ein segmentieren des Objekts aus dem Hintergrund unter Verwendung des autoregressiven Models; und das Aktualisieren des autoregressiven Models während der Verfolgung des segmentierten Objektes enthält das Verwenden der vorausgesagten nächsten Kontur, die in Schritt 116 bereitgestellt wird. Die vorausgesagte nächste Kontur, die in Schritt 116 bereitgestellt wird, wird verwendet mit der Anfangskontur, die in Schritt 116 bereitgestellt wird, um die nächste Kontur des Objektes vorauszusagen, Schritt 126. Die nächste vorausgesagte Kontur (Schritt 126) zusammen mit den Bilddaten des Objektes, die in dem Hintergrundrauschen eingebettet sind, wird verwendet, um einen Konturkorrekturterm zu bestimmen, Schritt 128 (siehe Gleichung 6). Der Konturkorrekturterm, Schritt 128 wird verwendet, um das gegenwärtige (also online upgedatete autoregressive Model) dynamische autoregressive (AR) Model zu aktualisieren (Schritt 124), während der Sequenz (also bis zum Ende der Bewegungssequenz); Schritt 130.
Verfolgen und Online Aktualisierung (Schritt 122).
Das Verfolgen und das Online Updaten (Aktualisieren) (Schritt 122) ist ein Prozess mit zwei Schritten (8B): ein Verfolgungsschritt 122A gefolgt von einem Aktualisierungsschritt 122B.
Bezüglich des ersten Schrittes 122A sei erwähnt, dass ein allgemeines autoregressives System verwendet werden kann, um das Verfolgen durchzuführen. Ohne Verlust der Allgemeinheit, wird angenommen, dass Objekte dargestellt werden unter Verwendung einer Anzahl von Steuerungspunkten. In diesem Fall besteht das Verfolgen aus einem Konturregistrierungsschritt, einem Dimensionsreduzierungsschritt, einem Satzlernschritt und einem online Adaptionsschritt des Models, als Zieldarstellung. Hier wird eine Konturregistrierung, die eine Abstandstransformation verwendet, für die Verfolgung verwendet. Implizite Verfahren sind beliebte Formdarstellungen. Es sei eine Anzahl von Trainingsbeispielen angenommen, zur Verfolgung; s = {s_i ∊ [1, m]} (siehe X. Huang, N. Paragios und D. Metaxas.; Establishing local correspondences toward compact representations of anatomical structures.; in Medical Image Computing & ComputerAssisted Inventions, Seite 926–934, 2003, und N. Paragios, M. Rousson, und V. Ramesh. Matching Distance Funktions: A Shape-to-Area Variational Approach for Global-to-Local Registration; In European Conference on Computer Vision, Seiten II: 775–790, 2002) wurde eine Abstands-Transformations-Darstellung ψ_i für eine gegebene Form s_i berücksichtigt wurde,
wobei Ω der Bildbereich ist. Eine globale Registrierung zwischen Formen kann jetzt innerhalb eines Optimierungssystems (Framework) behandelt werden, das ihre Abstandsfunktion enthält. Affine Modeltransformationen werden oft verwendet, um Bildbewegungen zu erfassen, und folglich kann man den Registrierungsprozess in ein globales Element und ein lokales Element zerlegen. Das globale Element kann bestimmt werden, indem eine affine Komponente verwendet wird und das lokale Element kann bestimmt werden, indem freie Formdeformierungen verwendet werden (siehe Huang, N. Paragios und D. Metaxas.; Establishing local correspondences toward compact representations of anatomical structures. In Medical Image Computing & ComputerAssisted Interventions, Seiten 926–934, 2003). Bei Fehlen einer wichtigen (starken) Skalenabweichung zwischen den Beispielen des Trainingssatzes kann die Summe der quadrierten Differenzen (siehe N. Paragios, M. Rousson; und V. Ramesh; Matching Distance Functions: A Shape-to-Area Variational Approach for Global-to-Local Registration; in European Conference on Computer Vision, Seiten II: 775–790, 2002) verwendet werden, um die affine Transformation zwischen zwei Formen zu bestimmen: E(Ai) = ∬Ωρ(ψi(x) – ψ(Ai(x)))dx
Durch ein Gradientenabnahmeoptimierungsverfahren. Der Fall von Skalenabweichungen kann behandelt werden durch die Verwendung von gegenseitiger Information (siehe N X Huang, N. Paragios und D. Metaxas.; Establishing local correspondences toward compact representations of anatomical structures. In Medical Image Computing & ComputerAssisted Interventions, Seiten 926–934, 2003). Die lokale Registrierung in Richtung einer der Entsprechungen zwischen den Konturpunkten kann wirkungsvoll erreicht werden, indem eine freie Formdeformierung im Raum der Abstandstransformation verwendet wird. Ein eleganter Weg, um eine derartige Einschränkung in einem gewissen Maß zu überwinden, betrifft die Verwendung von „Warping" Techniken und freien Formdeformierungen, die ziemlich populär sind für Graphiken, Animationen und Wiedergaben (Rendering) (siehe P. Faloutsos, M. van der Panne, und D. Terzopoulos; Dynamik Free-Form Deformations for Animation Synthesis. IEEE Transaktions 3:20 1–214, 1997. Das Wesen der traditionellen FFD ist ein Objekt zu deformieren, in dem ein reguläres Steuerungsgitter P, das auf den volumetrischen Einbettungsraum überlagert wird, manipuliert wird.
Es sei ein reguläres Gitter von Steuerungspunkten betrachtet ⌊P_m,n;m = 1, M, n = 1, N⌋, dass einer Region [ϕ_ix] in dem Einbettungsraum überlagert ist, dass die Quellenstruktur umschließt. Die Anfangskonfiguration des Steuerungsgitters sei P⁰, und das Deformierungs-Steuerungs-Gitter sei P = P⁰ + δP. Bei diesen Annahmen sind die inkrementalen FFD Parameter die Deformierungen der Steuerungspunkte in beide Richtungen x.
Die Bewegung eine Pixels x, die die Deformierung des Steuerungsgitters von P⁰ zu P angibt, ist definiert in Termen eines Tensorproduktes einer kubischen B-spline. Die Parameter einer derartigen Deformierung L_i können ebenfalls wiederhergestellt werden durch Verwendung von SSD mit zusätzlichen Regulierungsbedingungen: E(Li) = ∬Ωρ(ψi(x) – ψ(Li(x)))dx + ∬(|Li,xx|2 + |Li,yy|2 + 2|Li,xy|2)dxwie vorgeschlagen wurde in X Huang, N. Paragios und D. Metaxas.; Establishing local correspondences toward compact representations of anatomical structures. In Medical Image Computing & ComputerAssisted Interventions, Seiten 926–934, 2003. Experimentelle Ergebnisse eines derartigen Registrierungsprozesses sind in 1 gezeigt. Die Registrierung von Formen im impliziten Raum erlaubt die Wiederherstellung der Entsprechungen zwischen den Trainingsbeispielen bei verschiedenen Skalen. Folglich, basierend auf der Anzahl an Beispielen wählen wir eine Anzahl von Steuerungspunkten (100) und betrachten eine gleichmäßige Abtastregel, wo einen gültige statistische Analyse der Verteilung der Punkte erzielt werden kann. Das Erzeugen von Voraussagemechanismen hoher Ordnung in derartigen Dimensionsräumen ist jedoch unmöglich, und folglich muss ein Dimensions-Reduktions-Schritt berücksichtigt werden.
Dann in Schritt 122B, sei s i=1...n eine Spaltenvektordarstellung der vorherigen n registrierten Beispiele gemäß einer Abtastregel; Principle Component Analysis (PCA) kann verwendet werden, um die Statistiken der entsprechenden Elemente gegenüber den Trainingsbeispielen zu erfassen, wie in 2 gezeigt. PCA betrifft eine lineare Transformation von Variablen, die für eine gegebene Anzahl m von Operatoren – die größte Änderungsmenge innerhalb der Trainingsdaten haben, gemäß:
wobei s die Mittelform (Durchschnittsform) ist, m die Anzahl der behaltenen Modi von Abweichung, U_q diese Modi (Eigenvektoren) und b_q lineare Faktoren innerhalb des erlaubte Bereiches, der durch die Eigenwerte definiert wird, sind.
Ohne Verlust an Allgemeinheit kann eine Null Mittelannahme betrachtet werden für {s i} durch Schätzen des Mittelvektors s und Subtrahieren diesen von den Trainingsabtastwerten {s i}. Durch den Satz von Trainingsbeispielen und den Mittelvektor kann man die Kovarianzmatrix wie folgt definieren Σ = E{s i s Ti }
Es ist gut bekannt, dass die prinzipiellen orthogonalen Richtungen maximaler Variation für {s i} die Eigenvektoren von Σ sind. Man kann Σ mit der Abtast-Kovarianz-Matrix ersetzen, die gegeben ist durch [s TM s M] wobei s M die Matrix ist, die durch Verknüpfung des Satzes von Beispielen s i=1...n gebildet wird.
Die Eigenvektoren von Σ können berechnet werden durch Einzelwertezerlegung (SVD) von s M = UΣVT Die Eigenvektoren der Kovarianzmatrix Σ sind die Spalten der Metrik U, während die Elemente der Diagonalmatrix Σ die Varianz der Daten in Richtung der Basisvektoren betreffen. Derartige Information kann verwendet werden, um die Anzahl von Basisvektoren (m) zu bestimmen, die erforderlich ist, um einen bestimmten Prozentsatz der Varianz in den Daten zu behalten.
Es wird jetzt genauer auf Schritt 120 eingegangen, die autoregressiven Modelle werden entwickelt. Der Prozess (also Schritt 120) ist ein Zwei-Stufen Prozess (8A): Zuerst wird eine Konturregistrierung unter Verwendung einer Abstandstransformation durchgeführt, Schritt 120A; gefolgt durch eine Dimensionsreduktion durch eine orthogonale Zerlegung (Schritt 120B).
In Schritt 120A wird zuerst angemeltet, dass die Zeitserienmodelle sehr populär sind in vielen Bereichen, beispielsweise bei der Signalverarbeitung. Es sei ein Satz von zeitlichen Beobachtungen X = {X_i; i = 0, k} angenommen, der erzeugt wird aus einer multivariaten Verteilung ρ(). Die linearen autoregressiven Modelle – der Ordnung k – bestehen aus einem Ausdrücken der gegenwärtigen Beobachtung, als ein Kombination von vorherigen Abtastwerten, die durch ein Rauschmodell gestört sind: Xt = H[Xt-1Xt-2...Xt-k] + η(μ, Σ)mit H als Voraussagematrix und η(μ, Σ) als Rauschmodell. In dem allgemeinsten Fall kann man annehmen, dass die Eingangsvariable X definiert ist in hochdimensionalen Räumen und folglich wird eine gewisse Dimensionsreduktion durchgeführt. Ohne Verlust der Allgemeinheit, können wir einen Satz von entweder linearen oder nicht linearen Operatoren annehmen ϕ_i(); i ∊ [1, m], die wenn auf die Eingangsvariable X angewendet eine neue Basis von Beobachtungen bilden. Y = (ϕ1(X); ϕ2(X), ..., ϕm(X))oder eine neue Zufallsvariable. Man kann ferner annehmen, dass derartige Operatoren invertiert werden können, oder man kann von einem Merkmalsvektor Y die ursprünglichen Originalbeobachtung X wiedergewinnen. In diesem Fall kann man das autoregressive Modell in einen dimensional kleineren Raum umformen; Yt = Hϕ[Yt-1Yt-2...Yt-k] + ηϕ(μ, Σ)
Die Schätzung eines derartigen Modells kann aus dem Satz von Trainingsbeispielen und einer robusten Regression erfolgen. Es sei angenommen, das n>>k Beobachtungen verfügbar sind.
Sobald derartige Beobachtungen durch die Dimensionsreduktion gegangen sind, erhält man ein überbestimmtes Linearsystem:
Die unbekannten Parameter eines derartigen überbestimmten Systems können bestimmt werden durch eine robuste „Least Square Minimization" (Mindestquadratminimierung)
wobei ρ() eine robuste Abstandsmetrik zwischen tatsächlichen Beobachtungen und Vorraussagungen ist, die abhängt von dem Rauschmodell. Die Euler-Lagrange Gleichungen eines derartigen Systems führen zu einem linearen Problem, das direkt zu lösen ist. Die Anzahl von Bedingungen, die in einem derartigen Prozess verwendet werden, können bestimmt werden, durch Verwendung des Schwartz's Bayeschen Kriteriums. Eine derartige Satzschätzung der Parameter des autoregressiven Modells kann offline durchgeführt werden, Schritt 120.
Betrachtet man den Schritt 120B, das Verfolgen, sei zuerst erwähnt, dass die Verwendung von PCA (Principal Component Analysis) das Dimensionsproblem reduziert, was zu einem stark ungleichmäßigen Merkmalsraum führt (für den Bereich der Translation ist die Komponente weit über der der Skala). Folglich kann innerhalb des Voraussagemechanismus das Definieren von Fehlermetriken in einem derartigen Raum zu fehlerhaften Ergebnissen und Näherungen führen, da mehr Wichtigkeit den Parametern gegeben wird mit einem wichtigen Bereich, wie die Translation. Andererseits wird der Einfluss von lokalen Änderungen stark gemindert. Um eine derartige Einschränkung zu überwinden schlagen wir vor den Originalraum zu verwenden, um den Voraussagemechanismus in dem reduzierten Raum wiederzugewinnen.
Man betrachte s i = (x ji ; j ∊ [1, w]) mit x j / i als die Koordinaten des j-ten Punkts der registrierten Version der Kontur s_i. Ähnlich dazu unter Verwendung des Voraussagemechanismus kann man die tatsächlichen Parameter der Transformation wiedergewinnen Yi =Hϕ[Yi-1Yi-2...Yi-k]was auf die Mittelkontur s _i in Richtung tatsächlicher Beobachtung s_i angewendet werden sollte (siehe [Gleichung (3)]). Ohne Verlust der Allgemeinheit können wir den Merkmalsvektor Y_i in die globale und lokale Komponente Y_i = [A_iΛ_i] zerlegen. Um die Gleichung (1) zu verifizieren ist die folgende Bedingung zu erfüllen: xJi = Ai(x Ji ) + ΛiU
Eine derartige Bedingung muss für alle Steuerungspunkte erfüllt werden, und folglich kann man den euklidischen Abstand zwischen der Vorraussagung und den tatsächlichen Beobachtungen in dem Bildkoordinatensystem als die Fehlermetrik des autoregressiven Modells betrachten;
dies führt zu einem gut verhaltenden Abstand zwischen den Beobachtungen und Vorraussagungen und berücksichtigt implizit die Bereiche von Parametern des autoregressiven Modells. Die Euler-Lagrange Gleichungen führen zu einem linearen System, das gelöst werden kann durch eine Matrixinversion, und liefert den Anfangszustand des Voraussagemechanismus.
Sobald neue Beobachtungen in den Prozess eingeführt werden, sind die Voraussagematrix sowie die orthogonale Basis zu aktualisieren. Die Inkrementale PCA (principal component analysis) kann für die Basis verwendet werden, während ein exponentialer Vergess-Mechanismus geeigneter ist für die Voraussagematrix.
Online Adaption des Modells (Schritt 124)
Bezug nehmend auf den Schritt 124 enthält dieser die Adaption der orthogonalen Basis Schritt 124A, gefolgt durch eine Adaption des Voraussagemodells, Schritt 124B.
In Schritt 124A verwendet der Prozess als orthogonale Basis PCA siehe Incremental PCA (siehe P. Hall und R. Martin; incremental eigenanalysis for classification; in Proc. British Machine Vision Conference, Ausgabe 1, Seiten 286–295, 1998 und Y. Li. On incremental and robust subspace learning, Pattern Recognition, 37(7): 1509–1518, 2004, die letzte Beobachtung kann zu dem PCA Lernsatz hinzugefügt und die Zerlegung aktualisiert werden. Folglich ist ein neuer Merkmalsraum zu verwenden, um die Zustandszerlegung X darzustellen. Unter Verwendung dieser neuen Variationsmodi und des korrigierten Zustands X ^t , wird dann das Transitionsmodell aktualisiert und ist bereit für die Verwendung für die Voraussagung des folgenden Zustandes X_t+1. Das Verfahren, das dargestellt ist in P. Hall und R. Martin; incremental eigenanalysis for classification; in Proc. British Machine Vision Conference, Ausgabe 1, Seiten 286–295, 1998 kann wie folgt zusammengefasst werden: bei einem gegebenen PCA zum Zeitpunkt t – 1, werden das Mittel X t-1 , ein Satz von Eigenvektoren U_t-1 = [u_i] und ihre entsprechenden Eigenvektoren Γ_t-1 = diag(da₁, λ₂, ...), was einen neuen Zustand X_t gibt, PCA zum Zeitpunkt t aktualisiert beginnend bei den Mittel:
Die Eigenvektormatrix wird aktualisiert, indem der Rest h des Vektors hinzugefügt wird und eine Rotation R auf die frühere Eigenbasis angewendet wird:
Für eine Kovarianzmatrix C_t, C_tU_t, = Γ_t-1U_t. Die Kovarianzmatrix wird wie folgt aktualisiert
Dann, kann man folgern, dass (R, Γ_t), ([Gleichung (5)]) die Lösung des Eigenproblems DR = RΓt ist,wobei
mit γ = hT(Xt – X t) und g = UT(Xt – X t).
Als nächstes sei in Schritt 124B angenommen, dass Neubeobachtungen vorhanden sind. Sobald die Voraussagematrix geschätzt worden ist, werden Neubeobachtungen in das System zur Reduzierung des Voraussagefehlers eingeführt. Zu diesem Zweck möchte man das kleinste Potential finden von
Um die Notation zu vereinfachen sei angenommen, dass ρ die L-2 Norm ist, (siehe [Gleichung (4)]), was zu einem iterativen mindest Quadratsschätzproblem mit einem iterativen Gauss-Newton Verfahren führt, das die populärste Technik ist zur Behandlung einer derartigen Optimierung (siehe D.P. Bertsekas, incremental least squares methods and the extended kalman filter; SIAM J. on Optimization, 6(3):807–822, 1996), das Ergebnis wird erhalten durch Teilen der Summe der Quadrat in Blöcke, durch Lösen des Problems für den ersten Block und durch Verwenden dieses Ergebnisses als Initialisierung sobald der folgende Block dem vorangegangenem Block hinzugefügt wird. Es soll verstanden werden, dass andere Verfahren existieren, um die mindest Quadrat Iterativität zu lösen. Die least squares minimization (Zeile 10, Seite 13) ist Teil von Schritt 124. Im Gegensatz zu dem hier präsentierten Verfahren, D.P. Bertsekas; incremental least methods and the extended kalman filter; SIAM J. on Optimization, 6(3): 807–822, 1996, das die Gauss-Newton Iterationen löst unter Verwendung des Extended Kalman Filters für nicht lineare Messungen E(H, μ, Σ). Experimente haben gezeigt, dass wenig (wenig Duzend) Gauss-Newton Iterationen erforderlich sind, um weitaus bessere Ergebnisse zu erreichen, als bei einem einfachen zeitinvarianten dynamischen Modell.
Für nichtlineare Zeitprozesse kann die lokale Approximation von (H_n+1, μ_n+1, Σ_n+1) nicht gut der Zustandstransition in einem sehr frühen Zeitschritt entsprechen. Aus diesem Grund wird das expotentielle Vergessen „exponential forgetting" eingeführt:
Mit Exponentialgewichtungen w_t = e^–t/τ, wobei τ die Größe des expotentiellen Vergessfensters ist. Je kleiner τ desto reaktiver, desto empfindlicher für Rauschen ist das TVRA, wie es im Folgenden in der Implementierung und im Ergebnisabschnitt demonstriert wird.
Implementierung und Ergebnisse
Implementierung
Um ein derartiges Verfahren zu validieren wurden handgezeichnete Konturen von einigen Sequenzen mit Objekten betrachtet, die einer starken Änderung unterworfen wurden. Darüber hinaus wurden innerhalb der Sequenzen unterschiedliche Bewegungsdynamiken präsentiert. Das Verfahren wurde trainiert unter Verwendung einer kleinen Anzahl von Trainingsbespielen. Das Voraussagungsverfahren wurde verwendet, um zukünftige Positionen der Objekte, wie in 3 gezeigt, zu bestimmen, während neue Beobachtungen dem System zugeführt wurden, um die orthogonale Basis und die Voraussagematrix zu aktualisieren. Einige qualitative Ergebnisse sind in 4 gezeigt. Um das Verfahren weiter zu validieren wurde eine quantitative Analyse durchgeführt und Vergleiche mit linearen Modellen, wie etwa Kalman Filter und mit zeitinvarianten autoregressiven Modellen.
Vergleich mit dem Kalman Filter
Um die Effizienz eines TVAR-Modells zu messen beim Erfassen nicht linearer Prozesse wurde ein Vergleich durchgeführt mit einem sehr allgemeinen bayeschen Vorrausagungs/Korrekturschema: der Kalman Filter (siehe R. P. Kalman. A new approche to linear filtering and prediction problems. Transactions of the ASME-Journal of Basic Engineering, 82 (Serie D):35–45, 1960). Unter Verwendung einer Sequenz mit einem nichtlinearen Prozess (ein Mann geht, rennt dann) wurden zwei Experimente durchgeführt: eines mit einem TVAR-Modell, wie in Verbindung in Schritt 122 erklärt, und ein anderes bei dem die Zustandsvoraussagung durch einen Kalman-Filter gefiltert wurde. Wenn ein TVAR-Modell verwendet wird und die Ergebnisse durch ein Kalman-Filter gefiltert werden R. P. Kalman. A new approche to linear filtering and prediction problems. Transactions of the ASME-Journal of Basic Engineering, 82 (Serie D):35–45, 1960), ist der mittlere Quadratabstand zwischen den gefilterten und beobachteten Kurven ungefähr 10% größer als der gleiche mittlere Abstand, wenn er nicht gefiltert wird. Das Kalman-Filter braucht eine bestimmte Anzahl an Schritten, um sich von einer nichtlinearen Transition (von Gehen zu Rennen) wiederherzustellen, während das TVAR sehr viel weniger Schritte benötigt. Die Anzahl der Schritte nimmt mit der Breit τ des exponentiellen Vergessfensters zu (siehe 6).
Vergleich mit vorheriger Arbeit
Unser Ansatz hat drei wichtige Vorteile verglichen zu dem Stand der Technik; (i) anstelle eines Schätzens des dynamischen Modells in dem Merkmalsraum (Parametrisierung Y gewählt zur Darstellung des Zustandvektors X), erfolgte die Schätzung direkt in dem Beobachtungsraum (siehe [Gleichung (6)]). Folglich minimiert für Experimente, die eine Form in einer eine Videosequenz verfolgen, das dynamische Modell den Abstand zwischen der vorausgesagten und beobachteten Kontur. Dieser Abstand ist immer geringwertig (siehe Tabelle (1)) wenn die Optimierung direkt in dem Beobachtungsraum durchgeführt wird. Tabelle 1 Die Summe der Quadratfehler (in Pixel²) zwischen realen und vorausgesagten Konturen für TVAR (Time Varying) und TIAR (Time Invariant) autoregressiven Modellen für eine gegebene Sequenz
Der zweite Vorteil des Verfahrens liegt in einem Online Update (Aktualisierung) der Voraussagematrix, die nichtlineare Fälle behandeln kann, wie etwa ein Mann, der geht, bevor er anfängt zu rennen. Die Verwendung der linearen Modelle konnte nicht derartige Szenarien erfassen, selbst wenn ihnen ein Trainingssatz präsentiert wurde, und folglich kann die online graduelle Adaption unseres Modells in einer natürlichen Art und Weise die Transition von einem Zustand zu dem anderen durchführen. Unter Verwendung des inkrementahlen Aktualisierens, das in Verbindung mit Schritt 122 vorgestellt wurde, wurden wie erwartet wie der quadratische Abstand zwischen den vorausgesagten und beobachteten Konturen für TVRA minimiert, verglichen mit zeitinvarianten autoregressiven Modellen (siehe Tabelle (1)).
Darüber hinaus ist für die Validierung der exponentiellen Vergessprozedur deren Wichtigkeit in dem Prozess getestet wurden. Die Wahl des exponentiellen Parameters τ in der Gleichung (6) ist ein Kompromiss zwischen der Reaktivität und der Robustheit, wie zwei Experimente demonstrieren. Das erste Experiment wird durchgeführt mit unterschiedlichen Rauschpegeln, für verschiedene Werte von τ, wie man in 5 sehen kann. Für eine gegebene Sequenz gilt, dass je kleiner τ ist, desto größer ist die Empfindlichkeit für Rauschen. Der zweite Test, der durchzuführen ist, ist die Verfahrensrobustheit für plötzliche Änderungen, oder zufällige Erschütterungen (siehe M. Bask und X. de Luna; Characterizing the degree of stability of non-linear dynamic models; Studies in Nonlinear Dynamics and Econometrics, 6(1): 1002-1002, 2002). Für diesen Test ist ein Monte Carlo System aufgebaut worden, das für unterschiedliche τ zufällige Modellschaltungen erzeugt. Die Ergebnisse sind in 6 gezeigt. Ein TVAR Modell mit einem kleinen τ reagiert schneller als das mit einem großen τ, und erzeugt kleinere Amplitudenfehler.
Letztendlich aktualisiert das Verfahren auch die orthogonale Basis. Obwohl ein derartiger Vorteil nicht offensichtlich ist für die Fälle, die in diesem Dokument demonstriert wurden, wird es zu einem wichtigen Aspekt, wenn die Objekte die Position ändern, aufgrund des Standpunkts der Kamera (Leute, die sich der Kamera nähern, etc.). Die Möglichkeit kontinuierlich derartige Deformierungen zu berücksichtigen, ermöglicht unserem Verfahren das Start des Prozesses mit sehr viel generischeren Bewegungsmenschmodellen und dann ein Anpassen derartigen Modelle in den Raum- und Zeitbereich.
Darüber hinaus kann man ein Koppeln derartiger Voraussagemechanismen mit Bildgetriebenen-Termen betrachten, um eine kenntnisbasierte Verfolgung durchzuführen. Standartverfahren der Bildattraktion/Segmentation werden gegenwärtig untersucht mit viel versprechenden vorläufigen Ergebnissen. Zu diesem Zweck kann eine Kostenfunktion die zum Ziel hat die Objekteigenschaften zu separieren – innerhalb der Kontur – von einem der Hintergründe während die Kontur, die nahe der Voraussagung ist, im Vordergrund steht. Einige vorläufige Ergebnisse dieser Anstrengung sind in 7 gezeigt.
Diskussion
Mit dem oben beschriebenen Verfahren in Verbindung mit 8 wird ein Online Verfahren geschaffen zum Voraussagen und Verfolgen sehr nichtlinearer Strukturen in Bildsequenzen. Das Verfahren kann verwendet werden als eines vor einem Verfolgungsprozess und enthält ein Einfügen einer Raum- und Zeitkohärenz. Zu diesem Zweck, um die Raumkohärenz zu berücksichtigen, haben wir ein Dimensionsreduktionsverfahren verwendet für einen registrierten Satz von Trainigsbeispielen durch die PCA (Schritt 122). In einem derartigen orthogonalen Raum von begrenzter Dimension verwendet das Verfahren einen Voraussagemechanismus. Um multivariante Naturen des Merkmalraums zu berücksichtigen (Schritt 120A, Gleichung 4) haben wir eine euclidische Metrik zwischen der Originalbeobachtung und der Vorrausagung in diesem Raum eingeführt, die sich richtet an eine implizite Art und Weise der Skalendifferenz der Modellparameter, (Schritt 120A, Gleichung 4). Für nichtlinearen Bewegungen rund um das Verfahren unabhängig von Trainigsdatensätzen zu machen, haben wir einen exponentialen Vergessansatz verwendet, um die Voraussagematrixparameter zu aktualisieren, wenn neue Beobachtungen verfügbar sind (τ Gleichung 6, Schritt 124). Darüber hinaus, um mit Raumänderungen fertig zu werden und Deformierungen der Zielstruktur, wurde ein inkrementelles Verfahren berücksichtigt, wie oben beschrieben, in Verbindung mit Schritt 124, um die Vektoren der Orthogonalbasis zu aktualisieren. Was dies wirklich bedeutet, ist, dass man nicht die gesamte Minimierung der Zeile 12 durchführen muss, und auch nicht den gesamten Prozess von Schritt 122A immer wie der. Die Lösung wird inkrementell berechnet, was potenziell eine echte zweite Anwendung ermöglicht.
Ein Verfolgen, das eine Vorraussagung mit Bildmerkmalen integriert sind die meist versprechendsten Entwicklungsrichtungen, mit enormen Potentialen. Eine Aktionserkennung ist ebenfalls ein interessantes Problem, das mit dem oben beschriebenen Verfahren behandelt werden kann unter Verwendung von mehreren Voraussagemodellen. In einem derartigen Fall werden die prominentesten Objektpositionen zusammen mit dem Modell wiederhergestellt, das am besten zu vorherigen Beobachtungen passt, für neue Daten, sie zu behandeln sind. Mehrere hypothetische Erzeugungen sind ebenfalls eine Richtung, die betrachtet werden kann, und das Risiko von Konvergenz eines lokalen Minimums zu behandeln. Die Segmentierung von medizinischen Volumen ist ebenfalls eine andere Richtung. In einer Anzahl von anatomischen Strukturen ist Information besser aufbewahrt an verschiedenen räumlichen Auflösungen und folglich wird es adäquate Informationen von diesen Ebenen zu dem Rest des medizinischen Volumens zu verbreiten. Letztendlich könnte die Erweiterung des Verfahrens auf 3D vorteilhaft sein für die Gesichtsausdruckserkennung und für Animationen unter der Annahme, dass geeignete Modelle gebaut werden, um mit den Ausdruckstransitionen fertig zu werden.

Claims

Verfahren zum Segmentieren eines sich bewegenden Objektes, das in einen Hintergrund eingetaucht ist, enthaltend: Gewinnen eines zeitvariierenden autoregressiven Modells der Vorbewegung des Objektes zur Vorhersage einer zukünftigen Bewegung des Objektes; Vorraussagen einer Folgekontur des Objektes aus dem Hintergrund unter Verwendung des zeitvariierenden autoregressiven Modells, enthaltend das Verwenden des gewonnenen zeitvariierenden autoregressiven Modells zu Initialisierung und/oder Beschränkung der Segmentierung des Objektes aus dem Hintergrund; und Segmentieren des Objektes unter Verwendung der vorausgesagten Folgekontur und Aktualisieren des autoregressiven Modells während das segmentierte Objekt verfolgt wird.
Verfahren nach Anspruch 1, enthaltend ein Modellieren der Objektform von früherer Information und Aktualisieren der Objektform während der Objektverfolgung.
Verfahren nach Anspruch 1, bei dem das autoregressive Modell gewonnen wird durch Durchführen einer Konturregistrierung des Objektes unter Verwendung einer Abstandstransformation und nachfolgender Durchführung einer Dimensionsreduktion durch orthogonale Zerlegung.
Verfahren nach Anspruch 1 oder 2, bei dem die Verwendung des gewonnenen zeitvariierenden autoregressiven Modells zur Initialisierung und/oder Beschränkung der Segmentierung des Objektes aus dem Hintergrund ein Entwickeln eines Konturkorrekturterms enthält.
Verfahren zum Segmentieren eines sich bewegenden Objektes, das in einen Hintergrund eingetaucht ist, enthaltend: Gewinnen eines zeitvariierenden autoregressiven Modells einer vorherigen Bewegung des Objektes zur Vorraussagung einer zukünftigen Bewegung des Objektes; Vorraussagen einer folgenden Kontur des Objektes aus dem Hintergrund unter Verwendung des gewinnenden zeitvariierenden autoregressiven Modells, das das Verwenden des gewonnenen zeitvariierenden autoregressiven Modells enthält zum Initialisieren und/oder Beschränken einer Segmentierung des Objektes aus dem Hintergrund unter Verwendung verschiedener Verfahren; und Segmentieren des Objektes unter Verwendung der vorausgesagten Folgekontur und Aktualisieren des autoregressiven Modells während der Verfolgung des segmentierten Objektes.
Verfahren nach Anspruch 5, enthaltend ein Modellieren der Objektform aus vorheriger Information und Aktualisieren der Objektform während der Objektverfolgung.
Verfahren nach Anspruch 5, wobei das autoregressive Modell gewonnen wird durch Durchführen einer Konturregistrierung des Objektes unter Verwendung einer Abstandstransformation und einer folgenden Durchführung einer Dimensionsreduktion durch orthogonale Zerlegung.