DE102006035637A1

DE102006035637A1 - Verfahren zum Erfassen und Verfolgen von deformierbaren Objekten

Info

Publication number: DE102006035637A1
Application number: DE102006035637A
Authority: DE
Inventors: Daniel Cremers
Original assignee: Siemens Medical Solutions USA Inc
Current assignee: Siemens Medical Solutions USA Inc
Priority date: 2005-08-03
Filing date: 2006-07-31
Publication date: 2007-05-03
Also published as: US20070031003A1; JP2007042111A; US7873185B2

Abstract

Ein Verfahren zum Erfassen und Verfolgen eines deformierbaren Objekts, das ein sich sequentiell veränderndes Verhalten hat, enthält: DOLLAR A Enwickeln eines temporären statistischen Formmodells des oszillatorischen Verhaltens der Einbettfunktion, die das Objekt darstellt, von einer vorherigen Bewegung; und dann Anwenden des Modells gegenüber einer zukünftigen, sequentiellen Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen durch Maximieren der Wahrscheinlichkeit, dass das entwickelte statistische Formmodell zu der sequentiellen Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen passt.

Description

Querverweis auf eine verbundene Anmeldung
Diese Anmeldung beansprucht die Priorität der US Provisional Application Nr. 60/705,061, die am 3. August 2005 eingereicht wurde, auf die hier verwiesen wird.
Technisches Gebiet
Diese Erfindung bezieht sich im Allgemeinen auf die Objekterfassung und insbesondere auf die Erfassung und Verfolgung von deformierbaren Objekten.

Hintergrund und Zusammenfassung

Wie es im Stand der Technik bekannt ist, ist es häufig wünschenswert, ein Objekt von einem Hintergrund aus anderen Objekten und/oder von einem Hintergrund mit Rauschen zu erfassen und es zu segmentieren. Eine Anwendung ist beispielsweise in MRI-Verfahren, wo es gewünscht wird, ein anatomisches Merkmal eines menschlichen Patienten zu segmentieren, wie zum Beispiel einen Rückenwirbel des Patienten. In anderen Fällen wäre es wünschenswert, ein sich bewegendes, deformierbares anatomisches Merkmal, wie zum Beispiel das Herz, zu segmentieren.

In 1988 führten Osher und Sethian in einem Papier mit dem Titel „Fronts propagation with curvature dependent speed: Algorithms based on Hamilton-Jacobi formulations", J. of Comp. Phys., 79: 12–49, 1988 das Level-Set-Verfahren ein, wobei anzumerken ist, dass eine Vorstufe des Level-Set-Verfahrens durch Dervieux und Thomasset in einem Papier mit dem Titel „A finite element method fort the simulation of Raleigh-Taylor instability", Springer Lect. Notes in Math., 771: 145–158, 1979, als ein Mittel zum impliziten Propagieren von Hyperoberflächen C(t) in einem Gebiet Ω ⊂ Rⁿ durch Entwickeln einer geeigneten Einbettfunktion ϕ: Ω: < [0, T] → R vorgeschlagen wurde, wobei: C(t) = {x ∈ Ω|ϕ(x, t) = 0}. (1)

Insbesondere ist eine Einbettfunktion eine Echtwerthöhenfunktion |phi(x), die an jedem Punkt x der Bildebene definiert ist, so dass die Kontur C allen Punkten x in der Ebene entspricht, bei denen \phi(x) = 0: C = {x|\phi(x) = 0}

Dies ist ein Weg, eine Kontur C implizit darzustellen. Anstatt des Arbeitens mit einer Kontur C (Bewegen der Kontur C usw.) arbeitet man mit der Funktion \phi. Bewegen der Werte von \phi bewegt implizit die „eingebettete" Kontur. Dies ist der Grund, warum \phi(x) eine „Einbettfunktion" genannt wird – sie bettet die Kontur als ihr Null-Niveau oder Isolinie mit dem Wert 0 ein.

Die gewöhnliche Differentialgleichung, die explizite Grenzpunkte propagiert, wird somit durch eine partielle Differentialgleichung ausgetauscht, welche die Entwicklung einer höher dimensionalen Einbettfunktion modelliert. Die Hauptvorteile dieses Ansatzes sind gut bekannt: Erstens hängt die implizite Grenzdarstellung nicht von einer speziellen Parametrisierung ab, während des Propagierens müssen keine Umgittermechanismen des Steuerpunkts eingeführt werden. Zweitens ermöglicht das Entwickeln der Einbettfunktion es, elegant topologische Veränderungen zu modellieren, wie zum Beispiel ein Trennen und Zusammenführen der eingebetteten Grenze. In dem Zusammenhang der Formmodellierung und des statistischen Lernens von Formen erlaubt es die letztere Eigenschaft, Formunähnlichkeitsmaßnahmen zu konstruieren, die auf den Einbettfunktionen definiert sind, die Gestalten variierender Topologie handhaben könne. Drittens kann man die implizierte Darstellung, Gleichung (1), natürlich auf Hyperoberflächen in drei oder mehr Dimensionen generalisieren. Um eine eindeutige Abhängigkeit zwischen einer Kontur und ihrer Einbettfunktion einzuführen, kann man ϕ auf eine vorzeichenbehaftete Abstandsfunktion begrenzen, d.h. |∇ϕ| = 1 nahezu überall.

Die ersten Anwendungen des Level-Set-Verfahrens für die Bildsegmentierung wurden als erstes in den frühen 90-iger Jahren durch Malladi et al. durchgeführt in einem Papier mit dem Titel „A finite element method fort the simulation of Raleigh-Taylor instability: Springer Lect. Notes in Math., 771: 145–158, 1979, durch Caselles et al. in einem Papier mit dem Titel „Geodesic active contour" in Proc. IEEE Intl. Conf. on Comp. Vis., Seiten 694–699, Boston, U SA, 1995, durch Kichenassamy et al. in einem Papier mit dem Titel „Gradient flows and geometric active contour models": in IEEE Intl. Conf. on Comp. Vis., Seiten 810–815, 1995 und durch Paragios und Deriche in einem Papier mit dem Titel „Geodesic active regions and level set methods for supervised texture segmentation": Int. J. of Computer Vision, 46(3): 223–247, 2002. Level-Set-Implementierungen des Mumford-Shah Functionals, siehe das Papier mit dem Titel: "Optimal approximations by piecewise smooth functions and associated variational problems": Comm. Pure Appl. Math., 42:577–685, 1989 [14], wurden unabhängig durch Chan und Vese vorgeschlagen, siehe das Papier mit dem Titel "Active contours without edges": IEEE Trans. Image Processing, 10(2):266–277, 2001 und von Tsai et al. in dem Papier mit dem Titel „Modelbased curve evolution technique for image segmentation": In Comp. Vision Patt. Recog., Seiten 463–468, Kauai, Hawaii, 2001.

In den vergangenen Jahren haben Forscher vorgeschlagen, Kenntnis über die statistische Form in Segmentationsverfahren, die auf der Level-Set-Methode basieren, einzuführen, um mit unausreichender Low-Level-Information umzugehen. Während es sich herausgestellt hat, dass diese Priors drastisch die Segmentierung von vertrauten Objekten verbessern, lag der Schwerpunkt bisher auf statistischen Formpriors (d.h. dessen was „Priors" sind), die in der Zeit statisch sind. In dem Zusammenhang des Verfolgens von deformierbaren Objekten ist es dabei klar, dass bestimmte Silhouetten, (wie zum Beispiel diejenigen des schlagenden Menschens in einer MRI-Anwendung, oder einer gehenden Person in einer anderen Anwendung) betrachtet über die Zeit mehr oder weniger wahrscheinlich werden. Leventon et al. schlugen in einem Papier mit dem Titel „Geometry and prior-based segmentation: In T. Pajdla und V. Hlavac, Editoren, European Conf. on Computer Vision, Volume 3024 von LNCS, Seiten 50–61, Prag, 2004. Springer vor, die Einbettfunktion durch Hauptkomponentenanalyse (PCA) eines Satzes von trainierenden Formen zu modellieren und geeignete antreibende Terme der Level-Set-Evolutionsgleichung zuzufügen, Tsai et al. in einem Papier mit dem Titel „Curve evolution implementation of the Mumford-Shah functional for image segmentation, de-noising, interpolation, and magnification" IEEE Trans. on Image Processing, 10(8): 1169–1186, 2001 schlugen das Durchführen von Optimierung direkt innerhalb des Unterraums der ersten wenigen Eigenmodi vor. Rousson et al., siehe „Shape priors for level set representations": In A. Heyden et al., Editoren, Proc. of the Europ. Conf. on Comp. Vis., Volume 2351 von LNCS, Seiten 78–92, Kopenhagen, Mai 2002, Springer, Berlin und „Implicit active shape models for 3d segmentation in MRI imaging": In MICCAI, Seiten 209–216, 2004 schlugen das Einführen von Forminformation auf dem Variationsniveau vor, während Chen et al., siehe „Using shape priors in geometric active contours in a variational framework": Int. J. of Computer Vision, 50(3):315–328, 2002 Formbedingungen direkt auf der Kontur, die durch das Null-Niveau der Einbettfunktion gegeben wird, verlangten. In letzter Zeit schlugen Riklin-Raviv et al., siehe European Conf. on Computer Vision, Volume 3024 von LNCS, Seiten 50–61, Prag, 2004, Springer vor, eine projektive Invarianz einzuführen, indem die vorzeichenbehaftete Abstandsfunktion unter verschiedenen Winkeln in Scheiben geschnitten wird.

In den oben stehenden Arbeiten hat sich gezeigt, dass statistisch gelernte Forminformation mit fehlender oder fehlleitender Information in den eingegebenen Bildern aufgrund von Rauschen, Stördaten und Okklusion umgehen kann. Die Formpriors wurden entwickelt, um Objekte von vertrauter Form in einem gegebenen Bild zu segmentieren. Während sie jedoch auf zu verfolgende Objekte in Bildsequenzen angewendet werden können, siehe [Cremers et al., „Nonlinear shape statistics in Mumford-Shah based segmentation": In A. Heyden et al., Editoren, Europ. Conf. on Comp. Vis., Volume 2351 von LNCS, Seiten 93–108, Kopenhagen, Mai 2002, Springer], [Moelich und Chan, „Tracking objects with the Chan-Vese algorithm", Technical Report 03-14, Computational Applied Mathematics, UCLA, Los Angeles, 2003] und [Cremers et al., „Kernel density estimation and intrinsic alignment for knowledge-driven segmentation": Teaching level sets to walk, in Pattern Recognition, Volume 3175 von LNCS, Seiten 36–44, Springer, 2004], sind sie für diese Aufgabe nicht gut geeignet, da sie die temporäre Kohärenz von Silhouetten vernachlässigen, die viele deformierende Gestalten charakterisiert.

Wenn ein dreidimensionales deformierbares Objekt über die Zeit verfolgt wird, sind zu einem vorgegebenen Zeitpunkt eindeutig nicht alle Formen gleichermaßen wahrscheinlich. Regelmäßig abgetastete Bilder einer gehenden Person weisen beispielsweise ein typisches Muster von konsekutiven Silhouetten auf. In ähnlicher Weise sind die Projektionen eines starren 3D-Objekts, das sich bei einer konstanten Geschwindigkeit dreht, im Allgemeinen nicht unabhängige abgetastete Werte aus einer statistischen Formenverteilung. Stattdessen kann man erwarten, dass die resultierenden Sätze von Silhouetten starke temporäre Korrelationen enthalten.

Entsprechend der vorliegenden Erfindung wird ein Verfahren vorgesehen zum Erfassen und Verfolgen eines deformierbaren Objekts, das ein sich sequentiell veränderndes Verhalten hat, wobei das Verfahren ein temporäres statistisches Formmodell des sich sequentiell verändern den Verhaltens der Einbettfunktion entwickelt, die das Objekt darstellt, von einer vorherigen Bewegung, und dann das Modell gegenüber einer zukünftigen, sequentiellen Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen durch Maximieren der Wahrscheinlichkeit, dass das entwickelte statistische Formmodell der sequentiellen Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen entspricht, anwendet.

Entsprechend einem anderen Merkmal der Erfindung erzeugt ein Verfahren ein dynamisches Modell der Zeit-Entwicklung der Einbettfunktion von früheren Beobachtungen einer Grenzform eines Objekts, wie zum Beispiel eines Objekts, das eine beobachtbare, sich sequentiell verändernde Grenzform aufweist, und das nachfolgende Verwenden eines solchen Modells für einen wahrscheinlichkeitsbehafteten Rückschluss bezüglich einer solchen Gestalt des Objekts in der Zukunft.

Das Verfahren entwickelt temporäre statistische Formmodelle für implizit dargestellte Formen des Objekts. Insbesondere ist die Formwahrscheinlichkeit zu einem gegebenen Zeitpunkt eine abhängige Funktion von den Gestalten des Objekts, die zu vorherigen Zeiten beobachtet wurden.

Bei einer Ausführungsform sind die dynamischen Formmodelle in einen Segmentiervorgang innerhalb eines bayesianischen Rahmenwerks für eine Bildsequenzsegmentierung basierend auf dem Level-Set-Verfahren integriert.

Bei einer Ausführungsform wird eine Optimierung durch eine partielle Differenzialgleichung für die Level-Set-Funktion erhalten. Die Optimierung enthält eine Entwicklung einer Schnittstelle, die sowohl durch die Intensitätsinformation eines augenblicklichen Bilds als auch durch eine vorhergehende dynamische Form getrieben wird, die auf den Segmentierungen beruht, die bei den vorhergehenden Frames erhalten wurden.

Bei einem solchen Verfahren sind im Gegensatz zu den vorhandenen Ansätzen für die Segmentierung mit statistischen Formpriors die resultierenden Segmentierungen nicht nur ähnlich zu im Voraus gelernten Formen sondern auch konsistent zu den temporären Korrelationen, die aus den Abtastsequenzen abgeschätzt werden. Der resultierende Segmentiervorgang kann mit großen Mengen von Rauschen und Okklusion umgehen, da er eine frühere Kenntnis über die tem poräre Formkonsistenz ausnutzt und da er Information von den eingegebenen Bildern über die Zeit ansammelt (statt jedes Bild unabhängig zu behandeln).

Die Entwicklung von dynamischen Modellen für implizit dargestellte Formen und ihre Integration in eine Bildsequenzsegmentierung auf der Basis des bayesianischen Rahmenwerks zieht viel frühere Arbeit aus verschiedenen Gebieten heran. Die Theorie der dynamischen Systeme und Zeit-Reihen-Analyse hat eine lange Tradition in der Literatur (siehe beispielsweise [A. Papoulis, Probability, Random Variables, and Stochastic Processes, McGraw-Hill, New York, 1984]). Autoregressive Modelle wurden für explizite Formdarstellungen unter anderem durch Blake, Isard und Mitarbeiter entwickelt [A. Blake und M. Isard, Active Contours, Springer, London, 1998]. In diesen Arbeiten wurden erfolgreiche Verfolgungsergebnisse durch Partikel-Filtern basierend auf Randinformation, die von den Intensitätsbildern extrahiert wurde, erhalten. Hier unterscheidet sich das Verfahren der vorliegenden Erfindung jedoch davon in drei Punkten:

• Hier sind die dynamischen Modelle für implizit dargestellte Formen. Als eine Konsequenz kann das dynamische Formmodell automatisch Formen mit variierender Topologie handhaben. Das Modell wird trivial auf höhere Dimensionen (zum Beispiel 3D-Formen) ausgeweitet, da es nicht mit dem kombinatorischen Problem des Bestimmens von Punktentsprechungen und Aufgaben des Umgitterns von Steuerpunkten umgehen muss, die mit expliziten Formdarstellungen einhergehen
• Das Verfahren gemäß der vorliegenden Erfindung integriert die Intensitätsinformation der eingegebenen Bilder in einer statistischen Formulierung, die durch [Zhu, Yuille 1996, Chan, Vese 1999] inspiriert ist. Dies führt zu einem Verfolgungsschema basierend auf Gebieten anstatt eines auf Rändern basierenden. Die statistische Formulierung bringt es mit sich, dass – in Bezug auf die angenommenen Intensitätsmodelle – das Verfahren optimal die eingegebene Information ausnutzt. Es beruht nicht auf einer Vorberechnung von heuristisch definierten Bildrandmerkmalen. Außerdem sind die angenommenen probabilistischen Intensitätsmodelle ziemlich einfach (insbesondere Gaussverteilungen). Anspruchsvollere Modelle für Intensität, Farbe oder Textur von Objekten und Hintergrund könnten eingesetzt werden.
• Die bayesianische a posteriori Optimierung wird in einem abweichenden Setzen durch Gradientenabfall statt durch stochastische Abtastungstechniken gelöst. Während dies die Algorithmen begrenzt, die durch die Erfindung verwendet werden, dass sie nur die wahrscheinlichste Hypothese verfolgen (statt mehreren Hypothesen), vereinfacht dies eine Ausweitung auf höher dimensionale Darstellungen ohne die drastische Zunahme in der Berechnungskomplexität, die Abtastverfahren eigen ist.

Vor kurzem wendeten Goldenberg et al. [Goldenberg, Kimmel, Rivlin und Rudzsky, Pattern Recognition, 38: 1033–1043, Juli 2005] erfolgreich PCA für eine angepasste Formsequenz an, um das Verhalten von periodischer Formbewegung zu klassifizieren. Wenngleich diese Arbeit auch auf das Charakterisieren von sich bewegenden, implizit dargestellten Formen gerichtet ist, unterscheidet es sich von der vorliegenden Erfindung dadurch, dass die Formen nicht durch die Level-Set-Einbettfunktion dargestellt sind (sondern stattdessen durch eine binäre Maske), es keine autoregressiven Modelle verwendet und es den Schwerpunkt auf die Verhaltensklassifikation von vorsegmentierten Formsequenzen richtet statt der Segmentierung oder des Verfolgens mit dynamischen Formpriors.

Die Einzelheiten von einer oder mehreren Ausführungsformen der vorliegenden Erfindung sind in den beigefügten Zeichnungen und der nachfolgenden Beschreibung dargestellt. Andere Merkmale, Aufgaben und Vorteile der Erfindung werden aus der Beschreibung und den Zeichnungen offensichtlich, und aus den Ansprüchen.
Beschreibung der Zeichnungen
1 zeigt eine niedrigdimensionale Annäherung eines Satzes von trainierenden Silhouetten, wobei die Silhouetten oben handsegmentiert sind und die Silhouetten unten durch PCA ihrer Einbettfunktionen entsprechend der Erfindung angenähert sind;
2 sind Autokorrelationsfunktionen, die zum Validieren des autoregressiven Modells entsprechend der Erfindung verwendet werden, wobei die Autokorrelationsfunktionen von zugehörenden Residuen mit den ersten vier Formmodi geplottet sind;
3 sind Formmodi, wobei die ursprüngliche Formsequenz (links) und die Sequenz, die durch eine statistisch gelernte Markovkette zweiter Ordnung (rechts) gemäß der Er findung künstlich erzeugt ist, die temporäre Entwicklung des Eigenmodus der ersten, zweiten und sechsten Form zeigen;
4 sind Sequenzen des Gehens, die durch das Verfahren gemäß der Erfindung erzeugt werden, wobei Beispielsilhouetten durch ein statistisch gelerntes Markovmodell zweiter Ordnung auf den Einbettfunktionen erzeugt werden;
5 zeigt Beispiele von einer Bildsequenz mit zunehmenden Mengen von Rauschen;
6 zeigt eine Segmentierung entsprechend der Erfindung unter Verwendung eines statischen Formpriors für 25% Rauschen;
7 zeigt eine Segmentierung gemäß der Erfindung unter Verwendung eines statischen Formpriors für 50% Rauschen;
8 zeigt eine Segmentierung gemäß der Erfindung unter Verwendung eines dynamischen Formpriors für 50% Rauschen;
9 zeigt ein Verfolgen entsprechend der Erfindung mit einem dynamischen Formprior für 75% Rauschen;
10 zeigt das Verfolgen gemäß der Erfindung mit einem dynamischen Formprior für 90% Rauschen;
11 zeigt eine qualitative Entwicklung der Segmentiergenauigkeit gemäß der Erfindung;
12 zeigt das Verfolgen beim Vorhandensein von Okklusion gemäß der Erfindung;
13 ist ein Flussdiagramm des Verfahrens gemäß der Erfindung; und
14 sind statistisch erzeugte Einbettoberflächen, die durch Abtasten aus einem autoregressiven Modell zweiter Ordnung gemäß der Erfindung erhalten werden, und Konturen, die durch die Null-Level-Linie der künstlich aufgebauten Oberflächen gegeben sind. Die implizite Formulierung erlaubt, dass die eingebettete Kontur die Topologie verändert (Bild links unten).
Entsprechende Referenzsymbole in den verschiedenen Zeichnungen geben entsprechende Elemente an.
Detaillierte Beschreibung
Bezugnehmend nun auf 13 ist ein Flussdiagramm eines Verfahrens zum Erfassen und Verfolgen von deformierbaren Objekten gezeigt. Hier ist zum Veranschaulichen eines Beispiels des Verfahrens das Objekt eine gehende Person. Es sollte jedoch verstanden werden, dass das Verfahren auch auf andere deformierbare Objekte angewendet werden kann, einschließlich anatomischer Objekte, wie zum Beispiel das schlagende menschliche Herz.
Ehe die Schritte in 13 diskutiert werden, wird eine bayesianische Formulierung für die Bildsequenzsegmentierung basierend auf dem Level-Set-Verfahren eingeführt. Zunächst wird die allgemeine Formulierung im Raum der Einbettfunktionen diskutiert und nachfolgend eine berechnungstechnisch effiziente Formulierung in einem niedrigdimensionalen Unterraum beschrieben.
2.1. Allgemeine Formulierung
Im Folgenden ist eine Form definiert als ein Satz von geschlossenen 2D-Konturen, die Modulo einer bestimmten Transformationsgruppe sind, deren Elemente durch T_θ bezeichnet sind, wobei θ ein Parametervektor ist. Abhängig von der Anwendung können diese Starrkörpertransformationen, Ähnlichkeits- oder affine Transformationen oder größere Transformationsgruppen sein. Die Gestalt wird implizit durch eine Einbettfunktion ϕ entsprechend Gleichung (1) dargestellt. Somit werden die interessierenden Objekte durch ϕ(T_θx) angegeben, wobei die Transformation T_θ auf dem Gitter wirkt, was zu den entsprechenden Transformationen der implizit dargestellten Konturen führt. Dabei ist die Gestalt ϕ absichtlich von den Transformationsparametern θ getrennt, da man möglicherweise verschiedene Modelle zum Darstellen und Lernen von ihren jeweiligen temporären Entwicklungen nutzen möchte.
Es wird angenommen, dass es gegebene konsekutive Bilder I_t: Ω → R von einer Bildsequenz gibt, wobei I_1:t den Satz von Bildern {I₁, I₁, ..., I_t} zu unterschiedlichen Zeitpunkten bezeichnet. Unter Verwendung der bayesianischen Formel (wobei alle Ausdrücke auf I_1:t–1 konditioniert sind), kann das Problem des Segmentierens des gegenwärtigen Frames I_t dann durch Maximieren der konditionellen Wahrscheinlichkeit
bezüglich der Einbettfunktion ϕ_t und der Transformationsparameter θ_t angegangen werden. (Das Modellieren von Wahrscheinlichkeitsverteilungen auf infinit-dimensionalen Räumen ist im Allgemeinen ein offenes Problem, einschließlich der Aufgaben des Definierens von geeigneten Maßen und der Integrierbarkeit. Daher können die Funktionen ϕ als finite-dimensionale Annäherungen angesehen werden, die durch Abtasten der Einbettfunktionen auf einem regelmäßigen Gitter erhalten werden). Aus Knappheitsgründen wird die philosophische Interpretierung des bayesianischen Ansatzes nicht diskutiert. Es reicht aus hier zu sagen, dass das bayesianische Rahmenwerk als eine Umkehrung des Bildausbildungsvorgangs in einer probabilistischen Umgebung angesehen werden kann.
Der Nenner in Gleichung (2) hängt nicht von den abgeschätzten Größen ab und kann daher bei der Maximierung vernachlässigt werden. Ferner kann der zweite Term im Zähler unter Verwendung der Chapman-Kolmogorov-Gleichung umgeschrieben werden [A. Papoulis, Probability, Random Variables, and Stochastic Processes, McGraw-Hill, New York, 1984]: P(ϕ, θt|I1:t–1) = ∫P(ϕt, θt|ϕ1:t–1, θ1:t–1)P(ϕ1:t–1, θ1:t–1|I1:t–1)dϕ1:t–1dθ1:t–1. (3)
Im Folgenden werden einige Annahmen gemacht, die zum Vereinfachen des Ausdrucks in Gleichung (2) dienen sollen, was zu einem berechnungstechnisch leichter machbaren Abschätzproblem führt:

• Es wird angenommen, dass die Bilder I_1:t wechselseitig unabhängig sind: P(It|ϕt, θt, I1:t–1) = P(It|ϕt, θt) .(4)
• Es wird angenommen, dass die Intensitäten der interessierenden Form und des Hintergrunds unabhängige Proben von zwei Gauss-Verteilungen mit unbekannten Mitteln μ₁, μ₂ und Varianzen σ₁, σ₂ sind. Als Folge kann der Datenterm oben umgeschrieben werden zu:
• wobei die Heaviside-Stufenfunktion Hϕ = H(ϕ) eingeführt wird, um die Gebiete zu bezeichnen, in denen ϕ positiv ist (Hϕ = 1) oder negativ ist (Hϕ = 0). Zugehörige Intensitätsmodelle wurden vorgeschlagen, unter anderem siehe D. Mumford und J. Shah „Optimal approximations by piecewise smooth functions and associated variational problems": Comm. Pure Appl. Math., 42:577–685, 1989, S. C. Zhu und A. Yuille, „Region competition: Unifying snakes, region growing" und Bayes „MDL for multiband image segmentation"; IEEE PAMI, 18(9):884–900, 1996, und T. F. Chan und L. A. Vese „Active contours without edges": IEEE Trans. Image Processing, 10(2):266–277, 2001. Die Modellparameter μ₁ und σ₁ warden zusammen mit der Form ϕ_t und der Transformation θ_t abgeschätzt. Ihre optimalen Werte sind durch das Mittel und die Varianzen der Intensität I_t innerhalb und außerhalb der augenblicklichen Form gegeben:
• und ähnlich für μ₂ und σ₂ mit Hϕ_t ausgetauscht durch (1 – Hϕ_t). Um die Notation einfach zu halten, werden diese Parameter nicht als ein Teil der dynamischen Variablen dargestellt.
• Um die Berechnungslast des Berücksichtigens aller möglichen Zwischengestalten ϕ_1:t–1 und der Transformationen θ_1:t–1 in Gleichung (3) zu vermeiden, wird angenommen, dass die Verteilungen der vorherigen Zustände stark um das Maximum der jeweiligen Verteilungen eine Peak haben: P(ϕ1:t–1, θ1:t–1|I1:t–1) ≈ δ(ϕ1:t–1 – ϕ1:t–1)δ(θ1:t–1 – θ1:t–1), (6)
• wobei (ϕ ^i, θ ^i) = arg max P(ϕi, θi|I1:t–1) die Abschätzwerte der Form und Transformation, die für die vergangenen Frames erhalten wurden sind, und δ(·) die Dirac-Deltafunktion bezeichnet. Eine alternative Rechtfertigung für diese Annäherung ist die Folgende: Es wird angenommen, dass aufgrund der Speicherbeschränkungen das Verfolgungssystem die ermittelten Bilder nicht speichern kann sondern dass es nur die vergangenen Abschätzwerte von Form und Transformation speichert. Dann reduziert sich das Inferenzproblem zum Zeitpunkt t auf dasjenige des Maximierens der konditionellen Verteilung P(ϕt, θt|It, ϕ ^1:t–1, θ ^1:t–1) ∝ P(It|ϕt, θt)P(ϕt, θt|ϕ ^1:t–1, θ ^1:t–1) (7)
• in Bezug auf die Einbettfunktion ϕ_t und die Transformationsparameter θ_t. Dies ist äquivalent zum ursprünglichen Inferenzproblem, siehe Gleichung (2), das Gegenstand der Näherung ist, siehe Gleichung (6).
• Ein zentraler Beitrag diese Papiers ist es, den verbundenen Prior auf der Gestalt ϕ_t und der Transformation θ_t zu modellieren, der auf vorherige Formen und Transformationen konditioniert ist. Dazu werden zwei Annäherungen berücksichtigt:

In einem ersten Schritt wird angenommen, dass Form und Transformation wechselseitig unabhängig sind, d.h. dass P(ϕ_t, θ_t|ϕ_1:t–1, θ_1:t–1) = P(ϕ_t|ϕ_1:t–1)P(θ_t|θ_1:t–1), und es wird ein gleichmäßiger Prior für die Transformationsparameter angenommen wird, d.h. P(θ_t|θ_1:t–1) = konstant. Dies ist komplementär zur kürzlichen Arbeit von Rathi et al., siehe Y. Rathi, N. Vaswani, A. Tannenbaum und A. Yezzi, Particle filtering for geometric active contours and application to tracking deforming objects, in IEEE Int. Conf. on Comp. Vision and Patt. Recognition, 2005, die ein temporäres Modell für diese Transformationsparameter vorschlugen, während sie kein spezifisches Modell auf die Form auferlegten.
In einem zweiten Schritt wird der allgemeinere Fall einer gemeinsamen Verteilung P(ϕ_t, θ_t|ϕ_1:t–1, θ_1:t–1) der Form und Transformationsparameter berücksichtigt, wobei die Verbindungen zwi schen Form und Transformation berücksichtigt werden. Experimentelle Ergebnisse zeigen, dass dies zu überlegener Leistung bei Umgang mit Okklusionen führt.
2.2 Eine finite-dimensionale Formulierung
Wenn die konditionale Wahrscheinlichkeit P(ϕt, θt|ϕ ^1:t–1, θ ^1:t–1) in (7) aus abgetasteten Daten abgeschätzt wird, muss man auf finite-dimensionale Annäherungen der Einbettfunktion zurückgreifen. Es ist gut bekannt, dass statistische Modelle zuverlässiger abgeschätzt werden können, wenn die Dimensionalität des Modells und die Daten niedrig sind. Die bayesianische Inferenz wird dann in eine niedrig dimensionale Formulierung innerhalb des Unterraums umgeschrieben, der durch die größten Haupteigenmodi eines Satzes von Abtastformen aufgespannt wird. Die Trainingsfolge wird dann auf eine zweifache Weise ausgenützt: zunächst dient sie dazu, einen niedrigdimensionalen Unterraum zu definieren, in dem eine Abschätzung durchgeführt wird. Ferner verwendet sie zweitens innerhalb dieses Unterraums das Verfahren dazu, dynamische Modelle für implizite Formen zu lernen.
{ϕ₁, ..., ϕ_N} soll eine temporäre Sequenz von Trainingformen sein. Es wird angenommen, dass alle Trainingformen ϕ_i vorzeichenbehaftete Abstandsfunktionen sind. Eine beliebige Linearkombination von Eigenmodi erzeugt im Allgemeinen keine vorzeichenbehaftete Abstandsfunktion. Während die vorgeschlagenen statistischen Formmodelle Formen begünstigen, die nahe an den Trainingsformen sind (und daher nahe an dem Satz der vorzeichenbehafteten Abstandsfunktionen), entsprechen nicht alle Formen, die in dem in Betracht gezogenen Unterraum abgetastet sind, den vorzeichenbehafteten Abstandsfunktionen. ϕ₀ soll die mittlere Form bezeichnen und ψ₁, ..., ψ_n die n größten Eigenmodi mit n << N. Das Verfahren nähert dann jede Trainingsform an als:
wobei αij = (ϕi – ϕ0, ψ1) ≡ ∫(ϕi – ϕ0)ψjdx. (9)
Solche auf PCA basierenden Datenstellungen von Level-Set-Funktionen wurden erfolgreich angewendet für die Konstruktion von statistischen Formpriors in siehe M. Leventon, W. Grimson, und 0. Faugeras. Statistical shape influence in geodesic active contours. In CVPR, Volume 1, Seiten 316-323, Hilton Head Island, SC, 2000, A. Tsai, A. Yezzi, W. Wells, C. Tempany, D. Tucker, A. Fan, E. Grimson und A. Willsky. Model-based curve evolution technique for image segmentation. In Comp. Vision Patt. Recog., Seiten 463–468, Kauai, Hawaii, 2001, M. Rousson, N. Paragios, und R. Deriche. Implicit active shape models for 3d segmentation in MRI imaging. In MICCAI, Seiten 209–216, 2004 und M. Rousson und D. Cremers (M. Rousson und D. Cremers. MICCAI, Volume 1, Seiten 757–764, 2005.).
Efficient kernel density estimation of shape and intensity priors for level set segmentation. In MICCAI, 2005. Im Folgenden wird der Vektor der ersten n Eigenmodi als ψ = (ψ₁, ..., ψ_n) bezeichnet. Jede Abtastform ϕ₁ ist daher durch den n-dimensionalen Formvektor α_i = (α_i1, ..., α_in) angenähert. In ähnlicher Weise kann eine beliebige Form ϕ durch einen Formvektor der Gestalt αϕ = (ϕ – ϕ0, ψ) (10)angenähert werden.
1 zeigt einen Satz von Silhouetten aus einer Sequenz einer gehenden Person und deren Annäherung durch die ersten sechs Eigenmodi. Während dieser Annäherung gewiss eine grobe Annäherung ist, der einige Einzelheiten der Form fehlen, wurde sie als hinreichend angesehen. Insbesondere ist die Sequenz von sechs Silhouetten in der oberen Hälfte von 1 aus händischen Nachführungen nach Schritt 100 von 13, und die sechs Silhouetten in der unteren Hälfte von 1 sind PCA-Annäherungen wie in Schritt 102 von 13. Somit zeigt 1 eine niedrig-dimensionale Annäherung eines Satzes von Trainingssilhouetten. Die Silhouetten (oben in 1), die entsprechend Schritt 100, 13, handsegmentiert sind, sind die unteren Silhouetten, die durch die ersten sechs Hauptkomponenten (PCA) ihrer Einbettfunktionen (Boden von 1) angenähert sind – siehe Gleichung (8).
Analog zu der Ableitung, die in dem vorherigen Abschnitt dargestellt ist, kann das Ziel der Bildsequenzsegmentierung innerhalb dieses Unterraums wie folgt festgehalten werden: bei gegebenen konsekutiven Bildern I_t: Ω → R von einer Bildsequenz und den gegebenen Segmentierungen α_1:t–1 und Transformationen θ ^1:t–1 die für die vorherigen Bilder I_1:t–1 erhalten wurden, maximiert das Verfahren die konditionelle Wahrscheinlichkeit
in Bezug auf die Formparameter α_t und die Transformationsparameter θ_t. Die konditionelle Wahrscheinlichkeit wird modelliert als: P(αt, θt|α1:t–1, θ ^1:t–1), (12)was die Wahrscheinlichkeit zum Beobachten einer speziellen Form α_t und einer speziellen Transformation θ_t zum Zeitpunkt t angibt, konditioniert auf die Parameterabschätzungen für die Form und Transformation, die bei vorherigen Bildern erhalten sind.
3. Dynamische statistische Formmodelle
Es wurde reichlich Theorie entwickelt, um zeitlich korrelierte Zeitseriendaten zu modellieren. Anwendungen von dynamischen Systemen zum Modellieren von deformierbaren Formen wurden unter anderem vorgeschlagen in [A. Blake und M. Isard, Active Contours. Springer, London, 1998]. Hier lernt das Verfahren dynamische Modelle für implizit dargestellte Formen. Zur Vereinfachung der Diskussion soll die Konzentration zunächst auf dynamischen Modellen der Formdeformation liegen. Mit anderen Worten wird angenommen, dass eine gleichmäßige Verteilung der Transformationsparameter vorliegt und nur die konditionelle Verteilung P(α_t|α_1:t–1) modelliert wird.
3.1 Dynamische Modelle der Deformation
Wieder bezugnehmend auf 13 wird in Schritt 100 eine handsegmentierte Bildsequenz eines deformierbaren Objekts, das ein sich sequenziell veränderndes, beispielsweise oszillierendes Verhalten hat, auf eine herkömmliche Weise erhalten. Insbesondere soll, wie es oben in Abschnitt 2.2 beschrieben ist, {ϕ₁, ..., ϕ_N} eine zeitliche Sequenz von Trainingsformen sein. Das Ergebnis ist für eine gehende Person als Beispiel in 1 gezeigt, die schwarze Trainingsformen auf weißem Grund und Level-Set-Funktionen für jede Form zeigt. Wie es in Abschnitt 2.2 beschrieben ist, soll ϕ₀ die mittlere Form bezeichnen und ψ₁, ..., ψ_n sollen die n größten Eigenmodi mit n << N bezeichnen.
In Schritt 102 berechnet das Verfahren die Hauptkomponente unter Verwendung von einer PCA-Darstellung von Level-Set-Funktionen, was der Formvektor wie in Gleichungen (9) und (10) nachfolgend bezeichnet wird. Die PCA-Darstellung der Sequenz von Silhouetten ist in den unteren sechs Trainingsformen hier als sechs Silhouetten von 1 zeigt. Es ist anzumerken, dass der letzte beobachten kann, dass in der letzten der sechs Silhouetten in dem oberen Satz der rechte Fuß einen schärferen Absatz als in der entsprechenden letzten der Silhouetten in der letzten der unteren sechs Formen hat, aufgrund der Annäherung in einem PCA.
Somit nähert von dem PCA das Verfahren dann jede Trainingsform an wie in Gleichungen (8) und (9) oben.
In Schritt 104 schätzt das Verfahren ein dynamisches (autoregressives) Modell für die Folge von Formvektoren ab. Dies ist in nachfolgender Gleichung (13) gezeigt. 3 zeigt die Formvektoren der eingegebenen Sequenz (links) und der Sequenz, die mit dem Modell künstlich hergestellt sind (rechts). Insbesondere ist 3 ein Modellvergleich; die ursprüngliche Formsequenz (oben) und die künstlich durch eine statistisch gelernte Markov-Kette zweiter Ordnung hergestellte Sequenz (unten) weisen ähnliches oszillatorisches Verhalten und Amplitudenmodulation auf. Die Plots zeigen die temporäre Entwicklung des ersten, zweiten und sechsten Form-Eigenmodus.
5 zeigt Abtastungen von einer Bildsequenz mit zunehmendem Rauschen. 5 sind Bilder von einer Sequenz mit zunehmenden Rauschen, hier einem abgetasteten eingegebenen Frame von einer Sequenz mit 25%, 50% und 90% Rauschen, wobei 90% Rauschen bedeutet, dass 90% aller Pixel durch eine zufällige Intensität ausgetauscht sind, die von einer gleichmäßigen Verteilung entnommen ist.
Insbesondere entwickelt das Verfahren ein temporäres statistisches Formmodell des oszillatorischen Verhaltens der Einbettfunktion, die das Objekt darstellt, hier der gehenden Person, von der vorherigen Bewegung.
Weiter insbesondere lernt das Verfahren die temporäre Dynamik einer deformierenden Form durch Annähern der Formvektoren α_t ≡ α_ϕt einer Sequenz von Level-Set-Funktionen durch eine Markov-Kette ([Neumaier, Schneider 2001]) der Ordnung k, d.h.: αt = μ + A1αt–1 + A2αt–2 + ... + Akαt–k + η, (13)wobei η Gauss-Rauschen mit Null-Mittel mit der Kovarianz Σ ist. Die Wahrscheinlichkeit einer Form, die konditioniert auf die in den vorherigen Zeitschritten beobachteten Formen ist, wird daher durch das entsprechende autoregressive Modell der Ordnung k gegeben:
wobei ν ≡ αt – μ – A1αt–1 – A2αt–2 ... – Akαt–k (15)
Verschiedene Verfahren wurden in der Literatur vorgeschlagen, um die Modellparameter abzuschätzen, die durch das Mittel μ ∈ Rⁿ und die Übergangs- und Rauschmatrizen A₁, ..., A_k, Σ ∈ R^n×n gegeben sind. Hier wendet das Verfahren einen schrittweisen Least-Square-Algorithmus an, der in [A. Neumaier und T. Schneider. Estimation of parameters and eigenmodes of multivariate autoregressive models. ACM T. on Mathematical Software, 27(1): 27–57, 2001] vorgeschlagen wird. Unterschiedliche Tests wurden abgeleitet, um die Genauigkeit des Passens des Models zu quantifizieren. Zwei aufgestellte Kriterien für die Modellgenauigkeit sind Akaike's abschließender Vorhersagefehler, siehe H. Akaike. Autoregressive model fitting for control. Ann. Inst. Statist. Math., 23:163–180, 1971, und das Schwarz'sche bayesianische Kriterium, G. Schwarz. Estimating the dimension of a model. Ann. Statist., 6: 461–464, 1978.
Unter Verwendung von dynamischen Modellen bis zu einer Größenordnung von 8 wurde herausgefunden, dass gemäß dem bayesianischen Kriterium von Schwarz die Trainingssequenzen, die das Verfahren nutzen, am besten durch ein autoregressives Modell zweiter Ordnung angenähert wurden.
Aus eine Trainingssequenz von 151 konsekutiven Silhouetten werden die Parameter eines autoregressiven Modells zweiter Ordnung abgeschätzt. Dieses Modell wurde nachfolgend untersucht, indem die Autokorrelationsfunktionen der Residuen, die zu jedem der modellierten Eigenmodi gehörten, geplottet wurden – siehe 2. Diese zeigen, dass die Residuen im Wesentlichen unkorreliert sind. Somit kann man mit den in 2 gezeigten Autokorrelationsfunktionen das in Schritt 104 von 13 vorgesehene autoregressive Modell validieren, indem die Autokorrelationsfunktionen der zu den ersten vier Formmodi gehörenden Residuen geplottet werden. Diese Residuen sind deutlich statistisch korreliert.
Zusätzlich erlauben die abgeschätzten Modellparameter es dem Verfahren, eine gehende Sequenz gemäß Gleichung (13) künstlich herzustellen. Um die Abhängigkeit von den Anfangsbedingungen zu entfernen, wurden die ersten 100 Abtastungen verworfen. 3 zeigt die temporäre Entwicklung des ersten, zweiten und sechsten Eigenmodus in der eingegebenen Sequenz (links) und in der künstlich hergestellten Sequenz (rechts). Das Modell zweiter Ordnung erfasst eindeutig einige der Hauptelemente des oszillatorischen Verhaltens. Die ursprüngliche Formsequenz, links, und die durch eine statistisch gelernte Markov-Kette zweiter Ordnung künstlich hergestellte Sequenz, rechts, entsprechend Schritt 104 (13), weisen ein ähnliches oszillatorisches Verhalten und Amplitudenmodulation auf. Diese Plots zeigen die temporäre Entwicklung des ersten, zweiten und sechsten Formeigenmodus. Die ursprüngliche Fromsequenz (links) und die durch eine statistisch gelernte Markov-Kette zweiter Ordnung künstlich hergestellte Sequenz (rechts) weisen ein ähnliches oszillatorisches Verhalten und Amplitudenmodulation auf. Die Plots zeigen die temporäre Entwicklung des ersten, zweiten und sechsten Formeigenmodus.
Während die künstlich hergestellte Sequenz die charakteristische Bewegung einer gehenden Person erfasst, zeigt 4, dass die einzelnen künstlich hergestellten Silhouetten nicht zu allen Augenblicken gültige Formen nachahmen. Es wird angenommen, dass solche Einschränkungen aus einem Modell erwartet werden können, das die dargestellte eingegebene Sequenz stark drückt: statt 151 Formen, die auf einem 256 × 256 Gitter definiert sind, behält das Modell nur eine mittlere Form ϕ₀, sechs Eigenmodi ψ und die autoregressiven Modellparameter, die durch ein sechsdimensionales Mittel und die drei 6 × 6 Matrizen gegeben sind. Dies ergibt 458851 Parameter statt 9895936 Parameter, entsprechend einer Kompression auf 4,6% der ursprünglichen Größe. Während das künstliche Herstellen der dynamischen Formmodelle unter Verwendung autoregressiver Modelle vorher studiert wurde [A. Blake und M. Isard. Active Contours, Springer, London 1998], sollte angemerkt werden, dass das künstliche Herstellen von Formen auf einer impliziten Darstellung beruht. Insbesondere zeigt 4 eine künstlich hergestellte Gehsequenz, die durch das Verfahren erzeugt ist. die abgetasteten Silhouetten werden durch das statistisch gelernte Markov-Modell zweiter Ordnung auf die Einbettfunktionen erzeugt – siehe Gleichung (13). Während das Markov-Modell viel des typischen oszillatorischen Verhaltens einer gehenden Person erfasst, entsprechen nicht alle erzeugten Abtastungen erlaubbaren Formen – siehe die zwei letzten Silhouetten unten rechts. Wie es schon in Abschnitt fünf unten beschrieben ist, ist das Modell ausreichend genau, um einen Segmentiervorgang geeignet zu begrenzen. 4 zeigt eine durch das Verfahren künstlich erzeugte Gehsequenz. Abgetastete Silhouetten, die durch ein statistisch gelerntes Markov-Modell zweiter Ordnung auf den Einbettfunktionen erzeugt sind – siehe Gleichung 13. Während das Markov-Modell viel des typischen oszillatorischen Verhaltens einer gehenden Person erfasst, entsprechen nicht alle erzeugten Abtastungen erlaubbaren Formen – siehe die zwei letzten Silhouetten unten rechts. Wie es bereits in Abschnitt fünf beschrieben wird, ist das Modell ausreichend genau, um einen Segmentiervorgang geeignet zu begrenzen.
Bezugnehmend auf 14 ist eine Sequenz von statistisch künstlich hergestellten Einbettfunktionen gezeigt und die erzeugten Konturen, die durch die Null-Niveau-Linie der jeweiligen Oberflächen gegeben sind, sind auch gezeigt. Insbesondere erlaubt diese implizite Darstellung, künstlich die Formen von variierender Topologie herzustellen. Die Silhouette unten links aus 14 besteht beispielsweise aus zwei Konturen. Die Sequenzen sind statistisch erzeugte Einbettoberflächen, die durch Abtasten von einem autoregressiven Modell zweiter Ordnung erhalten werden, und die Konturen, die durch die Null-Niveau-Linien der künstlich hergestellten Oberflächen gegeben sind. Die implizite Formulierung erlaubt es der eingebetteten Kontur, die Topologie zu verändern (Bild unten links).
3.2 Verbundene Dynamik von Deformation und Transformation
Im vorherigen Abschnitt wurden autoregressive Modelle eingeführt, um die zeitliche Dynamik von implizit dargestellten Formen zu erfassen. Dazu wurden Freiheitsgrade entsprechend Transformationen, wie zum Beispiel Translation und Rotation, vor dem Durchführen des Lernens der dynamischen Modelle entfernt. Als Konsequenz beinhaltet das Lernen nur die Deformationsmodi, wobei alle Information über Lage und Ort vernachlässigt werden. Die künstlich hergestellten Formen in 4 zeigen beispielsweise eine gehende Person, die „auf der Stelle" geht.
Im Allgemeinen kann man erwarten, dass die Deformationsparameter α_t und die Transformationsparameter θ_t eng verbunden sind. Ein Modell, das die verbundene Dynamik von Form und Transformation erfasst, wäre eindeutig leistungsfähiger als eines, das die Transformationen vernachlässigt. Dabei lernt das Verfahren dynamische Formmodelle, die invariant bezüglich Translation, Rotation und anderen Transformationen sind. Dazu kann man die Tatsache ausnützen, dass die Transformationen eine Gruppe bilden, die verlangt, dass die Transformation θ_t zum Zeitpunkt t aus der vorherigen Transformation θ_t–1 durch Anwenden einer inkrementellen Transformation Δθ_t:T_θtx = T_∆θt T_θt–1x erhalten wird. Statt des Lernens von Modellen der absoluten Transformation θ_t lernt das Verfahren einfach Modelle der Aktualisierungstransformationen Δθ_t (zum Beispiel der Veränderung in Translation und Rotation). Durch Festlegung sind solche Modelle invariant bezüglich der globalen Lage oder dem Ort der modellierten Form.
Um verbunden Transformation und Deformation zu modellieren, erhält das Verfahren einfach für jede trainierende Form in der lernenden Sequenz die Deformationsparameter α_i und die Transformationsänderungen Δθ_i, und macht die autoregressiven Modelle, die in Gleichungen (14) und (15) gegeben sind, für den kombinierten Vektor
passend.
Im Fall der gehenden Person wurde herausgefunden, dass, – wie im stationären Fall – ein autoregressives Modell zweiter Ordnung die beste Modellübereinstimmung ergibt. Eine künstliche Herstellung aus diesem Modell erlaubt es, Silhouetten einer gehenden Person zu erzeugen, die ähnlich zu denjenigen sind, die in 4 gezeigt sind, die sich jedoch im Raum vorwärts bewegen, ausgehend von einer beliebigen (benutzerspezifizierten) Ausgangsposition.
4. Dynamische Formpriors in der Segmentierung mit Variation
Bei einem gegebenen Bild I_t aus einer Bildsequenz und einem gegebenen Satz von im Voraus segmentierten Formen mit Formparametern α_1:t–1 und Transformationsparametern θ_1:t–1 ist es das Ziel des Verfolgens, die konditionelle Wahrscheinlichkeitsgleichung (11) bezüglich der Form α_t und der Transformation θ_t zu maximieren. Dies kann geschehen, indem ihr negativer Logarithmus minimiert wird, der – bis zu einer Konstante – durch eine Energie der Form: E(αt, θt) = Edata(αt, θt) + νEshape(αt, θt) (17)gegeben ist.
Das zusätzliche Gewicht ν wurde eingeführt, um eine relative Wichtung zwischen Prior und Datenterm zu erlauben. Insbesondere wenn die Intensitätsinformation nicht konsistent zu den Annahmen ist (Gauss'sche Intensitätsverteilungen eines Objekts und Hintergrunds) ist ein größeres Gewicht von ν zu bevorzugen. Der Datenterm ist gegeben durch:
wobei aus Einfachheitsgründen der Schreibung der nachfolgende Ausdruck eingeführt wird:
um die Einbettfunktion einer Form zu bezeichnen, die mit Deformationsparametern α_t erzeugt ist und mit Parametern θ_t transformiert ist.
Unter Verwendung der autoregressiven Modellgleichung (14) ist die Formenergie gegeben durch:
wobei ν in Gleichung (15) definiert ist. Um das verbundene Model von Deformation und Transformation einzubauen, das in Abschnitt 1 eingeführt ist, muss der oben stehende Ausdruck für ν durch die relativen Transformationen Δθ entwickelt werden:
wobei μ und A_i das statistisch gelernte Mittel und die Transitionsmatrizen für den verbundenen Raum von Deformationen und Transformationen bezeichnen und k die Ordnung des Modells ist. In den Experimenten wurde eine Modellordnung von k = 2 gewählt.
Man kann einfach zeigen, dass ein autoregressives Modell zweiter Ordnung als eine stochastische Version eines zeit-diskreten gedämpften harmonischen Oszillators interpretiert werden kann. Als Folge ist es gut geeignet, um im Wesentlichen oszillatorische Formdeformationen zu modellieren. Man hat jedoch herausgefunden, dass autoregressive Modelle höherer Ordnung qualitativ ähnliche Ergebnisse vorsehen.
Man berechnet die optimale Segmentierung der Testsequenz, die konsistent zu dem gelernten dynamischen Modell ist. Dies geschieht durch Herausfinden des Formvektors, der die konditionelle Wahrscheinlichkeit in Gleichung (11) maximiert. Eine Maximierung wird implementiert durch das Durchführen eines Gradientenabfalls auf dem negativen Logarithmus dieser Wahrscheinlichkeit. Dies ist in Gleichung (22) gezeigt. Dieses Verfahren deformiert intuitiv die Form so, dass sie am besten passt, sowohl zu dem gegenwärtigen Eild als auch zu der Vorher sage des dynamischen Modells. Die optimale Form für jedes Testbild ist in 9, 10, 11 und 13 gezeigt.
Das Verfolgen eines interessierenden Objekts über eine Sequenz von Bildern I_1:t mit einem dynamischen Formprior kann geschehen, indem die Energiegleichung (17) minimiert wird. Eine Gradientenabfallstrategie wurde verwendet, was zu den folgenden Differenzialgleichungen zum Abschätzen des Formvektors α_t führt:
wobei τ die künstliche Entwicklungszeit darstellt, im Gegensatz zu der physikalischen Zeit t. Der Datenterm ist gegeben durch:
und der Formterm ist gegeben durch:
wobei ν in Gleichung (21) gegeben ist und 1_n die n-dimensionale Einheitsmatrix ist, die die Projektion auf die Formkomponenten von ν modelliert, wobei n die Anzahl der Formmodi ist. Diese zwei Terme beeinflussen die Formentwicklung auf die folgende Weise: der erste Term zieht die Form, um die Bildintensitäten entsprechend den zwei Gauss'schen Intensitätsmodellen zu trennen. Da Variationen in dem Formvektor α_t die Form durch die Eigenmodi ψ beeinflussen, ist der Datenterm eine Projektion auf diese Eigenmodi. Der zweite Term führt eine Relaxation des Formvektors α_t in Richtung auf die wahrscheinlichste Form ein, wie es durch das dynamische Modell basierend auf den Formvektoren und Transformationsparametern, die für vorherige Zeitrahmen erhalten sind, vorausgesagt wird.
In ähnlicher Weise wird eine Minimierung bezüglich der Transformationsparameter θ_t durch Entwickeln der jeweiligen Gradientenabfallgleichung erhalten, die gegeben ist durch:
wobei der Datenterm gegeben ist durch:
und der treibende Term für den Prior gegeben ist durch:
wobei, wie oben, der Formprior eine Treibkraft in Richtung auf die durch das dynamische Modell vorhergesagte wahrscheinlichste Transformation beiträgt. Die diagonale Blockmatrix in Gleichung (11) modelliert einfach die Projektion auf die s-Transformationskomponenten des verbundenen Vektors ν, der in Gleichung (21) definiert ist.
5. Experimentelle Ergebnisse
5.1 Dynamische gegenüber statischen statistischen Formpriors
Im Folgenden wird der dynamische statistische Formprior, der oben zum Zweck des auf Level-Set beruhenden Verfolgens eingeführt ist, eingeführt.
Zum Konstruieren des Formpriors wird entsprechend dem Verfahren und wie es in Schritt 100 von 13 angegeben ist, eine Handsegmentierung von in diesem Beispiel einer Sequenz einer gehenden Person, wobei jede Form zentriert und binär zerlegt ist, erhalten. Nachfolgend bestimmt das Verfahren den Satz von vorzeichenbehafteten Abstandsfunktionen {ϕ_i}_j=1...N, die zu jeder Form gehören und in den 6 dominanten Eigenmodi berechnet sind, Schritt 102 in 13. Durch Projezieren von jeder Trainingsform auf diese Eigenmodi enthält das Verfahren in Schritt 104 eine Sequenz von Formvektoren {α_i ∈ R⁶}_i=1...N. Das Verfahren macht ein multivariantes autoregressives Modell zweiter Ordnung für diese Sequenz passend, indem der mittlere Vektor μ, die Transitionsmatrizen A₁, A₂ ∈ R^6×6 und die Rauschen-Kovarianz Σ ∈ R^6×6, dargestellt in Gleichung (14), berechnet werden. Nachfolgend vergleicht das Verfahren Segmentierungen von rauschenbehafteten Sequenzen, die durch Segmentierung in dem sechsdimensioanlen Unterraum ohne und mit dem dynamischen statistischen Formprior erhalten sind.
Die Segmentierung ohne den dynamischen Prior entspricht derjenigen, die mit einem statischen gleichmäßigen Prior in dem Unterraum der ersten wenigen Eigenmodi erhalten wird, wie es in A. Tsai, A. Yezzi, W. Wells, C. Tempany, D. Tucker, A. Fan, E. Grimson, und A. Willsky. Model-based curve evolution technique for image segmentation. In Comp. Vision Patt. Recog., Seiten 463–468, Kauai, Hawaii, 2001 vorgeschlagen ist. Während es alternative Modelle für statistische Formpriors gibt (zum Beispiel das Gauss-Modell M. Leventon, W. Grimson, und O. Faugeras. Statistical shape influence in geodesic active contours. In CVPR, Volume 1, Seiten 316–323, Hilton Head Island, SC, 2000, oder nicht parametrische statistische Modelle, D. Cremers, S. J. Osher, und S. Soatto. Kernel density estimation and intrinsic alignment for knowledge-driven segmentation: Teaching level sets to walk. In Pattern Recognition, Volume 3175 von LNCS, Seiten 36–44, Springer, 2004, und M. Rousson und D. Cremers [MICCAI, Volume 1, Seiten 757–764], wurde in Experimenten herausgefunden, dass alle diese Alternativen eine qualitativ ähnliche Beschränkung haben, wenn sie für Bildsequenzsegmentierung angewendet werden (siehe 7), und dazu neigen, in lokalen Minima haften zu bleiben, da sie nicht zeitliche Formkorrelationen ausnutzen.
In Schritt 108 wendet das Verfahren dann das Modell gegenüber zukünftiger, sequentieller Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen durch Maximieren der Wahrscheinlichkeit, dass das entwickelte statistische Formmodell der sequentiellen Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen entspricht, an.
Somit ist bezugnehmend auf 5 ein abgetasteter eingegebener Frame aus einer Sequenz mit 25%, 50%, 75% und 90% Rauschen gezeigt. (Es wird angemerkt, das Rauschen bedeutet, dass 25% aller Pixel durch eine zufällige Intensität ausgetauscht sind, die aus einer gleichmäßigen Verteilung abgetastet ist. Es ist interessant anzumerken, dass unser Algorithmus einfach gleichmäßiges Rauschen handhabt, wenngleich seine probabilistische Formulierung auf der Annahme von Gauss'schem Rauschen basiert.) 6 zeigt einen Satz von Segmentierungen, die mit einem gleichmäßigen statischen Formprior erhalten sind, auf einer Sequenz mit 25% Rauschen. 6 zeigt eine Segmentierung unter Verwendung eines statischen Formpriors für 25% Rauschen. Das Beschränken der Level-Set-Entwicklung auf einen niedrig-dimensionalen Unterraum erlaubt es, mit einer bestimmten Menge an Rauschen fertig zu werden. Während diese Segmentierung ohne dynamischen Prior erfolgreich beim Vorhandensein von mäßigem Rauschen ist, zeigt 7, dass die Segmentierung ohne dynamischen Prior möglicherweise zusammenbricht, wenn das Rauschniveau erhöht wird. 7 zeigt die Segmentierung unter Verwendung eines statischen Priors für 50% Rauschen. Unter Verwendung eines statischen (gleichmäßigen) Formpriors kann das Segmentierungsschema nicht mit größeren Mengen an Rauschen fertig werden. Es bleibt in einem lokalen Minimum nach den ersten wenigen Frames haften. Da statische Formpriors keine zeitlichen Vorhersagen vorsehen, haben sie eine Neigung, bei der Formabschätzung haften zu bleiben, die bei dem vorherigen Bild enthalten ist. Insbesondere zeigt 6 Segmentierungen mit einem. statischen Formprior auf einer gehenden Sequenz mit 25% Rauschen. Das Begrenzen der Level-Set-Entwicklung auf einen niedrigdimensionalen Unterraum erlaubt es, mit einer bestimmten Menge von Rauschen fertig zu werden, und 7 zeigt Segmentierungen mit einem statischen Formprior auf einer gehende Sequenz mit 50% Rauschen. Nur durch Verwenden eines statischen Formpriors kann das Segmentierungsschema nicht mit größeren Mengen an Rauschen fertig werden.
8 zeigt Segmentierungen der gleichen Sequenz wie in 7, die mit einem dynamischen statistischen Formprior erhalten sind, der von einem autoregressiven Modell zweiter Ordnung abgeleitet ist. 8 zeigt eine Segmentierung unter Verwendung eines dynamischen Formpriors für 50% Rauschen. Im Gegensatz zu der Segmentierung mit einem statischen Prior, die in 7 gezeigt ist, legt der dynamische Prior (unter Verwendung eines autoregressiven Modells zweiter Ordnung) statistisch gelernte Information über die temporäre Dynamik der Formentwicklung auf, um mit fehlender oder fehlleitender Information niedrigen Niveaus umzugehen.
9 und 10 zeigen, dass der statistische Formprior gute Segmentierungen, selbst mit 90% Rauschen, vorsieht. Das Ausnützen der zeitlichen Statistik der dynamischen Formen erlaubt es eindeutig, den Segmentiervorgang sehr robust gegenüber fehlender und fehlleitender Information zu machen. Insbesondere zeigt 8 eine Segmentierung unter Verwendung eines dyna mischen statistischen Formpriors basierend auf einem autoregressiven Modell zweiter Ordnung. Im Gegensatz zur Segmentierung in 7 legt der Prior statistisch gelernte Information über die temporäre Dynamik der Formentwicklung auf, um mit der fehlleitender Information niedrigen Niveaus umzugehen, und 9 zeigt das Verfolgen mit einem dynamischen statistischen Formprior, um mit größeren Mengen von Rauschen umzugehen. Die eingegebenen Bilder waren mit 90% Rauschen beschädigt. Dabei erlaubt es das statistisch gelernte dynamische Formmodel, die Low-Level-Information eindeutig zu machen. Diese Experimente bestätigen, dass die Verfolgungsschemata sich tatsächlich mit den Fähigkeiten von menschlichen Beobachtern vergleichen lassen. 9 zeigt das Verfolgen mit einem dynamisch geformten Prior für 75% Rauschen. Das statistisch gelernte dynamisch geformte Modell erlaubt es, die Low-Level-Information eindeutig zu machen. 10 zeigt das Verfolgen mit einem dynamischen Formprior für 90% Rauschen. Eine quantitative Untersuchung bezüglich der zugrunde liegenden Wahrheit, gezeigt in 11, linke Seite, gibt an, dass unser Verfolgungsschema tatsächlich mit den Fähigkeiten von menschlichem Beobachtern wetteifern kann, wobei es zuverlässige Segmentierungen vorsehen kann, wenn menschliche Beobachter versagen. Die Segmentierung führt dazu, dass die ersten wenigen Frames nicht genau sind, da der Segmentierungsvorgang mit einem dynamischen Formprior Bildinformation (und Speicher) mit der Zeit ansammelt.
5.2. Quantitative Entwicklung der Robustheit gegenüber Rauschen
Um die Genauigkeit der Segmentierung zu quantifizieren, wurden händische Segmentierungen des ursprünglichen Testsequenz verwendet. Nachfolgend wurde das folgende Fehlermaß definiert:
wobei H wiederum die Heaviside-Stufenfunktion ist, ϕ₀ die wahre Segmentierung ist und ϕ die abgeschätzte Segmentierung ist. Dieser Fehler entspricht der relativen Fläche der festgelegten symmetrischen Differenz, d.h. der Vereinigung von beiden Segmentierungen minus ihres Schnitts, geteilt durch die Flächen von jeder Segmentierung. Während es zahlreiche Maße der Segmentiergenauigkeit gibt, hat man sich für dieses Maß entschieden, da es Werte innerhalb des gut definierten Bereichs 0 ≤ ε ≤ 1 annimmt, wobei ε = 0 der perfekten Segmentierung entspricht.
11, linke Seite zeigt den Segmentierfehler, der über eine Testsequenz als einer Funktion des Rauschniveaus gemittelt ist. Ein dynamischer Formprior der Deformation und Transformation (Abschnitt 3.3) wurde verwendet, wobei der Segmentiervorgang mit einer Abschätzung des Ausgangsorts initialisiert wurde. Der Plot zeigt einige Dinge: zuerst bleibt der Fehler ziemlich konstant für Rauschniveaus unter 60%. Dies ist auf die Tatsache zurückzuführen, dass das Gewicht ν des Priors auf einen festgelegten Wert für alle Experimente festgelegt ist (idealerweise würde man kleinere Gewichte für weniger Rauschen verwenden). Daher stammt der Residuumsfehler von etwa 5% aus der Diskrepanz zwischen dem abgeschätzten dynamischen Modell und der wahren Sequenz, wobei Fehler, die durch die Hauptkomponentenannäherung und die Annäherung durch autoregressive Modelle eingeführt sind, angesammelt werden. Zweitens, wie man erwarten kann, nimmt der Fehler für größere Werte für Rauschen zu. Die Abweichung von der Monotonie (insbesondere bei 90% Rauschen) ist möglicherweise eine Wirkung der statistischen Fluktuation. Die Ausgangslageabschätzung in Verbindung mit der vorhergehenden Kenntnis über die translatorische Komponente des Gehens führt zu der Tatsache, dass der Fehler unter dem einer zufälligen Segmentierung ist, selbst bei 100% Rauschen. 11 zeigt eine quantitative Entwicklung der Segmentiergenauigkeit. Der relative Segmentierfehler ist für erhöhte Mengen von Rauschen (links) und für variierende Gehgeschwindigkeit (rechts) gezeigt. Selbst für 100% Rauschen bleibt der Segmentierfehler deutlich unter 1, da das Verfahren eine gute Abschätzung der Ausgangsposition und ein Modell der translatorischen Bewegung integriert. Der Plot rechts zeigt, dass für Gehgeschwindigkeiten ν niedriger als der gelernten v₀ der Segmentierfehler (mit 70% Rauschen) niedrig bleibt, wohingegen für schnellere Gehsequenzen die Genauigkeit langsam abnimmt. Selbst für Sequenzen mit dem fünffachen der gelernten Gehgeschwindigkeit überragt eine Segmentierung mit einem dynamischen Prior dabei die Segmentierung mit einem statischen Prior.
5.3 Robustheit gegenüber Variationen in der Frequenz und Framerate
Der dynamische Formprior führt eine frühere Bekanntheit darüber, wie wahrscheinlich bestimmte Silhouetten sind, ein, wobei die Segmentierungen, die auf den letzten wenigen Rahmen erhalten sind, gegeben sind. Es soll angenommen werden, dass das Verfahren ein dynami sches Modell einer gehenden Person aus einer Sequenz einer festgelegten Gehgeschwindigkeit ν₀ gelernt hat. Das abgeschätzte Modell ist eindeutig auf diese spezifische Gehgeschwindigkeit justiert. Wenn ein solches Modell in der Praxis angewendet wird, kann man dabei nicht garantieren, dass die Person in der Testsequenz bei genau der gleichen Geschwindigkeit geht. In entsprechender Weise kann man nicht sicher sein – selbst wenn die Gehgeschwindigkeit identisch ist –, dass die Kamera-Framerate die gleiche ist. Damit es praktisch nützlich ist, muss der vorgeschlagene Prior robust gegenüber Variationen in der Gehfrequenz und Framerate sein.
Um diese Robustheit zu validieren, wurden künstlich Testsequenzen von unterschiedlicher Gehgeschwindigkeit durch entweder Auslassen von bestimmten Frames (um den Gang zu beschleunigen) oder durch Wiederholen von Frames (wodurch der Gang verlangsamt wird) hergestellt. 11, rechte Seite, zeigt den Segmentierfehler ε, der in Gleichung (27) definiert ist, gemittelt über Testsequenzen mit 70% Rauschen und Geschwindigkeiten, die von einem Fünftel der Geschwindigkeit der Trainingssequenz bis zum Fünffachen der ursprünglichen Geschwindigkeit variieren. Während die Genauigkeit nicht durch das Verlangsamen der Sequenz beeinträchtigt wird, nimmt sie graduell ab, wenn die Geschwindigkeit erhöht wird. Der Segmentiervorgang ist dabei ziemlich robust gegenüber solchen drastischen Veränderungen in der Geschwindigkeit. Der Grund für diese Robustheit ist zweifach: zuerst erlaubt es die bayesianische Formulierung, die Modellvorhersage und die eingegebenen Daten auf eine Weise zu kombinieren, dass sich der Segmentiervorgang konstant für die eingehenden eingegebenen Daten anpasst. Zweitens beruht das autoregressive Modell nur auf den letzten wenigen abgeschätzten Silhouetten zum Erzeugen einer Formwahrscheinlichkeit für den gegenwärtigen Frame. Es nimmt keine langbereichige temporäre Konsistenz an und kann somit Sequenzen mit variierender Gehgeschwindigkeit handhaben. Die Experimente zeigen, dass selbst für Sequenzen des Fünffachen der ursprünglichen Gehsequenz eine Segmentierung mit einem dynamischen Modell einer Segmentierung mit einem statischen Modell überlegen ist. Dies ist nicht überraschend: im Gegensatz zu dem statischen Modell sieht das dynamische Modell eine Vorhersage der temporären Formentwicklung vor. Selbst wenn diese Vorhersage nur bedingt optimal für stark abweichende Gehgeschwindigkeiten sein mag, erlaubt es dennoch, den Segmentiervorgang zu verbessern.
5.4 Verbundene Dynamik von Deformation und Transformation
In Abschnitt 3.2 wurden dynamische Modelle eingeführt, um die verbundene Entwicklung von Deformations- und Transformationsparametern zu fassen. Eine der bislang gezeigten Aufgaben, reine Deformationsmodelle und verbundene Modelle von Deformation und Transformation wurden als ähnliche Segmentierergebnisse ergebend herausgefunden. Während das verbundene Modell einen Prior über die Transformationsparameter vorsieht, die zu einem vorgegebenen Zeitpunkt am wahrscheinlichsten sind, erfordert das reine Deformationsmodell, dass diese Parameter nur aus den Daten abgeschätzt werden.
Als ein abschließendes Beispiel wird eine Segmentieraufgabe erzeugt, bei der die Transformationsparameter nicht zuverlässig aus den Daten aufgrund einer markanten Okklusion abgeschätzt werden können. Die Testsequenz zeigt eine Person, die von rechts nach links geht und einen verdeckenden Balken, der von links nach rechts sich bewegt, zerstört durch 80% Rauschen. 12 obere Reihe, zeigt Segmentierungen, die mit einem dynamischen Formprior erhalten werden, der sowohl Deformation als auch Transformation erfasst. Selbst wenn die gehende Silhouette vollständig verdeckt ist, kann das Modell Silhouetten erzeugen, die nach links gehen, und nimmt die Bilddaten wieder an, wenn die Figur wieder erscheint.
Die Bodenreihe von 12 andererseits zeigt die Segmentierung der gleichen Frames mit einem dynamischen Modell, das nur die Formdeformation enthält. Da keine Kenntnis über Translation angenommen wird, muss sich der Segmentiervorgang vollständig auf der Bildinformation verlassen, um die Transformationsparameter abzuschätzen. Als eine Konsequenz wird der Segmentationsvorgang durch die merkliche Okklusion missgeleitet. Wenn die Figur wieder von hinter dem Balken erscheint, integriert das Verfahren widersprüchliche Information über Translation, die durch die Person vorgegeben wird, die nach links geht, und durch den Balken, der sich nach rechts bewegt. Wenn die Figur, die interessiert, einmal verloren ist, „halluziniert" der Prior einfach Silhouetten einer Person, die „auf der Stelle" geht – siehe das letzte Bild unten rechts. Wenngleich es ein „fehlgeschlagenes" Experiment ist, glaubt man, dass dieses Ergebnis am besten veranschaulicht, wie das dynamische Modell und die Bildinformation innerhalb der bayesianischen Formulierung für die Bildsequenzsegmentierung verschmolzen sind. 12 zeigt das Verfolgen beim Vorhandensein von Okklusion. Die eingegebene Sequenz zeigt eine Person, die nach links geht, verborgen durch einen Balken, der sich nach rechts bewegt. Während die obere Reihe mit einem dynamischen Prior erzeugt ist, der sowohl Deformation als auch Transformation integriert, verwendet die Bodenreihe einen dy namischen Prior, der nur die Deformationskomponente erfasst. Da dieser keine Vorhersagen der translatorischen Bewegung vorsieht, beruht die Abschätzung der Translationsreihen auf den Bilddaten. Sie wird durch die Okklusion fehlgeleitet und kann sich nicht wieder erholen, wenn die Person von hinter dem Balken wieder erscheint.
6. Schlussfolgerung
Mit dem oben beschriebenen Verfahren werden dynamische statistische Formmodelle für implizit dargestellte Formen verwendet. Im Gegensatz zu vorhandenen Formmodellen für implizite Formen erfassen diese Modelle die temporären Korrelationen, die sich deformierende Formen charakterisieren, wie zum Beispiel die konsekutiven Silhouetten einer gehenden Person. Solche dynamische Formmodelle tragen für die Tatsache Rechnung, dass die Wahrscheinlichkeit des Beobachtens einer speziellen Form zu einem gegebenen Zeitpunkt von den Formen abhängen kann, die zur vorherigen Zeitpunkten beobachtet sind.
Für die Konstruktion von statistischen Formmodellen erweiterte das Verfahren die Konzepte von Markov-Ketten und autoregressiven Modellen auf das Gebiet von implizit dargestellten Formen. Die resultierenden dynamischen Formmodelle erlauben es daher, Formen von variierender Topologie zu handhaben. Ferner werden sie einfach auf höher dimensionale Formen (zum Beispiel Oberflächen) erweitert.
Die abgeschätzten dynamischen Modelle erlauben es, künstlich Formsequenzen von beliebiger Länge herzustellen. Für den Fall einer gehende Person wurde die Genauigkeit der abgeschätzten dynamischen Modelle validiert, wobei die dynamische Formentwicklung der eingegebenen Sequenz zu derjenigen der künstlich hergestellten Sequenzen verschiedene Formeigenmodi verglichen wurde, und verifiziert wurde, dass die Residuen statistisch unkorreliert sind. Wenngleich die künstlich hergestellten Formen nicht in allen Fällen den gültigen Formen entsprechen, kann man dennoch das dynamische Modell verwenden, um einen Segmentier- und Verfolgungsvorgang auf eine solche Weise einzuschränken, dass er bekannte Formentwicklungen begünstigt.
Dazu wurde eine bayesianische Formulierung für eine Bildsequenzsegmentierung basierend auf dem Level-Set-Verfahren entwickelt, die es erlaubt, die statistisch gelernten dynamischen Mo delle als ein Formprior für die Segmentiervorgänge aufzuerlegen. Im Gegensatz zu den meisten vorhandenen Ansätzen bezüglich der Verfolgung sind autoregressive Modelle als statistische Priors in einem abweichenden Ansatz integriert, der durch einen lokalen Gradientenabfall minimiert werden kann (statt durch stochastische Optimierverfahren).
Experimentelle Ergebnisse bestätigen, dass die dynamischen Formpriors statischen Formpriors überlegen sind, wenn eine gehende Person beim Vorhandensein von großen Mengen von Rauschen verfolgt wird. Eine quantitative Entwicklung der Segmentiergenauigkeit als eine Funktion des Rauschens ist vorgesehen. Ferner hat sich der auf dem Modell basierende Segmentiervorgang als ziemlich robust bis zu großen (bis zu einem Faktor von 5) Variationen in der Framerate und der Gehgeschwindigkeit gezeigt. Ferner hat sich ein dynamischer Prior in dem verbundenen Raum von Deformation und Transformation als überlegen gegenüber einem reinen auf Deformation basierenden Prior gezeigt, wenn eine gehende Person durch merkliche Okklusionen verfolgt wird.
Eine Anzahl von Ausführungsformen der Erfindung wurden beschrieben. Dennoch ist zu verstehen, dass verschiedene Modifikationen gemacht werden können, ohne vom Rahmen der Erfindung abzuweichen. Entsprechend sind andere Ausführungsformen innerhalb des Rahmens der folgenden Ansprüche.

Claims

Verfahren zum Erfassen und Verfolgen eines deformierbaren Objekts, das ein sich sequentiell veränderndes Verhalten hat, enthaltend: Entwickeln eines temporären statistischen Formmodells des sequentiell sich verändernden Verhaltens der Einbettfunktion, die das Objekt darstellt, aus einer vorherigen Bewegung; und anschließendes Anwenden des Modells gegenüber zukünftiger, sequentieller Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen durch Maximieren der Wahrscheinlichkeit, dass das entwickelte statistische Formmodell der sequentiellen Bewegung des Objekts beim Vorhandensein von unerwünschten Phänomenen entspricht.
Verfahren, enthaltend: Erzeugen eines dynamischen Modells der zeitlichen Entwicklung der Einbettfunktion von vorherigen Beobachtungen einer Grenzform eines Objekts, wie zum Beispiel eines Objekts, das eine beobachtbare, sich sequentiell verändernde Grenzform hat; und anschließendes Verwenden eines solchen Modells für eine probabilistische Schlussfolgerung über eine solche Gestalt des Objekts in der Zukunft.
Verfahren zum Erfassen und Verfolgen eines deformierbaren Objekts, das ein sich sequentiell veränderndes Verhalten hat, enthaltend: Entwickeln eines temporären statistischen Formmodells des sich sequentiell verändernden Verhaltens der Einbettfunktion, die das Objekt darstellt, aus einer früheren Bewegung, enthaltend: Entwickeln einer handsegmentierten Bildsequenz, die trainierende Formen des Objekts und Level-Set-Funktionen für jede der Formen zeigt; Berechnen einer Sequenz von Formvektoren, enthaltend die Hauptkomponentendarstellungen der Level-Set-Funktionen; Abschätzen eines dynamischen Modells für die Sequenz der Formvektoren; und Bestimmen der einen der Sequenz der Formvektoren, die die größte Wahrscheinlichkeit hat, dem dynamischen Modell zu entsprechen.
Verfahren nach Anspruch 3, wobei das Abschätzen des dynamischen Modells das Verwenden eines autoregressiven Modells für die Sequenz von Formvektoren enthält.
Verfahren nach Anspruch 3 oder 4, wobei das Bestimmen der maximalen Wahrscheinlichkeit das Maximieren einer konditionellen Wahrscheinlichkeit enthält.
Verfahren nach Anspruch 3, 4 oder 5, wobei das Bestimmen der maximalen Wahrscheinlichkeit das Durchführen eines Gradientenabfalls auf dem negativen Logarithmus der konditionellen Wahrscheinlichkeit enthält.
Verfahren nach einem der Ansprüche 3 bis 6, wobei das Abschätzen des dynamischen Modells das Annähern der Formvektoren α₁ ≡ α_ϕt der Sequenz der Level-Set-Funktionen durch eine Markov-Kette k-ter Ordnung enthält, entsprechend zu
wobei η ein Gauss'sches Rauschen mit Null-Mittel mit der Kovarianz Σ ist.
Verfahren nach Anspruch 6, wobei bei gegebenen konsekutiven Bildern I_t: Ω → R von einer Bildsequenz und bei gegebenen Segmentierungen α_1:t–1 und Transformationen θ ^1:t–1 , die auf den vorherigen Bildern I_1:t–1 erhalten sind, das Bestimmen der maximalen Wahrscheinlichkeit enthält: Maximieren einer konditionellen Wahrscheinlichkeit,
bezüglich der Formvektoren α_t und Transformationsparameter θ_t; wobei die konditionelle Wahrscheinlichkeit modelliert ist als: P(αt, θt|α1:t–1, θ ^1:t–1) (12)was die Wahrscheinlichkeit des Beobachtens einer speziellen Form α_t und einer speziellen Transformation θ_t zum Zeitpunkt t darstellt, konditioniert auf den Parameterabschätzungen für die Form und Transformation, die auf vorherigen Bildern erhalten sind.
Verfahren nach Anspruch 6, wobei das Durchführen des Gradientenabfalls auf dem negativen Logarithmus der konditionellen Wahrscheinlichkeit die Verwendung einer Gradientenabfallstrategie enthält, was zu den folgenden Differenzialgleichungen führt, um den Formvektor α_t abzuschätzen:
wobei τ die künstliche Entwicklungszeit darstellt, gegenüber der physikalischen Zeit t.