DE102005003605B4

DE102005003605B4 - Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung

Info

Publication number: DE102005003605B4
Application number: DE102005003605A
Authority: DE
Inventors: Nikolaos Paragyios
Original assignee: Siemens Medical Solutions USA Inc
Current assignee: Siemens Medical Solutions USA Inc
Priority date: 2004-01-29
Filing date: 2005-01-25
Publication date: 2013-04-25
Anticipated expiration: 2025-01-26
Also published as: DE102005003605A1; CN1648936A; US7391882B2; US20050169533A1; CN100390813C

Abstract

Ein Verfahren zum Erkennen eines Objektes in einem Bild umfasst die folgenden Schritte: Bestimmen eines Formmodells ais ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb des Rahmens von Niveaumengen zur Bestimmung des Objektes in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang von Teilen der Projektion bestimmt wird, wobei die Niveaumengen durch das Formmodell eingeschränkt wird.

Description

HINTERGRUND DER ERFINDUNG
1. Technisches Gebiet
Die vorliegende Offenlegung betrifft die Objektdetektion in Bildern und insbesondere ein Variations-Niveaumengenverfahren zur formgesteuerten Objektdetektion auf Wissensbasis.
2. Allgemeiner Stand der Technik
Die Gewinnung einer bestimmten interessierenden Struktur aus einem Bild, das bestimmten vordefinierten Eigenschaften folgt, ist für die Bildsegmentierung auf Modellbasis nützlich. Solche Eigenschaften können visuell oder geometrisch sein. Visuelle Eigenschaften lassen sich erfassen, indem globale Verteilungen aufgebaut werden, um die Luminanzeigenschaften der interessierenden Struktur zu beschreiben, oder durch Erzeugen lokaler Erscheinungsbildmodelle. Solche Modelle können in einem Szenario mit eingeschränkter Beleuchtung effizient sein, wenn Änderungen minimal sind und durch ein Modell erfasst werden können.
Die formgesteuerte Segmentierung auf Wissensbasis ist eine Alternative zu den visuell gesteuerten Techniken. Solche Verfahren versuchen, eine Struktur zu gewinnen, die im Vergleich zu einem vorbekannten Modell konsistente geometrische Form aufweist. Glätte ist ein Beispiel für das Auferlegen einer vorbekannten Nebenbedingung. Lokale geometrische Eigenschaften (z. B. Krümmung, lokale Glättenebenbedingungen) können beim Definieren eines solchen vorbekannten Modells verwendet werden, oder man kann ein vorbekanntes Modell auf globalere Weise definieren, was zu konkreteren Repräsentationen führt, die die Varianz der gesamten interessierenden Struktur erfassen. Obwohl lokale Modelle effizient sind, sind globale Repräsentationen ein geeigneter Ansatz um Verdeckungen, Rauschen und Änderungen an der Objektpose handhaben zu konnen.
Modellierung wird vor der Einführung globaler formgesteuerter Nebenbedingungen benötigt. Eine solche Aufgabe ist äquivalent mit dem Extrahieren einer kompakten Repräsentation für die interessierende Struktur aus einer Menge von Trainingsbeispielen. Die Repräsentationsauswahl hängt mit der Form des Vorbekannten zusammen, das eingefuhrt werden soll, und wird durch die Größe der Trainingsmenge eingeschrankt. Die Registration aller Beispiele auf eine gemeinsame Pose ist ein wichtiger Teil der Modellierungsphase. Korrespondenzen für die grundlegenden Elemente der Proben des Trainings müssen für eine effiziente Modellierung gewonnen werden.
Bei der formgesteuerten Segmentierung auf Wissensbasis werden vielfältige Modelle benutzt. Die Verwendung geometrischer Komponenten, wie zum Beispiel gerade Segmente und Ellipsoide, war ein Versuch, eine kompakte Repräsentation für das Modellieren von Seiten zu überzeugen. Obwohl solche Modelle im Hinblick auf Leistungsfähigkeit und niedrige Komplexitat bei der Modellierung einfacher geometrischer Strukturen effizient sind, werden bei ihnen keine lokalen Informationen und wichtige Variabilität des interessierenden Objekts berücksichtigt. Bei einem gegebenen solchen Modell erfolgt die Segmentierung dann durch Einstellung der lokalen geometrischen Komponenten in Richtung der gewünschten Bildeigenschaften. Zu anderen Techniken gehören deformierbare Vorlagen, Modelle mit aktiver Form und Erscheinung und Snake-Modelle.
Das Anwendungsgebiet für Niveaumengenverfahren bei Machine Vision ist groß und nicht auf Bildsegmentierung, Restauration, Tracking, Form aus Bildsegmentierung usw. beschrankt. Diese Techniken wurden eingeführt, untersucht und auf andere wissenschaftliche Bereiche angewandt, wie zum Beispiel Geometrie, Robotik, Fluide, Halbleiterentwicklung usw. Die meisten der erwähnten Anwendungen teilen sich ein gemeinsames Problem: das Verfolgen sich bewegender Grenzflächen. Niveaumengenreprasentationen eignen sich gut für rechnerische Verfahren zur Durchfuhrung dieser Aufgabe. Sie können für beliebige Dimension verwendet werden (z. B. Kurven, Flächen, Hyperflachen usw.), sind parameterfrei und können die Topologie der sich entwickelnden Grenzflächen auf natürliche Weise ändern. Darüber hinaus geben sie ein natürliches Verfahren zur Bestimmung und Schätzung geometrischer Eigenschaften der sich entwickelnden Grenzfläche.
Diese Techniken konnen auch nichtstarre Objekte und Bewegung behandeln, da sie sich auf sehr lokale Eigenschaften beziehen und eine Grenzfläche pixelweise deformieren können. Sie können jedoch im Vergleich zu parametrischen Modellen eine schlechte Leistungsfähigkeit aufweisen, wenn feste/starre Bewegungen und Objekte betrachtet werden. Lokale Propagationen sind empfindlich und nutzen bestimmte wohldefinierte physikalische Apriori-Nebenbedingungen, wie zum Beispiel Festformmodelle, nicht voll aus.
Deshalb wird ein Variations-Niveaumengenverfahren zur formgesteuerten Objektdetektion auf Wissensbasis benötigt.
KURZE DARSTELLUNG DER ERFINDUNG
Diese Aufgabe löst ein Verfahren mit den Merkmalen des Patentanspruchs 1.
Modellierung ist für formgesteuerte Segmentierungstechniken wichtig. Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine stochastische Niveaumengenformulierung implementiert, um Vorwissen in einem Variations-Niveaumengen-Verfahren für die formgesteuerte Objektextraktion auf Wissensbasis zu berücksichtigen. Zu diesem Zweck werden Objekte in einer impliziten Form repräsentiert, wobei eine stochastische Abstandsfunktion verwendet wird, die Konfidenzgrade aufweist. Dem Segmentierungsprozess werden Nebenbedingungen auferlegt, indem nach einer geometrischen Struktur in der Bildebene gesucht wird, die zu der Familie von Formen gehort, die von dem vorbekannten Modell gemäß einer Ähnlichkeitsbewegungstransformation erzeugt wurde. Es wird eine nichtstationäre Metrik zwischen der sich entwickelnden Kontur und dem Modell minimiert, was zu Bewegungsgleichungen führt, die diese Kontur in Richtung der gewünschten Bildeigenschaften entwickeln und die dazwischenliegenden Registrationsparameter bei dem vorbekannten Modell aktualisieren. Bei Konvergenz werden eine Struktur, zu der Mannigfaltigkeit zulässiger Lösungen gehört, und die entsprechende Transformation gewonnen.
Gemäß der Erfindung umfasst ein Verfahren zum erkennen eines Objekts in einem Bild die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb des Rahmens von Niveaumengen zur Bestimmung des Objekts in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und eine Konfidenzmaß entlang Teilen der Projektion bestimmt wird, wobei die Niveaumengen durch das Vorbekannte eingeschränkt werden. Das Konfidenzmaß wird als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
Die Trainingsbeispiele werden auf eine gemeinsame Pose ausgerichtet.
Das Bestimmen des Formmodells umfasst weiterhin das Bestimmen einer Niveaumengenreprasentation des Objekts in dem Bild, das Bestimmen der Projektion als auffallendste Form in dem Bild und das Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form. Das Verfahren umfasst weiterhin das Bestimmen eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenrepräsentation des Objekts und der Projektion und des Konfidenzmaßes.
Die Projektion und die Konfidenzmessung werden auf Pixelniveau des Bildes definiert.
Im Rahmen von Niveaumengen erfolgen das Bestimmen einer Intensitatseigenschaft für das Objekt und eines Hintergrundes in dem Bild und das Schätzen von Mittelwert und Varianz des Objekts und des Hintergrundes für eine Segmentierungsabbildung.
Die Projektion entwickelt sich auf einem Nullniveau und propagiert in einer Richtung nach innen und nach außen zu einem Rand des Objekts.
Das Vorbekannte ist ein stochastisches Vorbekanntes. Das stochastische Vorbekannte fuhrt für die Abweichung von dem stochastischen Vorbekannten einen Fehler im Rahmen von Niveaumengen ein, der in Gebieten mit reduzierter Konfidenz abnimmt.
Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine Programmspeichereinrichtung bereitgestellt, die durch Maschine lesbar ist und greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erkennen eines Objekts in einem Bild auszuführen. Das Verfahren umfasst sie folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells innerhalb eines Rahmens von Niveaumengen zur Bestimmung des Objekts in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt werden, wobei die Niveaumengen durch das Formmodell eingeschränkt werden. Das Konfidenzmaß wird als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glatteterm bestimmt wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Nachfolgend werden bevorzugte Ausfuhrungsformen der vorliegenden Erfindung ausführlicher mit Bezug auf die beigefügten Zeichnungen beschrieben.
1 ist ein Flussdiagramm eines Verfahrens gemäß einer Ausführungsform der vorliegenden Offenlegung;
2 ist ein Diagramm eines Systems gemäß einer Ausfuhrungsform der vorliegenden Offenlegung;
3 ist ein Flussdiagramm eines Verfahrens zur Bestimmung eines Formmodells gemäß einer Ausführungsform der vorliegenden Offenlegung;
4 ist ein Flussdiagramm eines Verfahrens zur Bestimmung eines Vorbekannten gemäß einer Ausführungsform der vorliegenden Offenlegung und;
5 ist ein Flussdiagramm eines Verfahrens für eine Niveaumengenbestimmung, die ein Vorbekanntes implementiert, gemäß einer Ausführungsform der vorliegenden Offenlegung.
AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Gemäß einer Ausführungsform der vorliegenden Offenlegung werden Niveaumengenrepräsentationen darauf eingeschränkt, einer Form-Global-Konsistenz zu folgen, während die Moglichkeit zur Erfassung lokaler Deformationen erhalten wird. Es werden globale und lokale Formeigenschaften des Objekts gewonnen.
Ein Formmodell wird direkt unter Verwendung einer Probensammlung auf dem Niveaumengenraum aufgebaut. Mit Bezug auf die 1 wird das Formmodell konstruiert 101. Das Formmodell dient als Grundlage für die Einführung eines Form-Vorbekannten in einer energetischen Form 102. Das Form-Vorbekannte minimiert einen nichtstationaren Abstand zwischen der sich entwickelnden Grenzfläche und dem Formmodell, deformiert gemaß einer Drehstreckungstransformation, um ein Objekt zu bestimmen 103.
Ein System und ein Verfahren gemäße einer Ausführungsform der vorliegenden Offenlegung kann als ein Modul implementiert und mit existierenden datengesteuerten Variations-Verfahren integriert werden, um eine Bildsegmentierung für verfalschte und unvollstandige Daten durchzuführen.
Es versteht sich, dass die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessoren oder einer Kombination davon implementiert werden kann. Bei einer Ausführungsform kann die vorliegende Erfindung in Software als ein greifbar auf einer Programmspeichereinrichtung realisiertes Anwendungsprogramm implementiert werden. Das Anwendungsprogramm kann in eine Maschine mit jeder beliebigen geeigneten Architektur heraufgeladen und durch diese ausgeführt werden.
Mit Bezug auf 2 kann gemaß einer Ausführungsform der vorliegenden Erfindung ein Computersystem 201 zur Implementierung der vorliegenden Erfindung u. a. folgendes umfassen; eine zentrale Verarbeitungseinheit (CPU) 202, einen Speicher 203 und eine Eingabe/Ausgabe-(E/A-)Schnittstelle 204. Das Computersystem 201 ist im Allgemeinen durch die E/A-Schnittstelle 204 mit einer Anzeige 205 und verschiedenen Eingabegerten 206 wie zum Beispiel einer Maus oder einer Tastatur, gekoppelt. Zu den Unterstützungsschaltungen können Schaltungen wie zum Beispiel ein Cache, Stromversorgungen, Taktschaltungen und ein Kommunikationsbus gehoren. Der Speicher 203 kann Direktzugriffsspeicher (RAM, Nurlesespeicher (ROM), ein Plattenlaufwerk, ein Bandlaufwerk usw. oder eine Kombination davon umfassen. Die vorliegende Erfindung kann als eine Routine 207 implementiert werden, die in dem Speicher 203 gespeichert und durch die CPU 202 ausgefuhrt wird, um das Signal aus der Signalquelle 208 zu verarbeiten. Das Computersystem 201 ist dementsprechend ein Vielzweckcomputersystem, das zu einem speziellen Computersystem wird, wenn es die Routine 207 der vorliegenden Erfindung ausführt.
Die Computerplattform 201 umfasst außerdem ein Betriebssystem und Mikroanweisungscode. Die verschiedenen hier beschriebenen Prozesse und Funktionen können entweder Teil des Mikroanweisungscodes oder Teil des Anwendungsprogramms (oder eine Kombination davon) sein, der bzw. das über das Betriebssystem ausgeführt wird. Zusätzlich können verschiedene andere Peripheriegeräte an die Computerplattform angeschlossen werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein Druckgerät.
Da ein Teil der konstituierenden Systemkomponenten und Verfahrensschritte, die in den beigefügten Figuren abgebildet sind, in Software implementiert sein kann, versteht sich ferner, dass die eigentlichen Verbindungen zwischen den Systemkomponenten (oder Prozessschritten) abhängig von der Art und Weise der Programmierung der vorliegenden Erfindung unterschiedlich sein können. Anhand der dieser gegebenen Lehren der vorliegenden Erfindung werden Durchschnittsfachleute auf dem relevanten Gebiet in der Lage sein, diese und ahnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.
Implizite Reprasentation:
Die Segmentierung kann unter Verwendung von Grenzflächen (z. B. Kurven) durchgeführt werden, die sich gemäß einer Strömung entwickeln. Die Strömung, die die Propagation der Kurve bestimmt, kann durch Minimierung einer Zielfunktion gewonnen oder gemaß dem Anwendungskontext definiert werden (z. B. geometrische Stromungen). Segmentierungsansätze auf Snake-Basis beziehen sich auf die Propagation von Kurven von einer Anfangsposition in Richtung der gewunschten Bildeigenschaften. Zu solchen Stromungen gehören interne und externe Terme.
Um Niveaumengenreprasentationen einzuführen, betrachte man eine parametrische Kurve ∂R(p):[0, 1] → R × R Gl. 1
Die sich gemäß einer gegebenen Bewegungsgleichung in der normalen Richtung N1 entwickelt: ∂R(p) = F(∂R(p))N Gl. 2 wobei F eine skalare Funktion auf den lokalen Eigenschaften der Kurve (z. B. Krümmung) ist. Diese Stromung kann unter Verwendung eines Lagrange-Ansatzes implementiert werden. Die Kontur wird in diskreter Form unter Verwendung einer Auswahl von Kontrollpunkten repräsentiert. Die Kurvenposition kann durch Lösen von Gl. 1 und Gl. 2 für jeden Kontrollpunkt aktualisiert werden, Eine solche Technik kann im allgemeinsten Fall die Topologie der sich entwickelnden Kurve nicht ändern und es kann eine Umparametrisierung der sich entwickelnden Kurve notwendig sein.
Das Niveaumengenverfahren wurde zuerst auf dem Gebiet der Fluiddynamik eingeführt und ist eine neue Technik zum Behandeln verschiedener Anwendungen in der Abbildung, Vision und Grafik. Niveaumengenverfahren repräsentieren die sich entwickelnde Kurve mit dem Nullniveau einer Fläche ϕ:[x, y, ϕ(x, y)] ϕ(∂R(R)) = 0 Gl. 3
Eine solche Repräsentation ist implizit, intrinsisch und parameterfrei. Die Oberflache kann so entwickelt werden, dass das Nullniveau immer der sich entwickelnden Kurve nachgibt. Durch Bilden der Ableitungen von ϕ nach der Zeit erhält man: d / dτϕ + F|∇ϕ| = 0 Gl. 4
Somit wird eine Verbindung zwischen der Familie sich entwickelnder Kurven ∂R und der Familie sich entwickelnder Flächen ϕ hergestellt. Ein solches Propagationsschema kann topologische Änderungen berücksichtigen und kann sie Schätzung der lokalen geometrischen Eigenschaften der Kurve unterstützen.
Energieminimierungstechniken können verwendet werden und eine Strömung kann erhalten und in dem Niveaumengenrum implementiert werden.
Das Definieren von Zielfunktionen im Niveaumengenraum zur Gruppierung führt in Richtung der Einrichtung von Niveaumengentechniken bei der Abbildung und Vision. Zu diesem Zweck betrachte man die Abstandstransformation D(s, ∂R) als Einbettungsfunktion fur ∂R:
Und die Dirac- und Heaviside-Distribution:
und verwende diese zur Einführung einer Bildpartitionszielfunktion. Glättenebenbedingungen, randgesteuerte Objektdetektion sowie allgemeine Regionskonsistenz-Gruppierungsterme können nun direkt auf dem Niveaumengenraum ϕ eingeführt werden. Längenminimierung ist ein wohlbekannter geometrischer Glätteterm, der auf einfache Weise zum Beispiel unter Verwendung der folgenden Formulierung eingeführt werden kann: E_smoothness(ϕ) = ∫∫_Ωδ_α(ϕ)|∇ϕ|DΩ Gl. 7
Mit der geodesischen Aktivkontur (Gl. 8) kann eine Kurve minimaler Länge gewonnen werden: E_geodesic(ϕ) = ∫∫_Ωδ_α(ϕ)b(;)|∇ϕ|dΩ Gl. 8 gemaß einer bestimmten willkürlichen Metrikfunktion b:R⁺ → [0, 1] Eine solche Funktion ist monoton abnehmend mit Minimalwerten an den Bildstellen mit den gewunschten Merkmalen (z. B. hoher Gradient). Die Variationsrechnung kann eine geometrische Strömung zur Aktualisierung der Position der Grenzfläche in Richtung der gewunschten Bildeigenschaften bereitstellen: ∂ / ∂τϕ = δ_α(ϕ)div(b(;) ∇ϕ / |∇ϕ| Gl. 9
Solche Stromungen konnen unter bestimmten Anfangsbedingungen zu präziser Randextraktion führen. Der Startpunkt muss im Wesentlichen das interessierende Objekt einkreisen oder im Wesentlichen von diesem umgeben sein. Ferner ist Vorwissen bezüglich der Propagationsrichtung notwendig.
Mit regionalen/globalen Informationsmodulen kann ein Objekt in einem Bild von dem Hintergrund des Bildes getrennt werden, wobei adaptive Ballonkräfte verwendet werden, um die Notwendigkeit, Anfangsbedingungen zu erfülle, zu überwinden. Das regionale/globale Informationsmodul verwendet die sich entwickelnde Grenzfläche, um eine Bildpartition zu definieren, die in Bezug auf bestimmte Gruppierungskriterien optimal ist. Ein solches Kriterium kann aus der Heaviside-Distribution abgeleitet werden:
(gemäß bestimmten globalen Deskriptoren r₀:R⁺ → [0, 1], r_b:R⁺ → [0, 1], die monoton abnehmende Funktionen sind). Solche Deskriptoren messen die Qualität der Übereinstimmung zwischen dem beobachtenden Bild und den erwarteten regionalen Eigenschaften der interessierenden Struktur und dem Hintergrund. Ein solcher Term kann die Segmentierungsleistung verbessern und kann bewirken, dass der Ansatz weniger von den Anfangsbedingungen abhängig wird. Die Variationsrechnung kann in Bezug auf die Entwicklung von ϕ zu der folgenden Strömung führen: ∂ / ∂τϕ = δ_α(ϕ)(r_B(;) – r₀(;)) Gl. 11 wobei es sich um eine adaptive Ballonkraft handelt. Eine solche Kraft basiert auf relativen Messungen und expandiert oder schrumpft die Kurve gemäß der lokalen Anpassung der Daten in Bezug auf die erwarteten Intensitätseigenschaften des Objekts und der Hintergrundklasse.
Die Kurvenpropagation durch Verwendung impliziter Reprasentationen ist ein effizientes Segmentierungswerkzeug. Präzise Extraktion von Rändern, Möglichkeit zur Behandlung von mehrkomponentigen Objekten und Integration von Partitionsmodulen verschiedener Beschaffenheit sind Stärken eines solchen Verfahrens. Relativ of ist die Segmentierung mit dem Gewinnen einer Struktur von besonderem Interesse aquivalent. Vorwissen bezüglich des Prozesses kann sich entweder auf die visuellen Eigenschaften des Objekts oder auf seine geometrische Form beziehen.
Formgesteuerte Einführungs-Module sind ein wertvolles Element für den Segmentierungsprozess. Eine solche Aktion umfasst das Definieren/Gewinnen einer Struktur zur Repräsentation des Vorwissens und das Einführen von Nebenbedingungen, die den Segmentierungsprozess in Richtung von Lösungen fuhren, die dem Vorwissen oder Vorbekannten genügen. Das Vorbekannte kann eine Mannigfaltigkeit von Lösungen definieren und die Segmentierung bestimmt die wahrscheinliche Losung gemaß den Bilddaten innerhalb dieser Mannigfaltigkeit.
Aufbau eines impliziten Formmodells (Fig. 1, 101):
Die Auswahl einer Repräsentation für das Vorwissen ist eine wichtige Komponente bei der Einführung solcher Nebenbedingungen. In einem typischen Szenario wurde man gerne eine kompakte Struktur aus einer Menge von N Trainingsbeispielen [C₁, C₂, ..., C_N] zur Repräsentation des Vorbekannten gewinnen. Die Trainingsbeispiele können Bilder eines repräsentativen interessierenden Objekts sein. Die Struktur sollte in der Lage sein, die Variabilität der Trainingsbeispiele zu beschreiben. Innerhalb eines solchen Prozesses ist Registration notwendig. Mit Bezug auf 4 werden mehrere Trainingsbeispiele bereitgestellt 401. Die Trainingsbeispiele werden auf eine gemeinsame Pose [C ^1, C ^₂, ..., C ^_N] 402 ausgerichtet und es wird eine sinnvolle kompakte Repräsentation der Beispiele gesucht, die Vorwissen für die bestimmte Pose codieren kann 403. Die Ausrichtung von Formen ist bei der Abbildung und Vision mit zahlreichen potentiellen Anwendungen ein Problem.
Implizite Repräsentationen und Abstandstransformationen können für eine Repräsentation von Formen in einer höheren Dimension betrachtet werden. Auf diesem Raum kann eine Registration durchgeführt werden, wobei nach einer Transformation gesucht wird, die die implizite Repräsentation der Quelle mit der Repräsentation des Ziels ausrichtet. Mit globalen Fehlermetriken wie zum Beispiel Summe quadrierter Differenzen sowie Maximierung der gegenseitigen Informationen im Raum impliziter Reprasentationen kann man ein parametrisches Modell gewinnen, das die Verschiebung zwischen Quelle und Ziel beschreibt. Im Raum implizierter Repräsentationen können lokale Deformationen entweder unter Verwendung von optischen Strömungsnebenbedingungen oder von Free-Form-Deformation berücksichtigt werden.
Das Einführen des Vorwissens in Niveaumengenverfahren erordert die Definition eines Modells. Eine Wolke von Punkten ist ein Beispiel für eine Technik zu Reprasentation von solchem Wissen auf simplistische Weise. Das Aufbauen einer mittleren Form über die Beispiele der Trainingsmenge hinweg kann ausreichen, um ein Vorbekanntes zu repräsentieren. Eine solche Technik erfasst möglicherweise keine Variabilität und ist möglicherweise innerhalb des Rahmens von Niveaumengen, wenn die sich entwickelnde Grenzfläche nicht unter Verwendung von Punkten reprasentiert wird, nicht zweckmäßig. In einem solchen Rahmen kann die Definition des Vorbekannten innerhalb des Niveaumengenraums betrachtet werden. Konsistenz zwischen dem Rahmen von Propagationstechnik/Optimierung und der Form des Vorbekannten ist sinnvoll. Das Ziel ist, aus einer Menge von Beispielen [ϕ₁, ϕ₂, ..., ϕ_N) eine kompakte Repräsentation zur Codierung des Vorbekannten zu gewinnen, wobei ϕ die Niveaumengenrepräsentation von C ^₁ ist. Pricipale Component Analysis (PCA) kann angewandt werden, um die Trainingsbeispiele hinweg zu erfassen. PCA bezieht sich auf eine lineare Transformation von Variablen, die fur eine gegebene Anzahl n von Operatoren den größten Grad an Variation innerhalb der Trainingsdaten beibehält. Eine solche Technik benotigt eine signifikante Anzahl von Stichproben innerhalb der Trainingsmenge.
Man betrachte die Erzeugung eines Modells, das die Struktur mittlerer Form und die Fähigkeit zur Erfassung der Variabilität der Lernmenge kombiniert. Gemäß einer Ausführungsform der vorliegenden Offenlegung bestimmt ein Modell eine auffallendste Form sowie die Konfidenz entlang der Formteile (siehe 3). Wenn Übereinstimmung zwischen den Trainingsbeispielen fur einen bestimmten Teil des Objekts vorliegt, sollte die Konfidenz hoch sein und die Gewinnung des Objekts in dem Bild sollte das Vorbekannte stark respektieren. Wenn dies nicht der Fall ist, sollte die Bildinformation wichtiger sein. Das Modell implementiert eine stochastische Niveaumengenrepräsentation (siehe 1, 101) mit einer reprasentativen Form ϕ_m und einer Konfidenzabbildung σ_m, die beide in dem Pixelniveau bzw. in den Pixelniveaus folgendermaßen definiert sind.
Die repräsentative Form sollte eine Niveaumenge sein, wobei die Abstandstransformation als Einbettungsfunktion betrachtet wird, was zu der Nebenbedingung |∇ϕ_m| = 1 führt. Diese Nebenbedingung kann gelockert werden, und eine Form, die am besten die Trainingsproben [ϕ₁, ϕ₂, ...,ϕ_N] beschreibt (zum Beispiel der Mittelwert): ϕ_m = 1 / N[Σ N / n = 1ϕ₁] kann gesucht werden. Eine solche Modellierung nimmt Unabhangigkeit zwischen Pixeln an. In Richtung der Konstruktion der Niveaumengen-Vorbekannten-Repräsentation betrachte man die Lösung des Inferenzproblems auf Pixelniveau(s). Mit einer gegebenen Menge von Werten [ϕ₁(s), ϕ₂(s), ..., ϕ_N(s)] gewinne man eine Verteilung ϕ_m(s), ϕ_m(s), die die Daten besser ausdruckt.
Das Maximum Posterior diese Verteilung entlang den Trainingsproben ist aquivalent mit der Minimierung von
Gl. 13 wobei bestimmte konstante Terme weggelassen wurden. Man kann ein solches Kriterium auf der Bildebene definieren und das Vorbekannte durch Suchen nach dem richtigen Potential von Folgendem gewinne:
Auf lokalem Niveau wird erwartet, dass die Konfidenz des Modells glatt ist. Das Objekt kann in Segmente zerlegt werden, die fest sind, und σ_m ist entlang dieser Segmente oder innerhalb eines kleinen Umgebungssystems in der Bildebene glatt.
Bei der Betrachtung von Optimierungsproblemen können Glätteterme verwendet werden. Die Zielfunktion st nicht konvex und weist eine große Anzahl lokaler Minima auf. Ferner kann eine solches Problem schlecht definiert sein, da die Anzahl von Nebenbedingungen kleiner als die Anzahl unbekannter Variablen ist. Eine Technik zur Überwindung dieser Begrenzung umfasst das Einführen von Kosten fur die raumlichen Ableitungen des gewonnenen Feldes (σ_m):
wobei Ψ(u, v) eine Regularisierungsfunktion ist. Eine einfache Auswahl für Ψ umfasst eine Variante der Fehler-Zwei-Norm:
Mit Variationsrechnung und einem Gradientenabstiegsverfahren kann man die Losung für das Vormodell (ϕ_m, σ_m) gewinnen. Die letzte zu berücksichtigende Nebenbedingung betrifft ϕ_m. Bei gegebener Form von Trainingsbeispielen (Niveaumengenrepräsentation mit Abstandstransformation als Einbettungsfunktion) kann in dieser Mannigfaltigkeit ein Modell ϕ_m bestimmt werden. Die Optimierung dieses Funktionales unter Berücksichtigung von Nebenbedingungen kann durch Lagrange-Multiplikatoren und eines Gradientenabstiegsverfahrens durchgeführt werden. Angesichts der Form der Nebenbedingungen kann nicht angenommen werden, dass die Bedingungen, die die Gültigkeit des Lagrange-Theorems garantieren, erfüllt sind. Außerdem ist die Anzahl unbekannter Variablen des Systems zu hoch was zu einem instabilen System führt. Solche Begrenzungen können durch Verwendung einer ergänzten Lagrange Funktion uberwunden werden.
Mit Bezug auf 3 kann, um die Abstandsfunktionsnebenbedingungen zu berucksichtigen das Problem zu Stufen entkoppelt zu werden; man kann eine optimale datengesteuerte Lösung gewinnen; die die Trainingsmenge 301 erläutern kann und die nächste Projektion einer solchen Lösung auf die Mannigfaltigkeiten von Abstandstransformationen kann gefunden werden 302. Die Blöcke 301 und 302 wechseln sich ab, bis das System eine stationäre Losung erreicht 303. Die Variationsrechnung der Zielfunktion E(ϕ_m, σ_m) kann eine Strömung bereitstellen, die eine anfängliche Niveaumengenfunktion in Richtung eines reprasentativen Modells (ϕ_m) deformiert, und die Konfidenzmaße (σ_m) des Modells gewinnen 104.
Eine solche Strömung führt zu einem Niveaumengenmodell ϕ_s, das den Daten nahe kommt, aber nicht die Nebenbedingung, dass eine Abstandstransformation Einbettungsfunktion ist, respektiert. Man kann die nächstliegende Projektion des aktuellen Zustands von ϕ_s auf den Raum von Abstandstransformationen betrachten. Der Stand der Technik hierzu umfasst mehrere Techniken. Einige dieser erfordern die Extraktion der Niveaumenge, während andere dieselbe Aufgabe direkt auf dem impliziten Reprasentationsraum lösen konnen. Man betrachte eine PDE zur Gewinnung einer solchen Projektion: d / dτϕ_m = sgn (ϕ 0 / m)(1 – |∇ϕ_m|) Gl. 18 ist die Reprasentation, die aus der datengesteuerten Komponente gewonnen wird, die auf den Raum von Abstandsfunktionen projiziert werden soll.
Man betrachte eine iterative Technik, die ein bestes Modell gewinnt und auf sequentielle Weise auf die Mannigfaltigkeit von Abstandstransformationen projiziert. Entscheidungen bezüglich der Abwechslung zwischen Schritten können gemäß dem mittleren Abstand des Modells ⌊d = 1 / |Ω|∫∫Ω|∇ϕ_m|dΩ⌋ einer idealen Abstandstransformation, getroffen werden. Um Stabilitätsprobleme zu vermeiden, können die Variabilitätsschätzungen mit [σ_m = 1 + σ ^_m] ersetzt und σ ^_m kann gesucht werden, mit der Einschränkung auf strikte Positivität auf dem Pixelniveau.
Zu den Vorteilen eines solchen vorbekannten Modells gehort das Codieren in einer natürlichen Form von Vorwissen innerhalb impliziter Repräsentationen, das Bereitstellen einfacher Techniken für die Schätzung geometrischer Eigenschaften, das Behandeln von mehrkomponentigen Objekten und das Bestimmen des Vorbekannten aus einer kleinen Menge von Trainingsbeispielen. Eine solche Codierung kann sinnvolle Vergleiche zwischen der sich entwickelnden Grenzfläche und dem Modell unterstützen. Ein minimaler Unterschied zwischen dem Vorbekannten (ϕ_m) und der sich entwickelnden Grenzfläche ϕ entspricht einer Lösung, die das Vorbekannte respektiert.
Einführung von Vorwissen (Fig. 1, 102):
Die Annahme, dass alle Trainingsbeispiele in einer gemeinsamen Pose registriert sind, wurde während der Modellkonstruktion betrachtet (siehe 4). Diese Annahme ist notwendig, um ein sinnvolles Modell zu gewinnen. Die auf Wissen basierende Segmentierung muss sich mit demselben Problem beschäftigen. Objekte in dem Bild können verschiedenen Maßstab, verschiedene Orientierung usw. im Vergleich zu dem Vormodell aufweisen. Die Parameter der Transformation zwischen diesen beiden Elementen sind unbekannt, während ihre Form bekannt sein kann.
Für den ahnlichkeitsinvarianten Fall, bei dem das zu erkennende Objekt eine Drehstreckungstransformation des Modells kombiniert mit bestimmten lokalen Deformationen ist, wird eine Mannigfaltigkeit zulassiger Losungen als die Menge einer parametrischen Menge von Transformationen des Vormodells definiert. Man betrachte den Ähnlichkeitsfall, da der Effekt dieser Transformationen auf Abstandstransformationen vorhergesagt werden kann.
Für ein statisches Vorbekanntes wird auf einem abstrakten Niveau eine Nebenbedingung eingeführt, die erzwingt, dass die sich entwickelnde Grenzfläche in allen Fällen zu dieser Mannigfaltigkeit gehört. Diese Aktion fuhrt zu der Gewinnung einer Bildstruktur, die dieselben geometrischen Eigenschaften mit dem Vorbekannten aufweist. Eine solche Nebenbedingung sollte auf einem sinnvollen Vergleich zwischen dem Vorbekannten (ϕ_m) und der sich entwickelnden impliziten Repräsentation ϕ(;τ) basieren. Diese Nebenbedingungen kann in einer allgemeinen Form folgendermaßen geschrieben werden: ϕ(;τ) = g(ϕ_m(A(;τ))) Gl. 19 wobei g eine zu definierende Morph-Funktion und A(;τ) = (S, Θ, T) eine Familie von Drehstreckungstransformationen, an denen ein Translationsvektor T, ein Drehwinkel Θ und ein Skalenfaktor S beteiligt sind, ist. Abstandsfunktionen sind gegenüer Translation und Rotation invariant. Bei Betrachtung des Subfalls starrer Transformationen kann die obige Bedingung deshalb zu folgendem vereinfacht werden: ϕ(;τ) = ϕ_m(A(;τ)) Gl. 20
Die Minimierung des Fehlers auf Norm zwischen der sich entwickelnden Repräsentation und der starren Variante des Modells kann nun betrachtet werden, um die Nebenbedingung aufzuerlegen; E(ϕ, A) = ∫∫_ΩH_α(ϕ)(ϕ – ϕ_m(A))²dΩ Gl. 21 wobei die Gewinnung einer Niveaumenge gesucht wird, die nach ihrer Translation und Rotation wie das Vormodell ist. Dieser auf Wissen basierende Term berücksichtigt den inneren Objektteil. Die gewählte Vorrepräsentation codiert solches Wissen auch im äußeren Teil. Insbesondere ist der Vorterm präziser, wenn er nahe der mittleren Form definiert wird. Die Verwendung von Abstandstransformationen als Einbettungsfunktion in den Niveaumengenrepräsentationen erhält die Vorinformation innerhalb eines bestimmten Abstands von der immer weniger diskriminativ, wenn man sich von der Nullniveaumenge entfernt. Eine Modifikation der Heaviside-Funktion kann Formwissen am Äußeren des Objekts berücksichtigen: E(ϕ, A) = ∫∫_ΩH_α(ϕ + ε)(ϕ – ϕ_m(A))²dΩ Gl. 22 wobei ε eine positive Konstante ist, die den Vortermbeitrag fur eine Isophote von ε heraufschiebt. Die Korrektheit des Vorterms ist eine Funktion des Abstands von der Nullniveaumenge. Es kann angenommen werden, dass ein Schatzen und auferlegen des Vorbekannten innerhalb der Umgebung dieser Isophoten sinnvoller ist. Die Propagation der Kurve findet auf dieser Isophoten statt und das statische Vorbekannte kann deshalb in der folgenden Form betrachtet werden: E(ϕ, A) = ∫∫_Ωδ_ε(ϕ)(ϕ – ϕ_m(A))²dΩ Gl. 23 mit ε >> α. Es können die Variationsrechnung und ein Gradientenabstiegsverfahren betrachtet werden, um die unbekannte Transformation A zu gewinnen und (gemäß ϕ) eine Bildstruktur zu extrahieren, die den Formeigenschaften des Vorbekannten folgt.
Abstandstransformationen sind gegenüber Maßstabsvariationen nicht invariant. Um diese Eigenschaft zu berücksichtigen, kann die Morph-Funktion zwischen der Vorrepräsentation und der sich entwickelnden umdefiniert werden. Die Anwendung eines Maßstabsoperators auf eine Kontur skaliert die Abstandstransformations-Einbettungsfunktion entsprechend. Unter Aufnahme einer entwickelnden Kontur ∂R und einer, die nach Anwenden des Maßstabsoperators S[∂R₂ = S∂R₁] gewonnen werden kann, lässt sich zeigen, dass die folgende Beziehung für ihre Niveaumengen-Abstandstransformationsrepräsentationen gilt [Sϕ₁ = ϕ₂]. Eine solche Bedingung kann mit dem Effekt von Translation und Rotation integriert werden, was zu einer drehstreckungsvarianten Bedingung zwischen der Niveaumenge des Vorbekannten und der sich Entwickelnden führt: Sϕ(;τ) = ϕ_m(A(;τ)) Gl. 24
Die Summe von Quadratdifferenzen zwischen der tatsächlichen Grenzfläche ϕ und dem Modell ϕ_m nach dem Morphen kann als Zielfunktion angesehen werden: E(ϕ, A) = ∫∫_Ωδ_ε(ϕ)(Sϕ – ϕ_m(A))²dΩ Gl. 25
Dieses Kriterium entwickelt die Niveaumengenfunktion in Richtung einer starren Transformation des Modells. Zu diesem Zweck sind die Variationsrechnung und ein Gradientenabstiegsverfahren ein hervorragendes Verfahren zum Gewinnen von ϕ.
Diese Strömung enthält eine Formkonsistenzkraft, die die Grenzfläche in Richtung eines besseren lokalen (viel wie bei dem Vorbekannten) und eine Kraft, die darauf abzielt, die Niveaumengenwerte so zu aktualisieren, dass die Region, auf der die Objektivfunktionen ausgewertet werden (–ε, ε) in der Bildebene kleiner und kleiner wird, aktualisiert.
Um den Einfluss dieser Kraft besser zu verstehen, betrachte man einen negativen ϕ-Wert in dem Bereich von (–ε, ε):
Deshalb ändert diese Kraft die Position der Grenzfläche nicht, da das Vorzeichen der impliziten Reprasentation an jedem Pixel erhalten wird. Sie wirkt sich nur auf die Form der impliziten Funktion aus, so dass die Fläche, auf der die Zielfunktion ausgewertet wird, abnimmt. Eine solche Kraft kann ignoriert werden, da sie beim Vorgang des Auferlegens des Vorwissens keine sinnvolle Interpretation besitzt.
Man betrachte die Variationsrechnung für die Parameter der Transformation A, die zu folgendem führt:
wobei Tx, Ty die beiden Komponenten des Translationsvektors sind. Die Registrationsparameter zwischen der sich entwickelnden Grenzfläche und dem Modell werden auf globale Weise unter Verwendung regionaler Informationen gewonnen.
Least-Squares-Verfahren können gegenüber Rauschen und Ausreißern empfindlich sein. Die Verwendung robuster Schätzer kann als diese Nebenbedingung uberwindend angesehen werden, wenn die Registration zwischen der Grenzfläche und dem vorbekannten gewonnen wird: E(ϕ, A) = ∫∫_Ωδ_ε(ϕ)ρ(Sϕ – ϕ_m(A))dΩ Gl. 29
Wobei ρ eine robustere Fehlernorm ist. Es können zusätzliche visuell gesteuerte Terme betrachtet werden, wie zum Beispiel Anziehung an die Ränder und Trennabstand zwischen Objekt und Hintergrund gemaß ihren Intensitätseigenschaften.
Der Rahmen kann eine weiche Nebenbedingung (Repräsentation des Vorbekannten unter Verwendung einer stochastischen Niveaumenge) zur auf Wissen basierenden Segmentierung in eine harte Nebenbedingung übersetzen. Der Vorterm enthält eine Konfidenzabbildung (σ_m). Es kann erwartet werden, dass Gebiete mit starkem Vorbekannten präzise in dem Bild gewonnen werden sollten. In Gebieten, in denen die Konfidenz des Modells fraglich ist, besitzen Bildinformationen eine dominantere Rolle als das Vorbekannte in dem Segmentierungsprozess.
Mit einem stochastischen Vorbekannten kann man den Verbundraum der sich entwickelnden Grenzfläche und ihrer Transformation auf das Vormodell unter Verwendung einer probabilistischen Dichtefunktion modellieren. Es sei [p(ϕ, A|ϕ_m)] die Vorverteilung der Transformation bei gegebenem Modell ϕ_m. Eine solche Verteilung ist unbekannt, variiert uber verschiedene Objekte hinweg und kann im allgemeineren Fall nicht gewonnen werden. Es können jedoch Monte-Carlo-Sampling oder andere Techniken verwendet werden, um eine solche Verteilung zu gewinnen, wenn empirische Indizien verfugbar sind. Man betrachte eine bayesische Formulierung fur diese Dichte
Der konstante Term ϕ_m kann ignoriert werden, und es kann angenommen werden, dass der Verbundraum von Grenzflächen und ihren Transformationen gleichförmig ist. Diese Annahme wird jedoch ohne Wissen für die Eigenschaften des zu gewinnenden Objekts betrachtet, wie zum Beispiel der Pose des Objekts, Maßstabsvariationen usw. Das Gewinnen der optimalen Grenzfläche und der Transformation ist äquivalent dem Finden des Maximum Posterior p(ϕ_m(A)|ϕ), und dies ist äquivalent mit dem Finden des Extremums von:
wobei ω eine Bildstelle und p(ϕ_m(A(ω))|ϕ(ω)) das stochastische Vorbekannte an dieser Stelle ist und Unabhängigkeit über Pixel hinweg betrachtet wurde. Außerdem wird die Umsetzung der sich entwickelnden Grenzfläche ϕ in die Pose, die der in dem Vormodell ϕ_m aufgezeichneten ähnlich ist, betrachtet. Zu diesem Zweck muss der Skalenfaktor S berücksichtigt werden, was zu der folgenden Form für das Posterior führt:
Maßstabsvariationen verursachen wie bereits erläutert pradikative Änderungen in den Abstandstransformations-Niveaumengen-Repräsentationen. Die pixeldefinierten Vorverteilungen [p_ω()] sind aus der Modellierungsphase bekannt, und das Lösen des Inferenzproblems ist aquivalent mit dem Finden des niedrigsten Potentials der Funktion –log oder
Durch Verwendung der bekannten gaußschen Eigenschaften der pixeldefinierten Vorverteilungen kann man den folgenden analytischen Ausdruck für die Zielfunktion gewinnen:
wobei konstante Terme weggelassen wurden. Eine solche Zielfunktion enthält einen Term, der das Gewinnen einer Transformation A, die die sich entwickelnde Grenzfläche auf Modellgebiete mit niedriger Konfidenz [großem σ_m(A)] projiziert, zu unterbinden sucht, und einen Term, der lokale Propagation und Schatzung mit den folgenden Zielen koppelt;(i) Wiederherstellung einer Transformation, die die sich entwickelnde Grenzfläche mit dem Vorbekannten ausrichtet, und (ii) entwickeln der Grenzflache dergestalt, dass sie bei gegebener Transformation wie das Vorbekannte wird. Ein solcher Term hat eine ahnliche konzeptuelle Interpretation mit dem zur Einführung des statischen Vorbekannten verwendeten, ist dabei aber in der Lage, Modellkonfidenz zu berücksichtigen. Der Projektionsfehler (sϕ – ϕ_m(A))² wird gemäß der Modellkonfidenz σ_m(A) gewichtet.
Innerhalb eines solchen Optimierungsrahmens wird der Fehler für Abweichung von dem Modell in Gebieten mit niedriger Konfidenz (hohem σ_m(A)) (gemäß σ_m(A)) abgewertet.
Solche Gebiete werden folglich in dem Prozess des Auferlegens des Vorbekannten und des Gewinnens der Transformation weniger wichtig. Ferner behandelt das Modell auf implizite Weise in dem Prozess der Formdurchsetzung innerhalb des Segmentierungsprozesses Ausreißer.
Das resultierende Kriterium ist jedoch in der gesamten Bildebene definiert. Die Definition des Vorbekannten ist hauptsächlich um die Objektregion herum konsistent und erfordert keine Einschränkung der Zielfunktion innerhalb der interessierenden Struktur.
Die Variationsrechnung innerhalb eines Gradientenabstiegsverfahrens kann das niedrigste Potential der Kostenfunktion liefern. Es sollen zwei unbekannte Variablen gewonnen werden, die Objektposition (Form der Funktion ϕ)
und die Transformation zwischen Objekt und dem Vorbekannten:
wobei die partiellen Ableitungen von ϕ(A), σ_m(A) nach den Transformationsparameter wie im Fall des statischen Vorbekannten unter der Verwendung der Kettenregel gewonnen werden können. Die Flächenkraft hat dieselbe Interpretation wie die im Fall des statischen Vorbekannten präsentierte und kann deshalb ignoriert werden. Ein solches stochastisches Vorbekanntes kann zur Gewinnung einer interessierenden Struktur verwendet werden, die die Konfidenz des Vorbekannten berucksichtigen.
Beide Terme beziehen sich auf eine zusätzliche Komponente zum Auferlegen von Vorwissen auf die Segmentierung und berücksichtigen nicht die visuellen Eigenschaften des Objekts.
Um das Vorbekannte einzufuhren (siehe 5) betrachte man eine bimodale Partition, die sich auf das interessierende Objekt und den Hintergrund bezieht. Das Modell der geodesischen Aktivregion kann eine solche Partition berücksichtigen. Es wird angenommen, dass sich visuelle Unstetigkeiten (z. B. starke Ränder) in dem Bild auf die Ränder der gewunschten Partition beziehen. Ohne Verlust an Allgemeingültigkeit können Gaußsche Verteilungen verwendet werden, um die Intensitätseigenschaften des Objekts und des Hintergrunds zu erfassen 501. Parameter (z. B. Mittelwert, Varianz) des Objekts und Hintergrunds werden gemäß einer letzten Segmentierungsabbildung 502 unter Verwendung von des empirischen Mittelwerts und der empirischen Varianz geschätzt:
wobei g eine monotone positive abnehmende Funktion ist. Man kann die Gaußschen Verteilungen weiterentwickeln und eine zweckmäßigere Form für die bezüglich visueller Region definierte Komponente zu gewinnen. Die Variationsrechnung kann zu einer geometrischen Strömung führen, die die Ausbreitung der Kontur in Richtung der Objektgrenze fuhrt, wahrend das Vorbekannte respektiert wird (siehe 1, 103). Außerdem können Mischungsmodelle oder nichtparametrische Techniken betrachtet werden, um die visuellen Eigenschaften von Objekt und Hintergrund zu erfassen.
Bezüglich einer schnellen Implementierung betrachte man ein schmalbandiges Verfahren, das die Niveaumengenrepräsentation in der Umgebung der letzten Position der Kontur entwickelt. Änderungen auf der sich entwickelnden Kontur werden auf dem Nullniveau geschehen und dann in der Richtung nach innen und nach außen propagiert. Eine solche Auswahl verbessert außerdem die Leistungsfahigkeit des Farm-Vorterms. Dieser Term ist um die mittlere Form herum präzise und wird weniger präzise, wenn er sich von dem Nullniveau des Vorbekannten wegbewegt. Die Niveaumengenreprasentation kann deshalb innerhalb der Isophoten [–ε, ε] aktualisiert werden.
Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine auf Wissen basierende Segmentierungstechnik innerhalb des Rahmens von Niveaumengen implementiert. Es wird ein Vormodell konstruiert und eingefuhrt. Bezüglich der Konstruktion des Vorbekannten wird, um mit dem betrachteten gewählten Optimierungsrahmen konsistent zu sein, eine stochastische Niveaumengenrepräsentation implementiert. Ein solches Modell enthalt eine Abstandstransformations-Einbettungsfunktion (Niveaumenge) und eine Konfidenzkomponente. Eine solche Funktion wird durch einen Ansatz der eingeschränkten Optimierung gewonnen. In dem Niveaumengenraum wird eine Menge von Trainingsbeispielen betrachtet, wobei Abstandstransformationen als Einbettungsfunktionen verwendet werden. Modellierung ist dann äquivalent mit dem Gewinnen einer repräsentativen Niveaumengen-Abstandsfunktion und glatter Messungen der Konfidenz auf Pixelniveau. Solche Messungen versuchen, die Übereinstimmung der Trainingsmenge an dieser bestimmten Stelle zu quantifizieren. Um ein solches Modell zu gewinnen, wechseln das System und das Verfahren zwischen: eine Niveaumengenfunktion, die den Daten nahe kommt, wird gewonnen und die auffallendste Projektion dieser Funktion auf die Mannigfaltigkeit zulassiger Lösungen wird bestimmt, bis Konvergenz erreicht ist. Vorwissen wird auf allmähliche Weise eingefuhrt. Statistische harte Nebenbedingungen, die erzwingen, dass die Segmentierungslösung eine Drehstreckungstransformation des Vormodells ist, werden zuerst betrachtet. Es wird eine Zielfunktion, die die Transformation sowie die Position des Objekts in dem Bild berücksichtigt, definiert und zum Gewinnen sowohl der Projektion als auch der Konfidenz verwandelt.
Es werden probabilistische Prinzipien betrachtet, die zu einem Maximum-Posterior-Problem führen, das die lokalen Variationen des Modells umfasst.

Claims

Verfahren zum Erkennen eines Objekts in einem Bild mit den folgenden Schritten: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen; und Implementieren des Formmodells im Rahmen von Niveaumengen zur Bestimmung des Objekts in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt werden, wobei die Niveaumengen durch das Formmodell eingeschränkt wird, wobei das Konfidenzmaß als Konfidenzabbildung des Objekts bestimmt wird, wobei das Objekt in Teile zerlegt und für jedes Teil ein Glätteterm bestimmt wird.
Verfahren nach Anspruch 1, wobei die Trainingsbeispiele auf eine gemeinsame Pose ausgerichtet sind.
Verfahren nach Anspruch 1, wobei das Bestimmen des Formmodells weiterhin die folgenden Schritte umfasst: Bestimmen einer Niveaumengenreprasentation des Objekts in dem Bild Bestimmen der Projektion als auffallendste Form in dem Bild; und Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form.
Verfahren nach Anspruch 3, weiterhin mit dem Schritt des Bestimmens eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenrepräsentation des Objekts und der Projektion und des Konfidenzmaßes.
Verfahren nach Anspruch 1, wobei die Projektion und Konfidenzmessung in einem Pixelniveau des Bildes definiert werden.
Verfahren nach Anspruch 1, wobei im Rahmen von Niveaumengen folgendes erfolgt: Bestimmen einer Intensitatseigenschaft für das Objekt und eines Hintergrunds in dem Bild; Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
Verfahren nach Anspruch 1, wobei sich die Projektion auf einem Nullniveau entwickelt und in einer Richtung nach innen und nach außen zu einem Rand des Objekts propagiert.
Verfahren nach Anspruch 1, wobei das Formmodell ein stochastisches Formmodell ist und als stochastisches Vorbekanntes dient.
Verfahren nach Anspruch 8, wobei das stochastische Vorbekannte für die Abweichung von dem stochastischen Vorbekannten einen Fehler im Rahmen von Niveaumengen einführt, der in Gebieten mit reduzierter Konfidenz abnimmt.
Durch Maschine lesbare Programmspeichereinrichtung, die greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Durchfuhren des Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen.