-
Die
vorliegende Anmeldung beansprucht Priorität gegenüber der provisorischen U.S.-Anmeldung,
laufende Nr. 60/540,129, registriert am 29.1.2004, worauf hiermit
vollständig
ausdrücklich
Bezug genommen wird.
-
HINTERGRUND
DER ERFINDUNG
-
Technisches Gebiet:
-
Die
vorliegende Offenlegung betrifft die Objektdetektion in Bildern
und insbesondere ein Variations-Niveaumengensystem
und -verfahren zur formgesteuerten Objektdetektion auf Wissensbasis.
-
Die
Gewinnung einer bestimmten interessierenden Struktur aus einem Bild,
das bestimmten vordefinierten Eigenschaften folgt, ist für die Bildsegmentierung
auf Modellbasis nützlich.
Solche Eigenschaften können
visuell oder geometrisch sein. Visuelle Eigenschaften lassen sich
erfassen, indem globale Verteilungen aufgebaut werden, um die Luminanzeigenschaften
der interessierenden Struktur zu beschreiben, oder durch Erzeugen
lokaler Erscheinungsbildmodelle. Solche Modelle können in
einem Szenario mit eingeschränkter
Beleuchtung effizient sein, wenn Änderungen minimal sind und
durch ein Modell erfaßt
werden können.
-
Die
formgesteuerte Segmentierung auf Wissensbasis ist eine Alternative
zu den visuell gesteuerten Techniken. Solche Verfahren versuchen,
eine Struktur zu gewinnen, die im Vergleich zu einem vorbekannten Modell
konsistente geometrische Form aufweist. Glätte ist ein Beispiel für das Auferlegen
einer vorbekannten Nebenbe dingung. Lokale geometrische Eigenschaften
(z.B. Krümmung,
lokale Glättenebenbedingungen)
können
beim Definieren eines solchen vorbekannten Modells verwendet werden,
oder man kann ein vorbekanntes Modell auf globalere Weise definieren,
was zu konkreteren Repräsentationen
führt,
die die Varianz der gesamten interessierenden Struktur erfassen.
Obwohl lokale Modelle effizient sind, sind globale Repräsentationen ein
geeigneter Ansatz um Verdeckungen, Rauschen und Änderungen an der Objektpose
handhaben zu können.
-
Modellierung
wird vor der Einführung
globaler formgesteuerter Nebenbedingungen benötigt. Eine solche Aufgabe ist äquivalent
mit dem Extrahieren einer kompakten Repräsentation für die interessierende Struktur
aus einer Menge von Trainingsbeispielen. Die Repräsentationsauswahl
hängt mit
der Form des Vorbekannten zusammen, das eingeführt werden soll, und wird durch
die Größe der Trainingsmenge
eingeschränkt.
Das Aufbauen komplexer Modelle erfordert sehr viel Bodenwahrheit.
Die Registration aller Beispiele auf eine gemeinsame Pose ist ein
wichtiger Teil der Modellierungsphase. Korrespondenzen für die grundlegenden
Elemente der Proben des Trainings müssen für eine effiziente Modellierung
gewonnen werden.
-
Bei
der formgesteuerten Segmentierung auf Wissensbasis werden vielfältige Modelle
benutzt. Die Verwendung geometrischer Komponenten, wie zum Beispiel
gerade Segmente und Elipsoide, war ein Versuch, eine kompakte Repräsentation
für das
Modellieren von Seiten zu erzeugen. Obwohl solche Modelle im Hinblick auf
Leistungsfähigkeit
und niedrige Komplexität
bei der Modellierung einfacher geometrischer Strukturen effizient
sind, werden bei ihnen keine lokalen Informationen und wichtige
Variabilität
des interessierenden Objekts berücksichtigt.
Bei einem gegebenen solchen Modell erfolgt die Segmentierung dann
durch Einstellung der lokalen geometrischen Komponenten in Richtung
der gewünschten
Bildeigenschaften. Zu anderen Techniken gehören deformierbare Vorlagen,
Modelle mit aktiver Form und Erscheinung und Snake-Modelle.
-
Das
Anwendungsgebiet für
Niveaumengenverfahren bei Machine Vision ist groß und nicht auf Bildsegmentierung,
Restauration, Tracking, Form aus Schattierung, 3D-Rekonstruktion,
medizinische Bildsegmentierung usw. beschränkt. Diese Techniken wurden
eingeführt,
untersucht und auf andere wissenschaftliche Bereiche angewandt,
wie zum Beispiel Geometrie, Robotik, Fluide, Halbleiterentwicklung
usw. Die meisten der erwähnten
Anwendungen teilen sich ein gemeinsames Problem: das Verfolgen sich
bewegender Grenzflächen.
Niveaumengenrepräsentationen
eignen sich gut für
rechnerische Verfahren zur Durchführung dieser Aufgabe. Sie können für beliebige
Dimension verwendet werden (z.B. Kurven, Flächen, Hyperflächen usw.), sind
parameterfrei und können
die Topologie der sich entwickelnden Grenzfläche auf natürliche Weise ändern. Darüber hinaus
geben sie ein natürliches
Verfahren zur Bestimmung und Schätzung
geometrischer Eigenschaften der sich entwickelnden Grenzfläche.
-
Diese
Techniken können
auch nichtstarre Objekte und Bewegungen behandeln, da sie sich auf
sehr lokale Eigenschaften beziehen und eine Grenzfläche pixelweise
deformieren können.
Sie können
jedoch im Vergleich zu parametrischen Modellen eine schlechte Leistungsfähigkeit
aufweisen, wenn feste/starre Bewegungen und Objekte betrachtet werden.
Lokale Propagationen sind empfindlich und nutzen bestimmte wohldefinierte
physikalische A-priori-Nebenbedingungen, wie zum Beispiel Festformmodelle,
nicht voll aus.
-
Deshalb
werden ein Variations-Niveaumengensystem und -verfahren zur formgesteuerten
Objektdetektion auf Wissensbasis benötigt.
-
KURZE DARSTELLUNG
DER ERFINDUNG
-
Modellierung
ist für
formgesteuerte Segmentierungstechniken wichtig. Gemäß einer
Ausführungsform der
vorliegenden Offenlegung wird eine stochastische Niveaumengenformulierung
implementiert, um Vorwissen in einem Variations-Niveaumengenverfahren
für die
formgesteuerte Objektextraktion auf Wissensbasis zu berücksichtigen.
Zu diesem Zweck werden Objekte in einer impliziten Form repräsentiert,
wobei eine stochastische Abstandsfunktion verwendet wird, die Konfidenzgrade
aufweist. Dem Segmentierungsprozeß werden Nebenbedingungen auferlegt,
indem nach einer geometrischen Struktur in der Bildebene gesucht
wird, die zu der Familie von Formen gehört, die von dem vorbekannten
Modell gemäß einer Ähnlichkeitsbewegungstransformation
erzeugt wurde. Es wird eine nichtstationäre Metrik zwischen der sich
entwickelnden Kontur und dem Modell minimiert, was zu Bewegungsgleichungen
führt,
die diese Kontur in Richtung der gewünschten Bildeigenschaften entwickeln
und die dazwischenliegenden Registrationsparameter bei dem vorbekannten
Modell aktualisieren. Bei Konvergenz werden eine Struktur, zu der
Mannigfaltigkeit zulässiger
Lösungen
gehört,
und die entsprechende Transformation gewonnen.
-
Gemäß einer
Ausführungsform
der vorliegenden Offenlegung umfaßt ein Verfahren zum Erkennen
eines Objekts in einem Bild die folgenden Schritte: Bestimmen eines
Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren
des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens
zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen
eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang
Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch
das Vorbekannte eingeschränkt
wird.
-
Die
Trainingsbeispiele werden auf eine gemeinsame Pose ausgerichtet.
-
Das
Bestimmen des Formmodells umfaßt
weiterhin das Bestimmen einer Niveaumengenpräsentation des Objekts in dem
Bild, das Bestimmen der Projektion als auffallendste Form in dem
Bild und das Bestimmen des Konfidenzmaßes entlang von Teilen der
auffallendsten Form. Das Verfahren umfaßt weiterhin das Bestimmen
eines stationären
Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation
des Objekts und der Projektion und des Konfidenzmaßes.
-
Die
Projektion und die Konfidenzmessung werden auf Pixelniveau des Bildes
definiert. Das Konfidenzmaß wird
als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in
die Teile zerlegt und für
jeden Teil ein Glätteterm
bestimmt wird.
-
Der
Niveaumengenrahmen umfaßt
das Bestimmen einer Intensitätseigenschaft
für das
Objekt und eines Hintergrunds in dem Bild und das Schätzen von
Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
-
Die
Projektion entwickelt sich auf einem Nullniveau und propagiert in
einer Richtung nach innen und nach außen zu einem Rand des Objekts.
-
Das
Vorbekannte ist ein stochastisches Vorbekanntes. Das stochastische
Vorbekannte führt
für die Abweichung
von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen
ein, der in Gebieten mit reduzierter Konfidenz abnimmt.
-
Gemäß einer
Ausführungsform
der vorliegenden Offenlegung wird eine Programmspeichereinrichtung bereitgestellt,
die durch Maschine lesbar ist und greifbar ein Programm von Anweisungen
realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte
zum Erkennen eines Objekts in einem Bild auszuführen. Das Verfahren umfaßt die folgenden
Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen
und Implementieren des Formmodells als ein Vorbekanntes innerhalb
eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild,
wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild
und ein Konfidenzmaß entlang
Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das
Vorbekannte eingeschränkt
wird.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Nachfolgend
werden bevorzugte Ausführungsformen
der vorliegenden Erfindung ausführlicher
mit Bezug auf die beigefügten
Zeichnungen beschrieben.
-
1 ist
ein Flußdiagramm
eines Verfahrens gemäß einer
Ausführungsform
der vorliegenden Offenlegung;
-
2 ist
ein Diagramm eines Systems gemäß einer
Ausführungsform
der vorliegenden Offenlegung;
-
3 ist
ein Flußdiagramm
eines Verfahrens zur Bestimmung eines Formmodells gemäß einer
Ausführungsform
der vorliegenden Offenlegung;
-
4 ist
ein Flußdiagramm
eines Verfahrens zur Bestimmung eines Vorbekannten gemäß einer
Ausführungsform
der vorliegenden Offenlegung und;
-
5 ist
ein Flußdiagramm
eines Verfahrens für
eine Niveaumengenbestimmung, die ein Vorbekanntes implementiert,
gemäß einer
Ausführungsform
der vorliegenden Offenlegung.
-
AUSFÜHRLICHE
BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
-
Gemäß einer
Ausführungsform
der vorliegenden Offenlegung werden Niveaumengenrepräsentationen
darauf eingeschränkt,
einer Form-Global-Konsistenz zu folgen, während die Möglichkeit zur Erfassung lokaler
Deformationen erhalten wird. Es werden globale und lokale Formeigenschaften
des Objekts gewonnen.
-
Ein
Formmodell wird direkt unter Verwendung einer Probensammlung auf
dem Niveaumengenraum aufgebaut. Mit Bezug auf 1 wird
das Formmodell unter Verwendung eines Variationsrahmens konstruiert, der
eine nichtstationäre
pixelweise Niveaumengenrepräsentation
erzeugt, die Formvariabilität
berücksichtigt 101.
Das Formmodell dient als Grundlage für die Einführung eines Form-Vorbekannten
in einer energetischen Form 102. Das Form-Vorbekannte minimiert
einen nichtstationären
Abstand zwischen der sich entwickelnden Grenzfläche und dem Formmodell, deformiert
gemäß einer
Drehstreckungstransformation, um ein Objekt zu bestimmen 103.
-
Ein
System und Verfahren gemäß einer
Ausführungsform
der vorliegenden Offenlegung kann als ein Modul implementiert und
mit existierenden datengesteuerten Variations-Verfahren integriert
werden, um eine Bildsegmentierung für physisch verfälschte und
unvollständige
Daten durchzuführen.
-
Es
versteht sich, daß die
vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware,
speziellen Prozessoren oder einer Kombination davon implementiert
werden kann. Bei einer Ausführungsform
kann die vorliegende Erfindung in Software als ein greifbar auf
einer Programmspeichereinrichtung realisiertes Anwendungsprogramm
implementiert werden. Das Anwendungsprogramm kann in eine Maschine
mit jeder beliebigen geeigneten Architektur herauf geladen und durch
diese ausgeführt
werden.
-
Mit
Bezug auf 2 kann gemäß einer Ausführungsform
der vorliegenden Erfindung ein Computersystem 201 zur Implementierung
der vorliegenden Erfindung u.a. folgendes umfassen: eine zentrale
Verarbeitungseinheit (CPU) 202, einen Speicher 203 und
eine Eingabe/Ausgabe(E/A-)Schnittstelle 204. Das Computersystem 201 ist
im allgemeinen durch die E/A-Schnittstelle 204 mit einer
Anzeige 205 und verschiedenen Eingabegeräten 206 wie
zum Beispiel einer Maus und einer Tastatur, gekoppelt. Zu den Unterstützungsschaltungen
können
Schaltungen wie zum Beispiel ein Cache, Stromversorgungen, Taktschaltungen
und ein Kommunikationsbus gehören.
Der Speicher 203 kann Direktzugriffsspeicher (RAM), Nurlesespeicher
(ROM), ein Plattenlaufwerk, ein Bandlaufwerk usw. oder eine Kombination
davon umfassen. Die vorliegende Erfindung kann als eine Routine 207 implementiert
werden, die in dem Speicher 203 gespeichert und durch die
CPU 202 ausgeführt
wird, um das Signal aus der Signalquelle 208 zu verarbeiten.
Das Computersystem 201 ist dementsprechend ein Vielzweckcomputersystem,
das zu einem speziellen Computersystem wird, wenn es die Routine 207 der
vorliegenden Erfindung ausführt.
-
Die
Computerplattform 201 umfaßt außerdem ein Betriebssystem und
Mikroanweisungscode. Die verschiedenen hier beschriebenen Prozesse
und Funktionen können
entweder Teil des Mikroanweisungscodes oder Teil des Anwendungsprogramms
(oder eine Kombination davon) sein, der bzw. das über das
Betriebssystem ausgeführt
wird. Zusätzlich
können
verschiedene andere Peripheriegeräte an die Computerplattform
angeschlossen werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein
Druckgerät.
-
Da
ein Teil der konstituierenden Systemkomponenten und Verfahrensschritte,
die in den beigefügten Figuren
abgebildet sind, in Software implementiert sein kann, versteht sich
ferner, daß die
eigentlichen Verbindungen zwischen den Systemkomponenten (oder Prozeßschritten)
abhängig
von der Art und Weise der Programmierung der vorliegenden Erfindung
unterschiedlich sein können.
Anhand der hier gegebenen Lehren der vorliegenden Erfindung werden
Durchschnittsfachleute auf dem relevanten Gebiet in der Lage sein,
diese und ähnliche
Implementierungen oder Konfigurationen der vorliegenden Erfindung
in Betracht zu ziehen.
-
Implizite Repräsentationen:
-
Die
Segmentierung kann unter Verwendung von Grenzflächen (z.B. Kurven) durchgeführt werden,
die sich gemäß einer
Strömung
entwickeln. Die Strömung,
die die Propagation der Kurve bestimmt, kann durch Minimierung einer
Zielfunktion gewonnen oder gemäß dem Anwendungskontext
definiert werden (z.B. geometrische Strömungen). Segmentierungsansätze auf
Snake-Basis beziehen sich auf die Propagation von Kurven von einer
Anfangsposition in Richtung der gewünschten Bildeigenschaften.
Zu solchen Strömungen
gehören interne
und externe Terme.
-
Um
Niveaumengenrepräsentationen
einzuführen,
betrachte man eine parametrische Kurve
die sich gemäß einer
gegebenen Bewegungsgleichung in der normalen Richtung N1 entwickelt:
wobei
F eine skalare Funktion auf den lokalen Eigenschaften der Kurve
(z.B. Krümmung)
ist. Diese Strömung kann
unter Verwendung eines Lagrangian- Ansatzes implementiert werden. Die Kontur
wird in diskreter Form unter Verwendung einer Auswahl von Kontrollpunkten
repräsentiert.
Die Kurvenposition kann durch Lösen
von Gl. 1 und Gl. 2 für
jeden Kontrollpunkt aktualisiert werden. Eine solche Technik kann
im allgemeinsten Fall die Topologie der sich entwickelnden Kurve
nicht ändern
und es kann eine Umparametrisierung der sich entwickelnden Kurve
notwendig sein.
-
Das
Niveaumengenverfahren wurde zuerst auf dem Gebiet der Fluiddynamik
eingeführt
und ist eine neue Technik zum Behandeln verschiedener Anwendungen
in der Abbildung, Vision und Graphik. Niveaumengenverfahren repräsentieren
die sich entwickelnde Kurve mit dem Nullniveau einer Fläche ϕ:[x,y,ϕ(x,y)]:
-
Eine
solche Repräsentation
ist implizit, intrinsisch und parameterfrei. Die Oberfläche kann
so entwickelt werden, daß das
Nullniveau immer der sich entwickelnden Kurve nachgibt. Durch Bilden
der Ableitungen von Φ nach
der Zeit erhält
man:
-
Somit
wird eine Verbindung zwischen der Familie sich entwickelnder Kurven ∂R und der
Familie sich entwickelnder Flächen Φ hergestellt.
Ein solches Propagationsschema kann topologische Änderungen
berücksichtigen
und kann die Schätzung
der lokalen geometrischen Eigenschaften der Kurve unterstützen.
-
Energieminimierungstechniken
können
verwendet werden und eine Strömung
kann erhalten und in dem Niveaumengenraum implementiert werden.
-
Das
Definieren von Zielfunktionen im Niveaumengenraum zur Gruppierung
führt in
Richtung der Einrichtung von Niveaumengentechniken bei der Abbildung
und Vision. Zu diesem Zweck betrachte man die Abstandstransformation
D(s,∂R)
als Einbettungsfunktion für ∂R:
und die
Dirac- und Heaviside-Distribution:
und verwende
diese zur Einführung
einer Bildpartitionszielfunktion. Glättenebenbedingungen, randgesteuerte Objektdetektion
sowie allgemeine Regionskonsistenz-Gruppierungsterme können nun
direkt auf dem Niveaumengenraum Φ eingeführt werden.
Längenminimierung
ist ein wohlbekannter geometrischer Glätteterm, der auf einfache Weise
zum Beispiel unter Verwendung der folgenden Formulierung eingeführt werden
kann:
-
Mit
der geodesischen Aktivkontur (Gl. 8) kann eine Kurve minimaler Länge gewonnen
werden:
gemäß einer
bestimmten willkürlichen
Metrikfunktion b:R
+ → [0, 1]. Eine solche Funktion
ist monoton abnehmend mit Minimalwerten an den Bildstellen mit den
gewünschten
Merkmalen (z.B. hoher Gradient). Die Variationsrechnung kann eine
geometrische Strömung
zur Aktualisierung der Position der Grenzfläche in Richtung der gewünschten
Bildeigenschaften bereitstellen:
-
Solche
Strömungen
können
unter bestimmten Anfangsbedingungen zu präziser Randextraktion führen. Der
Startpunkt muß im
wesentlichen das interessierende Objekt einkreisen oder im wesentlichen
von diesem umgeben sein. Ferner ist Vorwissen bezüglich der
Propagationsrichtung notwendig.
-
Mit
regionalen/globalen Informationsmodulen kann ein Objekt in einem
Bild von dem Hintergrund des Bildes getrennt werden, wobei adaptive
Ballonkräfte
verwendet werden, um die Notwendigkeit, Anfangsbedingungen zu erfüllen, zu überwinden.
Das regionale/globale Informationsmodul verwendet die sich entwickelnde Grenzfläche, um
eine Bildpartition zu definieren, die in bezug auf bestimmte Gruppierungskriterien
optimal ist. Ein solches Kriterium kann aus der Heaviside-Distribution
abgeleitet werden:
(gemäß bestimmten
globalen Deskriptoren r
o: R
+ → [0, 1],
r
B:R
+ → [0, 1],
die monoton abnehmende Funktionen sind). Solche Deskriptoren messen
die Qualität
der Übereinstimmung
zwischen dem beobachtenden Bild und den erwarteten regionalen Eigenschaften
der interessierenden Struktur und dem Hintergrund. Ein solcher Term
kann die Segmentierungsleistung verbessern und kann bewirken, daß der Ansatz
weniger von den Anfangsbedingungen abhängig wird. Die Variationsrechnung
kann in bezug auf die Entwicklung von Φ zu der folgenden Strömung führen:
wobei
es sich um eine adaptive Ballonkraft handelt. Eine solche Kraft
basiert auf relativen Messungen und expandiert oder schrumpft die
Kurve gemäß der lokalen
Anspassung der Daten in bezug auf die erwarteten Intensitätseigenschaften
des Objekts und der Hintergrundklasse.
-
Die
Kurvenpropagation durch Verwendung impliziter Repräsentationen
ist ein effizientes Segmentierungswerkzeug. Präzise Extraktion von Rändern, Möglichkeit
zur Behandlung von mehrkomponentigen Objekten und Integration von
Partitionsmodulen verschiedener Beschaffenheit sind Stärken eines
solchen Verfahrens. Relativ oft ist die Segmentierung mit dem Gewinnen
einer Struktur von besonderem Interesse äquivalent. Vorwissen bezüglich des
Prozesses kann sich entweder auf die visuellen Eigenschaften des
Objekts oder auf seine geometrische Form beziehen.
-
Formgesteuerte
Einführungs-Module
sind ein wertvolles Element für
den Segmentierungsprozeß. Eine
solche Aktion umfaßt
das Definieren/Gewinnen einer Struktur zur Repräsentation des Vorwissens und das
Einführen
von Nebenbedingungen, die den Segmentierungsprozeß in Richtung
von Lösungen
führen,
die dem Vorwissen oder Vorbekannten genügen. Das Vorbekannte kann eine
Mannigfaltigkeit von Lösungen
definieren und die Segmentierung bestimmt die wahrscheinlichste
Lösung
gemäß den Bilddaten
innerhalb dieser Mannigfaltigkeit.
-
Aufbau eines impliziten
Formmodells (1, 101):
-
Die
Auswahl einer Repräsentation
für das
Vorwissen ist eine wichtige Komponente bei der Einführung solcher
Nebenbedingungen. In einem typischen Szenario würde man gerne eine kompakte
Struktur aus einer Menge von N Trainingsbeispielen [C1,
C2, ..., CN] zur
Repräsentation
des Vorbekannten gewinnen. Die Trainingsbeispiele können Bilder
eines repräsentativen
interessierenden Objekts sein. Die Struktur sollte in der Lage sein,
die Variabilität
der Trainingsbeispiele zu beschreiben. Innerhalb eines solchen Prozesses
ist Registration notwendig. Mit Bezug auf 4 werden
mehrere Trainingsbeispiele bereitgestellt 401. Die Trainingsbeispiele
werden auf eine gemeinsame Pose [Ĉ1, Ĉ2, ...,ĈN] 402 ausgerichtet und es wird
eine sinnvolle kompakte Repräsentation
der Beispiele gesucht, die Vorwissen für die bestimmte Pose codieren
kann 403. Die Ausrichtung von Formen ist bei der Abbildung
und Vision mit zahlreichen potentiellen Anwendungen ein Problem.
-
Implizite
Repräsentationen
und Abstandstransformationen können
für eine
Repräsentation
von Formen in einer höheren
Dimension betrachtet werden. Auf diesem Raum kann eine Registration
durchgeführt werden,
wobei nach einer Transformation gesucht wird, die die implizite
Repräsentation
der Quelle mit der Repräsentation
des Ziels ausrichtet. Mit globalen Fehlermetriken wie zum Beispiel
Summe quadrierter Differenzen sowie Maximierung der gegenseitigen
Informationen im Raum impliziter Repräsentationen kann man ein parametrisches
Modell gewinnen, das die Verschiebung zwischen Quelle und Ziel beschreibt.
Im Raum impliziter Repräsentationen
können
lokale Deformationen entweder unter Verwendung von optischen Strömungsnebenbedingungen
oder von Free-From-Deformationen berücksichtigt werden.
-
Das
Einführen
des Vorwissens in Niveaumengenverfahren erfordert die Definition
eines Modells. Punktewolke ist ein Beispiel für eine Technik zur Repräsentation
von solchem Wissen auf simplistische Weise. Das Aufbauen einer mittleren
Form über
die Beispiele der Trainingsmenge hinweg kann ausreichen, um ein Vorbekanntes
zu repräsentieren.
Eine solche Technik erfaßt
möglicherweise
keine Variabilität
und ist möglicherweise
innerhalb eines Niveaumengenrahmens, wenn die sich entwickelnde
Grenzfläche
nicht unter Verwendung von Punkten repräsentiert wird, nicht zweckmäßig. In
einem solchen Rahmen kann die Definition des Vorbekannten innerhalb
des Niveaumengenraums betrachtet werden. Konsistenz zwischen dem
Rahmen von Propagationstechnik/Optimierung und der Form des Vorbekannten
ist sinnvoll. Das Ziel ist, aus einer Menge von Beispielen [Φ1, Φ2, ..., ΦN] eine kompakte Repräsentation zur Codierung des
Vorbekannten zu gewinnen, wobei Φ die
Niveaumengenrepräsentation
von Ĉi ist. Priciple Component Analysis (PCA)
kann angewandt werden, um die Statistik der entsprechenden Elemente über die
Trainingsbeispiele hinweg zu erfassen. PCA bezieht sich auf eine
lineare Transformation von Variablen, die für eine gegebene Anzahl n von
Operatoren den größten Grad
an Variation innerhalb der Trainingsdaten beibehält. Eine solche Technik benötigt eine
signifikante Anzahl von Stichproben innerhalb der Trainingsmenge.
-
Man
betrachte die Erzeugung eines Modells, das die Struktur mittlerer
Form und die Fähigkeit
zur Erfassung der Variabilität
der Lernmenge kombiniert. Gemäß einer
Ausführungsform
der vorliegenden Offenlegung bestimmt ein Modell eine auffallendste
Form sowie die Konfidenz entlang der Formteile (siehe
3). Wenn Übereinstimmung
zwischen den Trainingsbeispielen für einen bestimmten Teil des
Objekts vorliegt, sollte die Konfidenz hoch sein und die Gewinnung
des Objekts in dem Bild sollte das Vorbekannte stark respektieren.
Wenn dies nicht der Fall ist, sollte die Vorbekanntes-Nebenbedingung gelockert
werden und die Bildinformation sollte wichtiger sein. Das Modell
implementiert eine stochastische Niveaumengenrepräsentation (siehe
1,
101)
mit einer repräsentativen
Form Φ
m und einer Konfidenzabbildung σ
m,
die beide in dem Pixelniveau bzw. in den Pixelniveaus folgendermaßen definiert
sind:
-
Die
repräsentative
Form sollte eine Niveaumenge sein, wobei die Abstandstransformation
als Einbettungsfunktion betrachtet wird, was zu der Nebenbedingung
|∇ Φ
m| = 1 führt.
Diese Nebenbedingung kann gelockert werden, und eine Form, die am
besten die Trainingsproben [Φ
1, Φ
2, ..., Φ
N] beschreibt (z. B. der Mittelwert):
kann gesucht werden. Eine
solche Modellierung nimmt Unabhängigkeit
zwischen Pixeln an. In Richtung der Konstruktion der Niveaumengen-Vorbekanntes-Repräsentation
betrachte man die Lösung
des Inferenzproblems auf Pixelniveau(s). Mit einer gegebenen Menge
von werten [Φ
1(s), Φ
2(s), ..., Φ
N(s)]
gewinne man eine Verteilung Φ
m(s), Φ
m(s), die die Daten besser ausdrückt.
-
Maximum
Prosterior dieser Verteilung entlang den Trainingsproben ist äquivalent
mit der Minimierung von
wobei
bestimmte konstante Terme weggelassen wurden. Man kann ein solches
Kriterium auf der Bildebene definieren und das Vorbekannte durch
Suchen nach dem niedrigsten Potential von folgendem gewinnen:
-
Natürliche Objekte
bestehen aus lokalen Segmenten und Artikulationen. Solche Dinge
(Artikulationen) könnten
zu Segmenten mit niedriger Konfidenz führen, wenn das betrachtete
Modell aufgebaut wird. Obwohl die Bewegung solcher Komponenten nicht
regelmäßig ist,
wird auf lokalem Niveau erwartet, daß die Konfidenz des Modells
glatt ist. Das Objekt kann in Segmente zerlegt werden, die fest
sind, und σm ist entlang dieser Segmente oder innerhalb
eines kleinen Umgebungssystems in der Bildebene glatt.
-
Bei
der Betrachtung von Optimierungsproblemen können Glätteterme verwendet werden.
Die Zielfunktion ist nicht konvex und weist eine große Anzahl
lokaler Minima auf. Ferner kann ein solches Problem schlecht definiert
sein, da die Anzahl von Nebenbedingungen kleiner als die Anzahl
unbekannter Variablen ist. Eine Technik zur Überwindung dieser Begrenzung
umfaßt
das Einführen
von Kosten für
die räumlichen
Ableitungen des gewonnenen Feldes (σ
m)
wobei Ψ(u, v) eine
Regularisierungsfunktion ist. Eine einfache Auswahl für Ψ umfaßt eine
Variante der Fehlerzwei-Norm:
-
Mit
Variationsrechnung und einem Gradientenabstiegsverfahren kann man
die Lösung
für das
Vormodell (Φm, σm) gewinnen. Die letzte zu berücksichtigende
Nebenbedingung betrifft Φm. Bei gegebener Form von Trainingsbeispielen
(Niveaumengenrepräsentationen
mit Abstandstransformationen als Einbettungsfunktion) kann in dieser
Mannigfaltigkeit ein Modell Φm bestimmt werden. Die Optimierung dieses
Funktionals unter Berücksichtigung
von Nebenbedingungen kann durch Verwendung von Lagrange-Multiplikatoren
und eines Gradientenabstiegsverfahrens durchgeführt werden. Angesichts der
Form der Nebenbedingungen kann nicht angenommen werden, daß die Bedingungen,
die die Gültigkeit
des Lagrange-Theorems garantieren, erfüllt sind. Außerdem ist
die Anzahl unbekannter Variablen des Systems zu hoch was zu einem
instabilen System führt. Solche
Begrenzungen können
durch Verwendung einer ergänzten
Lagrangeschen Funktion überwunden
werden.
-
Mit
Bezug auf 3 kann, um die Abstandsfunktionsnebenbedingung
zu berücksichtigen
das Problem zu Stufen entkoppelt werden; man kann eine optimale
datengesteuerte Lösung
gewinnen, die die Trainingsmenge 301 erläutern kann;
und die nächste
Projektion einer solchen Lösung
auf die Mannigfaltigkeiten von Abstandstransformationen kann gefunden
werden 302. Die Blöcke 301 und 302 wechseln
sich ab, bis das System eine stationäre Lösung erreicht 303.
Die Variationsrechnung der Zielfunktion E(Φm, σm)
kann eine Strömung
bereitstellen, die eine anfängliche
Niveaumengenfunktion in Richtung eines repräsentativen Modells (Φm) deformiert, und die Konfidenzmaße (σm)
des Modells gewinnen 104.
-
-
Eine
solche Strömung
führt zu
einem Niveaumengenmodell Φ
s, das den Daten nahe kommt, aber nicht die
Nebenbedingung, daß eine
Abstandstransformation Einbettungsfunktion ist, respektiert. Man
kann die nächstliegende
Projektion des aktuellen Zustands von Φ
s auf
den Raum von Abstandstransformationen betrachten. Der Stand der
Technik hierzu umfaßt
mehrere Techniken. Einige dieser erfordern die Extraktion der Niveaumenge,
während
andere dieselbe Aufgabe direkt auf dem impliziten Repräsentationsraum
lösen können. Man
betrachte eine PDE zur Gewinnung einer solchen Projektion:
-
ϕ 0 / m ist
die Repräsentation,
die aus der datengesteuerten Komponente gewonnen wird, die auf den Raum
von Abstandsfunktionen projiziert werden soll.
-
Man
betrachte eine iterative Technik, die ein bestes Modell gewinnt
und auf sequentielle Weise auf die Mannigfaltigkeit von Abstandstransformationen
projiziert. Entscheidungen bezüglich
der Abwechslung zwischen Schritten können gemäß dem mittleren Abstand des
Modells
einer idealen Abstandstransformation,
getroffen werden. Um Stabilitätsprobleme
zu vermeiden, können
die Variabilitäts schätzungen
mit (σ
m = 1 + σ
m] ersetzt und σ
m kann
gesucht werden, mit der Einschränkung
auf strikte Positivität
auf dem Pixelniveau.
-
Zu
den Vorteilen eines solchen vorbekannten Modells gehört das Codieren
in einer natürlichen
Form von Vorwissen innerhalb impliziter Repräsentationen, das Bereitstellen
einfacher Techniken für
die Schätzung geometrischer
Eigenschaften, das Behandeln von mehrkomponentigen Objekten und
das Bestimmen des Vorbekannten aus einer kleinen Menge von Trainingsbeispielen.
Eine solche Codierung kann sinnvolle Vergleiche zwischen der sich
entwickelnden Grenzfläche
und dem Modell unterstützen.
Ein minimaler Unterschied zwischen dem Vorbekannten (Φm) und der sich entwickelnden Grenzfläche Φ entspricht
einer Lösung,
die das Vorbekannte respektiert.
-
Einführung von Vorwissen (1, 102):
-
Die
Annahme, daß alle
Trainingsbeispiele in einer gemeinsamen Pose registriert sind, wurde
während der
Modellkonstruktion betrachtet (siehe 4). Diese
Annahme ist notwendig, um ein sinnvolles Modell zu gewinnen. Die
auf Wissen basierende Segmentierung muß sich mit demselben Problem
beschäftigen.
Objekte in dem Bild können
verschiedenen Maßstab,
verschiedene Orientierung usw. im Vergleich zu dem Vormodell aufweisen.
Die Parameter der Transformation zwischen diesen beiden Elementen
sind unbekannt, während ihre
Form bekannt sein kann.
-
Für den ähnlichkeitsinvarianten
Fall, bei dem das zu erkennende Objekt eine Drehstreckungstransformation
des Modells kombiniert mit bestimmten lokalen Deformationen ist,
wird eine Mannigfaltigkeit zulässiger Lösungen als
die Menge einer parametrischen Menge von Transformationen des Vormodells
definiert. Man betrachte den Ähnlichkeitsfall,
da der Effekt dieser Transformationen auf Abstandstransformationen
vorhergesagt werden kann.
-
Für ein statisches
Vorbekanntes wird auf einem abstrakten Niveau eine Nebenbedingung
eingeführt, die
erzwingt, daß die
sich entwickelnde Grenzfläche
in allen Fällen
zu dieser Mannigfaltigkeit gehört.
Diese Aktion führt
zu der Gewinnung einer Bildstruktur, die dieselben geometrischen
Eigenschaften mit dem Vorbekannten aufweist. Eine solche Nebenbedingung
sollte auf einem sinnvollen Vergleich zwischen dem Vorbekannten
(Φ
m) und der sich entwickelnden impliziten
Repräsentation Φ(;τ) basieren.
Diese Nebenbedingung kann in einer allgemeinen Form folgendermaßen geschrieben
werden:
wobei g eine zu definierende
Morph-Funktion und A(;τ)
= (S,Θ,T)
eine Familie von Drehstreckungstransformationen, an denen ein Translationsvektor
T, ein Drehwinkel Θ und
ein Skalenfaktor S beteiligt sind, ist. Abstandsfunktionen sind
gegenüber
Translation und Rotation invariant. Bei Betrachtung des Subfalls
starrer Transformationen kann die obige Bedingung deshalb zu folgendem
vereinfacht werden:
-
Die
Minimierung des Fehlers auf Norm zwischen der sich entwickelnden
Repräsentation
und der starren Variante des Modells kann nun betrachtet werden,
um die Nebenbedingung aufzuerlegen;
wobei
die Gewinnung einer Niveaumenge gesucht wird, die nach ihrer Translation
und Rotation wie das Vormodell ist. Dieser auf Wissen basierende
Term berücksichtigt
den inneren Objektteil. Die gewählte
Vorrepräsentation
codiert solches Wissen auch im äußeren Teil.
Insbesondere ist der Vorterm präziser,
wenn er nahe der mittleren Form definiert wird. Die Verwendung von
Abstandstransformationen als Einbettungsfunktion in den Niveaumengenrepräsentationen
erhält
die Vorinformationen innerhalb eines bestimmten Abstands von der
mittleren Form. Diese Informationen werden jedoch immer weniger
diskriminativ, wenn man sich von der Nullniveaumenge entfernt. Eine
Modifikation der Heaviside-Funktion kann Formwissen am Äußeren des
Objekts berücksichtigen:
wobei ε eine positive
Konstante ist, die den Vortermbeitrag für ein Iso-Phote von ε heraufschiebt.
Die Korrektheit des Vorterms ist eine Funktion des Abstands von
der Nullniveaumenge. Es kann angenommen werden, daß ein Schätzen und
Auferlegen des Vorbekannten innerhalb der Umgebung dieses iso-photen
sinnvoller ist. Die Propagation der Kurve findet auf dieser Iso-Photen
statt und das statische Vorbekannte kann deshalb in der folgenden
Form betrachtet werden:
mit ε >> α.
Es können
die Variationsrechnung und ein Gradientenabstiegsverfahren betrachtet
werden, um die unbekannte Transformation A zu gewinnen und (gemäß Φ) eine Bildstruktur
zu extrahieren, die den Formeigenschaften des Vorbekannten folgt.
-
Abstandstransformationen
sind gegenüber
Maßstabsvariationen
nicht invariant. Um diese Eigenschaft zu berücksichtigen, kann die Morph-Funktion
zwischen der Vorrepräsentation
und der sich entwickelnden umdefiniert werden. Die Anwendung eines
Maßstabsoperators
auf eine Kontur skaliert die Abstandstransformations-Einbettungsfunktion
entsprechend. Unter Annahme einer sich entwickelnden Kontur ∂R und einer,
die nach Anwenden des Maßstabsoperators
gewonnen werden kann, läßt sich
zeigen, daß die
folgende Beziehung für
ihre Niveaumengen-Abstandstransformationsrepräsentationen gilt [SΦ
1 = Φ
2]. Eine solche Bedingung kann mit dem Effekt
von Translation und Rotation integriert werden, was zu einer drehstreckungsinvarianten
Bedingung zwischen der Niveaumenge des Vorbekannten und der sich
entwickelnden führt:
-
Die
Summe von Quadratdifferenzen zwischen der tatsächlichen Grenzfläche Φ und dem
Modell Φ
m nach dem Morphen kann als Zielfunktion
angesehen werden;
-
Dieses
Kriterium entwickelt die Niveaumengenfunktion in Richtung einer
starren Transformation des Modells. Zu diesem Zweck sind die Variationsrechnung
und ein Gradientenabstiegsverfahren ein hervorragendes Verfahren
zum Gewinnen von Φ.
-
-
Diese
Strömung
enthält
eine Formkonsistenzkraft, die die Grenzfläche in Richtung eines besseren
lokalen (viel wie bei dem Vorbekannten) und eine Kraft, die darauf
abzielt, die Niveaumengenwerte so zu aktualisieren, daß die Region,
auf der die Objektivfunktionen ausgewertet werden (–ε, ε) in der
Bildebene kleiner und kleiner wird, aktualisiert.
-
Um
den Einfluß dieser
Kraft besser zu verstehen, betrachte man einen negativen Φ-Wert in
dem Bereich von (–ε, ε)
-
Deshalb ändert diese
Kraft die Position der Grenzfläche
nicht, da das Vorzeichen der impliziten Repräsentation an jedem Pixel erhalten
wird. Sie wirkt sich nur auf die Form der impliziten Funktion aus,
so daß die
Fläche,
auf der die Zielfunktion ausgewertet wird, abnimmt. Eine solche
Kraft kann ignoriert werden, da sie beim Vorgang des Auferlegens
des Vorwissens keine sinnvolle Interpretation besitzt.
-
Man
betrachte die Variationsrechnung für die Parameter der Transformation
A, die zu folgendem führt:
wobei
Tx, Ty die beiden Komponenten des Translationsvektors sind. Die
Registrationsparameter zwischen der sich entwickelnden Grenzfläche und
dem Modell werden auf globale Weise unter Verwendung regionaler
Informationen gewonnen.
-
Least-Squares-Verfahren
können
gegenüber
Rauschen und Ausreißern
empfindlich sein. Die Verwendung robuster Schätzer kann als diese Nebenbedingungen überwindend
angesehen werden, wenn die Registration zwischen der Grenzfläche und
dem Vorbekannten gewonnen wird:
wobei ρ eine robuste
Fehlernorm ist. Es können
zusätzliche
visuell gesteuerte Terme betrachtet werden, wie zum Beispiel Anziehung
an die Ränder
und Trennabstand zwischen Objekt und Hintergrund gemäß ihren
Intensitätseigenschaften.
-
Der
Rahmen kann eine weiche Nebenbedingung (Repräsentation des Vorbekannten
unter Verwendung einer stochastischen Niveaumenge) zur auf Wissen
basierenden Segmentierung in eine harte Nebenbedingung übersetzen.
Der Vorterm enthält
eine Konfidenzabbildung (σm). Es kann erwartet werden, daß Gebiete mit
starkem Vorbekanntem präzise
in dem Bild gewonnen werden sollten. In Gebieten, in denen die Konfidenz des
Modells fraglich ist, besitzen Bildinformationen eine dominantere
Rolle als das Vorbekannte in dem Segmentierungsprozeß.
-
Mit
einem stochastischen Vorbekannten kann man den Verbundraum der sich
entwickelnden Grenzfläche
und ihrer Transformation auf das Vormodell unter Verwendung einer
probabilistischen Dichtefunktion modellieren. Es sei [p(Φ,A|Φ
m)] die Vorverteilung der Transformation
bei gegebenem Modell Φ
m. Eine solche Verteilung ist unbekannt,
variiert über
verschiedene Objekte hinweg und kann im allgemeineren Fall nicht
gewonnen werden. Es können
jedoch Monte-Carlo-Sampling oder andere Techniken verwendet werden,
um eine solche Verteilung zu gewinnen, wenn empirische Indizien
verfügbar
sind. Man betrachte eine bayesische Formulierung für diese
Dichte
-
Der
konstante Term Φ
m kann ignoriert werden, und es kann angenommen
werden, daß der
Verbundraum von Grenzflächen
und ihren Transformationen gleichförmig ist. Diese Annahme wird
jedoch ohne Wissen für
die Eigenschaften des zu gewinnenden Objekts betrachtet, wie zum
Beispiel der Pose des Objekts, Maßstabsvariationen usw. Das
Gewinnen der optimalen Grenzfläche
und der Transformation ist äquivalent dem
Finden des Maximum Posterior p(Φ
m(A)|Φ),
und dies ist äquivalent
mit dem Finden des Extremums von:
wobei ω eine Bildstelle
und p(Φ
m(A(ω))|Φ(ω)) das stochastische
Vorbekannte an dieser Stelle ist und Unabhängigkeit über Pixel hinweg betrachtet
wurde. Außerdem
wird die Umsetzung der sich entwickelnden Grenzfläche Φ in die
Pose, die der in dem Vormodell Φ
m aufgezeichneten ähnlich ist, betrachtet. Zu
diesem Zweck muß der
Skalenfaktor S berücksichtigt
werden, was zu der folgenden Form für das Posterior führt:
-
Maßstabsvariationen
verursachen wie bereits erläutert
prädiktive Änderungen
in den Abstandstransformations-Niveaumengenrepräsentationen.
Die pixeldefinierten Vorverteilungen [p
ω()]
sind aus der Modellierungsphase bekannt, und das Lösen des
Inferenzproblems ist äquivalent
mit dem Finden des niedrigsten Potentials der Funktion –log oder
-
Durch
Verwendung der bekannten gaußschen
Eigenschaften der pixeldefinierten Vorverteilungen kann man den
folgenden analytischen Ausdruck für die Zielfunktion gewinnen:
wobei
konstante Terme weggelassen wurden. Eine solche Zielfunktion enthält einen
Term, der das Gewinnen einer Transformation A, die die sich entwickelnde
Grenzfläche
auf Modellgebiete mit niedriger Konfidenz [großem σ
m(A)]
projiziert, zu unterbinden sucht, und einen Term, der lokale Propagation
und Schätzung
mit den folgenden Zielen koppelt; (i) Wiederherstellung einer Transformation,
die die sich entwickelnde Grenzfläche mit dem Vorbekannten ausrichtet,
und (ii) entwickeln der Grenzfläche
dergestalt, daß sie
bei gegebener Transformation wie das Vorbekannte wird. Ein solcher
Term hat eine ähnliche
konzeptuelle Interpretation mit dem zur Einführung des statischen Vorbekannten
verwendeten, ist dabei aber in der Lage, Modellkonfidenz zu berücksichtigen.
Der Projektions fehler (SΦ–Φ
m(A))
2 wird gemäß der Modellkonfidenz σ
m(A)
gewichtet.
-
Innerhalb
eines solchen Optimierungsrahmens wird der Fehler für Abweichung
von dem Modell in Gebieten mit niedriger Konfidenz (hohem σm(A))
(gemäß σm(A))
abgewertet.
-
Solche
Gebiete werden folglich in dem Prozeß des Auferlegens des Vorbekannten
und des Gewinnens der Transformation weniger wichtig. Ferner behandelt
das Modell auf implizite Weise in dem Prozeß der Formdurchsetzung innerhalb
des Segmentierungsprozesses Ausreißer.
-
Das
resultierende Kriterium ist jedoch in der gesamten Bildebene definiert.
Die Definition des Vorbekannten ist hauptsächlich um die Objektregion
herum konsistent und erfordert keine Einschränkung der Zielfunktion innerhalb
der interessierenden Struktur.
-
-
Die
Variationsrechnung innerhalb eines Gradientenabstiegsverfahrens
kann das niedrigste Potential der Kostenfunktion liefern. Es sollen
zwei unbekannte Variablen gewonnen werden, die Objektposition (Form der
Funktion Φ)
und die
Transformation zwischen Objekt und dem Vorbekannten:
wobei
die partiellen Ableitungen von Φ(A), σ
m(A)
nach den Transformationsparametern wie im Fall des statischen Vorbekannten
unter Verwendung der Kettenregel gewonnen werden können. Die
Flächenkraft
hat dieselbe Interpretation wie die im Fall des statischen Vorbekannten
präsentierte
und kann deshalb ignoriert werden. Ein solches stochastisches Vorbekanntes
kann zur Gewinnung einer interessierenden Struktur verwendet werden,
die die Konfidenz des Vorbekannten auf elegante probagonistische
Weise berücksichtigt.
-
Beide
Terme beziehen sich auf eine zusätzliche
Komponente zum Auferlegen von Vorwissen auf die Segmentierung und
berücksichtigen
nicht die visuellen Eigenschaften des Objekts.
-
Um
das Vorbekannte einzuführen
(siehe
5) betrachte man eine bimodale Partition, die
sich auf das interessierende Objekt und den Hintergrund bezieht.
Das Modell der geodesischen Aktivregion kann eine solche Partition
berücksichtigen.
Es wird angenommen, daß sich
visuelle Unstetigkeiten (z.B. starke Ränder) in dem Bild auf die Ränder der
gewünschten
Partition beziehen. Ohne Verlust an Allgemeingültigkeit können Gaußsche Verteilungen verwendet
werden, um die Intensitätseigenschaften
des Objekts und des Hintergrunds zu erfassen
501. Parameter
(z.B. Mittelwert, Varianz) des Objekts und Hintergrunds werden gemäß einer
letzten Segmentierungsabbildung
502 unter Verwendung des
empirischen Mittelwerts und der empirischen Varianz geschätzt:
wobei
g eine monotone positive abnehmende Funktion ist. Man kann die Gaußschen Verteilungen
weiterentwickeln, um eine zweckmäßigere Form
für die
bezüglich
visueller Region definierte Komponente zu gewinnen. Die Variationsrechnung
kann zu einer geometrischen Strömung
führen,
die die Ausbreitung der Kontur in Richtung der Objektgrenzen führt, während das
Vorbekannte respektiert wird (siehe
1,
103).
Außerdem
können
Mischungsmodelle oder nichtparametrische Techniken betrachtet werden,
um die visuellen Eigenschaften von Objekt und Hintergrund zu erfassen.
-
Bezüglich einer
schnellen Implementierung des Rahmens betrachte man ein schmalbandiges
Verfahren, das die Niveaumengenrepräsentation in der Umgebung der
letzten Position der Kontur entwickelt. Änderungen auf der sich entwickelnden
Kontur werden auf dem Nullniveau geschehen und dann in der Richtung nach
innen und nach außen
propagiert. Eine solche Auswahl verbessert außerdem die Leistungsfähigkeit
des Form-Vorterms. Dieser Term ist um die mittlere Form herum präzise und
wird weniger präzise,
wenn er sich von dem Nullniveau des Vorbekannten wegbewegt. Die
Niveaumengenrepräsentation
kann deshalb innerhalb der iso-photen [–ε, ε] aktualisiert werden.
-
Gemäß einer
Ausführungsform
der vorliegenden Offenlegung wird eine auf Wissen basierende Segmentierungstechnik
innerhalb eines Niveaumengenrahmens implementiert. Es wird ein Vormodell
konstruiert und eingeführt.
Bezüglich
der Konstruktion des Vorbekannten wird, um mit dem betrachteten
gewählten
Optimierungsrahmen konsistent zu sein, eine stochastische Niveaumengenrepräsentation
implementiert. Ein solches Modell enthält eine Abstandstransformations-Einbettungsfunktion
(Niveaumenge) und eine Konfidenzkomponente. Eine solche Funktion
wird durch einen Ansatz der eingeschränkten Optimierung gewonnen.
In dem Niveaumengenraum wird eine Menge von Trainingsbeispielen
betrachtet, wobei Abstandstransformationen als Einbettungsfunktionen
verwendet werden. Modellierung ist dann äquivalent mit dem Gewinnen
einer repräsentativen
Niveaumengen-Abstandsfunktion und glatter Messungen der Konfidenz
auf Pixelniveau. Solche Messungen versuchen, die Übereinstimmung
der Trainingsmenge an dieser bestimmten Stelle zu quantifizieren.
Um ein solches Modell zu gewinnen, wechseln das System und das Verfahren
zwischen: eine Niveaumengenfunktion, die den Daten nahekommt, wird
gewonnen und die auffallendste Projektion dieser Funktion auf die
Mannigfaltigkeit zulässiger
Lösungen
wird bestimmt, bis Konvergenz erreicht ist. Vorwissen wird auf allmähliche Weise
eingeführt.
Statische harte Nebenbedingungen, die erzwingen, daß die Segmentierungslösung eine
Drehstreckungstransformation des Vormodells ist, werden zuerst betrachtet.
Es wird eine Zielfunktion, die die Transformation sowie die Position
des Objekts in dem Bild berücksichtigt,
definiert und zum Gewinnen sowohl der Projektion als auch der Konfidenz
verwendet.
-
Es
werden probabilistische Prinzipien betrachtet, die zu einem Maximum-Posterior-Problem
führen, das
die lokalen Variationen des Modells umfaßt.
-
Nachdem
Ausführungsformen
für ein
Variations-Niveaumengensystem und -verfahren für die formgesteuerte Objektdetektion
auf Wissensbasis beschrieben wurden, wird angemerkt, daß Fachleute
im Hinblick auf die obigen Lehren Modifikationen und Abwandlungen
vornehmen können.
Es versteht sich deshalb, daß an
den offengelegten konkreten Ausführungsformen
der Erfindung Änderungen
vorgenommen werden können,
die innerhalb des Schutzumfangs und Gedankens der Erfindung liegen,
der durch die angefügten
Ansprüche
definiert wird. Nachdem die Erfindung somit mit der von dem Patentrecht
geforderten Genauigkeit beschrieben wurde, wird das Beanspruchte
und durch das Patentgesetz zu Schützende in den angefügten Ansprüchen dargelegt.