DE102005003605A1

DE102005003605A1 - Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung

Info

Publication number: DE102005003605A1
Application number: DE200510003605
Authority: DE
Inventors: Nikolaos Paragyios
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Medical Solutions USA Inc
Priority date: 2004-01-29
Filing date: 2005-01-25
Publication date: 2005-09-01
Anticipated expiration: 2025-01-26
Also published as: DE102005003605B4; US20050169533A1; CN100390813C; US7391882B2; CN1648936A

Abstract

Ein Verfahren zum Erkennen eines Objekts in einem Bild umfaßt die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang von Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.

Description

Die vorliegende Anmeldung beansprucht Priorität gegenüber der provisorischen U.S.-Anmeldung, laufende Nr. 60/540,129, registriert am 29.1.2004, worauf hiermit vollständig ausdrücklich Bezug genommen wird.
HINTERGRUND DER ERFINDUNG
Technisches Gebiet:
Die vorliegende Offenlegung betrifft die Objektdetektion in Bildern und insbesondere ein Variations-Niveaumengensystem und -verfahren zur formgesteuerten Objektdetektion auf Wissensbasis.

Die Gewinnung einer bestimmten interessierenden Struktur aus einem Bild, das bestimmten vordefinierten Eigenschaften folgt, ist für die Bildsegmentierung auf Modellbasis nützlich. Solche Eigenschaften können visuell oder geometrisch sein. Visuelle Eigenschaften lassen sich erfassen, indem globale Verteilungen aufgebaut werden, um die Luminanzeigenschaften der interessierenden Struktur zu beschreiben, oder durch Erzeugen lokaler Erscheinungsbildmodelle. Solche Modelle können in einem Szenario mit eingeschränkter Beleuchtung effizient sein, wenn Änderungen minimal sind und durch ein Modell erfaßt werden können.

Die formgesteuerte Segmentierung auf Wissensbasis ist eine Alternative zu den visuell gesteuerten Techniken. Solche Verfahren versuchen, eine Struktur zu gewinnen, die im Vergleich zu einem vorbekannten Modell konsistente geometrische Form aufweist. Glätte ist ein Beispiel für das Auferlegen einer vorbekannten Nebenbe dingung. Lokale geometrische Eigenschaften (z.B. Krümmung, lokale Glättenebenbedingungen) können beim Definieren eines solchen vorbekannten Modells verwendet werden, oder man kann ein vorbekanntes Modell auf globalere Weise definieren, was zu konkreteren Repräsentationen führt, die die Varianz der gesamten interessierenden Struktur erfassen. Obwohl lokale Modelle effizient sind, sind globale Repräsentationen ein geeigneter Ansatz um Verdeckungen, Rauschen und Änderungen an der Objektpose handhaben zu können.

Modellierung wird vor der Einführung globaler formgesteuerter Nebenbedingungen benötigt. Eine solche Aufgabe ist äquivalent mit dem Extrahieren einer kompakten Repräsentation für die interessierende Struktur aus einer Menge von Trainingsbeispielen. Die Repräsentationsauswahl hängt mit der Form des Vorbekannten zusammen, das eingeführt werden soll, und wird durch die Größe der Trainingsmenge eingeschränkt. Das Aufbauen komplexer Modelle erfordert sehr viel Bodenwahrheit. Die Registration aller Beispiele auf eine gemeinsame Pose ist ein wichtiger Teil der Modellierungsphase. Korrespondenzen für die grundlegenden Elemente der Proben des Trainings müssen für eine effiziente Modellierung gewonnen werden.

Bei der formgesteuerten Segmentierung auf Wissensbasis werden vielfältige Modelle benutzt. Die Verwendung geometrischer Komponenten, wie zum Beispiel gerade Segmente und Elipsoide, war ein Versuch, eine kompakte Repräsentation für das Modellieren von Seiten zu erzeugen. Obwohl solche Modelle im Hinblick auf Leistungsfähigkeit und niedrige Komplexität bei der Modellierung einfacher geometrischer Strukturen effizient sind, werden bei ihnen keine lokalen Informationen und wichtige Variabilität des interessierenden Objekts berücksichtigt. Bei einem gegebenen solchen Modell erfolgt die Segmentierung dann durch Einstellung der lokalen geometrischen Komponenten in Richtung der gewünschten Bildeigenschaften. Zu anderen Techniken gehören deformierbare Vorlagen, Modelle mit aktiver Form und Erscheinung und Snake-Modelle.

Das Anwendungsgebiet für Niveaumengenverfahren bei Machine Vision ist groß und nicht auf Bildsegmentierung, Restauration, Tracking, Form aus Schattierung, 3D-Rekonstruktion, medizinische Bildsegmentierung usw. beschränkt. Diese Techniken wurden eingeführt, untersucht und auf andere wissenschaftliche Bereiche angewandt, wie zum Beispiel Geometrie, Robotik, Fluide, Halbleiterentwicklung usw. Die meisten der erwähnten Anwendungen teilen sich ein gemeinsames Problem: das Verfolgen sich bewegender Grenzflächen. Niveaumengenrepräsentationen eignen sich gut für rechnerische Verfahren zur Durchführung dieser Aufgabe. Sie können für beliebige Dimension verwendet werden (z.B. Kurven, Flächen, Hyperflächen usw.), sind parameterfrei und können die Topologie der sich entwickelnden Grenzfläche auf natürliche Weise ändern. Darüber hinaus geben sie ein natürliches Verfahren zur Bestimmung und Schätzung geometrischer Eigenschaften der sich entwickelnden Grenzfläche.

Diese Techniken können auch nichtstarre Objekte und Bewegungen behandeln, da sie sich auf sehr lokale Eigenschaften beziehen und eine Grenzfläche pixelweise deformieren können. Sie können jedoch im Vergleich zu parametrischen Modellen eine schlechte Leistungsfähigkeit aufweisen, wenn feste/starre Bewegungen und Objekte betrachtet werden. Lokale Propagationen sind empfindlich und nutzen bestimmte wohldefinierte physikalische A-priori-Nebenbedingungen, wie zum Beispiel Festformmodelle, nicht voll aus.

Deshalb werden ein Variations-Niveaumengensystem und -verfahren zur formgesteuerten Objektdetektion auf Wissensbasis benötigt.

KURZE DARSTELLUNG DER ERFINDUNG

Modellierung ist für formgesteuerte Segmentierungstechniken wichtig. Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine stochastische Niveaumengenformulierung implementiert, um Vorwissen in einem Variations-Niveaumengenverfahren für die formgesteuerte Objektextraktion auf Wissensbasis zu berücksichtigen. Zu diesem Zweck werden Objekte in einer impliziten Form repräsentiert, wobei eine stochastische Abstandsfunktion verwendet wird, die Konfidenzgrade aufweist. Dem Segmentierungsprozeß werden Nebenbedingungen auferlegt, indem nach einer geometrischen Struktur in der Bildebene gesucht wird, die zu der Familie von Formen gehört, die von dem vorbekannten Modell gemäß einer Ähnlichkeitsbewegungstransformation erzeugt wurde. Es wird eine nichtstationäre Metrik zwischen der sich entwickelnden Kontur und dem Modell minimiert, was zu Bewegungsgleichungen führt, die diese Kontur in Richtung der gewünschten Bildeigenschaften entwickeln und die dazwischenliegenden Registrationsparameter bei dem vorbekannten Modell aktualisieren. Bei Konvergenz werden eine Struktur, zu der Mannigfaltigkeit zulässiger Lösungen gehört, und die entsprechende Transformation gewonnen.

Gemäß einer Ausführungsform der vorliegenden Offenlegung umfaßt ein Verfahren zum Erkennen eines Objekts in einem Bild die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.

Die Trainingsbeispiele werden auf eine gemeinsame Pose ausgerichtet.

Das Bestimmen des Formmodells umfaßt weiterhin das Bestimmen einer Niveaumengenpräsentation des Objekts in dem Bild, das Bestimmen der Projektion als auffallendste Form in dem Bild und das Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form. Das Verfahren umfaßt weiterhin das Bestimmen eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation des Objekts und der Projektion und des Konfidenzmaßes.

Die Projektion und die Konfidenzmessung werden auf Pixelniveau des Bildes definiert. Das Konfidenzmaß wird als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.

Der Niveaumengenrahmen umfaßt das Bestimmen einer Intensitätseigenschaft für das Objekt und eines Hintergrunds in dem Bild und das Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.

Die Projektion entwickelt sich auf einem Nullniveau und propagiert in einer Richtung nach innen und nach außen zu einem Rand des Objekts.

Das Vorbekannte ist ein stochastisches Vorbekanntes. Das stochastische Vorbekannte führt für die Abweichung von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen ein, der in Gebieten mit reduzierter Konfidenz abnimmt.

Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine Programmspeichereinrichtung bereitgestellt, die durch Maschine lesbar ist und greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erkennen eines Objekts in einem Bild auszuführen. Das Verfahren umfaßt die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.

KURZE BESCHREIBUNG DER ZEICHNUNGEN
Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlicher mit Bezug auf die beigefügten Zeichnungen beschrieben.
1 ist ein Flußdiagramm eines Verfahrens gemäß einer Ausführungsform der vorliegenden Offenlegung;
2 ist ein Diagramm eines Systems gemäß einer Ausführungsform der vorliegenden Offenlegung;
3 ist ein Flußdiagramm eines Verfahrens zur Bestimmung eines Formmodells gemäß einer Ausführungsform der vorliegenden Offenlegung;
4 ist ein Flußdiagramm eines Verfahrens zur Bestimmung eines Vorbekannten gemäß einer Ausführungsform der vorliegenden Offenlegung und;
5 ist ein Flußdiagramm eines Verfahrens für eine Niveaumengenbestimmung, die ein Vorbekanntes implementiert, gemäß einer Ausführungsform der vorliegenden Offenlegung.
AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Gemäß einer Ausführungsform der vorliegenden Offenlegung werden Niveaumengenrepräsentationen darauf eingeschränkt, einer Form-Global-Konsistenz zu folgen, während die Möglichkeit zur Erfassung lokaler Deformationen erhalten wird. Es werden globale und lokale Formeigenschaften des Objekts gewonnen.
Ein Formmodell wird direkt unter Verwendung einer Probensammlung auf dem Niveaumengenraum aufgebaut. Mit Bezug auf 1 wird das Formmodell unter Verwendung eines Variationsrahmens konstruiert, der eine nichtstationäre pixelweise Niveaumengenrepräsentation erzeugt, die Formvariabilität berücksichtigt 101. Das Formmodell dient als Grundlage für die Einführung eines Form-Vorbekannten in einer energetischen Form 102. Das Form-Vorbekannte minimiert einen nichtstationären Abstand zwischen der sich entwickelnden Grenzfläche und dem Formmodell, deformiert gemäß einer Drehstreckungstransformation, um ein Objekt zu bestimmen 103.
Ein System und Verfahren gemäß einer Ausführungsform der vorliegenden Offenlegung kann als ein Modul implementiert und mit existierenden datengesteuerten Variations-Verfahren integriert werden, um eine Bildsegmentierung für physisch verfälschte und unvollständige Daten durchzuführen.
Es versteht sich, daß die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessoren oder einer Kombination davon implementiert werden kann. Bei einer Ausführungsform kann die vorliegende Erfindung in Software als ein greifbar auf einer Programmspeichereinrichtung realisiertes Anwendungsprogramm implementiert werden. Das Anwendungsprogramm kann in eine Maschine mit jeder beliebigen geeigneten Architektur herauf geladen und durch diese ausgeführt werden.
Mit Bezug auf 2 kann gemäß einer Ausführungsform der vorliegenden Erfindung ein Computersystem 201 zur Implementierung der vorliegenden Erfindung u.a. folgendes umfassen: eine zentrale Verarbeitungseinheit (CPU) 202, einen Speicher 203 und eine Eingabe/Ausgabe(E/A-)Schnittstelle 204. Das Computersystem 201 ist im allgemeinen durch die E/A-Schnittstelle 204 mit einer Anzeige 205 und verschiedenen Eingabegeräten 206 wie zum Beispiel einer Maus und einer Tastatur, gekoppelt. Zu den Unterstützungsschaltungen können Schaltungen wie zum Beispiel ein Cache, Stromversorgungen, Taktschaltungen und ein Kommunikationsbus gehören. Der Speicher 203 kann Direktzugriffsspeicher (RAM), Nurlesespeicher (ROM), ein Plattenlaufwerk, ein Bandlaufwerk usw. oder eine Kombination davon umfassen. Die vorliegende Erfindung kann als eine Routine 207 implementiert werden, die in dem Speicher 203 gespeichert und durch die CPU 202 ausgeführt wird, um das Signal aus der Signalquelle 208 zu verarbeiten. Das Computersystem 201 ist dementsprechend ein Vielzweckcomputersystem, das zu einem speziellen Computersystem wird, wenn es die Routine 207 der vorliegenden Erfindung ausführt.
Die Computerplattform 201 umfaßt außerdem ein Betriebssystem und Mikroanweisungscode. Die verschiedenen hier beschriebenen Prozesse und Funktionen können entweder Teil des Mikroanweisungscodes oder Teil des Anwendungsprogramms (oder eine Kombination davon) sein, der bzw. das über das Betriebssystem ausgeführt wird. Zusätzlich können verschiedene andere Peripheriegeräte an die Computerplattform angeschlossen werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein Druckgerät.
Da ein Teil der konstituierenden Systemkomponenten und Verfahrensschritte, die in den beigefügten Figuren abgebildet sind, in Software implementiert sein kann, versteht sich ferner, daß die eigentlichen Verbindungen zwischen den Systemkomponenten (oder Prozeßschritten) abhängig von der Art und Weise der Programmierung der vorliegenden Erfindung unterschiedlich sein können. Anhand der hier gegebenen Lehren der vorliegenden Erfindung werden Durchschnittsfachleute auf dem relevanten Gebiet in der Lage sein, diese und ähnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.
Implizite Repräsentationen:
Die Segmentierung kann unter Verwendung von Grenzflächen (z.B. Kurven) durchgeführt werden, die sich gemäß einer Strömung entwickeln. Die Strömung, die die Propagation der Kurve bestimmt, kann durch Minimierung einer Zielfunktion gewonnen oder gemäß dem Anwendungskontext definiert werden (z.B. geometrische Strömungen). Segmentierungsansätze auf Snake-Basis beziehen sich auf die Propagation von Kurven von einer Anfangsposition in Richtung der gewünschten Bildeigenschaften. Zu solchen Strömungen gehören interne und externe Terme.
Um Niveaumengenrepräsentationen einzuführen, betrachte man eine parametrische Kurve
die sich gemäß einer gegebenen Bewegungsgleichung in der normalen Richtung N1 entwickelt:
wobei F eine skalare Funktion auf den lokalen Eigenschaften der Kurve (z.B. Krümmung) ist. Diese Strömung kann unter Verwendung eines Lagrangian- Ansatzes implementiert werden. Die Kontur wird in diskreter Form unter Verwendung einer Auswahl von Kontrollpunkten repräsentiert. Die Kurvenposition kann durch Lösen von Gl. 1 und Gl. 2 für jeden Kontrollpunkt aktualisiert werden. Eine solche Technik kann im allgemeinsten Fall die Topologie der sich entwickelnden Kurve nicht ändern und es kann eine Umparametrisierung der sich entwickelnden Kurve notwendig sein.
Das Niveaumengenverfahren wurde zuerst auf dem Gebiet der Fluiddynamik eingeführt und ist eine neue Technik zum Behandeln verschiedener Anwendungen in der Abbildung, Vision und Graphik. Niveaumengenverfahren repräsentieren die sich entwickelnde Kurve mit dem Nullniveau einer Fläche ϕ:[x,y,ϕ(x,y)]:
Eine solche Repräsentation ist implizit, intrinsisch und parameterfrei. Die Oberfläche kann so entwickelt werden, daß das Nullniveau immer der sich entwickelnden Kurve nachgibt. Durch Bilden der Ableitungen von Φ nach der Zeit erhält man:
Somit wird eine Verbindung zwischen der Familie sich entwickelnder Kurven ∂R und der Familie sich entwickelnder Flächen Φ hergestellt. Ein solches Propagationsschema kann topologische Änderungen berücksichtigen und kann die Schätzung der lokalen geometrischen Eigenschaften der Kurve unterstützen.
Energieminimierungstechniken können verwendet werden und eine Strömung kann erhalten und in dem Niveaumengenraum implementiert werden.
Das Definieren von Zielfunktionen im Niveaumengenraum zur Gruppierung führt in Richtung der Einrichtung von Niveaumengentechniken bei der Abbildung und Vision. Zu diesem Zweck betrachte man die Abstandstransformation D(s,∂R) als Einbettungsfunktion für ∂R:
und die Dirac- und Heaviside-Distribution:
und verwende diese zur Einführung einer Bildpartitionszielfunktion. Glättenebenbedingungen, randgesteuerte Objektdetektion sowie allgemeine Regionskonsistenz-Gruppierungsterme können nun direkt auf dem Niveaumengenraum Φ eingeführt werden. Längenminimierung ist ein wohlbekannter geometrischer Glätteterm, der auf einfache Weise zum Beispiel unter Verwendung der folgenden Formulierung eingeführt werden kann:
Mit der geodesischen Aktivkontur (Gl. 8) kann eine Kurve minimaler Länge gewonnen werden:
gemäß einer bestimmten willkürlichen Metrikfunktion b:R⁺ → [0, 1]. Eine solche Funktion ist monoton abnehmend mit Minimalwerten an den Bildstellen mit den gewünschten Merkmalen (z.B. hoher Gradient). Die Variationsrechnung kann eine geometrische Strömung zur Aktualisierung der Position der Grenzfläche in Richtung der gewünschten Bildeigenschaften bereitstellen:
Solche Strömungen können unter bestimmten Anfangsbedingungen zu präziser Randextraktion führen. Der Startpunkt muß im wesentlichen das interessierende Objekt einkreisen oder im wesentlichen von diesem umgeben sein. Ferner ist Vorwissen bezüglich der Propagationsrichtung notwendig.
Mit regionalen/globalen Informationsmodulen kann ein Objekt in einem Bild von dem Hintergrund des Bildes getrennt werden, wobei adaptive Ballonkräfte verwendet werden, um die Notwendigkeit, Anfangsbedingungen zu erfüllen, zu überwinden. Das regionale/globale Informationsmodul verwendet die sich entwickelnde Grenzfläche, um eine Bildpartition zu definieren, die in bezug auf bestimmte Gruppierungskriterien optimal ist. Ein solches Kriterium kann aus der Heaviside-Distribution abgeleitet werden:
(gemäß bestimmten globalen Deskriptoren r_o: R⁺ → [0, 1], r_B:R⁺ → [0, 1], die monoton abnehmende Funktionen sind). Solche Deskriptoren messen die Qualität der Übereinstimmung zwischen dem beobachtenden Bild und den erwarteten regionalen Eigenschaften der interessierenden Struktur und dem Hintergrund. Ein solcher Term kann die Segmentierungsleistung verbessern und kann bewirken, daß der Ansatz weniger von den Anfangsbedingungen abhängig wird. Die Variationsrechnung kann in bezug auf die Entwicklung von Φ zu der folgenden Strömung führen:
wobei es sich um eine adaptive Ballonkraft handelt. Eine solche Kraft basiert auf relativen Messungen und expandiert oder schrumpft die Kurve gemäß der lokalen Anspassung der Daten in bezug auf die erwarteten Intensitätseigenschaften des Objekts und der Hintergrundklasse.
Die Kurvenpropagation durch Verwendung impliziter Repräsentationen ist ein effizientes Segmentierungswerkzeug. Präzise Extraktion von Rändern, Möglichkeit zur Behandlung von mehrkomponentigen Objekten und Integration von Partitionsmodulen verschiedener Beschaffenheit sind Stärken eines solchen Verfahrens. Relativ oft ist die Segmentierung mit dem Gewinnen einer Struktur von besonderem Interesse äquivalent. Vorwissen bezüglich des Prozesses kann sich entweder auf die visuellen Eigenschaften des Objekts oder auf seine geometrische Form beziehen.
Formgesteuerte Einführungs-Module sind ein wertvolles Element für den Segmentierungsprozeß. Eine solche Aktion umfaßt das Definieren/Gewinnen einer Struktur zur Repräsentation des Vorwissens und das Einführen von Nebenbedingungen, die den Segmentierungsprozeß in Richtung von Lösungen führen, die dem Vorwissen oder Vorbekannten genügen. Das Vorbekannte kann eine Mannigfaltigkeit von Lösungen definieren und die Segmentierung bestimmt die wahrscheinlichste Lösung gemäß den Bilddaten innerhalb dieser Mannigfaltigkeit.
Aufbau eines impliziten Formmodells (1, 101):
Die Auswahl einer Repräsentation für das Vorwissen ist eine wichtige Komponente bei der Einführung solcher Nebenbedingungen. In einem typischen Szenario würde man gerne eine kompakte Struktur aus einer Menge von N Trainingsbeispielen [C₁, C₂, ..., C_N] zur Repräsentation des Vorbekannten gewinnen. Die Trainingsbeispiele können Bilder eines repräsentativen interessierenden Objekts sein. Die Struktur sollte in der Lage sein, die Variabilität der Trainingsbeispiele zu beschreiben. Innerhalb eines solchen Prozesses ist Registration notwendig. Mit Bezug auf 4 werden mehrere Trainingsbeispiele bereitgestellt 401. Die Trainingsbeispiele werden auf eine gemeinsame Pose [Ĉ₁, Ĉ₂, ...,Ĉ_N] 402 ausgerichtet und es wird eine sinnvolle kompakte Repräsentation der Beispiele gesucht, die Vorwissen für die bestimmte Pose codieren kann 403. Die Ausrichtung von Formen ist bei der Abbildung und Vision mit zahlreichen potentiellen Anwendungen ein Problem.
Implizite Repräsentationen und Abstandstransformationen können für eine Repräsentation von Formen in einer höheren Dimension betrachtet werden. Auf diesem Raum kann eine Registration durchgeführt werden, wobei nach einer Transformation gesucht wird, die die implizite Repräsentation der Quelle mit der Repräsentation des Ziels ausrichtet. Mit globalen Fehlermetriken wie zum Beispiel Summe quadrierter Differenzen sowie Maximierung der gegenseitigen Informationen im Raum impliziter Repräsentationen kann man ein parametrisches Modell gewinnen, das die Verschiebung zwischen Quelle und Ziel beschreibt. Im Raum impliziter Repräsentationen können lokale Deformationen entweder unter Verwendung von optischen Strömungsnebenbedingungen oder von Free-From-Deformationen berücksichtigt werden.
Das Einführen des Vorwissens in Niveaumengenverfahren erfordert die Definition eines Modells. Punktewolke ist ein Beispiel für eine Technik zur Repräsentation von solchem Wissen auf simplistische Weise. Das Aufbauen einer mittleren Form über die Beispiele der Trainingsmenge hinweg kann ausreichen, um ein Vorbekanntes zu repräsentieren. Eine solche Technik erfaßt möglicherweise keine Variabilität und ist möglicherweise innerhalb eines Niveaumengenrahmens, wenn die sich entwickelnde Grenzfläche nicht unter Verwendung von Punkten repräsentiert wird, nicht zweckmäßig. In einem solchen Rahmen kann die Definition des Vorbekannten innerhalb des Niveaumengenraums betrachtet werden. Konsistenz zwischen dem Rahmen von Propagationstechnik/Optimierung und der Form des Vorbekannten ist sinnvoll. Das Ziel ist, aus einer Menge von Beispielen [Φ₁, Φ₂, ..., Φ_N] eine kompakte Repräsentation zur Codierung des Vorbekannten zu gewinnen, wobei Φ die Niveaumengenrepräsentation von Ĉ_i ist. Priciple Component Analysis (PCA) kann angewandt werden, um die Statistik der entsprechenden Elemente über die Trainingsbeispiele hinweg zu erfassen. PCA bezieht sich auf eine lineare Transformation von Variablen, die für eine gegebene Anzahl n von Operatoren den größten Grad an Variation innerhalb der Trainingsdaten beibehält. Eine solche Technik benötigt eine signifikante Anzahl von Stichproben innerhalb der Trainingsmenge.
Man betrachte die Erzeugung eines Modells, das die Struktur mittlerer Form und die Fähigkeit zur Erfassung der Variabilität der Lernmenge kombiniert. Gemäß einer Ausführungsform der vorliegenden Offenlegung bestimmt ein Modell eine auffallendste Form sowie die Konfidenz entlang der Formteile (siehe 3). Wenn Übereinstimmung zwischen den Trainingsbeispielen für einen bestimmten Teil des Objekts vorliegt, sollte die Konfidenz hoch sein und die Gewinnung des Objekts in dem Bild sollte das Vorbekannte stark respektieren. Wenn dies nicht der Fall ist, sollte die Vorbekanntes-Nebenbedingung gelockert werden und die Bildinformation sollte wichtiger sein. Das Modell implementiert eine stochastische Niveaumengenrepräsentation (siehe 1, 101) mit einer repräsentativen Form Φ_m und einer Konfidenzabbildung σ_m, die beide in dem Pixelniveau bzw. in den Pixelniveaus folgendermaßen definiert sind:
Die repräsentative Form sollte eine Niveaumenge sein, wobei die Abstandstransformation als Einbettungsfunktion betrachtet wird, was zu der Nebenbedingung |∇ Φ_m| = 1 führt. Diese Nebenbedingung kann gelockert werden, und eine Form, die am besten die Trainingsproben [Φ₁, Φ₂, ..., Φ_N] beschreibt (z. B. der Mittelwert):
kann gesucht werden. Eine solche Modellierung nimmt Unabhängigkeit zwischen Pixeln an. In Richtung der Konstruktion der Niveaumengen-Vorbekanntes-Repräsentation betrachte man die Lösung des Inferenzproblems auf Pixelniveau(s). Mit einer gegebenen Menge von werten [Φ₁(s), Φ₂(s), ..., Φ_N(s)] gewinne man eine Verteilung Φ_m(s), Φ_m(s), die die Daten besser ausdrückt.
Maximum Prosterior dieser Verteilung entlang den Trainingsproben ist äquivalent mit der Minimierung von
wobei bestimmte konstante Terme weggelassen wurden. Man kann ein solches Kriterium auf der Bildebene definieren und das Vorbekannte durch Suchen nach dem niedrigsten Potential von folgendem gewinnen:
Natürliche Objekte bestehen aus lokalen Segmenten und Artikulationen. Solche Dinge (Artikulationen) könnten zu Segmenten mit niedriger Konfidenz führen, wenn das betrachtete Modell aufgebaut wird. Obwohl die Bewegung solcher Komponenten nicht regelmäßig ist, wird auf lokalem Niveau erwartet, daß die Konfidenz des Modells glatt ist. Das Objekt kann in Segmente zerlegt werden, die fest sind, und σ_m ist entlang dieser Segmente oder innerhalb eines kleinen Umgebungssystems in der Bildebene glatt.
Bei der Betrachtung von Optimierungsproblemen können Glätteterme verwendet werden. Die Zielfunktion ist nicht konvex und weist eine große Anzahl lokaler Minima auf. Ferner kann ein solches Problem schlecht definiert sein, da die Anzahl von Nebenbedingungen kleiner als die Anzahl unbekannter Variablen ist. Eine Technik zur Überwindung dieser Begrenzung umfaßt das Einführen von Kosten für die räumlichen Ableitungen des gewonnenen Feldes (σ_m)
wobei Ψ(u, v) eine Regularisierungsfunktion ist. Eine einfache Auswahl für Ψ umfaßt eine Variante der Fehlerzwei-Norm:
Mit Variationsrechnung und einem Gradientenabstiegsverfahren kann man die Lösung für das Vormodell (Φ_m, σ_m) gewinnen. Die letzte zu berücksichtigende Nebenbedingung betrifft Φ_m. Bei gegebener Form von Trainingsbeispielen (Niveaumengenrepräsentationen mit Abstandstransformationen als Einbettungsfunktion) kann in dieser Mannigfaltigkeit ein Modell Φ_m bestimmt werden. Die Optimierung dieses Funktionals unter Berücksichtigung von Nebenbedingungen kann durch Verwendung von Lagrange-Multiplikatoren und eines Gradientenabstiegsverfahrens durchgeführt werden. Angesichts der Form der Nebenbedingungen kann nicht angenommen werden, daß die Bedingungen, die die Gültigkeit des Lagrange-Theorems garantieren, erfüllt sind. Außerdem ist die Anzahl unbekannter Variablen des Systems zu hoch was zu einem instabilen System führt. Solche Begrenzungen können durch Verwendung einer ergänzten Lagrangeschen Funktion überwunden werden.
Mit Bezug auf 3 kann, um die Abstandsfunktionsnebenbedingung zu berücksichtigen das Problem zu Stufen entkoppelt werden; man kann eine optimale datengesteuerte Lösung gewinnen, die die Trainingsmenge 301 erläutern kann; und die nächste Projektion einer solchen Lösung auf die Mannigfaltigkeiten von Abstandstransformationen kann gefunden werden 302. Die Blöcke 301 und 302 wechseln sich ab, bis das System eine stationäre Lösung erreicht 303. Die Variationsrechnung der Zielfunktion E(Φ_m, σ_m) kann eine Strömung bereitstellen, die eine anfängliche Niveaumengenfunktion in Richtung eines repräsentativen Modells (Φ_m) deformiert, und die Konfidenzmaße (σ_m) des Modells gewinnen 104.
Eine solche Strömung führt zu einem Niveaumengenmodell Φ_s, das den Daten nahe kommt, aber nicht die Nebenbedingung, daß eine Abstandstransformation Einbettungsfunktion ist, respektiert. Man kann die nächstliegende Projektion des aktuellen Zustands von Φ_s auf den Raum von Abstandstransformationen betrachten. Der Stand der Technik hierzu umfaßt mehrere Techniken. Einige dieser erfordern die Extraktion der Niveaumenge, während andere dieselbe Aufgabe direkt auf dem impliziten Repräsentationsraum lösen können. Man betrachte eine PDE zur Gewinnung einer solchen Projektion:
ϕ 0 / m ist die Repräsentation, die aus der datengesteuerten Komponente gewonnen wird, die auf den Raum von Abstandsfunktionen projiziert werden soll.
Man betrachte eine iterative Technik, die ein bestes Modell gewinnt und auf sequentielle Weise auf die Mannigfaltigkeit von Abstandstransformationen projiziert. Entscheidungen bezüglich der Abwechslung zwischen Schritten können gemäß dem mittleren Abstand des Modells
einer idealen Abstandstransformation, getroffen werden. Um Stabilitätsprobleme zu vermeiden, können die Variabilitäts schätzungen mit (σ_m = 1 + σ_m] ersetzt und σ_m kann gesucht werden, mit der Einschränkung auf strikte Positivität auf dem Pixelniveau.
Zu den Vorteilen eines solchen vorbekannten Modells gehört das Codieren in einer natürlichen Form von Vorwissen innerhalb impliziter Repräsentationen, das Bereitstellen einfacher Techniken für die Schätzung geometrischer Eigenschaften, das Behandeln von mehrkomponentigen Objekten und das Bestimmen des Vorbekannten aus einer kleinen Menge von Trainingsbeispielen. Eine solche Codierung kann sinnvolle Vergleiche zwischen der sich entwickelnden Grenzfläche und dem Modell unterstützen. Ein minimaler Unterschied zwischen dem Vorbekannten (Φ_m) und der sich entwickelnden Grenzfläche Φ entspricht einer Lösung, die das Vorbekannte respektiert.
Einführung von Vorwissen (1, 102):
Die Annahme, daß alle Trainingsbeispiele in einer gemeinsamen Pose registriert sind, wurde während der Modellkonstruktion betrachtet (siehe 4). Diese Annahme ist notwendig, um ein sinnvolles Modell zu gewinnen. Die auf Wissen basierende Segmentierung muß sich mit demselben Problem beschäftigen. Objekte in dem Bild können verschiedenen Maßstab, verschiedene Orientierung usw. im Vergleich zu dem Vormodell aufweisen. Die Parameter der Transformation zwischen diesen beiden Elementen sind unbekannt, während ihre Form bekannt sein kann.
Für den ähnlichkeitsinvarianten Fall, bei dem das zu erkennende Objekt eine Drehstreckungstransformation des Modells kombiniert mit bestimmten lokalen Deformationen ist, wird eine Mannigfaltigkeit zulässiger Lösungen als die Menge einer parametrischen Menge von Transformationen des Vormodells definiert. Man betrachte den Ähnlichkeitsfall, da der Effekt dieser Transformationen auf Abstandstransformationen vorhergesagt werden kann.
Für ein statisches Vorbekanntes wird auf einem abstrakten Niveau eine Nebenbedingung eingeführt, die erzwingt, daß die sich entwickelnde Grenzfläche in allen Fällen zu dieser Mannigfaltigkeit gehört. Diese Aktion führt zu der Gewinnung einer Bildstruktur, die dieselben geometrischen Eigenschaften mit dem Vorbekannten aufweist. Eine solche Nebenbedingung sollte auf einem sinnvollen Vergleich zwischen dem Vorbekannten (Φ_m) und der sich entwickelnden impliziten Repräsentation Φ(;τ) basieren. Diese Nebenbedingung kann in einer allgemeinen Form folgendermaßen geschrieben werden:
wobei g eine zu definierende Morph-Funktion und A(;τ) = (S,Θ,T) eine Familie von Drehstreckungstransformationen, an denen ein Translationsvektor T, ein Drehwinkel Θ und ein Skalenfaktor S beteiligt sind, ist. Abstandsfunktionen sind gegenüber Translation und Rotation invariant. Bei Betrachtung des Subfalls starrer Transformationen kann die obige Bedingung deshalb zu folgendem vereinfacht werden:
Die Minimierung des Fehlers auf Norm zwischen der sich entwickelnden Repräsentation und der starren Variante des Modells kann nun betrachtet werden, um die Nebenbedingung aufzuerlegen;
wobei die Gewinnung einer Niveaumenge gesucht wird, die nach ihrer Translation und Rotation wie das Vormodell ist. Dieser auf Wissen basierende Term berücksichtigt den inneren Objektteil. Die gewählte Vorrepräsentation codiert solches Wissen auch im äußeren Teil. Insbesondere ist der Vorterm präziser, wenn er nahe der mittleren Form definiert wird. Die Verwendung von Abstandstransformationen als Einbettungsfunktion in den Niveaumengenrepräsentationen erhält die Vorinformationen innerhalb eines bestimmten Abstands von der mittleren Form. Diese Informationen werden jedoch immer weniger diskriminativ, wenn man sich von der Nullniveaumenge entfernt. Eine Modifikation der Heaviside-Funktion kann Formwissen am Äußeren des Objekts berücksichtigen:
wobei ε eine positive Konstante ist, die den Vortermbeitrag für ein Iso-Phote von ε heraufschiebt. Die Korrektheit des Vorterms ist eine Funktion des Abstands von der Nullniveaumenge. Es kann angenommen werden, daß ein Schätzen und Auferlegen des Vorbekannten innerhalb der Umgebung dieses iso-photen sinnvoller ist. Die Propagation der Kurve findet auf dieser Iso-Photen statt und das statische Vorbekannte kann deshalb in der folgenden Form betrachtet werden:
mit ε >> α. Es können die Variationsrechnung und ein Gradientenabstiegsverfahren betrachtet werden, um die unbekannte Transformation A zu gewinnen und (gemäß Φ) eine Bildstruktur zu extrahieren, die den Formeigenschaften des Vorbekannten folgt.
Abstandstransformationen sind gegenüber Maßstabsvariationen nicht invariant. Um diese Eigenschaft zu berücksichtigen, kann die Morph-Funktion zwischen der Vorrepräsentation und der sich entwickelnden umdefiniert werden. Die Anwendung eines Maßstabsoperators auf eine Kontur skaliert die Abstandstransformations-Einbettungsfunktion entsprechend. Unter Annahme einer sich entwickelnden Kontur ∂R und einer, die nach Anwenden des Maßstabsoperators
gewonnen werden kann, läßt sich zeigen, daß die folgende Beziehung für ihre Niveaumengen-Abstandstransformationsrepräsentationen gilt [SΦ₁ = Φ₂]. Eine solche Bedingung kann mit dem Effekt von Translation und Rotation integriert werden, was zu einer drehstreckungsinvarianten Bedingung zwischen der Niveaumenge des Vorbekannten und der sich entwickelnden führt:
Die Summe von Quadratdifferenzen zwischen der tatsächlichen Grenzfläche Φ und dem Modell Φ_m nach dem Morphen kann als Zielfunktion angesehen werden;
Dieses Kriterium entwickelt die Niveaumengenfunktion in Richtung einer starren Transformation des Modells. Zu diesem Zweck sind die Variationsrechnung und ein Gradientenabstiegsverfahren ein hervorragendes Verfahren zum Gewinnen von Φ.
Diese Strömung enthält eine Formkonsistenzkraft, die die Grenzfläche in Richtung eines besseren lokalen (viel wie bei dem Vorbekannten) und eine Kraft, die darauf abzielt, die Niveaumengenwerte so zu aktualisieren, daß die Region, auf der die Objektivfunktionen ausgewertet werden (–ε, ε) in der Bildebene kleiner und kleiner wird, aktualisiert.
Um den Einfluß dieser Kraft besser zu verstehen, betrachte man einen negativen Φ-Wert in dem Bereich von (–ε, ε)
Deshalb ändert diese Kraft die Position der Grenzfläche nicht, da das Vorzeichen der impliziten Repräsentation an jedem Pixel erhalten wird. Sie wirkt sich nur auf die Form der impliziten Funktion aus, so daß die Fläche, auf der die Zielfunktion ausgewertet wird, abnimmt. Eine solche Kraft kann ignoriert werden, da sie beim Vorgang des Auferlegens des Vorwissens keine sinnvolle Interpretation besitzt.
Man betrachte die Variationsrechnung für die Parameter der Transformation A, die zu folgendem führt:
wobei Tx, Ty die beiden Komponenten des Translationsvektors sind. Die Registrationsparameter zwischen der sich entwickelnden Grenzfläche und dem Modell werden auf globale Weise unter Verwendung regionaler Informationen gewonnen.
Least-Squares-Verfahren können gegenüber Rauschen und Ausreißern empfindlich sein. Die Verwendung robuster Schätzer kann als diese Nebenbedingungen überwindend angesehen werden, wenn die Registration zwischen der Grenzfläche und dem Vorbekannten gewonnen wird:
wobei ρ eine robuste Fehlernorm ist. Es können zusätzliche visuell gesteuerte Terme betrachtet werden, wie zum Beispiel Anziehung an die Ränder und Trennabstand zwischen Objekt und Hintergrund gemäß ihren Intensitätseigenschaften.
Der Rahmen kann eine weiche Nebenbedingung (Repräsentation des Vorbekannten unter Verwendung einer stochastischen Niveaumenge) zur auf Wissen basierenden Segmentierung in eine harte Nebenbedingung übersetzen. Der Vorterm enthält eine Konfidenzabbildung (σ_m). Es kann erwartet werden, daß Gebiete mit starkem Vorbekanntem präzise in dem Bild gewonnen werden sollten. In Gebieten, in denen die Konfidenz des Modells fraglich ist, besitzen Bildinformationen eine dominantere Rolle als das Vorbekannte in dem Segmentierungsprozeß.
Mit einem stochastischen Vorbekannten kann man den Verbundraum der sich entwickelnden Grenzfläche und ihrer Transformation auf das Vormodell unter Verwendung einer probabilistischen Dichtefunktion modellieren. Es sei [p(Φ,A|Φ_m)] die Vorverteilung der Transformation bei gegebenem Modell Φ_m. Eine solche Verteilung ist unbekannt, variiert über verschiedene Objekte hinweg und kann im allgemeineren Fall nicht gewonnen werden. Es können jedoch Monte-Carlo-Sampling oder andere Techniken verwendet werden, um eine solche Verteilung zu gewinnen, wenn empirische Indizien verfügbar sind. Man betrachte eine bayesische Formulierung für diese Dichte
Der konstante Term Φ_m kann ignoriert werden, und es kann angenommen werden, daß der Verbundraum von Grenzflächen und ihren Transformationen gleichförmig ist. Diese Annahme wird jedoch ohne Wissen für die Eigenschaften des zu gewinnenden Objekts betrachtet, wie zum Beispiel der Pose des Objekts, Maßstabsvariationen usw. Das Gewinnen der optimalen Grenzfläche und der Transformation ist äquivalent dem Finden des Maximum Posterior p(Φ_m(A)|Φ), und dies ist äquivalent mit dem Finden des Extremums von:
wobei ω eine Bildstelle und p(Φ_m(A(ω))|Φ(ω)) das stochastische Vorbekannte an dieser Stelle ist und Unabhängigkeit über Pixel hinweg betrachtet wurde. Außerdem wird die Umsetzung der sich entwickelnden Grenzfläche Φ in die Pose, die der in dem Vormodell Φ_m aufgezeichneten ähnlich ist, betrachtet. Zu diesem Zweck muß der Skalenfaktor S berücksichtigt werden, was zu der folgenden Form für das Posterior führt:
Maßstabsvariationen verursachen wie bereits erläutert prädiktive Änderungen in den Abstandstransformations-Niveaumengenrepräsentationen. Die pixeldefinierten Vorverteilungen [p_ω()] sind aus der Modellierungsphase bekannt, und das Lösen des Inferenzproblems ist äquivalent mit dem Finden des niedrigsten Potentials der Funktion –log oder
Durch Verwendung der bekannten gaußschen Eigenschaften der pixeldefinierten Vorverteilungen kann man den folgenden analytischen Ausdruck für die Zielfunktion gewinnen:
wobei konstante Terme weggelassen wurden. Eine solche Zielfunktion enthält einen Term, der das Gewinnen einer Transformation A, die die sich entwickelnde Grenzfläche auf Modellgebiete mit niedriger Konfidenz [großem σ_m(A)] projiziert, zu unterbinden sucht, und einen Term, der lokale Propagation und Schätzung mit den folgenden Zielen koppelt; (i) Wiederherstellung einer Transformation, die die sich entwickelnde Grenzfläche mit dem Vorbekannten ausrichtet, und (ii) entwickeln der Grenzfläche dergestalt, daß sie bei gegebener Transformation wie das Vorbekannte wird. Ein solcher Term hat eine ähnliche konzeptuelle Interpretation mit dem zur Einführung des statischen Vorbekannten verwendeten, ist dabei aber in der Lage, Modellkonfidenz zu berücksichtigen. Der Projektions fehler (SΦ–Φ_m(A))² wird gemäß der Modellkonfidenz σ_m(A) gewichtet.
Innerhalb eines solchen Optimierungsrahmens wird der Fehler für Abweichung von dem Modell in Gebieten mit niedriger Konfidenz (hohem σ_m(A)) (gemäß σ_m(A)) abgewertet.
Solche Gebiete werden folglich in dem Prozeß des Auferlegens des Vorbekannten und des Gewinnens der Transformation weniger wichtig. Ferner behandelt das Modell auf implizite Weise in dem Prozeß der Formdurchsetzung innerhalb des Segmentierungsprozesses Ausreißer.
Das resultierende Kriterium ist jedoch in der gesamten Bildebene definiert. Die Definition des Vorbekannten ist hauptsächlich um die Objektregion herum konsistent und erfordert keine Einschränkung der Zielfunktion innerhalb der interessierenden Struktur.
Die Variationsrechnung innerhalb eines Gradientenabstiegsverfahrens kann das niedrigste Potential der Kostenfunktion liefern. Es sollen zwei unbekannte Variablen gewonnen werden, die Objektposition (Form der Funktion Φ)
und die Transformation zwischen Objekt und dem Vorbekannten:
wobei die partiellen Ableitungen von Φ(A), σ_m(A) nach den Transformationsparametern wie im Fall des statischen Vorbekannten unter Verwendung der Kettenregel gewonnen werden können. Die Flächenkraft hat dieselbe Interpretation wie die im Fall des statischen Vorbekannten präsentierte und kann deshalb ignoriert werden. Ein solches stochastisches Vorbekanntes kann zur Gewinnung einer interessierenden Struktur verwendet werden, die die Konfidenz des Vorbekannten auf elegante probagonistische Weise berücksichtigt.
Beide Terme beziehen sich auf eine zusätzliche Komponente zum Auferlegen von Vorwissen auf die Segmentierung und berücksichtigen nicht die visuellen Eigenschaften des Objekts.
Um das Vorbekannte einzuführen (siehe 5) betrachte man eine bimodale Partition, die sich auf das interessierende Objekt und den Hintergrund bezieht. Das Modell der geodesischen Aktivregion kann eine solche Partition berücksichtigen. Es wird angenommen, daß sich visuelle Unstetigkeiten (z.B. starke Ränder) in dem Bild auf die Ränder der gewünschten Partition beziehen. Ohne Verlust an Allgemeingültigkeit können Gaußsche Verteilungen verwendet werden, um die Intensitätseigenschaften des Objekts und des Hintergrunds zu erfassen 501. Parameter (z.B. Mittelwert, Varianz) des Objekts und Hintergrunds werden gemäß einer letzten Segmentierungsabbildung 502 unter Verwendung des empirischen Mittelwerts und der empirischen Varianz geschätzt:
wobei g eine monotone positive abnehmende Funktion ist. Man kann die Gaußschen Verteilungen weiterentwickeln, um eine zweckmäßigere Form für die bezüglich visueller Region definierte Komponente zu gewinnen. Die Variationsrechnung kann zu einer geometrischen Strömung führen, die die Ausbreitung der Kontur in Richtung der Objektgrenzen führt, während das Vorbekannte respektiert wird (siehe 1, 103). Außerdem können Mischungsmodelle oder nichtparametrische Techniken betrachtet werden, um die visuellen Eigenschaften von Objekt und Hintergrund zu erfassen.
Bezüglich einer schnellen Implementierung des Rahmens betrachte man ein schmalbandiges Verfahren, das die Niveaumengenrepräsentation in der Umgebung der letzten Position der Kontur entwickelt. Änderungen auf der sich entwickelnden Kontur werden auf dem Nullniveau geschehen und dann in der Richtung nach innen und nach außen propagiert. Eine solche Auswahl verbessert außerdem die Leistungsfähigkeit des Form-Vorterms. Dieser Term ist um die mittlere Form herum präzise und wird weniger präzise, wenn er sich von dem Nullniveau des Vorbekannten wegbewegt. Die Niveaumengenrepräsentation kann deshalb innerhalb der iso-photen [–ε, ε] aktualisiert werden.
Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine auf Wissen basierende Segmentierungstechnik innerhalb eines Niveaumengenrahmens implementiert. Es wird ein Vormodell konstruiert und eingeführt. Bezüglich der Konstruktion des Vorbekannten wird, um mit dem betrachteten gewählten Optimierungsrahmen konsistent zu sein, eine stochastische Niveaumengenrepräsentation implementiert. Ein solches Modell enthält eine Abstandstransformations-Einbettungsfunktion (Niveaumenge) und eine Konfidenzkomponente. Eine solche Funktion wird durch einen Ansatz der eingeschränkten Optimierung gewonnen. In dem Niveaumengenraum wird eine Menge von Trainingsbeispielen betrachtet, wobei Abstandstransformationen als Einbettungsfunktionen verwendet werden. Modellierung ist dann äquivalent mit dem Gewinnen einer repräsentativen Niveaumengen-Abstandsfunktion und glatter Messungen der Konfidenz auf Pixelniveau. Solche Messungen versuchen, die Übereinstimmung der Trainingsmenge an dieser bestimmten Stelle zu quantifizieren. Um ein solches Modell zu gewinnen, wechseln das System und das Verfahren zwischen: eine Niveaumengenfunktion, die den Daten nahekommt, wird gewonnen und die auffallendste Projektion dieser Funktion auf die Mannigfaltigkeit zulässiger Lösungen wird bestimmt, bis Konvergenz erreicht ist. Vorwissen wird auf allmähliche Weise eingeführt. Statische harte Nebenbedingungen, die erzwingen, daß die Segmentierungslösung eine Drehstreckungstransformation des Vormodells ist, werden zuerst betrachtet. Es wird eine Zielfunktion, die die Transformation sowie die Position des Objekts in dem Bild berücksichtigt, definiert und zum Gewinnen sowohl der Projektion als auch der Konfidenz verwendet.
Es werden probabilistische Prinzipien betrachtet, die zu einem Maximum-Posterior-Problem führen, das die lokalen Variationen des Modells umfaßt.
Nachdem Ausführungsformen für ein Variations-Niveaumengensystem und -verfahren für die formgesteuerte Objektdetektion auf Wissensbasis beschrieben wurden, wird angemerkt, daß Fachleute im Hinblick auf die obigen Lehren Modifikationen und Abwandlungen vornehmen können. Es versteht sich deshalb, daß an den offengelegten konkreten Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die innerhalb des Schutzumfangs und Gedankens der Erfindung liegen, der durch die angefügten Ansprüche definiert wird. Nachdem die Erfindung somit mit der von dem Patentrecht geforderten Genauigkeit beschrieben wurde, wird das Beanspruchte und durch das Patentgesetz zu Schützende in den angefügten Ansprüchen dargelegt.

Claims

Verfahren zum Erkennen eines Objekts in einem Bild mit den folgenden Schritten: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen; und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.
Verfahren nach Anspruch 1, wobei die Trainingsbeispiele auf eine gemeinsame Pose ausgerichtet sind.
Verfahren nach Anspruch 1, wobei das Bestimmen des Formmodells weiterhin die folgenden Schritte umfaßt: Bestimmen einer Niveaumengenpräsentation des Objekts in dem Bild; Bestimmen der Projektion als auffallendste Form in dem Bild; und Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form.
Verfahren nach Anspruch 3, weiterhin mit dem Schritt des Bestimmens eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation des Objekts und der Projektion und des Konfidenzmaßes.
Verfahren nach Anspruch 1, wobei die Projektion und Konfidenzmessung in einem Pixelniveau des Bildes definiert werden.
Verfahren nach Anspruch 1, wobei das Konfidenzmaß als Konfidenzabbildung des Objekts bestimmt wird, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
Verfahren nach Anspruch 1, wobei der Niveaumengenrahmen folgendes umfaßt: Bestimmen einer Intensitätseigenschaft für das Objekt und eines Hintergrunds in dem Bild; und Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
Verfahren nach Anspruch 1, wobei sich die Projektion auf einem Nullniveau entwickelt und in einer Richtung nach innen und nach außen zu einem Rand des Objekts propagiert.
Verfahren nach Anspruch 1, wobei das Vorbekannte ein stochastisches Vorbekanntes ist.
Verfahren nach Anspruch 9, wobei das stochastische Vorbekannte für die Abweichung von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen einführt, der in Gebieten mit reduzierter Konfidenz abnimmt.
Durch Maschine lesbare Programmspeichereinrichtung, die greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erkennen eines Objekts in einem Bild auszuführen, wobei die Verfahrensschritte folgendes umfassen: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen; und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.
Verfahren nach Anspruch 11, wobei die Trainingsbeispiele auf eine gemeinsame Pose ausgerichtet sind.
Verfahren nach Anspruch 11, wobei das Bestimmen des Formmodells weiterhin die folgenden Schritte umfaßt: Bestimmen einer Niveaumengenpräsentation des Objekts in dem Bild; Bestimmen der Projektion als auffallendste Form in dem Bild; und Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form.
Verfahren nach Anspruch 13, weiterhin mit dem Schritt des Bestimmens eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation des Objekts und der Projektion und des Konfidenzmaßes.
Verfahren nach Anspruch 11, wobei die Projektion und Konfidenzmessung in einem Pixelniveau des Bildes definiert werden.
Verfahren nach Anspruch 11, wobei das Konfidenzmaß als Konfidenzabbildung des Objekts bestimmt wird, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
Verfahren nach Anspruch 11, wobei der Niveaumengenrahmen folgendes umfaßt: Bestimmen einer Intensitätseigenschaft für das Objekt und eines Hintergrunds in dem Bild; und Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
Verfahren nach Anspruch 11, wobei sich die Projektion auf einem Nullniveau entwickelt und in einer Richtung nach innen und nach außen zu einem Rand des Objekts propagiert.
Verfahren nach Anspruch 11, wobei das vorbekannte ein stochastisches Vorbekanntes ist.
Verfahren nach Anspruch 10, wobei das stochastische Vorbekannte für die Abweichung von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen einführt, der in Gebieten mit reduzierter Konfidenz abnimmt.