DE102005003605A1 - Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung - Google Patents

Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung Download PDF

Info

Publication number
DE102005003605A1
DE102005003605A1 DE200510003605 DE102005003605A DE102005003605A1 DE 102005003605 A1 DE102005003605 A1 DE 102005003605A1 DE 200510003605 DE200510003605 DE 200510003605 DE 102005003605 A DE102005003605 A DE 102005003605A DE 102005003605 A1 DE102005003605 A1 DE 102005003605A1
Authority
DE
Germany
Prior art keywords
level
image
projection
determining
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE200510003605
Other languages
English (en)
Other versions
DE102005003605B4 (de
Inventor
Nikolaos Paragyios
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Medical Solutions USA Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of DE102005003605A1 publication Critical patent/DE102005003605A1/de
Application granted granted Critical
Publication of DE102005003605B4 publication Critical patent/DE102005003605B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7553Deformable models or variational models, e.g. snakes or active contours based on shape, e.g. active shape models [ASM]

Abstract

Ein Verfahren zum Erkennen eines Objekts in einem Bild umfaßt die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang von Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.

Description

  • Die vorliegende Anmeldung beansprucht Priorität gegenüber der provisorischen U.S.-Anmeldung, laufende Nr. 60/540,129, registriert am 29.1.2004, worauf hiermit vollständig ausdrücklich Bezug genommen wird.
  • HINTERGRUND DER ERFINDUNG
  • Technisches Gebiet:
  • Die vorliegende Offenlegung betrifft die Objektdetektion in Bildern und insbesondere ein Variations-Niveaumengensystem und -verfahren zur formgesteuerten Objektdetektion auf Wissensbasis.
  • Die Gewinnung einer bestimmten interessierenden Struktur aus einem Bild, das bestimmten vordefinierten Eigenschaften folgt, ist für die Bildsegmentierung auf Modellbasis nützlich. Solche Eigenschaften können visuell oder geometrisch sein. Visuelle Eigenschaften lassen sich erfassen, indem globale Verteilungen aufgebaut werden, um die Luminanzeigenschaften der interessierenden Struktur zu beschreiben, oder durch Erzeugen lokaler Erscheinungsbildmodelle. Solche Modelle können in einem Szenario mit eingeschränkter Beleuchtung effizient sein, wenn Änderungen minimal sind und durch ein Modell erfaßt werden können.
  • Die formgesteuerte Segmentierung auf Wissensbasis ist eine Alternative zu den visuell gesteuerten Techniken. Solche Verfahren versuchen, eine Struktur zu gewinnen, die im Vergleich zu einem vorbekannten Modell konsistente geometrische Form aufweist. Glätte ist ein Beispiel für das Auferlegen einer vorbekannten Nebenbe dingung. Lokale geometrische Eigenschaften (z.B. Krümmung, lokale Glättenebenbedingungen) können beim Definieren eines solchen vorbekannten Modells verwendet werden, oder man kann ein vorbekanntes Modell auf globalere Weise definieren, was zu konkreteren Repräsentationen führt, die die Varianz der gesamten interessierenden Struktur erfassen. Obwohl lokale Modelle effizient sind, sind globale Repräsentationen ein geeigneter Ansatz um Verdeckungen, Rauschen und Änderungen an der Objektpose handhaben zu können.
  • Modellierung wird vor der Einführung globaler formgesteuerter Nebenbedingungen benötigt. Eine solche Aufgabe ist äquivalent mit dem Extrahieren einer kompakten Repräsentation für die interessierende Struktur aus einer Menge von Trainingsbeispielen. Die Repräsentationsauswahl hängt mit der Form des Vorbekannten zusammen, das eingeführt werden soll, und wird durch die Größe der Trainingsmenge eingeschränkt. Das Aufbauen komplexer Modelle erfordert sehr viel Bodenwahrheit. Die Registration aller Beispiele auf eine gemeinsame Pose ist ein wichtiger Teil der Modellierungsphase. Korrespondenzen für die grundlegenden Elemente der Proben des Trainings müssen für eine effiziente Modellierung gewonnen werden.
  • Bei der formgesteuerten Segmentierung auf Wissensbasis werden vielfältige Modelle benutzt. Die Verwendung geometrischer Komponenten, wie zum Beispiel gerade Segmente und Elipsoide, war ein Versuch, eine kompakte Repräsentation für das Modellieren von Seiten zu erzeugen. Obwohl solche Modelle im Hinblick auf Leistungsfähigkeit und niedrige Komplexität bei der Modellierung einfacher geometrischer Strukturen effizient sind, werden bei ihnen keine lokalen Informationen und wichtige Variabilität des interessierenden Objekts berücksichtigt. Bei einem gegebenen solchen Modell erfolgt die Segmentierung dann durch Einstellung der lokalen geometrischen Komponenten in Richtung der gewünschten Bildeigenschaften. Zu anderen Techniken gehören deformierbare Vorlagen, Modelle mit aktiver Form und Erscheinung und Snake-Modelle.
  • Das Anwendungsgebiet für Niveaumengenverfahren bei Machine Vision ist groß und nicht auf Bildsegmentierung, Restauration, Tracking, Form aus Schattierung, 3D-Rekonstruktion, medizinische Bildsegmentierung usw. beschränkt. Diese Techniken wurden eingeführt, untersucht und auf andere wissenschaftliche Bereiche angewandt, wie zum Beispiel Geometrie, Robotik, Fluide, Halbleiterentwicklung usw. Die meisten der erwähnten Anwendungen teilen sich ein gemeinsames Problem: das Verfolgen sich bewegender Grenzflächen. Niveaumengenrepräsentationen eignen sich gut für rechnerische Verfahren zur Durchführung dieser Aufgabe. Sie können für beliebige Dimension verwendet werden (z.B. Kurven, Flächen, Hyperflächen usw.), sind parameterfrei und können die Topologie der sich entwickelnden Grenzfläche auf natürliche Weise ändern. Darüber hinaus geben sie ein natürliches Verfahren zur Bestimmung und Schätzung geometrischer Eigenschaften der sich entwickelnden Grenzfläche.
  • Diese Techniken können auch nichtstarre Objekte und Bewegungen behandeln, da sie sich auf sehr lokale Eigenschaften beziehen und eine Grenzfläche pixelweise deformieren können. Sie können jedoch im Vergleich zu parametrischen Modellen eine schlechte Leistungsfähigkeit aufweisen, wenn feste/starre Bewegungen und Objekte betrachtet werden. Lokale Propagationen sind empfindlich und nutzen bestimmte wohldefinierte physikalische A-priori-Nebenbedingungen, wie zum Beispiel Festformmodelle, nicht voll aus.
  • Deshalb werden ein Variations-Niveaumengensystem und -verfahren zur formgesteuerten Objektdetektion auf Wissensbasis benötigt.
  • KURZE DARSTELLUNG DER ERFINDUNG
  • Modellierung ist für formgesteuerte Segmentierungstechniken wichtig. Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine stochastische Niveaumengenformulierung implementiert, um Vorwissen in einem Variations-Niveaumengenverfahren für die formgesteuerte Objektextraktion auf Wissensbasis zu berücksichtigen. Zu diesem Zweck werden Objekte in einer impliziten Form repräsentiert, wobei eine stochastische Abstandsfunktion verwendet wird, die Konfidenzgrade aufweist. Dem Segmentierungsprozeß werden Nebenbedingungen auferlegt, indem nach einer geometrischen Struktur in der Bildebene gesucht wird, die zu der Familie von Formen gehört, die von dem vorbekannten Modell gemäß einer Ähnlichkeitsbewegungstransformation erzeugt wurde. Es wird eine nichtstationäre Metrik zwischen der sich entwickelnden Kontur und dem Modell minimiert, was zu Bewegungsgleichungen führt, die diese Kontur in Richtung der gewünschten Bildeigenschaften entwickeln und die dazwischenliegenden Registrationsparameter bei dem vorbekannten Modell aktualisieren. Bei Konvergenz werden eine Struktur, zu der Mannigfaltigkeit zulässiger Lösungen gehört, und die entsprechende Transformation gewonnen.
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung umfaßt ein Verfahren zum Erkennen eines Objekts in einem Bild die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.
  • Die Trainingsbeispiele werden auf eine gemeinsame Pose ausgerichtet.
  • Das Bestimmen des Formmodells umfaßt weiterhin das Bestimmen einer Niveaumengenpräsentation des Objekts in dem Bild, das Bestimmen der Projektion als auffallendste Form in dem Bild und das Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form. Das Verfahren umfaßt weiterhin das Bestimmen eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation des Objekts und der Projektion und des Konfidenzmaßes.
  • Die Projektion und die Konfidenzmessung werden auf Pixelniveau des Bildes definiert. Das Konfidenzmaß wird als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
  • Der Niveaumengenrahmen umfaßt das Bestimmen einer Intensitätseigenschaft für das Objekt und eines Hintergrunds in dem Bild und das Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
  • Die Projektion entwickelt sich auf einem Nullniveau und propagiert in einer Richtung nach innen und nach außen zu einem Rand des Objekts.
  • Das Vorbekannte ist ein stochastisches Vorbekanntes. Das stochastische Vorbekannte führt für die Abweichung von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen ein, der in Gebieten mit reduzierter Konfidenz abnimmt.
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine Programmspeichereinrichtung bereitgestellt, die durch Maschine lesbar ist und greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erkennen eines Objekts in einem Bild auszuführen. Das Verfahren umfaßt die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlicher mit Bezug auf die beigefügten Zeichnungen beschrieben.
  • 1 ist ein Flußdiagramm eines Verfahrens gemäß einer Ausführungsform der vorliegenden Offenlegung;
  • 2 ist ein Diagramm eines Systems gemäß einer Ausführungsform der vorliegenden Offenlegung;
  • 3 ist ein Flußdiagramm eines Verfahrens zur Bestimmung eines Formmodells gemäß einer Ausführungsform der vorliegenden Offenlegung;
  • 4 ist ein Flußdiagramm eines Verfahrens zur Bestimmung eines Vorbekannten gemäß einer Ausführungsform der vorliegenden Offenlegung und;
  • 5 ist ein Flußdiagramm eines Verfahrens für eine Niveaumengenbestimmung, die ein Vorbekanntes implementiert, gemäß einer Ausführungsform der vorliegenden Offenlegung.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung werden Niveaumengenrepräsentationen darauf eingeschränkt, einer Form-Global-Konsistenz zu folgen, während die Möglichkeit zur Erfassung lokaler Deformationen erhalten wird. Es werden globale und lokale Formeigenschaften des Objekts gewonnen.
  • Ein Formmodell wird direkt unter Verwendung einer Probensammlung auf dem Niveaumengenraum aufgebaut. Mit Bezug auf 1 wird das Formmodell unter Verwendung eines Variationsrahmens konstruiert, der eine nichtstationäre pixelweise Niveaumengenrepräsentation erzeugt, die Formvariabilität berücksichtigt 101. Das Formmodell dient als Grundlage für die Einführung eines Form-Vorbekannten in einer energetischen Form 102. Das Form-Vorbekannte minimiert einen nichtstationären Abstand zwischen der sich entwickelnden Grenzfläche und dem Formmodell, deformiert gemäß einer Drehstreckungstransformation, um ein Objekt zu bestimmen 103.
  • Ein System und Verfahren gemäß einer Ausführungsform der vorliegenden Offenlegung kann als ein Modul implementiert und mit existierenden datengesteuerten Variations-Verfahren integriert werden, um eine Bildsegmentierung für physisch verfälschte und unvollständige Daten durchzuführen.
  • Es versteht sich, daß die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessoren oder einer Kombination davon implementiert werden kann. Bei einer Ausführungsform kann die vorliegende Erfindung in Software als ein greifbar auf einer Programmspeichereinrichtung realisiertes Anwendungsprogramm implementiert werden. Das Anwendungsprogramm kann in eine Maschine mit jeder beliebigen geeigneten Architektur herauf geladen und durch diese ausgeführt werden.
  • Mit Bezug auf 2 kann gemäß einer Ausführungsform der vorliegenden Erfindung ein Computersystem 201 zur Implementierung der vorliegenden Erfindung u.a. folgendes umfassen: eine zentrale Verarbeitungseinheit (CPU) 202, einen Speicher 203 und eine Eingabe/Ausgabe(E/A-)Schnittstelle 204. Das Computersystem 201 ist im allgemeinen durch die E/A-Schnittstelle 204 mit einer Anzeige 205 und verschiedenen Eingabegeräten 206 wie zum Beispiel einer Maus und einer Tastatur, gekoppelt. Zu den Unterstützungsschaltungen können Schaltungen wie zum Beispiel ein Cache, Stromversorgungen, Taktschaltungen und ein Kommunikationsbus gehören. Der Speicher 203 kann Direktzugriffsspeicher (RAM), Nurlesespeicher (ROM), ein Plattenlaufwerk, ein Bandlaufwerk usw. oder eine Kombination davon umfassen. Die vorliegende Erfindung kann als eine Routine 207 implementiert werden, die in dem Speicher 203 gespeichert und durch die CPU 202 ausgeführt wird, um das Signal aus der Signalquelle 208 zu verarbeiten. Das Computersystem 201 ist dementsprechend ein Vielzweckcomputersystem, das zu einem speziellen Computersystem wird, wenn es die Routine 207 der vorliegenden Erfindung ausführt.
  • Die Computerplattform 201 umfaßt außerdem ein Betriebssystem und Mikroanweisungscode. Die verschiedenen hier beschriebenen Prozesse und Funktionen können entweder Teil des Mikroanweisungscodes oder Teil des Anwendungsprogramms (oder eine Kombination davon) sein, der bzw. das über das Betriebssystem ausgeführt wird. Zusätzlich können verschiedene andere Peripheriegeräte an die Computerplattform angeschlossen werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein Druckgerät.
  • Da ein Teil der konstituierenden Systemkomponenten und Verfahrensschritte, die in den beigefügten Figuren abgebildet sind, in Software implementiert sein kann, versteht sich ferner, daß die eigentlichen Verbindungen zwischen den Systemkomponenten (oder Prozeßschritten) abhängig von der Art und Weise der Programmierung der vorliegenden Erfindung unterschiedlich sein können. Anhand der hier gegebenen Lehren der vorliegenden Erfindung werden Durchschnittsfachleute auf dem relevanten Gebiet in der Lage sein, diese und ähnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.
  • Implizite Repräsentationen:
  • Die Segmentierung kann unter Verwendung von Grenzflächen (z.B. Kurven) durchgeführt werden, die sich gemäß einer Strömung entwickeln. Die Strömung, die die Propagation der Kurve bestimmt, kann durch Minimierung einer Zielfunktion gewonnen oder gemäß dem Anwendungskontext definiert werden (z.B. geometrische Strömungen). Segmentierungsansätze auf Snake-Basis beziehen sich auf die Propagation von Kurven von einer Anfangsposition in Richtung der gewünschten Bildeigenschaften. Zu solchen Strömungen gehören interne und externe Terme.
  • Um Niveaumengenrepräsentationen einzuführen, betrachte man eine parametrische Kurve
    Figure 00090001
    die sich gemäß einer gegebenen Bewegungsgleichung in der normalen Richtung N1 entwickelt:
    Figure 00090002
    wobei F eine skalare Funktion auf den lokalen Eigenschaften der Kurve (z.B. Krümmung) ist. Diese Strömung kann unter Verwendung eines Lagrangian- Ansatzes implementiert werden. Die Kontur wird in diskreter Form unter Verwendung einer Auswahl von Kontrollpunkten repräsentiert. Die Kurvenposition kann durch Lösen von Gl. 1 und Gl. 2 für jeden Kontrollpunkt aktualisiert werden. Eine solche Technik kann im allgemeinsten Fall die Topologie der sich entwickelnden Kurve nicht ändern und es kann eine Umparametrisierung der sich entwickelnden Kurve notwendig sein.
  • Das Niveaumengenverfahren wurde zuerst auf dem Gebiet der Fluiddynamik eingeführt und ist eine neue Technik zum Behandeln verschiedener Anwendungen in der Abbildung, Vision und Graphik. Niveaumengenverfahren repräsentieren die sich entwickelnde Kurve mit dem Nullniveau einer Fläche ϕ:[x,y,ϕ(x,y)]:
    Figure 00100001
  • Eine solche Repräsentation ist implizit, intrinsisch und parameterfrei. Die Oberfläche kann so entwickelt werden, daß das Nullniveau immer der sich entwickelnden Kurve nachgibt. Durch Bilden der Ableitungen von Φ nach der Zeit erhält man:
    Figure 00100002
  • Somit wird eine Verbindung zwischen der Familie sich entwickelnder Kurven ∂R und der Familie sich entwickelnder Flächen Φ hergestellt. Ein solches Propagationsschema kann topologische Änderungen berücksichtigen und kann die Schätzung der lokalen geometrischen Eigenschaften der Kurve unterstützen.
  • Energieminimierungstechniken können verwendet werden und eine Strömung kann erhalten und in dem Niveaumengenraum implementiert werden.
  • Das Definieren von Zielfunktionen im Niveaumengenraum zur Gruppierung führt in Richtung der Einrichtung von Niveaumengentechniken bei der Abbildung und Vision. Zu diesem Zweck betrachte man die Abstandstransformation D(s,∂R) als Einbettungsfunktion für ∂R:
    Figure 00110001
    und die Dirac- und Heaviside-Distribution:
    Figure 00110002
    und verwende diese zur Einführung einer Bildpartitionszielfunktion. Glättenebenbedingungen, randgesteuerte Objektdetektion sowie allgemeine Regionskonsistenz-Gruppierungsterme können nun direkt auf dem Niveaumengenraum Φ eingeführt werden. Längenminimierung ist ein wohlbekannter geometrischer Glätteterm, der auf einfache Weise zum Beispiel unter Verwendung der folgenden Formulierung eingeführt werden kann:
    Figure 00110003
  • Mit der geodesischen Aktivkontur (Gl. 8) kann eine Kurve minimaler Länge gewonnen werden:
    Figure 00120001
    gemäß einer bestimmten willkürlichen Metrikfunktion b:R+ → [0, 1]. Eine solche Funktion ist monoton abnehmend mit Minimalwerten an den Bildstellen mit den gewünschten Merkmalen (z.B. hoher Gradient). Die Variationsrechnung kann eine geometrische Strömung zur Aktualisierung der Position der Grenzfläche in Richtung der gewünschten Bildeigenschaften bereitstellen:
    Figure 00120002
  • Solche Strömungen können unter bestimmten Anfangsbedingungen zu präziser Randextraktion führen. Der Startpunkt muß im wesentlichen das interessierende Objekt einkreisen oder im wesentlichen von diesem umgeben sein. Ferner ist Vorwissen bezüglich der Propagationsrichtung notwendig.
  • Mit regionalen/globalen Informationsmodulen kann ein Objekt in einem Bild von dem Hintergrund des Bildes getrennt werden, wobei adaptive Ballonkräfte verwendet werden, um die Notwendigkeit, Anfangsbedingungen zu erfüllen, zu überwinden. Das regionale/globale Informationsmodul verwendet die sich entwickelnde Grenzfläche, um eine Bildpartition zu definieren, die in bezug auf bestimmte Gruppierungskriterien optimal ist. Ein solches Kriterium kann aus der Heaviside-Distribution abgeleitet werden:
    Figure 00120003
    (gemäß bestimmten globalen Deskriptoren ro: R+ → [0, 1], rB:R+ → [0, 1], die monoton abnehmende Funktionen sind). Solche Deskriptoren messen die Qualität der Übereinstimmung zwischen dem beobachtenden Bild und den erwarteten regionalen Eigenschaften der interessierenden Struktur und dem Hintergrund. Ein solcher Term kann die Segmentierungsleistung verbessern und kann bewirken, daß der Ansatz weniger von den Anfangsbedingungen abhängig wird. Die Variationsrechnung kann in bezug auf die Entwicklung von Φ zu der folgenden Strömung führen:
    Figure 00130001
    wobei es sich um eine adaptive Ballonkraft handelt. Eine solche Kraft basiert auf relativen Messungen und expandiert oder schrumpft die Kurve gemäß der lokalen Anspassung der Daten in bezug auf die erwarteten Intensitätseigenschaften des Objekts und der Hintergrundklasse.
  • Die Kurvenpropagation durch Verwendung impliziter Repräsentationen ist ein effizientes Segmentierungswerkzeug. Präzise Extraktion von Rändern, Möglichkeit zur Behandlung von mehrkomponentigen Objekten und Integration von Partitionsmodulen verschiedener Beschaffenheit sind Stärken eines solchen Verfahrens. Relativ oft ist die Segmentierung mit dem Gewinnen einer Struktur von besonderem Interesse äquivalent. Vorwissen bezüglich des Prozesses kann sich entweder auf die visuellen Eigenschaften des Objekts oder auf seine geometrische Form beziehen.
  • Formgesteuerte Einführungs-Module sind ein wertvolles Element für den Segmentierungsprozeß. Eine solche Aktion umfaßt das Definieren/Gewinnen einer Struktur zur Repräsentation des Vorwissens und das Einführen von Nebenbedingungen, die den Segmentierungsprozeß in Richtung von Lösungen führen, die dem Vorwissen oder Vorbekannten genügen. Das Vorbekannte kann eine Mannigfaltigkeit von Lösungen definieren und die Segmentierung bestimmt die wahrscheinlichste Lösung gemäß den Bilddaten innerhalb dieser Mannigfaltigkeit.
  • Aufbau eines impliziten Formmodells (1, 101):
  • Die Auswahl einer Repräsentation für das Vorwissen ist eine wichtige Komponente bei der Einführung solcher Nebenbedingungen. In einem typischen Szenario würde man gerne eine kompakte Struktur aus einer Menge von N Trainingsbeispielen [C1, C2, ..., CN] zur Repräsentation des Vorbekannten gewinnen. Die Trainingsbeispiele können Bilder eines repräsentativen interessierenden Objekts sein. Die Struktur sollte in der Lage sein, die Variabilität der Trainingsbeispiele zu beschreiben. Innerhalb eines solchen Prozesses ist Registration notwendig. Mit Bezug auf 4 werden mehrere Trainingsbeispiele bereitgestellt 401. Die Trainingsbeispiele werden auf eine gemeinsame Pose [Ĉ1, Ĉ2, ...,ĈN] 402 ausgerichtet und es wird eine sinnvolle kompakte Repräsentation der Beispiele gesucht, die Vorwissen für die bestimmte Pose codieren kann 403. Die Ausrichtung von Formen ist bei der Abbildung und Vision mit zahlreichen potentiellen Anwendungen ein Problem.
  • Implizite Repräsentationen und Abstandstransformationen können für eine Repräsentation von Formen in einer höheren Dimension betrachtet werden. Auf diesem Raum kann eine Registration durchgeführt werden, wobei nach einer Transformation gesucht wird, die die implizite Repräsentation der Quelle mit der Repräsentation des Ziels ausrichtet. Mit globalen Fehlermetriken wie zum Beispiel Summe quadrierter Differenzen sowie Maximierung der gegenseitigen Informationen im Raum impliziter Repräsentationen kann man ein parametrisches Modell gewinnen, das die Verschiebung zwischen Quelle und Ziel beschreibt. Im Raum impliziter Repräsentationen können lokale Deformationen entweder unter Verwendung von optischen Strömungsnebenbedingungen oder von Free-From-Deformationen berücksichtigt werden.
  • Das Einführen des Vorwissens in Niveaumengenverfahren erfordert die Definition eines Modells. Punktewolke ist ein Beispiel für eine Technik zur Repräsentation von solchem Wissen auf simplistische Weise. Das Aufbauen einer mittleren Form über die Beispiele der Trainingsmenge hinweg kann ausreichen, um ein Vorbekanntes zu repräsentieren. Eine solche Technik erfaßt möglicherweise keine Variabilität und ist möglicherweise innerhalb eines Niveaumengenrahmens, wenn die sich entwickelnde Grenzfläche nicht unter Verwendung von Punkten repräsentiert wird, nicht zweckmäßig. In einem solchen Rahmen kann die Definition des Vorbekannten innerhalb des Niveaumengenraums betrachtet werden. Konsistenz zwischen dem Rahmen von Propagationstechnik/Optimierung und der Form des Vorbekannten ist sinnvoll. Das Ziel ist, aus einer Menge von Beispielen [Φ1, Φ2, ..., ΦN] eine kompakte Repräsentation zur Codierung des Vorbekannten zu gewinnen, wobei Φ die Niveaumengenrepräsentation von Ĉi ist. Priciple Component Analysis (PCA) kann angewandt werden, um die Statistik der entsprechenden Elemente über die Trainingsbeispiele hinweg zu erfassen. PCA bezieht sich auf eine lineare Transformation von Variablen, die für eine gegebene Anzahl n von Operatoren den größten Grad an Variation innerhalb der Trainingsdaten beibehält. Eine solche Technik benötigt eine signifikante Anzahl von Stichproben innerhalb der Trainingsmenge.
  • Man betrachte die Erzeugung eines Modells, das die Struktur mittlerer Form und die Fähigkeit zur Erfassung der Variabilität der Lernmenge kombiniert. Gemäß einer Ausführungsform der vorliegenden Offenlegung bestimmt ein Modell eine auffallendste Form sowie die Konfidenz entlang der Formteile (siehe 3). Wenn Übereinstimmung zwischen den Trainingsbeispielen für einen bestimmten Teil des Objekts vorliegt, sollte die Konfidenz hoch sein und die Gewinnung des Objekts in dem Bild sollte das Vorbekannte stark respektieren. Wenn dies nicht der Fall ist, sollte die Vorbekanntes-Nebenbedingung gelockert werden und die Bildinformation sollte wichtiger sein. Das Modell implementiert eine stochastische Niveaumengenrepräsentation (siehe 1, 101) mit einer repräsentativen Form Φm und einer Konfidenzabbildung σm, die beide in dem Pixelniveau bzw. in den Pixelniveaus folgendermaßen definiert sind:
    Figure 00160001
  • Die repräsentative Form sollte eine Niveaumenge sein, wobei die Abstandstransformation als Einbettungsfunktion betrachtet wird, was zu der Nebenbedingung |∇ Φm| = 1 führt. Diese Nebenbedingung kann gelockert werden, und eine Form, die am besten die Trainingsproben [Φ1, Φ2, ..., ΦN] beschreibt (z. B. der Mittelwert):
    Figure 00160002
    kann gesucht werden. Eine solche Modellierung nimmt Unabhängigkeit zwischen Pixeln an. In Richtung der Konstruktion der Niveaumengen-Vorbekanntes-Repräsentation betrachte man die Lösung des Inferenzproblems auf Pixelniveau(s). Mit einer gegebenen Menge von werten [Φ1(s), Φ2(s), ..., ΦN(s)] gewinne man eine Verteilung Φm(s), Φm(s), die die Daten besser ausdrückt.
  • Maximum Prosterior dieser Verteilung entlang den Trainingsproben ist äquivalent mit der Minimierung von
    Figure 00160003
    wobei bestimmte konstante Terme weggelassen wurden. Man kann ein solches Kriterium auf der Bildebene definieren und das Vorbekannte durch Suchen nach dem niedrigsten Potential von folgendem gewinnen:
    Figure 00170001
  • Natürliche Objekte bestehen aus lokalen Segmenten und Artikulationen. Solche Dinge (Artikulationen) könnten zu Segmenten mit niedriger Konfidenz führen, wenn das betrachtete Modell aufgebaut wird. Obwohl die Bewegung solcher Komponenten nicht regelmäßig ist, wird auf lokalem Niveau erwartet, daß die Konfidenz des Modells glatt ist. Das Objekt kann in Segmente zerlegt werden, die fest sind, und σm ist entlang dieser Segmente oder innerhalb eines kleinen Umgebungssystems in der Bildebene glatt.
  • Bei der Betrachtung von Optimierungsproblemen können Glätteterme verwendet werden. Die Zielfunktion ist nicht konvex und weist eine große Anzahl lokaler Minima auf. Ferner kann ein solches Problem schlecht definiert sein, da die Anzahl von Nebenbedingungen kleiner als die Anzahl unbekannter Variablen ist. Eine Technik zur Überwindung dieser Begrenzung umfaßt das Einführen von Kosten für die räumlichen Ableitungen des gewonnenen Feldes (σm)
    Figure 00170002
    wobei Ψ(u, v) eine Regularisierungsfunktion ist. Eine einfache Auswahl für Ψ umfaßt eine Variante der Fehlerzwei-Norm:
    Figure 00180001
  • Mit Variationsrechnung und einem Gradientenabstiegsverfahren kann man die Lösung für das Vormodell (Φm, σm) gewinnen. Die letzte zu berücksichtigende Nebenbedingung betrifft Φm. Bei gegebener Form von Trainingsbeispielen (Niveaumengenrepräsentationen mit Abstandstransformationen als Einbettungsfunktion) kann in dieser Mannigfaltigkeit ein Modell Φm bestimmt werden. Die Optimierung dieses Funktionals unter Berücksichtigung von Nebenbedingungen kann durch Verwendung von Lagrange-Multiplikatoren und eines Gradientenabstiegsverfahrens durchgeführt werden. Angesichts der Form der Nebenbedingungen kann nicht angenommen werden, daß die Bedingungen, die die Gültigkeit des Lagrange-Theorems garantieren, erfüllt sind. Außerdem ist die Anzahl unbekannter Variablen des Systems zu hoch was zu einem instabilen System führt. Solche Begrenzungen können durch Verwendung einer ergänzten Lagrangeschen Funktion überwunden werden.
  • Mit Bezug auf 3 kann, um die Abstandsfunktionsnebenbedingung zu berücksichtigen das Problem zu Stufen entkoppelt werden; man kann eine optimale datengesteuerte Lösung gewinnen, die die Trainingsmenge 301 erläutern kann; und die nächste Projektion einer solchen Lösung auf die Mannigfaltigkeiten von Abstandstransformationen kann gefunden werden 302. Die Blöcke 301 und 302 wechseln sich ab, bis das System eine stationäre Lösung erreicht 303. Die Variationsrechnung der Zielfunktion E(Φm, σm) kann eine Strömung bereitstellen, die eine anfängliche Niveaumengenfunktion in Richtung eines repräsentativen Modells (Φm) deformiert, und die Konfidenzmaße (σm) des Modells gewinnen 104.
  • Figure 00190001
  • Eine solche Strömung führt zu einem Niveaumengenmodell Φs, das den Daten nahe kommt, aber nicht die Nebenbedingung, daß eine Abstandstransformation Einbettungsfunktion ist, respektiert. Man kann die nächstliegende Projektion des aktuellen Zustands von Φs auf den Raum von Abstandstransformationen betrachten. Der Stand der Technik hierzu umfaßt mehrere Techniken. Einige dieser erfordern die Extraktion der Niveaumenge, während andere dieselbe Aufgabe direkt auf dem impliziten Repräsentationsraum lösen können. Man betrachte eine PDE zur Gewinnung einer solchen Projektion:
    Figure 00190002
  • ϕ 0 / m ist die Repräsentation, die aus der datengesteuerten Komponente gewonnen wird, die auf den Raum von Abstandsfunktionen projiziert werden soll.
  • Man betrachte eine iterative Technik, die ein bestes Modell gewinnt und auf sequentielle Weise auf die Mannigfaltigkeit von Abstandstransformationen projiziert. Entscheidungen bezüglich der Abwechslung zwischen Schritten können gemäß dem mittleren Abstand des Modells
    Figure 00190003
    einer idealen Abstandstransformation, getroffen werden. Um Stabilitätsprobleme zu vermeiden, können die Variabilitäts schätzungen mit (σm = 1 + σm] ersetzt und σm kann gesucht werden, mit der Einschränkung auf strikte Positivität auf dem Pixelniveau.
  • Zu den Vorteilen eines solchen vorbekannten Modells gehört das Codieren in einer natürlichen Form von Vorwissen innerhalb impliziter Repräsentationen, das Bereitstellen einfacher Techniken für die Schätzung geometrischer Eigenschaften, das Behandeln von mehrkomponentigen Objekten und das Bestimmen des Vorbekannten aus einer kleinen Menge von Trainingsbeispielen. Eine solche Codierung kann sinnvolle Vergleiche zwischen der sich entwickelnden Grenzfläche und dem Modell unterstützen. Ein minimaler Unterschied zwischen dem Vorbekannten (Φm) und der sich entwickelnden Grenzfläche Φ entspricht einer Lösung, die das Vorbekannte respektiert.
  • Einführung von Vorwissen (1, 102):
  • Die Annahme, daß alle Trainingsbeispiele in einer gemeinsamen Pose registriert sind, wurde während der Modellkonstruktion betrachtet (siehe 4). Diese Annahme ist notwendig, um ein sinnvolles Modell zu gewinnen. Die auf Wissen basierende Segmentierung muß sich mit demselben Problem beschäftigen. Objekte in dem Bild können verschiedenen Maßstab, verschiedene Orientierung usw. im Vergleich zu dem Vormodell aufweisen. Die Parameter der Transformation zwischen diesen beiden Elementen sind unbekannt, während ihre Form bekannt sein kann.
  • Für den ähnlichkeitsinvarianten Fall, bei dem das zu erkennende Objekt eine Drehstreckungstransformation des Modells kombiniert mit bestimmten lokalen Deformationen ist, wird eine Mannigfaltigkeit zulässiger Lösungen als die Menge einer parametrischen Menge von Transformationen des Vormodells definiert. Man betrachte den Ähnlichkeitsfall, da der Effekt dieser Transformationen auf Abstandstransformationen vorhergesagt werden kann.
  • Für ein statisches Vorbekanntes wird auf einem abstrakten Niveau eine Nebenbedingung eingeführt, die erzwingt, daß die sich entwickelnde Grenzfläche in allen Fällen zu dieser Mannigfaltigkeit gehört. Diese Aktion führt zu der Gewinnung einer Bildstruktur, die dieselben geometrischen Eigenschaften mit dem Vorbekannten aufweist. Eine solche Nebenbedingung sollte auf einem sinnvollen Vergleich zwischen dem Vorbekannten (Φm) und der sich entwickelnden impliziten Repräsentation Φ(;τ) basieren. Diese Nebenbedingung kann in einer allgemeinen Form folgendermaßen geschrieben werden:
    Figure 00210001
    wobei g eine zu definierende Morph-Funktion und A(;τ) = (S,Θ,T) eine Familie von Drehstreckungstransformationen, an denen ein Translationsvektor T, ein Drehwinkel Θ und ein Skalenfaktor S beteiligt sind, ist. Abstandsfunktionen sind gegenüber Translation und Rotation invariant. Bei Betrachtung des Subfalls starrer Transformationen kann die obige Bedingung deshalb zu folgendem vereinfacht werden:
    Figure 00210002
  • Die Minimierung des Fehlers auf Norm zwischen der sich entwickelnden Repräsentation und der starren Variante des Modells kann nun betrachtet werden, um die Nebenbedingung aufzuerlegen;
    Figure 00210003
    wobei die Gewinnung einer Niveaumenge gesucht wird, die nach ihrer Translation und Rotation wie das Vormodell ist. Dieser auf Wissen basierende Term berücksichtigt den inneren Objektteil. Die gewählte Vorrepräsentation codiert solches Wissen auch im äußeren Teil. Insbesondere ist der Vorterm präziser, wenn er nahe der mittleren Form definiert wird. Die Verwendung von Abstandstransformationen als Einbettungsfunktion in den Niveaumengenrepräsentationen erhält die Vorinformationen innerhalb eines bestimmten Abstands von der mittleren Form. Diese Informationen werden jedoch immer weniger diskriminativ, wenn man sich von der Nullniveaumenge entfernt. Eine Modifikation der Heaviside-Funktion kann Formwissen am Äußeren des Objekts berücksichtigen:
    Figure 00220001
    wobei ε eine positive Konstante ist, die den Vortermbeitrag für ein Iso-Phote von ε heraufschiebt. Die Korrektheit des Vorterms ist eine Funktion des Abstands von der Nullniveaumenge. Es kann angenommen werden, daß ein Schätzen und Auferlegen des Vorbekannten innerhalb der Umgebung dieses iso-photen sinnvoller ist. Die Propagation der Kurve findet auf dieser Iso-Photen statt und das statische Vorbekannte kann deshalb in der folgenden Form betrachtet werden:
    Figure 00220002
    mit ε >> α. Es können die Variationsrechnung und ein Gradientenabstiegsverfahren betrachtet werden, um die unbekannte Transformation A zu gewinnen und (gemäß Φ) eine Bildstruktur zu extrahieren, die den Formeigenschaften des Vorbekannten folgt.
  • Abstandstransformationen sind gegenüber Maßstabsvariationen nicht invariant. Um diese Eigenschaft zu berücksichtigen, kann die Morph-Funktion zwischen der Vorrepräsentation und der sich entwickelnden umdefiniert werden. Die Anwendung eines Maßstabsoperators auf eine Kontur skaliert die Abstandstransformations-Einbettungsfunktion entsprechend. Unter Annahme einer sich entwickelnden Kontur ∂R und einer, die nach Anwenden des Maßstabsoperators
    Figure 00230001
    gewonnen werden kann, läßt sich zeigen, daß die folgende Beziehung für ihre Niveaumengen-Abstandstransformationsrepräsentationen gilt [SΦ1 = Φ2]. Eine solche Bedingung kann mit dem Effekt von Translation und Rotation integriert werden, was zu einer drehstreckungsinvarianten Bedingung zwischen der Niveaumenge des Vorbekannten und der sich entwickelnden führt:
    Figure 00230002
  • Die Summe von Quadratdifferenzen zwischen der tatsächlichen Grenzfläche Φ und dem Modell Φm nach dem Morphen kann als Zielfunktion angesehen werden;
    Figure 00230003
  • Dieses Kriterium entwickelt die Niveaumengenfunktion in Richtung einer starren Transformation des Modells. Zu diesem Zweck sind die Variationsrechnung und ein Gradientenabstiegsverfahren ein hervorragendes Verfahren zum Gewinnen von Φ.
  • Figure 00230004
  • Diese Strömung enthält eine Formkonsistenzkraft, die die Grenzfläche in Richtung eines besseren lokalen (viel wie bei dem Vorbekannten) und eine Kraft, die darauf abzielt, die Niveaumengenwerte so zu aktualisieren, daß die Region, auf der die Objektivfunktionen ausgewertet werden (–ε, ε) in der Bildebene kleiner und kleiner wird, aktualisiert.
  • Um den Einfluß dieser Kraft besser zu verstehen, betrachte man einen negativen Φ-Wert in dem Bereich von (–ε, ε)
    Figure 00240001
  • Deshalb ändert diese Kraft die Position der Grenzfläche nicht, da das Vorzeichen der impliziten Repräsentation an jedem Pixel erhalten wird. Sie wirkt sich nur auf die Form der impliziten Funktion aus, so daß die Fläche, auf der die Zielfunktion ausgewertet wird, abnimmt. Eine solche Kraft kann ignoriert werden, da sie beim Vorgang des Auferlegens des Vorwissens keine sinnvolle Interpretation besitzt.
  • Man betrachte die Variationsrechnung für die Parameter der Transformation A, die zu folgendem führt:
    Figure 00240002
    wobei Tx, Ty die beiden Komponenten des Translationsvektors sind. Die Registrationsparameter zwischen der sich entwickelnden Grenzfläche und dem Modell werden auf globale Weise unter Verwendung regionaler Informationen gewonnen.
  • Least-Squares-Verfahren können gegenüber Rauschen und Ausreißern empfindlich sein. Die Verwendung robuster Schätzer kann als diese Nebenbedingungen überwindend angesehen werden, wenn die Registration zwischen der Grenzfläche und dem Vorbekannten gewonnen wird:
    Figure 00250001
    wobei ρ eine robuste Fehlernorm ist. Es können zusätzliche visuell gesteuerte Terme betrachtet werden, wie zum Beispiel Anziehung an die Ränder und Trennabstand zwischen Objekt und Hintergrund gemäß ihren Intensitätseigenschaften.
  • Der Rahmen kann eine weiche Nebenbedingung (Repräsentation des Vorbekannten unter Verwendung einer stochastischen Niveaumenge) zur auf Wissen basierenden Segmentierung in eine harte Nebenbedingung übersetzen. Der Vorterm enthält eine Konfidenzabbildung (σm). Es kann erwartet werden, daß Gebiete mit starkem Vorbekanntem präzise in dem Bild gewonnen werden sollten. In Gebieten, in denen die Konfidenz des Modells fraglich ist, besitzen Bildinformationen eine dominantere Rolle als das Vorbekannte in dem Segmentierungsprozeß.
  • Mit einem stochastischen Vorbekannten kann man den Verbundraum der sich entwickelnden Grenzfläche und ihrer Transformation auf das Vormodell unter Verwendung einer probabilistischen Dichtefunktion modellieren. Es sei [p(Φ,A|Φm)] die Vorverteilung der Transformation bei gegebenem Modell Φm. Eine solche Verteilung ist unbekannt, variiert über verschiedene Objekte hinweg und kann im allgemeineren Fall nicht gewonnen werden. Es können jedoch Monte-Carlo-Sampling oder andere Techniken verwendet werden, um eine solche Verteilung zu gewinnen, wenn empirische Indizien verfügbar sind. Man betrachte eine bayesische Formulierung für diese Dichte
    Figure 00260001
  • Der konstante Term Φm kann ignoriert werden, und es kann angenommen werden, daß der Verbundraum von Grenzflächen und ihren Transformationen gleichförmig ist. Diese Annahme wird jedoch ohne Wissen für die Eigenschaften des zu gewinnenden Objekts betrachtet, wie zum Beispiel der Pose des Objekts, Maßstabsvariationen usw. Das Gewinnen der optimalen Grenzfläche und der Transformation ist äquivalent dem Finden des Maximum Posterior p(Φm(A)|Φ), und dies ist äquivalent mit dem Finden des Extremums von:
    Figure 00260002
    wobei ω eine Bildstelle und p(Φm(A(ω))|Φ(ω)) das stochastische Vorbekannte an dieser Stelle ist und Unabhängigkeit über Pixel hinweg betrachtet wurde. Außerdem wird die Umsetzung der sich entwickelnden Grenzfläche Φ in die Pose, die der in dem Vormodell Φm aufgezeichneten ähnlich ist, betrachtet. Zu diesem Zweck muß der Skalenfaktor S berücksichtigt werden, was zu der folgenden Form für das Posterior führt:
    Figure 00270001
  • Maßstabsvariationen verursachen wie bereits erläutert prädiktive Änderungen in den Abstandstransformations-Niveaumengenrepräsentationen. Die pixeldefinierten Vorverteilungen [pω()] sind aus der Modellierungsphase bekannt, und das Lösen des Inferenzproblems ist äquivalent mit dem Finden des niedrigsten Potentials der Funktion –log oder
    Figure 00270002
  • Durch Verwendung der bekannten gaußschen Eigenschaften der pixeldefinierten Vorverteilungen kann man den folgenden analytischen Ausdruck für die Zielfunktion gewinnen:
    Figure 00270003
    wobei konstante Terme weggelassen wurden. Eine solche Zielfunktion enthält einen Term, der das Gewinnen einer Transformation A, die die sich entwickelnde Grenzfläche auf Modellgebiete mit niedriger Konfidenz [großem σm(A)] projiziert, zu unterbinden sucht, und einen Term, der lokale Propagation und Schätzung mit den folgenden Zielen koppelt; (i) Wiederherstellung einer Transformation, die die sich entwickelnde Grenzfläche mit dem Vorbekannten ausrichtet, und (ii) entwickeln der Grenzfläche dergestalt, daß sie bei gegebener Transformation wie das Vorbekannte wird. Ein solcher Term hat eine ähnliche konzeptuelle Interpretation mit dem zur Einführung des statischen Vorbekannten verwendeten, ist dabei aber in der Lage, Modellkonfidenz zu berücksichtigen. Der Projektions fehler (SΦ–Φm(A))2 wird gemäß der Modellkonfidenz σm(A) gewichtet.
  • Innerhalb eines solchen Optimierungsrahmens wird der Fehler für Abweichung von dem Modell in Gebieten mit niedriger Konfidenz (hohem σm(A)) (gemäß σm(A)) abgewertet.
  • Solche Gebiete werden folglich in dem Prozeß des Auferlegens des Vorbekannten und des Gewinnens der Transformation weniger wichtig. Ferner behandelt das Modell auf implizite Weise in dem Prozeß der Formdurchsetzung innerhalb des Segmentierungsprozesses Ausreißer.
  • Das resultierende Kriterium ist jedoch in der gesamten Bildebene definiert. Die Definition des Vorbekannten ist hauptsächlich um die Objektregion herum konsistent und erfordert keine Einschränkung der Zielfunktion innerhalb der interessierenden Struktur.
  • Figure 00280001
  • Die Variationsrechnung innerhalb eines Gradientenabstiegsverfahrens kann das niedrigste Potential der Kostenfunktion liefern. Es sollen zwei unbekannte Variablen gewonnen werden, die Objektposition (Form der Funktion Φ)
    Figure 00280002
    und die Transformation zwischen Objekt und dem Vorbekannten:
    Figure 00290001
    wobei die partiellen Ableitungen von Φ(A), σm(A) nach den Transformationsparametern wie im Fall des statischen Vorbekannten unter Verwendung der Kettenregel gewonnen werden können. Die Flächenkraft hat dieselbe Interpretation wie die im Fall des statischen Vorbekannten präsentierte und kann deshalb ignoriert werden. Ein solches stochastisches Vorbekanntes kann zur Gewinnung einer interessierenden Struktur verwendet werden, die die Konfidenz des Vorbekannten auf elegante probagonistische Weise berücksichtigt.
  • Beide Terme beziehen sich auf eine zusätzliche Komponente zum Auferlegen von Vorwissen auf die Segmentierung und berücksichtigen nicht die visuellen Eigenschaften des Objekts.
  • Um das Vorbekannte einzuführen (siehe 5) betrachte man eine bimodale Partition, die sich auf das interessierende Objekt und den Hintergrund bezieht. Das Modell der geodesischen Aktivregion kann eine solche Partition berücksichtigen. Es wird angenommen, daß sich visuelle Unstetigkeiten (z.B. starke Ränder) in dem Bild auf die Ränder der gewünschten Partition beziehen. Ohne Verlust an Allgemeingültigkeit können Gaußsche Verteilungen verwendet werden, um die Intensitätseigenschaften des Objekts und des Hintergrunds zu erfassen 501. Parameter (z.B. Mittelwert, Varianz) des Objekts und Hintergrunds werden gemäß einer letzten Segmentierungsabbildung 502 unter Verwendung des empirischen Mittelwerts und der empirischen Varianz geschätzt:
    Figure 00300001
    wobei g eine monotone positive abnehmende Funktion ist. Man kann die Gaußschen Verteilungen weiterentwickeln, um eine zweckmäßigere Form für die bezüglich visueller Region definierte Komponente zu gewinnen. Die Variationsrechnung kann zu einer geometrischen Strömung führen, die die Ausbreitung der Kontur in Richtung der Objektgrenzen führt, während das Vorbekannte respektiert wird (siehe 1, 103). Außerdem können Mischungsmodelle oder nichtparametrische Techniken betrachtet werden, um die visuellen Eigenschaften von Objekt und Hintergrund zu erfassen.
  • Bezüglich einer schnellen Implementierung des Rahmens betrachte man ein schmalbandiges Verfahren, das die Niveaumengenrepräsentation in der Umgebung der letzten Position der Kontur entwickelt. Änderungen auf der sich entwickelnden Kontur werden auf dem Nullniveau geschehen und dann in der Richtung nach innen und nach außen propagiert. Eine solche Auswahl verbessert außerdem die Leistungsfähigkeit des Form-Vorterms. Dieser Term ist um die mittlere Form herum präzise und wird weniger präzise, wenn er sich von dem Nullniveau des Vorbekannten wegbewegt. Die Niveaumengenrepräsentation kann deshalb innerhalb der iso-photen [–ε, ε] aktualisiert werden.
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine auf Wissen basierende Segmentierungstechnik innerhalb eines Niveaumengenrahmens implementiert. Es wird ein Vormodell konstruiert und eingeführt. Bezüglich der Konstruktion des Vorbekannten wird, um mit dem betrachteten gewählten Optimierungsrahmen konsistent zu sein, eine stochastische Niveaumengenrepräsentation implementiert. Ein solches Modell enthält eine Abstandstransformations-Einbettungsfunktion (Niveaumenge) und eine Konfidenzkomponente. Eine solche Funktion wird durch einen Ansatz der eingeschränkten Optimierung gewonnen. In dem Niveaumengenraum wird eine Menge von Trainingsbeispielen betrachtet, wobei Abstandstransformationen als Einbettungsfunktionen verwendet werden. Modellierung ist dann äquivalent mit dem Gewinnen einer repräsentativen Niveaumengen-Abstandsfunktion und glatter Messungen der Konfidenz auf Pixelniveau. Solche Messungen versuchen, die Übereinstimmung der Trainingsmenge an dieser bestimmten Stelle zu quantifizieren. Um ein solches Modell zu gewinnen, wechseln das System und das Verfahren zwischen: eine Niveaumengenfunktion, die den Daten nahekommt, wird gewonnen und die auffallendste Projektion dieser Funktion auf die Mannigfaltigkeit zulässiger Lösungen wird bestimmt, bis Konvergenz erreicht ist. Vorwissen wird auf allmähliche Weise eingeführt. Statische harte Nebenbedingungen, die erzwingen, daß die Segmentierungslösung eine Drehstreckungstransformation des Vormodells ist, werden zuerst betrachtet. Es wird eine Zielfunktion, die die Transformation sowie die Position des Objekts in dem Bild berücksichtigt, definiert und zum Gewinnen sowohl der Projektion als auch der Konfidenz verwendet.
  • Es werden probabilistische Prinzipien betrachtet, die zu einem Maximum-Posterior-Problem führen, das die lokalen Variationen des Modells umfaßt.
  • Nachdem Ausführungsformen für ein Variations-Niveaumengensystem und -verfahren für die formgesteuerte Objektdetektion auf Wissensbasis beschrieben wurden, wird angemerkt, daß Fachleute im Hinblick auf die obigen Lehren Modifikationen und Abwandlungen vornehmen können. Es versteht sich deshalb, daß an den offengelegten konkreten Ausführungsformen der Erfindung Änderungen vorgenommen werden können, die innerhalb des Schutzumfangs und Gedankens der Erfindung liegen, der durch die angefügten Ansprüche definiert wird. Nachdem die Erfindung somit mit der von dem Patentrecht geforderten Genauigkeit beschrieben wurde, wird das Beanspruchte und durch das Patentgesetz zu Schützende in den angefügten Ansprüchen dargelegt.

Claims (20)

  1. Verfahren zum Erkennen eines Objekts in einem Bild mit den folgenden Schritten: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen; und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.
  2. Verfahren nach Anspruch 1, wobei die Trainingsbeispiele auf eine gemeinsame Pose ausgerichtet sind.
  3. Verfahren nach Anspruch 1, wobei das Bestimmen des Formmodells weiterhin die folgenden Schritte umfaßt: Bestimmen einer Niveaumengenpräsentation des Objekts in dem Bild; Bestimmen der Projektion als auffallendste Form in dem Bild; und Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form.
  4. Verfahren nach Anspruch 3, weiterhin mit dem Schritt des Bestimmens eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation des Objekts und der Projektion und des Konfidenzmaßes.
  5. Verfahren nach Anspruch 1, wobei die Projektion und Konfidenzmessung in einem Pixelniveau des Bildes definiert werden.
  6. Verfahren nach Anspruch 1, wobei das Konfidenzmaß als Konfidenzabbildung des Objekts bestimmt wird, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
  7. Verfahren nach Anspruch 1, wobei der Niveaumengenrahmen folgendes umfaßt: Bestimmen einer Intensitätseigenschaft für das Objekt und eines Hintergrunds in dem Bild; und Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
  8. Verfahren nach Anspruch 1, wobei sich die Projektion auf einem Nullniveau entwickelt und in einer Richtung nach innen und nach außen zu einem Rand des Objekts propagiert.
  9. Verfahren nach Anspruch 1, wobei das Vorbekannte ein stochastisches Vorbekanntes ist.
  10. Verfahren nach Anspruch 9, wobei das stochastische Vorbekannte für die Abweichung von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen einführt, der in Gebieten mit reduzierter Konfidenz abnimmt.
  11. Durch Maschine lesbare Programmspeichereinrichtung, die greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erkennen eines Objekts in einem Bild auszuführen, wobei die Verfahrensschritte folgendes umfassen: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen; und Implementieren des Formmodells als ein Vorbekanntes innerhalb eines Niveaumengenrahmens zur Bestimmung des Objekts in dem Bild, wobei der Niveaumengenrahmen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt, wobei der Niveaumengenrahmen durch das Vorbekannte eingeschränkt wird.
  12. Verfahren nach Anspruch 11, wobei die Trainingsbeispiele auf eine gemeinsame Pose ausgerichtet sind.
  13. Verfahren nach Anspruch 11, wobei das Bestimmen des Formmodells weiterhin die folgenden Schritte umfaßt: Bestimmen einer Niveaumengenpräsentation des Objekts in dem Bild; Bestimmen der Projektion als auffallendste Form in dem Bild; und Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form.
  14. Verfahren nach Anspruch 13, weiterhin mit dem Schritt des Bestimmens eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenpräsentation des Objekts und der Projektion und des Konfidenzmaßes.
  15. Verfahren nach Anspruch 11, wobei die Projektion und Konfidenzmessung in einem Pixelniveau des Bildes definiert werden.
  16. Verfahren nach Anspruch 11, wobei das Konfidenzmaß als Konfidenzabbildung des Objekts bestimmt wird, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
  17. Verfahren nach Anspruch 11, wobei der Niveaumengenrahmen folgendes umfaßt: Bestimmen einer Intensitätseigenschaft für das Objekt und eines Hintergrunds in dem Bild; und Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
  18. Verfahren nach Anspruch 11, wobei sich die Projektion auf einem Nullniveau entwickelt und in einer Richtung nach innen und nach außen zu einem Rand des Objekts propagiert.
  19. Verfahren nach Anspruch 11, wobei das vorbekannte ein stochastisches Vorbekanntes ist.
  20. Verfahren nach Anspruch 10, wobei das stochastische Vorbekannte für die Abweichung von dem stochastischen Vorbekannten einen Fehler in den Niveaumengenrahmen einführt, der in Gebieten mit reduzierter Konfidenz abnimmt.
DE102005003605A 2004-01-29 2005-01-25 Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung Expired - Fee Related DE102005003605B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US54012904P 2004-01-29 2004-01-29
US60/540,129 2004-01-29
US11/008,522 US7391882B2 (en) 2004-01-29 2004-12-09 Prior knowledge, level set representations and visual grouping
US11/008522 2004-12-09

Publications (2)

Publication Number Publication Date
DE102005003605A1 true DE102005003605A1 (de) 2005-09-01
DE102005003605B4 DE102005003605B4 (de) 2013-04-25

Family

ID=34810343

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102005003605A Expired - Fee Related DE102005003605B4 (de) 2004-01-29 2005-01-25 Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung

Country Status (3)

Country Link
US (1) US7391882B2 (de)
CN (1) CN100390813C (de)
DE (1) DE102005003605B4 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005248942A1 (en) * 2004-12-30 2006-07-20 John Bean Technologies Corporation Conveying conformable products
US7715626B2 (en) * 2005-03-23 2010-05-11 Siemens Medical Solutions Usa, Inc. System and method for vascular segmentation by Monte-Carlo sampling
US7773806B2 (en) * 2005-04-19 2010-08-10 Siemens Medical Solutions Usa, Inc. Efficient kernel density estimation of shape and intensity priors for level set segmentation
US7873185B2 (en) * 2005-08-03 2011-01-18 Siemens Medical Solutions Usa, Inc. Method for detection and tracking of deformable objects
US7750902B2 (en) * 2006-07-20 2010-07-06 Harris Corporation Geospatial modeling system providing non-linear inpainting for voids in geospatial model cultural feature data and related methods
US8107735B2 (en) * 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
US8417046B1 (en) 2008-11-10 2013-04-09 Marvell International Ltd. Shadow and highlight image enhancement
US8634673B1 (en) 2008-11-10 2014-01-21 Marvell International Ltd. Method and apparatus for automatically tuning a parameter of an image enhancement algorithm based on an attribute of an original image
US8509527B1 (en) 2010-06-23 2013-08-13 Marvell International Ltd. Intensity based pixel quantization
US8958636B1 (en) 2010-07-28 2015-02-17 Marvell International Ltd. Configurable color trapping
CN102289812B (zh) * 2011-08-26 2013-03-27 上海交通大学 一种基于先验形状和cv模型的目标分割方法
US9208449B2 (en) 2013-03-15 2015-12-08 International Business Machines Corporation Process model generated using biased process mining
CN104346820B (zh) * 2013-07-26 2017-05-17 清华大学 一种x光双能ct重建方法
US9495755B2 (en) 2013-10-22 2016-11-15 Nokia Technologies Oy Apparatus, a method and a computer program for image processing
CN105427341B (zh) * 2015-11-11 2018-06-01 西安电子科技大学 基于多变分水平集的复杂背景视频图像多目标检测方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390258A (en) * 1992-08-07 1995-02-14 Argonne National Laboratories/University Of Chicago Development Corporation Feature guided method and apparatus for obtaining an image of an object
US5546472A (en) * 1992-08-07 1996-08-13 Arch Development Corp. Feature guided method and apparatus for obtaining an image of an object
JPH0887600A (ja) * 1994-09-19 1996-04-02 Topcon Corp 特徴抽出装置
US6031935A (en) * 1998-02-12 2000-02-29 Kimmel; Zebadiah M. Method and apparatus for segmenting images using constant-time deformable contours
US7132982B2 (en) * 1999-03-05 2006-11-07 Rannock Corporation Method and apparatus for accurate aircraft and vehicle tracking
IL138322A (en) * 2000-09-07 2005-11-20 Neurotrax Corp Software driven protocol for managing a virtual clinical neuro-psychological testing program and appurtenances for use therewith
US6980984B1 (en) * 2001-05-16 2005-12-27 Kanisa, Inc. Content provider systems and methods using structured data
GB0114271D0 (en) 2001-06-12 2001-08-01 Univ Manchester Parameterisation
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon
US7200269B2 (en) 2002-02-01 2007-04-03 Siemens Medical Solutions Usa, Inc. Non-rigid image registration using distance functions
WO2003065294A1 (en) 2002-02-01 2003-08-07 Siemens Corporate Research, Inc. Recovering objects by using shape priors for level set representations
US7035431B2 (en) * 2002-02-22 2006-04-25 Microsoft Corporation System and method for probabilistic exemplar-based pattern tracking

Also Published As

Publication number Publication date
DE102005003605B4 (de) 2013-04-25
US20050169533A1 (en) 2005-08-04
CN100390813C (zh) 2008-05-28
US7391882B2 (en) 2008-06-24
CN1648936A (zh) 2005-08-03

Similar Documents

Publication Publication Date Title
DE102005003605B4 (de) Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung
DE112004000393B4 (de) System und Verfahren zum Verfolgen einer globalen Form eines in Bewegung befindlichen Objekts
DE60223361T2 (de) Objektidentifikation
DE19746939B4 (de) Verfahren zur Messung des Herzmuskels in Herzbildern
DE102007046582A1 (de) System und Verfahren zum Segmentieren von Kammern eines Herzens in einem dreidimensionalen Bild
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE112012005350B4 (de) Verfahren zum Schätzen der Stellung eines Objekts
US8126291B2 (en) System and method for dense image registration using Markov Random Fields and efficient linear programming
DE102006054822A1 (de) Registrierung eines charakteristischen Pfads eines Kolons
DE102006030709A1 (de) Verfahren für die kenntnisbasierte Bildsegmentierung unter Verwendung von Formmodellen
EP2284795A2 (de) Quantitative Analyse, Visualisierung und Bewegungskorrektur in dynamischen Prozessen
DE102006035637A1 (de) Verfahren zum Erfassen und Verfolgen von deformierbaren Objekten
DE112005001743T5 (de) System und Verfahren zur Registrierung und Modellierung verformbarer Formen durch direkte Faktorisierung
DE10304360A1 (de) Unstarre Bilderfassung unter Verwendung von Abstandsfunktionen
DE10296836T5 (de) System zur Modellierung statischer und dynamischer dreidimensioner anatomischer Strukturen durch 3D-Modelle
Zhao et al. Deep lucas-kanade homography for multimodal image alignment
US9142030B2 (en) Systems, methods and computer readable storage media storing instructions for automatically segmenting images of a region of interest
DE102018109802A1 (de) Qualitätsbewertung bei einer automatischen Bildregistrierung
DE102006050364A1 (de) Verfahren zum Detektieren und Verfolgen deformierbarer Objekte unter Verwendung eines adaptiven zeitvariierenden autoregressiven Modells
DE102006049193A1 (de) System und Verfahren zum Verfolgen von Rippenhinterteilen in Brust CT Volumina
DE102006017112A1 (de) Effiziente Kerndichteschätzung von früheren Form- und Intensitätsbeispielen für die Niveausatz-Segmentierung
Tirunagari et al. Movement correction in DCE-MRI through windowed and reconstruction dynamic mode decomposition
CN113298742A (zh) 基于图像配准的多模态视网膜图像融合方法及系统
Yang et al. Semantic segmentation in architectural floor plans for detecting walls and doors
Cremers et al. Motion competition: Variational integration of motion segmentation and shape regularization

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: SIEMENS MEDICAL SOLUTIONS USA, INC., MALVERN, PA.,

R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20130726

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee