DE102005003605B4 - Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung - Google Patents

Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung Download PDF

Info

Publication number
DE102005003605B4
DE102005003605B4 DE102005003605A DE102005003605A DE102005003605B4 DE 102005003605 B4 DE102005003605 B4 DE 102005003605B4 DE 102005003605 A DE102005003605 A DE 102005003605A DE 102005003605 A DE102005003605 A DE 102005003605A DE 102005003605 B4 DE102005003605 B4 DE 102005003605B4
Authority
DE
Germany
Prior art keywords
level
image
determining
confidence
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102005003605A
Other languages
English (en)
Other versions
DE102005003605A1 (de
Inventor
Nikolaos Paragyios
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Medical Solutions USA Inc
Original Assignee
Siemens Medical Solutions USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Medical Solutions USA Inc filed Critical Siemens Medical Solutions USA Inc
Publication of DE102005003605A1 publication Critical patent/DE102005003605A1/de
Application granted granted Critical
Publication of DE102005003605B4 publication Critical patent/DE102005003605B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7553Deformable models or variational models, e.g. snakes or active contours based on shape, e.g. active shape models [ASM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Ein Verfahren zum Erkennen eines Objektes in einem Bild umfasst die folgenden Schritte: Bestimmen eines Formmodells ais ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb des Rahmens von Niveaumengen zur Bestimmung des Objektes in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang von Teilen der Projektion bestimmt wird, wobei die Niveaumengen durch das Formmodell eingeschränkt wird.

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Technisches Gebiet
  • Die vorliegende Offenlegung betrifft die Objektdetektion in Bildern und insbesondere ein Variations-Niveaumengenverfahren zur formgesteuerten Objektdetektion auf Wissensbasis.
  • 2. Allgemeiner Stand der Technik
  • Die Gewinnung einer bestimmten interessierenden Struktur aus einem Bild, das bestimmten vordefinierten Eigenschaften folgt, ist für die Bildsegmentierung auf Modellbasis nützlich. Solche Eigenschaften können visuell oder geometrisch sein. Visuelle Eigenschaften lassen sich erfassen, indem globale Verteilungen aufgebaut werden, um die Luminanzeigenschaften der interessierenden Struktur zu beschreiben, oder durch Erzeugen lokaler Erscheinungsbildmodelle. Solche Modelle können in einem Szenario mit eingeschränkter Beleuchtung effizient sein, wenn Änderungen minimal sind und durch ein Modell erfasst werden können.
  • Die formgesteuerte Segmentierung auf Wissensbasis ist eine Alternative zu den visuell gesteuerten Techniken. Solche Verfahren versuchen, eine Struktur zu gewinnen, die im Vergleich zu einem vorbekannten Modell konsistente geometrische Form aufweist. Glätte ist ein Beispiel für das Auferlegen einer vorbekannten Nebenbedingung. Lokale geometrische Eigenschaften (z. B. Krümmung, lokale Glättenebenbedingungen) können beim Definieren eines solchen vorbekannten Modells verwendet werden, oder man kann ein vorbekanntes Modell auf globalere Weise definieren, was zu konkreteren Repräsentationen führt, die die Varianz der gesamten interessierenden Struktur erfassen. Obwohl lokale Modelle effizient sind, sind globale Repräsentationen ein geeigneter Ansatz um Verdeckungen, Rauschen und Änderungen an der Objektpose handhaben zu konnen.
  • Modellierung wird vor der Einführung globaler formgesteuerter Nebenbedingungen benötigt. Eine solche Aufgabe ist äquivalent mit dem Extrahieren einer kompakten Repräsentation für die interessierende Struktur aus einer Menge von Trainingsbeispielen. Die Repräsentationsauswahl hängt mit der Form des Vorbekannten zusammen, das eingefuhrt werden soll, und wird durch die Größe der Trainingsmenge eingeschrankt. Die Registration aller Beispiele auf eine gemeinsame Pose ist ein wichtiger Teil der Modellierungsphase. Korrespondenzen für die grundlegenden Elemente der Proben des Trainings müssen für eine effiziente Modellierung gewonnen werden.
  • Bei der formgesteuerten Segmentierung auf Wissensbasis werden vielfältige Modelle benutzt. Die Verwendung geometrischer Komponenten, wie zum Beispiel gerade Segmente und Ellipsoide, war ein Versuch, eine kompakte Repräsentation für das Modellieren von Seiten zu überzeugen. Obwohl solche Modelle im Hinblick auf Leistungsfähigkeit und niedrige Komplexitat bei der Modellierung einfacher geometrischer Strukturen effizient sind, werden bei ihnen keine lokalen Informationen und wichtige Variabilität des interessierenden Objekts berücksichtigt. Bei einem gegebenen solchen Modell erfolgt die Segmentierung dann durch Einstellung der lokalen geometrischen Komponenten in Richtung der gewünschten Bildeigenschaften. Zu anderen Techniken gehören deformierbare Vorlagen, Modelle mit aktiver Form und Erscheinung und Snake-Modelle.
  • Das Anwendungsgebiet für Niveaumengenverfahren bei Machine Vision ist groß und nicht auf Bildsegmentierung, Restauration, Tracking, Form aus Bildsegmentierung usw. beschrankt. Diese Techniken wurden eingeführt, untersucht und auf andere wissenschaftliche Bereiche angewandt, wie zum Beispiel Geometrie, Robotik, Fluide, Halbleiterentwicklung usw. Die meisten der erwähnten Anwendungen teilen sich ein gemeinsames Problem: das Verfolgen sich bewegender Grenzflächen. Niveaumengenreprasentationen eignen sich gut für rechnerische Verfahren zur Durchfuhrung dieser Aufgabe. Sie können für beliebige Dimension verwendet werden (z. B. Kurven, Flächen, Hyperflachen usw.), sind parameterfrei und können die Topologie der sich entwickelnden Grenzflächen auf natürliche Weise ändern. Darüber hinaus geben sie ein natürliches Verfahren zur Bestimmung und Schätzung geometrischer Eigenschaften der sich entwickelnden Grenzfläche.
  • Diese Techniken konnen auch nichtstarre Objekte und Bewegung behandeln, da sie sich auf sehr lokale Eigenschaften beziehen und eine Grenzfläche pixelweise deformieren können. Sie können jedoch im Vergleich zu parametrischen Modellen eine schlechte Leistungsfähigkeit aufweisen, wenn feste/starre Bewegungen und Objekte betrachtet werden. Lokale Propagationen sind empfindlich und nutzen bestimmte wohldefinierte physikalische Apriori-Nebenbedingungen, wie zum Beispiel Festformmodelle, nicht voll aus.
  • Deshalb wird ein Variations-Niveaumengenverfahren zur formgesteuerten Objektdetektion auf Wissensbasis benötigt.
  • KURZE DARSTELLUNG DER ERFINDUNG
  • Diese Aufgabe löst ein Verfahren mit den Merkmalen des Patentanspruchs 1.
  • Modellierung ist für formgesteuerte Segmentierungstechniken wichtig. Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine stochastische Niveaumengenformulierung implementiert, um Vorwissen in einem Variations-Niveaumengen-Verfahren für die formgesteuerte Objektextraktion auf Wissensbasis zu berücksichtigen. Zu diesem Zweck werden Objekte in einer impliziten Form repräsentiert, wobei eine stochastische Abstandsfunktion verwendet wird, die Konfidenzgrade aufweist. Dem Segmentierungsprozess werden Nebenbedingungen auferlegt, indem nach einer geometrischen Struktur in der Bildebene gesucht wird, die zu der Familie von Formen gehort, die von dem vorbekannten Modell gemäß einer Ähnlichkeitsbewegungstransformation erzeugt wurde. Es wird eine nichtstationäre Metrik zwischen der sich entwickelnden Kontur und dem Modell minimiert, was zu Bewegungsgleichungen führt, die diese Kontur in Richtung der gewünschten Bildeigenschaften entwickeln und die dazwischenliegenden Registrationsparameter bei dem vorbekannten Modell aktualisieren. Bei Konvergenz werden eine Struktur, zu der Mannigfaltigkeit zulässiger Lösungen gehört, und die entsprechende Transformation gewonnen.
  • Gemäß der Erfindung umfasst ein Verfahren zum erkennen eines Objekts in einem Bild die folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells als ein Vorbekanntes innerhalb des Rahmens von Niveaumengen zur Bestimmung des Objekts in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und eine Konfidenzmaß entlang Teilen der Projektion bestimmt wird, wobei die Niveaumengen durch das Vorbekannte eingeschränkt werden. Das Konfidenzmaß wird als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glätteterm bestimmt wird.
  • Die Trainingsbeispiele werden auf eine gemeinsame Pose ausgerichtet.
  • Das Bestimmen des Formmodells umfasst weiterhin das Bestimmen einer Niveaumengenreprasentation des Objekts in dem Bild, das Bestimmen der Projektion als auffallendste Form in dem Bild und das Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form. Das Verfahren umfasst weiterhin das Bestimmen eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenrepräsentation des Objekts und der Projektion und des Konfidenzmaßes.
  • Die Projektion und die Konfidenzmessung werden auf Pixelniveau des Bildes definiert.
  • Im Rahmen von Niveaumengen erfolgen das Bestimmen einer Intensitatseigenschaft für das Objekt und eines Hintergrundes in dem Bild und das Schätzen von Mittelwert und Varianz des Objekts und des Hintergrundes für eine Segmentierungsabbildung.
  • Die Projektion entwickelt sich auf einem Nullniveau und propagiert in einer Richtung nach innen und nach außen zu einem Rand des Objekts.
  • Das Vorbekannte ist ein stochastisches Vorbekanntes. Das stochastische Vorbekannte fuhrt für die Abweichung von dem stochastischen Vorbekannten einen Fehler im Rahmen von Niveaumengen ein, der in Gebieten mit reduzierter Konfidenz abnimmt.
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine Programmspeichereinrichtung bereitgestellt, die durch Maschine lesbar ist und greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Erkennen eines Objekts in einem Bild auszuführen. Das Verfahren umfasst sie folgenden Schritte: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen und Implementieren des Formmodells innerhalb eines Rahmens von Niveaumengen zur Bestimmung des Objekts in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt werden, wobei die Niveaumengen durch das Formmodell eingeschränkt werden. Das Konfidenzmaß wird als Konfidenzabbildung des Objekts bestimmt, wobei das Objekt in die Teile zerlegt und für jeden Teil ein Glatteterm bestimmt wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Nachfolgend werden bevorzugte Ausfuhrungsformen der vorliegenden Erfindung ausführlicher mit Bezug auf die beigefügten Zeichnungen beschrieben.
  • 1 ist ein Flussdiagramm eines Verfahrens gemäß einer Ausführungsform der vorliegenden Offenlegung;
  • 2 ist ein Diagramm eines Systems gemäß einer Ausfuhrungsform der vorliegenden Offenlegung;
  • 3 ist ein Flussdiagramm eines Verfahrens zur Bestimmung eines Formmodells gemäß einer Ausführungsform der vorliegenden Offenlegung;
  • 4 ist ein Flussdiagramm eines Verfahrens zur Bestimmung eines Vorbekannten gemäß einer Ausführungsform der vorliegenden Offenlegung und;
  • 5 ist ein Flussdiagramm eines Verfahrens für eine Niveaumengenbestimmung, die ein Vorbekanntes implementiert, gemäß einer Ausführungsform der vorliegenden Offenlegung.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung werden Niveaumengenrepräsentationen darauf eingeschränkt, einer Form-Global-Konsistenz zu folgen, während die Moglichkeit zur Erfassung lokaler Deformationen erhalten wird. Es werden globale und lokale Formeigenschaften des Objekts gewonnen.
  • Ein Formmodell wird direkt unter Verwendung einer Probensammlung auf dem Niveaumengenraum aufgebaut. Mit Bezug auf die 1 wird das Formmodell konstruiert 101. Das Formmodell dient als Grundlage für die Einführung eines Form-Vorbekannten in einer energetischen Form 102. Das Form-Vorbekannte minimiert einen nichtstationaren Abstand zwischen der sich entwickelnden Grenzfläche und dem Formmodell, deformiert gemaß einer Drehstreckungstransformation, um ein Objekt zu bestimmen 103.
  • Ein System und ein Verfahren gemäße einer Ausführungsform der vorliegenden Offenlegung kann als ein Modul implementiert und mit existierenden datengesteuerten Variations-Verfahren integriert werden, um eine Bildsegmentierung für verfalschte und unvollstandige Daten durchzuführen.
  • Es versteht sich, dass die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessoren oder einer Kombination davon implementiert werden kann. Bei einer Ausführungsform kann die vorliegende Erfindung in Software als ein greifbar auf einer Programmspeichereinrichtung realisiertes Anwendungsprogramm implementiert werden. Das Anwendungsprogramm kann in eine Maschine mit jeder beliebigen geeigneten Architektur heraufgeladen und durch diese ausgeführt werden.
  • Mit Bezug auf 2 kann gemaß einer Ausführungsform der vorliegenden Erfindung ein Computersystem 201 zur Implementierung der vorliegenden Erfindung u. a. folgendes umfassen; eine zentrale Verarbeitungseinheit (CPU) 202, einen Speicher 203 und eine Eingabe/Ausgabe-(E/A-)Schnittstelle 204. Das Computersystem 201 ist im Allgemeinen durch die E/A-Schnittstelle 204 mit einer Anzeige 205 und verschiedenen Eingabegerten 206 wie zum Beispiel einer Maus oder einer Tastatur, gekoppelt. Zu den Unterstützungsschaltungen können Schaltungen wie zum Beispiel ein Cache, Stromversorgungen, Taktschaltungen und ein Kommunikationsbus gehoren. Der Speicher 203 kann Direktzugriffsspeicher (RAM, Nurlesespeicher (ROM), ein Plattenlaufwerk, ein Bandlaufwerk usw. oder eine Kombination davon umfassen. Die vorliegende Erfindung kann als eine Routine 207 implementiert werden, die in dem Speicher 203 gespeichert und durch die CPU 202 ausgefuhrt wird, um das Signal aus der Signalquelle 208 zu verarbeiten. Das Computersystem 201 ist dementsprechend ein Vielzweckcomputersystem, das zu einem speziellen Computersystem wird, wenn es die Routine 207 der vorliegenden Erfindung ausführt.
  • Die Computerplattform 201 umfasst außerdem ein Betriebssystem und Mikroanweisungscode. Die verschiedenen hier beschriebenen Prozesse und Funktionen können entweder Teil des Mikroanweisungscodes oder Teil des Anwendungsprogramms (oder eine Kombination davon) sein, der bzw. das über das Betriebssystem ausgeführt wird. Zusätzlich können verschiedene andere Peripheriegeräte an die Computerplattform angeschlossen werden, wie zum Beispiel ein zusätzliches Datenspeichergerät und ein Druckgerät.
  • Da ein Teil der konstituierenden Systemkomponenten und Verfahrensschritte, die in den beigefügten Figuren abgebildet sind, in Software implementiert sein kann, versteht sich ferner, dass die eigentlichen Verbindungen zwischen den Systemkomponenten (oder Prozessschritten) abhängig von der Art und Weise der Programmierung der vorliegenden Erfindung unterschiedlich sein können. Anhand der dieser gegebenen Lehren der vorliegenden Erfindung werden Durchschnittsfachleute auf dem relevanten Gebiet in der Lage sein, diese und ahnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.
  • Implizite Reprasentation:
  • Die Segmentierung kann unter Verwendung von Grenzflächen (z. B. Kurven) durchgeführt werden, die sich gemäß einer Strömung entwickeln. Die Strömung, die die Propagation der Kurve bestimmt, kann durch Minimierung einer Zielfunktion gewonnen oder gemaß dem Anwendungskontext definiert werden (z. B. geometrische Stromungen). Segmentierungsansätze auf Snake-Basis beziehen sich auf die Propagation von Kurven von einer Anfangsposition in Richtung der gewunschten Bildeigenschaften. Zu solchen Stromungen gehören interne und externe Terme.
  • Um Niveaumengenreprasentationen einzuführen, betrachte man eine parametrische Kurve ∂R(p):[0, 1] → R × R Gl. 1
  • Die sich gemäß einer gegebenen Bewegungsgleichung in der normalen Richtung N1 entwickelt: ∂R(p) = F(∂R(p))N Gl. 2 wobei F eine skalare Funktion auf den lokalen Eigenschaften der Kurve (z. B. Krümmung) ist. Diese Stromung kann unter Verwendung eines Lagrange-Ansatzes implementiert werden. Die Kontur wird in diskreter Form unter Verwendung einer Auswahl von Kontrollpunkten repräsentiert. Die Kurvenposition kann durch Lösen von Gl. 1 und Gl. 2 für jeden Kontrollpunkt aktualisiert werden, Eine solche Technik kann im allgemeinsten Fall die Topologie der sich entwickelnden Kurve nicht ändern und es kann eine Umparametrisierung der sich entwickelnden Kurve notwendig sein.
  • Das Niveaumengenverfahren wurde zuerst auf dem Gebiet der Fluiddynamik eingeführt und ist eine neue Technik zum Behandeln verschiedener Anwendungen in der Abbildung, Vision und Grafik. Niveaumengenverfahren repräsentieren die sich entwickelnde Kurve mit dem Nullniveau einer Fläche ϕ:[x, y, ϕ(x, y)] ϕ(∂R(R)) = 0 Gl. 3
  • Eine solche Repräsentation ist implizit, intrinsisch und parameterfrei. Die Oberflache kann so entwickelt werden, dass das Nullniveau immer der sich entwickelnden Kurve nachgibt. Durch Bilden der Ableitungen von ϕ nach der Zeit erhält man: d / dτϕ + F|∇ϕ| = 0 Gl. 4
  • Somit wird eine Verbindung zwischen der Familie sich entwickelnder Kurven ∂R und der Familie sich entwickelnder Flächen ϕ hergestellt. Ein solches Propagationsschema kann topologische Änderungen berücksichtigen und kann sie Schätzung der lokalen geometrischen Eigenschaften der Kurve unterstützen.
  • Energieminimierungstechniken können verwendet werden und eine Strömung kann erhalten und in dem Niveaumengenrum implementiert werden.
  • Das Definieren von Zielfunktionen im Niveaumengenraum zur Gruppierung führt in Richtung der Einrichtung von Niveaumengentechniken bei der Abbildung und Vision. Zu diesem Zweck betrachte man die Abstandstransformation D(s, ∂R) als Einbettungsfunktion fur ∂R:
    Figure 00110001
  • Und die Dirac- und Heaviside-Distribution:
    Figure 00120001
    und verwende diese zur Einführung einer Bildpartitionszielfunktion. Glättenebenbedingungen, randgesteuerte Objektdetektion sowie allgemeine Regionskonsistenz-Gruppierungsterme können nun direkt auf dem Niveaumengenraum ϕ eingeführt werden. Längenminimierung ist ein wohlbekannter geometrischer Glätteterm, der auf einfache Weise zum Beispiel unter Verwendung der folgenden Formulierung eingeführt werden kann: Esmoothness(ϕ) = ∫∫Ωδα(ϕ)|∇ϕ|DΩ Gl. 7
  • Mit der geodesischen Aktivkontur (Gl. 8) kann eine Kurve minimaler Länge gewonnen werden: Egeodesic(ϕ) = ∫∫Ωδα(ϕ)b(;)|∇ϕ|dΩ Gl. 8 gemaß einer bestimmten willkürlichen Metrikfunktion b:R+ → [0, 1] Eine solche Funktion ist monoton abnehmend mit Minimalwerten an den Bildstellen mit den gewunschten Merkmalen (z. B. hoher Gradient). Die Variationsrechnung kann eine geometrische Strömung zur Aktualisierung der Position der Grenzfläche in Richtung der gewunschten Bildeigenschaften bereitstellen: ∂ / ∂τϕ = δα(ϕ)div(b(;) ∇ϕ / |∇ϕ| Gl. 9
  • Solche Stromungen konnen unter bestimmten Anfangsbedingungen zu präziser Randextraktion führen. Der Startpunkt muss im Wesentlichen das interessierende Objekt einkreisen oder im Wesentlichen von diesem umgeben sein. Ferner ist Vorwissen bezüglich der Propagationsrichtung notwendig.
  • Mit regionalen/globalen Informationsmodulen kann ein Objekt in einem Bild von dem Hintergrund des Bildes getrennt werden, wobei adaptive Ballonkräfte verwendet werden, um die Notwendigkeit, Anfangsbedingungen zu erfülle, zu überwinden. Das regionale/globale Informationsmodul verwendet die sich entwickelnde Grenzfläche, um eine Bildpartition zu definieren, die in Bezug auf bestimmte Gruppierungskriterien optimal ist. Ein solches Kriterium kann aus der Heaviside-Distribution abgeleitet werden:
    Figure 00130001
    (gemäß bestimmten globalen Deskriptoren r0:R+ → [0, 1], rb:R+ → [0, 1], die monoton abnehmende Funktionen sind). Solche Deskriptoren messen die Qualität der Übereinstimmung zwischen dem beobachtenden Bild und den erwarteten regionalen Eigenschaften der interessierenden Struktur und dem Hintergrund. Ein solcher Term kann die Segmentierungsleistung verbessern und kann bewirken, dass der Ansatz weniger von den Anfangsbedingungen abhängig wird. Die Variationsrechnung kann in Bezug auf die Entwicklung von ϕ zu der folgenden Strömung führen: ∂ / ∂τϕ = δα(ϕ)(rB(;) – r0(;)) Gl. 11 wobei es sich um eine adaptive Ballonkraft handelt. Eine solche Kraft basiert auf relativen Messungen und expandiert oder schrumpft die Kurve gemäß der lokalen Anpassung der Daten in Bezug auf die erwarteten Intensitätseigenschaften des Objekts und der Hintergrundklasse.
  • Die Kurvenpropagation durch Verwendung impliziter Reprasentationen ist ein effizientes Segmentierungswerkzeug. Präzise Extraktion von Rändern, Möglichkeit zur Behandlung von mehrkomponentigen Objekten und Integration von Partitionsmodulen verschiedener Beschaffenheit sind Stärken eines solchen Verfahrens. Relativ of ist die Segmentierung mit dem Gewinnen einer Struktur von besonderem Interesse aquivalent. Vorwissen bezüglich des Prozesses kann sich entweder auf die visuellen Eigenschaften des Objekts oder auf seine geometrische Form beziehen.
  • Formgesteuerte Einführungs-Module sind ein wertvolles Element für den Segmentierungsprozess. Eine solche Aktion umfasst das Definieren/Gewinnen einer Struktur zur Repräsentation des Vorwissens und das Einführen von Nebenbedingungen, die den Segmentierungsprozess in Richtung von Lösungen fuhren, die dem Vorwissen oder Vorbekannten genügen. Das Vorbekannte kann eine Mannigfaltigkeit von Lösungen definieren und die Segmentierung bestimmt die wahrscheinliche Losung gemaß den Bilddaten innerhalb dieser Mannigfaltigkeit.
  • Aufbau eines impliziten Formmodells (Fig. 1, 101):
  • Die Auswahl einer Repräsentation für das Vorwissen ist eine wichtige Komponente bei der Einführung solcher Nebenbedingungen. In einem typischen Szenario wurde man gerne eine kompakte Struktur aus einer Menge von N Trainingsbeispielen [C1, C2, ..., CN] zur Repräsentation des Vorbekannten gewinnen. Die Trainingsbeispiele können Bilder eines repräsentativen interessierenden Objekts sein. Die Struktur sollte in der Lage sein, die Variabilität der Trainingsbeispiele zu beschreiben. Innerhalb eines solchen Prozesses ist Registration notwendig. Mit Bezug auf 4 werden mehrere Trainingsbeispiele bereitgestellt 401. Die Trainingsbeispiele werden auf eine gemeinsame Pose [C ^1, C ^2, ..., C ^N] 402 ausgerichtet und es wird eine sinnvolle kompakte Repräsentation der Beispiele gesucht, die Vorwissen für die bestimmte Pose codieren kann 403. Die Ausrichtung von Formen ist bei der Abbildung und Vision mit zahlreichen potentiellen Anwendungen ein Problem.
  • Implizite Repräsentationen und Abstandstransformationen können für eine Repräsentation von Formen in einer höheren Dimension betrachtet werden. Auf diesem Raum kann eine Registration durchgeführt werden, wobei nach einer Transformation gesucht wird, die die implizite Repräsentation der Quelle mit der Repräsentation des Ziels ausrichtet. Mit globalen Fehlermetriken wie zum Beispiel Summe quadrierter Differenzen sowie Maximierung der gegenseitigen Informationen im Raum impliziter Reprasentationen kann man ein parametrisches Modell gewinnen, das die Verschiebung zwischen Quelle und Ziel beschreibt. Im Raum implizierter Repräsentationen können lokale Deformationen entweder unter Verwendung von optischen Strömungsnebenbedingungen oder von Free-Form-Deformation berücksichtigt werden.
  • Das Einführen des Vorwissens in Niveaumengenverfahren erordert die Definition eines Modells. Eine Wolke von Punkten ist ein Beispiel für eine Technik zu Reprasentation von solchem Wissen auf simplistische Weise. Das Aufbauen einer mittleren Form über die Beispiele der Trainingsmenge hinweg kann ausreichen, um ein Vorbekanntes zu repräsentieren. Eine solche Technik erfasst möglicherweise keine Variabilität und ist möglicherweise innerhalb des Rahmens von Niveaumengen, wenn die sich entwickelnde Grenzfläche nicht unter Verwendung von Punkten reprasentiert wird, nicht zweckmäßig. In einem solchen Rahmen kann die Definition des Vorbekannten innerhalb des Niveaumengenraums betrachtet werden. Konsistenz zwischen dem Rahmen von Propagationstechnik/Optimierung und der Form des Vorbekannten ist sinnvoll. Das Ziel ist, aus einer Menge von Beispielen [ϕ1, ϕ2, ..., ϕN) eine kompakte Repräsentation zur Codierung des Vorbekannten zu gewinnen, wobei ϕ die Niveaumengenrepräsentation von C ^1 ist. Pricipale Component Analysis (PCA) kann angewandt werden, um die Trainingsbeispiele hinweg zu erfassen. PCA bezieht sich auf eine lineare Transformation von Variablen, die fur eine gegebene Anzahl n von Operatoren den größten Grad an Variation innerhalb der Trainingsdaten beibehält. Eine solche Technik benotigt eine signifikante Anzahl von Stichproben innerhalb der Trainingsmenge.
  • Man betrachte die Erzeugung eines Modells, das die Struktur mittlerer Form und die Fähigkeit zur Erfassung der Variabilität der Lernmenge kombiniert. Gemäß einer Ausführungsform der vorliegenden Offenlegung bestimmt ein Modell eine auffallendste Form sowie die Konfidenz entlang der Formteile (siehe 3). Wenn Übereinstimmung zwischen den Trainingsbeispielen fur einen bestimmten Teil des Objekts vorliegt, sollte die Konfidenz hoch sein und die Gewinnung des Objekts in dem Bild sollte das Vorbekannte stark respektieren. Wenn dies nicht der Fall ist, sollte die Bildinformation wichtiger sein. Das Modell implementiert eine stochastische Niveaumengenrepräsentation (siehe 1, 101) mit einer reprasentativen Form ϕm und einer Konfidenzabbildung σm, die beide in dem Pixelniveau bzw. in den Pixelniveaus folgendermaßen definiert sind.
  • Figure 00170001
  • Die repräsentative Form sollte eine Niveaumenge sein, wobei die Abstandstransformation als Einbettungsfunktion betrachtet wird, was zu der Nebenbedingung |∇ϕm| = 1 führt. Diese Nebenbedingung kann gelockert werden, und eine Form, die am besten die Trainingsproben [ϕ1, ϕ2, ...,ϕN] beschreibt (zum Beispiel der Mittelwert): ϕm = 1 / N[Σ N / n = 1ϕ1] kann gesucht werden. Eine solche Modellierung nimmt Unabhangigkeit zwischen Pixeln an. In Richtung der Konstruktion der Niveaumengen-Vorbekannten-Repräsentation betrachte man die Lösung des Inferenzproblems auf Pixelniveau(s). Mit einer gegebenen Menge von Werten [ϕ1(s), ϕ2(s), ..., ϕN(s)] gewinne man eine Verteilung ϕm(s), ϕm(s), die die Daten besser ausdruckt.
  • Das Maximum Posterior diese Verteilung entlang den Trainingsproben ist aquivalent mit der Minimierung von
    Figure 00170002
    Gl. 13 wobei bestimmte konstante Terme weggelassen wurden. Man kann ein solches Kriterium auf der Bildebene definieren und das Vorbekannte durch Suchen nach dem richtigen Potential von Folgendem gewinne:
    Figure 00180001
  • Auf lokalem Niveau wird erwartet, dass die Konfidenz des Modells glatt ist. Das Objekt kann in Segmente zerlegt werden, die fest sind, und σm ist entlang dieser Segmente oder innerhalb eines kleinen Umgebungssystems in der Bildebene glatt.
  • Bei der Betrachtung von Optimierungsproblemen können Glätteterme verwendet werden. Die Zielfunktion st nicht konvex und weist eine große Anzahl lokaler Minima auf. Ferner kann eine solches Problem schlecht definiert sein, da die Anzahl von Nebenbedingungen kleiner als die Anzahl unbekannter Variablen ist. Eine Technik zur Überwindung dieser Begrenzung umfasst das Einführen von Kosten fur die raumlichen Ableitungen des gewonnenen Feldes (σm):
    Figure 00180002
    wobei Ψ(u, v) eine Regularisierungsfunktion ist. Eine einfache Auswahl für Ψ umfasst eine Variante der Fehler-Zwei-Norm:
    Figure 00190001
  • Mit Variationsrechnung und einem Gradientenabstiegsverfahren kann man die Losung für das Vormodell (ϕm, σm) gewinnen. Die letzte zu berücksichtigende Nebenbedingung betrifft ϕm. Bei gegebener Form von Trainingsbeispielen (Niveaumengenrepräsentation mit Abstandstransformation als Einbettungsfunktion) kann in dieser Mannigfaltigkeit ein Modell ϕm bestimmt werden. Die Optimierung dieses Funktionales unter Berücksichtigung von Nebenbedingungen kann durch Lagrange-Multiplikatoren und eines Gradientenabstiegsverfahrens durchgeführt werden. Angesichts der Form der Nebenbedingungen kann nicht angenommen werden, dass die Bedingungen, die die Gültigkeit des Lagrange-Theorems garantieren, erfüllt sind. Außerdem ist die Anzahl unbekannter Variablen des Systems zu hoch was zu einem instabilen System führt. Solche Begrenzungen können durch Verwendung einer ergänzten Lagrange Funktion uberwunden werden.
  • Mit Bezug auf 3 kann, um die Abstandsfunktionsnebenbedingungen zu berucksichtigen das Problem zu Stufen entkoppelt zu werden; man kann eine optimale datengesteuerte Lösung gewinnen; die die Trainingsmenge 301 erläutern kann und die nächste Projektion einer solchen Lösung auf die Mannigfaltigkeiten von Abstandstransformationen kann gefunden werden 302. Die Blöcke 301 und 302 wechseln sich ab, bis das System eine stationäre Losung erreicht 303. Die Variationsrechnung der Zielfunktion E(ϕm, σm) kann eine Strömung bereitstellen, die eine anfängliche Niveaumengenfunktion in Richtung eines reprasentativen Modells (ϕm) deformiert, und die Konfidenzmaße (σm) des Modells gewinnen 104.
  • Figure 00200001
  • Eine solche Strömung führt zu einem Niveaumengenmodell ϕs, das den Daten nahe kommt, aber nicht die Nebenbedingung, dass eine Abstandstransformation Einbettungsfunktion ist, respektiert. Man kann die nächstliegende Projektion des aktuellen Zustands von ϕs auf den Raum von Abstandstransformationen betrachten. Der Stand der Technik hierzu umfasst mehrere Techniken. Einige dieser erfordern die Extraktion der Niveaumenge, während andere dieselbe Aufgabe direkt auf dem impliziten Reprasentationsraum lösen konnen. Man betrachte eine PDE zur Gewinnung einer solchen Projektion: d / dτϕm = sgn (ϕ 0 / m)(1 – |∇ϕm|) Gl. 18 ist die Reprasentation, die aus der datengesteuerten Komponente gewonnen wird, die auf den Raum von Abstandsfunktionen projiziert werden soll.
  • Man betrachte eine iterative Technik, die ein bestes Modell gewinnt und auf sequentielle Weise auf die Mannigfaltigkeit von Abstandstransformationen projiziert. Entscheidungen bezüglich der Abwechslung zwischen Schritten können gemäß dem mittleren Abstand des Modells ⌊d = 1 / |Ω|∫∫Ω|∇ϕm|dΩ⌋ einer idealen Abstandstransformation, getroffen werden. Um Stabilitätsprobleme zu vermeiden, können die Variabilitätsschätzungen mit m = 1 + σ ^m] ersetzt und σ ^m kann gesucht werden, mit der Einschränkung auf strikte Positivität auf dem Pixelniveau.
  • Zu den Vorteilen eines solchen vorbekannten Modells gehort das Codieren in einer natürlichen Form von Vorwissen innerhalb impliziter Repräsentationen, das Bereitstellen einfacher Techniken für die Schätzung geometrischer Eigenschaften, das Behandeln von mehrkomponentigen Objekten und das Bestimmen des Vorbekannten aus einer kleinen Menge von Trainingsbeispielen. Eine solche Codierung kann sinnvolle Vergleiche zwischen der sich entwickelnden Grenzfläche und dem Modell unterstützen. Ein minimaler Unterschied zwischen dem Vorbekannten (ϕm) und der sich entwickelnden Grenzfläche ϕ entspricht einer Lösung, die das Vorbekannte respektiert.
  • Einführung von Vorwissen (Fig. 1, 102):
  • Die Annahme, dass alle Trainingsbeispiele in einer gemeinsamen Pose registriert sind, wurde während der Modellkonstruktion betrachtet (siehe 4). Diese Annahme ist notwendig, um ein sinnvolles Modell zu gewinnen. Die auf Wissen basierende Segmentierung muss sich mit demselben Problem beschäftigen. Objekte in dem Bild können verschiedenen Maßstab, verschiedene Orientierung usw. im Vergleich zu dem Vormodell aufweisen. Die Parameter der Transformation zwischen diesen beiden Elementen sind unbekannt, während ihre Form bekannt sein kann.
  • Für den ahnlichkeitsinvarianten Fall, bei dem das zu erkennende Objekt eine Drehstreckungstransformation des Modells kombiniert mit bestimmten lokalen Deformationen ist, wird eine Mannigfaltigkeit zulassiger Losungen als die Menge einer parametrischen Menge von Transformationen des Vormodells definiert. Man betrachte den Ähnlichkeitsfall, da der Effekt dieser Transformationen auf Abstandstransformationen vorhergesagt werden kann.
  • Für ein statisches Vorbekanntes wird auf einem abstrakten Niveau eine Nebenbedingung eingeführt, die erzwingt, dass die sich entwickelnde Grenzfläche in allen Fällen zu dieser Mannigfaltigkeit gehört. Diese Aktion fuhrt zu der Gewinnung einer Bildstruktur, die dieselben geometrischen Eigenschaften mit dem Vorbekannten aufweist. Eine solche Nebenbedingung sollte auf einem sinnvollen Vergleich zwischen dem Vorbekannten (ϕm) und der sich entwickelnden impliziten Repräsentation ϕ(;τ) basieren. Diese Nebenbedingungen kann in einer allgemeinen Form folgendermaßen geschrieben werden: ϕ(;τ) = g(ϕm(A(;τ))) Gl. 19 wobei g eine zu definierende Morph-Funktion und A(;τ) = (S, Θ, T) eine Familie von Drehstreckungstransformationen, an denen ein Translationsvektor T, ein Drehwinkel Θ und ein Skalenfaktor S beteiligt sind, ist. Abstandsfunktionen sind gegenüer Translation und Rotation invariant. Bei Betrachtung des Subfalls starrer Transformationen kann die obige Bedingung deshalb zu folgendem vereinfacht werden: ϕ(;τ) = ϕm(A(;τ)) Gl. 20
  • Die Minimierung des Fehlers auf Norm zwischen der sich entwickelnden Repräsentation und der starren Variante des Modells kann nun betrachtet werden, um die Nebenbedingung aufzuerlegen; E(ϕ, A) = ∫∫ΩHα(ϕ)(ϕ – ϕm(A))2dΩ Gl. 21 wobei die Gewinnung einer Niveaumenge gesucht wird, die nach ihrer Translation und Rotation wie das Vormodell ist. Dieser auf Wissen basierende Term berücksichtigt den inneren Objektteil. Die gewählte Vorrepräsentation codiert solches Wissen auch im äußeren Teil. Insbesondere ist der Vorterm präziser, wenn er nahe der mittleren Form definiert wird. Die Verwendung von Abstandstransformationen als Einbettungsfunktion in den Niveaumengenrepräsentationen erhält die Vorinformation innerhalb eines bestimmten Abstands von der immer weniger diskriminativ, wenn man sich von der Nullniveaumenge entfernt. Eine Modifikation der Heaviside-Funktion kann Formwissen am Äußeren des Objekts berücksichtigen: E(ϕ, A) = ∫∫ΩHα(ϕ + ε)(ϕ – ϕm(A))2dΩ Gl. 22 wobei ε eine positive Konstante ist, die den Vortermbeitrag fur eine Isophote von ε heraufschiebt. Die Korrektheit des Vorterms ist eine Funktion des Abstands von der Nullniveaumenge. Es kann angenommen werden, dass ein Schatzen und auferlegen des Vorbekannten innerhalb der Umgebung dieser Isophoten sinnvoller ist. Die Propagation der Kurve findet auf dieser Isophoten statt und das statische Vorbekannte kann deshalb in der folgenden Form betrachtet werden: E(ϕ, A) = ∫∫Ωδε(ϕ)(ϕ – ϕm(A))2dΩ Gl. 23 mit ε >> α. Es können die Variationsrechnung und ein Gradientenabstiegsverfahren betrachtet werden, um die unbekannte Transformation A zu gewinnen und (gemäß ϕ) eine Bildstruktur zu extrahieren, die den Formeigenschaften des Vorbekannten folgt.
  • Abstandstransformationen sind gegenüber Maßstabsvariationen nicht invariant. Um diese Eigenschaft zu berücksichtigen, kann die Morph-Funktion zwischen der Vorrepräsentation und der sich entwickelnden umdefiniert werden. Die Anwendung eines Maßstabsoperators auf eine Kontur skaliert die Abstandstransformations-Einbettungsfunktion entsprechend. Unter Aufnahme einer entwickelnden Kontur ∂R und einer, die nach Anwenden des Maßstabsoperators S[∂R2 = S∂R1] gewonnen werden kann, lässt sich zeigen, dass die folgende Beziehung für ihre Niveaumengen-Abstandstransformationsrepräsentationen gilt [Sϕ1 = ϕ2]. Eine solche Bedingung kann mit dem Effekt von Translation und Rotation integriert werden, was zu einer drehstreckungsvarianten Bedingung zwischen der Niveaumenge des Vorbekannten und der sich Entwickelnden führt: Sϕ(;τ) = ϕm(A(;τ)) Gl. 24
  • Die Summe von Quadratdifferenzen zwischen der tatsächlichen Grenzfläche ϕ und dem Modell ϕm nach dem Morphen kann als Zielfunktion angesehen werden: E(ϕ, A) = ∫∫Ωδε(ϕ)(Sϕ – ϕm(A))2dΩ Gl. 25
  • Dieses Kriterium entwickelt die Niveaumengenfunktion in Richtung einer starren Transformation des Modells. Zu diesem Zweck sind die Variationsrechnung und ein Gradientenabstiegsverfahren ein hervorragendes Verfahren zum Gewinnen von ϕ.
  • Figure 00250001
  • Diese Strömung enthält eine Formkonsistenzkraft, die die Grenzfläche in Richtung eines besseren lokalen (viel wie bei dem Vorbekannten) und eine Kraft, die darauf abzielt, die Niveaumengenwerte so zu aktualisieren, dass die Region, auf der die Objektivfunktionen ausgewertet werden (–ε, ε) in der Bildebene kleiner und kleiner wird, aktualisiert.
  • Um den Einfluss dieser Kraft besser zu verstehen, betrachte man einen negativen ϕ-Wert in dem Bereich von (–ε, ε):
    Figure 00260001
  • Deshalb ändert diese Kraft die Position der Grenzfläche nicht, da das Vorzeichen der impliziten Reprasentation an jedem Pixel erhalten wird. Sie wirkt sich nur auf die Form der impliziten Funktion aus, so dass die Fläche, auf der die Zielfunktion ausgewertet wird, abnimmt. Eine solche Kraft kann ignoriert werden, da sie beim Vorgang des Auferlegens des Vorwissens keine sinnvolle Interpretation besitzt.
  • Man betrachte die Variationsrechnung für die Parameter der Transformation A, die zu folgendem führt:
    Figure 00260002
    wobei Tx, Ty die beiden Komponenten des Translationsvektors sind. Die Registrationsparameter zwischen der sich entwickelnden Grenzfläche und dem Modell werden auf globale Weise unter Verwendung regionaler Informationen gewonnen.
  • Least-Squares-Verfahren können gegenüber Rauschen und Ausreißern empfindlich sein. Die Verwendung robuster Schätzer kann als diese Nebenbedingung uberwindend angesehen werden, wenn die Registration zwischen der Grenzfläche und dem vorbekannten gewonnen wird: E(ϕ, A) = ∫∫Ωδε(ϕ)ρ(Sϕ – ϕm(A))dΩ Gl. 29
  • Wobei ρ eine robustere Fehlernorm ist. Es können zusätzliche visuell gesteuerte Terme betrachtet werden, wie zum Beispiel Anziehung an die Ränder und Trennabstand zwischen Objekt und Hintergrund gemaß ihren Intensitätseigenschaften.
  • Der Rahmen kann eine weiche Nebenbedingung (Repräsentation des Vorbekannten unter Verwendung einer stochastischen Niveaumenge) zur auf Wissen basierenden Segmentierung in eine harte Nebenbedingung übersetzen. Der Vorterm enthält eine Konfidenzabbildung (σm). Es kann erwartet werden, dass Gebiete mit starkem Vorbekannten präzise in dem Bild gewonnen werden sollten. In Gebieten, in denen die Konfidenz des Modells fraglich ist, besitzen Bildinformationen eine dominantere Rolle als das Vorbekannte in dem Segmentierungsprozess.
  • Mit einem stochastischen Vorbekannten kann man den Verbundraum der sich entwickelnden Grenzfläche und ihrer Transformation auf das Vormodell unter Verwendung einer probabilistischen Dichtefunktion modellieren. Es sei [p(ϕ, A|ϕm)] die Vorverteilung der Transformation bei gegebenem Modell ϕm. Eine solche Verteilung ist unbekannt, variiert uber verschiedene Objekte hinweg und kann im allgemeineren Fall nicht gewonnen werden. Es können jedoch Monte-Carlo-Sampling oder andere Techniken verwendet werden, um eine solche Verteilung zu gewinnen, wenn empirische Indizien verfugbar sind. Man betrachte eine bayesische Formulierung fur diese Dichte
    Figure 00280001
  • Der konstante Term ϕm kann ignoriert werden, und es kann angenommen werden, dass der Verbundraum von Grenzflächen und ihren Transformationen gleichförmig ist. Diese Annahme wird jedoch ohne Wissen für die Eigenschaften des zu gewinnenden Objekts betrachtet, wie zum Beispiel der Pose des Objekts, Maßstabsvariationen usw. Das Gewinnen der optimalen Grenzfläche und der Transformation ist äquivalent dem Finden des Maximum Posterior p(ϕm(A)|ϕ), und dies ist äquivalent mit dem Finden des Extremums von:
    Figure 00280002
    wobei ω eine Bildstelle und p(ϕm(A(ω))|ϕ(ω)) das stochastische Vorbekannte an dieser Stelle ist und Unabhängigkeit über Pixel hinweg betrachtet wurde. Außerdem wird die Umsetzung der sich entwickelnden Grenzfläche ϕ in die Pose, die der in dem Vormodell ϕm aufgezeichneten ähnlich ist, betrachtet. Zu diesem Zweck muss der Skalenfaktor S berücksichtigt werden, was zu der folgenden Form für das Posterior führt:
    Figure 00280003
  • Maßstabsvariationen verursachen wie bereits erläutert pradikative Änderungen in den Abstandstransformations-Niveaumengen-Repräsentationen. Die pixeldefinierten Vorverteilungen [pω()] sind aus der Modellierungsphase bekannt, und das Lösen des Inferenzproblems ist aquivalent mit dem Finden des niedrigsten Potentials der Funktion –log oder
    Figure 00290001
  • Durch Verwendung der bekannten gaußschen Eigenschaften der pixeldefinierten Vorverteilungen kann man den folgenden analytischen Ausdruck für die Zielfunktion gewinnen:
    Figure 00290002
    wobei konstante Terme weggelassen wurden. Eine solche Zielfunktion enthält einen Term, der das Gewinnen einer Transformation A, die die sich entwickelnde Grenzfläche auf Modellgebiete mit niedriger Konfidenz [großem σm(A)] projiziert, zu unterbinden sucht, und einen Term, der lokale Propagation und Schatzung mit den folgenden Zielen koppelt;(i) Wiederherstellung einer Transformation, die die sich entwickelnde Grenzfläche mit dem Vorbekannten ausrichtet, und (ii) entwickeln der Grenzflache dergestalt, dass sie bei gegebener Transformation wie das Vorbekannte wird. Ein solcher Term hat eine ahnliche konzeptuelle Interpretation mit dem zur Einführung des statischen Vorbekannten verwendeten, ist dabei aber in der Lage, Modellkonfidenz zu berücksichtigen. Der Projektionsfehler (sϕ – ϕm(A))2 wird gemäß der Modellkonfidenz σm(A) gewichtet.
  • Innerhalb eines solchen Optimierungsrahmens wird der Fehler für Abweichung von dem Modell in Gebieten mit niedriger Konfidenz (hohem σm(A)) (gemäß σm(A)) abgewertet.
  • Solche Gebiete werden folglich in dem Prozess des Auferlegens des Vorbekannten und des Gewinnens der Transformation weniger wichtig. Ferner behandelt das Modell auf implizite Weise in dem Prozess der Formdurchsetzung innerhalb des Segmentierungsprozesses Ausreißer.
  • Das resultierende Kriterium ist jedoch in der gesamten Bildebene definiert. Die Definition des Vorbekannten ist hauptsächlich um die Objektregion herum konsistent und erfordert keine Einschränkung der Zielfunktion innerhalb der interessierenden Struktur.
  • Figure 00300001
  • Die Variationsrechnung innerhalb eines Gradientenabstiegsverfahrens kann das niedrigste Potential der Kostenfunktion liefern. Es sollen zwei unbekannte Variablen gewonnen werden, die Objektposition (Form der Funktion ϕ)
    Figure 00300002
    und die Transformation zwischen Objekt und dem Vorbekannten:
    Figure 00310001
    wobei die partiellen Ableitungen von ϕ(A), σm(A) nach den Transformationsparameter wie im Fall des statischen Vorbekannten unter der Verwendung der Kettenregel gewonnen werden können. Die Flächenkraft hat dieselbe Interpretation wie die im Fall des statischen Vorbekannten präsentierte und kann deshalb ignoriert werden. Ein solches stochastisches Vorbekanntes kann zur Gewinnung einer interessierenden Struktur verwendet werden, die die Konfidenz des Vorbekannten berucksichtigen.
  • Beide Terme beziehen sich auf eine zusätzliche Komponente zum Auferlegen von Vorwissen auf die Segmentierung und berücksichtigen nicht die visuellen Eigenschaften des Objekts.
  • Um das Vorbekannte einzufuhren (siehe 5) betrachte man eine bimodale Partition, die sich auf das interessierende Objekt und den Hintergrund bezieht. Das Modell der geodesischen Aktivregion kann eine solche Partition berücksichtigen. Es wird angenommen, dass sich visuelle Unstetigkeiten (z. B. starke Ränder) in dem Bild auf die Ränder der gewunschten Partition beziehen. Ohne Verlust an Allgemeingültigkeit können Gaußsche Verteilungen verwendet werden, um die Intensitätseigenschaften des Objekts und des Hintergrunds zu erfassen 501. Parameter (z. B. Mittelwert, Varianz) des Objekts und Hintergrunds werden gemäß einer letzten Segmentierungsabbildung 502 unter Verwendung von des empirischen Mittelwerts und der empirischen Varianz geschätzt:
    Figure 00320001
    wobei g eine monotone positive abnehmende Funktion ist. Man kann die Gaußschen Verteilungen weiterentwickeln und eine zweckmäßigere Form für die bezüglich visueller Region definierte Komponente zu gewinnen. Die Variationsrechnung kann zu einer geometrischen Strömung führen, die die Ausbreitung der Kontur in Richtung der Objektgrenze fuhrt, wahrend das Vorbekannte respektiert wird (siehe 1, 103). Außerdem können Mischungsmodelle oder nichtparametrische Techniken betrachtet werden, um die visuellen Eigenschaften von Objekt und Hintergrund zu erfassen.
  • Bezüglich einer schnellen Implementierung betrachte man ein schmalbandiges Verfahren, das die Niveaumengenrepräsentation in der Umgebung der letzten Position der Kontur entwickelt. Änderungen auf der sich entwickelnden Kontur werden auf dem Nullniveau geschehen und dann in der Richtung nach innen und nach außen propagiert. Eine solche Auswahl verbessert außerdem die Leistungsfahigkeit des Farm-Vorterms. Dieser Term ist um die mittlere Form herum präzise und wird weniger präzise, wenn er sich von dem Nullniveau des Vorbekannten wegbewegt. Die Niveaumengenreprasentation kann deshalb innerhalb der Isophoten [–ε, ε] aktualisiert werden.
  • Gemäß einer Ausführungsform der vorliegenden Offenlegung wird eine auf Wissen basierende Segmentierungstechnik innerhalb des Rahmens von Niveaumengen implementiert. Es wird ein Vormodell konstruiert und eingefuhrt. Bezüglich der Konstruktion des Vorbekannten wird, um mit dem betrachteten gewählten Optimierungsrahmen konsistent zu sein, eine stochastische Niveaumengenrepräsentation implementiert. Ein solches Modell enthalt eine Abstandstransformations-Einbettungsfunktion (Niveaumenge) und eine Konfidenzkomponente. Eine solche Funktion wird durch einen Ansatz der eingeschränkten Optimierung gewonnen. In dem Niveaumengenraum wird eine Menge von Trainingsbeispielen betrachtet, wobei Abstandstransformationen als Einbettungsfunktionen verwendet werden. Modellierung ist dann äquivalent mit dem Gewinnen einer repräsentativen Niveaumengen-Abstandsfunktion und glatter Messungen der Konfidenz auf Pixelniveau. Solche Messungen versuchen, die Übereinstimmung der Trainingsmenge an dieser bestimmten Stelle zu quantifizieren. Um ein solches Modell zu gewinnen, wechseln das System und das Verfahren zwischen: eine Niveaumengenfunktion, die den Daten nahe kommt, wird gewonnen und die auffallendste Projektion dieser Funktion auf die Mannigfaltigkeit zulassiger Lösungen wird bestimmt, bis Konvergenz erreicht ist. Vorwissen wird auf allmähliche Weise eingefuhrt. Statistische harte Nebenbedingungen, die erzwingen, dass die Segmentierungslösung eine Drehstreckungstransformation des Vormodells ist, werden zuerst betrachtet. Es wird eine Zielfunktion, die die Transformation sowie die Position des Objekts in dem Bild berücksichtigt, definiert und zum Gewinnen sowohl der Projektion als auch der Konfidenz verwandelt.
  • Es werden probabilistische Prinzipien betrachtet, die zu einem Maximum-Posterior-Problem führen, das die lokalen Variationen des Modells umfasst.

Claims (10)

  1. Verfahren zum Erkennen eines Objekts in einem Bild mit den folgenden Schritten: Bestimmen eines Formmodells aus ausgerichteten Trainingsbeispielen; und Implementieren des Formmodells im Rahmen von Niveaumengen zur Bestimmung des Objekts in dem Bild, wobei im Rahmen von Niveaumengen eine Projektion des Objekts in dem Bild und ein Konfidenzmaß entlang Teilen der Projektion bestimmt werden, wobei die Niveaumengen durch das Formmodell eingeschränkt wird, wobei das Konfidenzmaß als Konfidenzabbildung des Objekts bestimmt wird, wobei das Objekt in Teile zerlegt und für jedes Teil ein Glätteterm bestimmt wird.
  2. Verfahren nach Anspruch 1, wobei die Trainingsbeispiele auf eine gemeinsame Pose ausgerichtet sind.
  3. Verfahren nach Anspruch 1, wobei das Bestimmen des Formmodells weiterhin die folgenden Schritte umfasst: Bestimmen einer Niveaumengenreprasentation des Objekts in dem Bild Bestimmen der Projektion als auffallendste Form in dem Bild; und Bestimmen des Konfidenzmaßes entlang von Teilen der auffallendsten Form.
  4. Verfahren nach Anspruch 3, weiterhin mit dem Schritt des Bestimmens eines stationären Formmodells durch abwechselndes Bestimmen der Niveaumengenrepräsentation des Objekts und der Projektion und des Konfidenzmaßes.
  5. Verfahren nach Anspruch 1, wobei die Projektion und Konfidenzmessung in einem Pixelniveau des Bildes definiert werden.
  6. Verfahren nach Anspruch 1, wobei im Rahmen von Niveaumengen folgendes erfolgt: Bestimmen einer Intensitatseigenschaft für das Objekt und eines Hintergrunds in dem Bild; Schätzen von Mittelwert und Varianz des Objekts und des Hintergrunds für eine Segmentierungsabbildung.
  7. Verfahren nach Anspruch 1, wobei sich die Projektion auf einem Nullniveau entwickelt und in einer Richtung nach innen und nach außen zu einem Rand des Objekts propagiert.
  8. Verfahren nach Anspruch 1, wobei das Formmodell ein stochastisches Formmodell ist und als stochastisches Vorbekanntes dient.
  9. Verfahren nach Anspruch 8, wobei das stochastische Vorbekannte für die Abweichung von dem stochastischen Vorbekannten einen Fehler im Rahmen von Niveaumengen einführt, der in Gebieten mit reduzierter Konfidenz abnimmt.
  10. Durch Maschine lesbare Programmspeichereinrichtung, die greifbar ein Programm von Anweisungen realisiert, die von der Maschine ausführbar sind, um Verfahrensschritte zum Durchfuhren des Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen.
DE102005003605A 2004-01-29 2005-01-25 Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung Expired - Fee Related DE102005003605B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US54012904P 2004-01-29 2004-01-29
US60/540,129 2004-01-29
US11/008522 2004-12-09
US11/008,522 US7391882B2 (en) 2004-01-29 2004-12-09 Prior knowledge, level set representations and visual grouping

Publications (2)

Publication Number Publication Date
DE102005003605A1 DE102005003605A1 (de) 2005-09-01
DE102005003605B4 true DE102005003605B4 (de) 2013-04-25

Family

ID=34810343

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102005003605A Expired - Fee Related DE102005003605B4 (de) 2004-01-29 2005-01-25 Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung

Country Status (3)

Country Link
US (1) US7391882B2 (de)
CN (1) CN100390813C (de)
DE (1) DE102005003605B4 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2421719B (en) * 2004-12-30 2008-07-02 Fmc Technologies Conveying conformable products
US7715626B2 (en) * 2005-03-23 2010-05-11 Siemens Medical Solutions Usa, Inc. System and method for vascular segmentation by Monte-Carlo sampling
US7773806B2 (en) * 2005-04-19 2010-08-10 Siemens Medical Solutions Usa, Inc. Efficient kernel density estimation of shape and intensity priors for level set segmentation
US7873185B2 (en) * 2005-08-03 2011-01-18 Siemens Medical Solutions Usa, Inc. Method for detection and tracking of deformable objects
US7750902B2 (en) * 2006-07-20 2010-07-06 Harris Corporation Geospatial modeling system providing non-linear inpainting for voids in geospatial model cultural feature data and related methods
US8107735B2 (en) * 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
US8634673B1 (en) 2008-11-10 2014-01-21 Marvell International Ltd. Method and apparatus for automatically tuning a parameter of an image enhancement algorithm based on an attribute of an original image
US8417046B1 (en) 2008-11-10 2013-04-09 Marvell International Ltd. Shadow and highlight image enhancement
US8509527B1 (en) 2010-06-23 2013-08-13 Marvell International Ltd. Intensity based pixel quantization
US8958636B1 (en) 2010-07-28 2015-02-17 Marvell International Ltd. Configurable color trapping
CN102289812B (zh) * 2011-08-26 2013-03-27 上海交通大学 一种基于先验形状和cv模型的目标分割方法
US9208449B2 (en) 2013-03-15 2015-12-08 International Business Machines Corporation Process model generated using biased process mining
CN104346820B (zh) * 2013-07-26 2017-05-17 清华大学 一种x光双能ct重建方法
US9495755B2 (en) 2013-10-22 2016-11-15 Nokia Technologies Oy Apparatus, a method and a computer program for image processing
CN105427341B (zh) * 2015-11-11 2018-06-01 西安电子科技大学 基于多变分水平集的复杂背景视频图像多目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6031935A (en) * 1998-02-12 2000-02-29 Kimmel; Zebadiah M. Method and apparatus for segmenting images using constant-time deformable contours
WO2002103618A1 (en) * 2001-06-12 2002-12-27 The Victoria University Of Manchester Statistical model
WO2003065294A1 (en) * 2002-02-01 2003-08-07 Siemens Corporate Research, Inc. Recovering objects by using shape priors for level set representations
DE10304360A1 (de) * 2002-02-01 2003-09-11 Siemens Corp Res Inc Unstarre Bilderfassung unter Verwendung von Abstandsfunktionen

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390258A (en) * 1992-08-07 1995-02-14 Argonne National Laboratories/University Of Chicago Development Corporation Feature guided method and apparatus for obtaining an image of an object
US5546472A (en) * 1992-08-07 1996-08-13 Arch Development Corp. Feature guided method and apparatus for obtaining an image of an object
JPH0887600A (ja) * 1994-09-19 1996-04-02 Topcon Corp 特徴抽出装置
US7132982B2 (en) * 1999-03-05 2006-11-07 Rannock Corporation Method and apparatus for accurate aircraft and vehicle tracking
IL138322A (en) * 2000-09-07 2005-11-20 Neurotrax Corp Software driven protocol for managing a virtual clinical neuro-psychological testing program and appurtenances for use therewith
US6980984B1 (en) * 2001-05-16 2005-12-27 Kanisa, Inc. Content provider systems and methods using structured data
US6909453B2 (en) * 2001-12-20 2005-06-21 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
US7035431B2 (en) * 2002-02-22 2006-04-25 Microsoft Corporation System and method for probabilistic exemplar-based pattern tracking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6031935A (en) * 1998-02-12 2000-02-29 Kimmel; Zebadiah M. Method and apparatus for segmenting images using constant-time deformable contours
WO2002103618A1 (en) * 2001-06-12 2002-12-27 The Victoria University Of Manchester Statistical model
WO2003065294A1 (en) * 2002-02-01 2003-08-07 Siemens Corporate Research, Inc. Recovering objects by using shape priors for level set representations
DE10304360A1 (de) * 2002-02-01 2003-09-11 Siemens Corp Res Inc Unstarre Bilderfassung unter Verwendung von Abstandsfunktionen

Also Published As

Publication number Publication date
DE102005003605A1 (de) 2005-09-01
CN1648936A (zh) 2005-08-03
US7391882B2 (en) 2008-06-24
US20050169533A1 (en) 2005-08-04
CN100390813C (zh) 2008-05-28

Similar Documents

Publication Publication Date Title
DE102005003605B4 (de) Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung
US10740897B2 (en) Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
DE112004000393B4 (de) System und Verfahren zum Verfolgen einer globalen Form eines in Bewegung befindlichen Objekts
DE60223361T2 (de) Objektidentifikation
US8126291B2 (en) System and method for dense image registration using Markov Random Fields and efficient linear programming
DE102019000171A1 (de) Digitalumgebung zur Verortung semantischer Klassen
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE112012005350B4 (de) Verfahren zum Schätzen der Stellung eines Objekts
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE102018117813A1 (de) Zeitlich stabile Datenrekonstruktion mit einem externen rekurrenten neuronalen Netzwerk
DE102018108324A1 (de) System und Verfahren zur Schätzung eines optischen Flusses
DE102007046582A1 (de) System und Verfahren zum Segmentieren von Kammern eines Herzens in einem dreidimensionalen Bild
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
Kim et al. Structure selective depth superresolution for RGB-D cameras
DE112018000298T5 (de) System und verfahren zur poseninvarianten gesichtsausrichtung
EP2284795A2 (de) Quantitative Analyse, Visualisierung und Bewegungskorrektur in dynamischen Prozessen
DE102016005407A1 (de) Gemeinsames Tiefenschätzen und semantisches Bezeichnen eines einzelnen Bildes
DE102006054822A1 (de) Registrierung eines charakteristischen Pfads eines Kolons
DE102006030709A1 (de) Verfahren für die kenntnisbasierte Bildsegmentierung unter Verwendung von Formmodellen
DE10296836T5 (de) System zur Modellierung statischer und dynamischer dreidimensioner anatomischer Strukturen durch 3D-Modelle
DE112005001743T5 (de) System und Verfahren zur Registrierung und Modellierung verformbarer Formen durch direkte Faktorisierung
DE10304360A1 (de) Unstarre Bilderfassung unter Verwendung von Abstandsfunktionen
DE102006050364A1 (de) Verfahren zum Detektieren und Verfolgen deformierbarer Objekte unter Verwendung eines adaptiven zeitvariierenden autoregressiven Modells
Gerogiannis et al. The mixtures of Student’s t-distributions as a robust framework for rigid registration
DE102018109802A1 (de) Qualitätsbewertung bei einer automatischen Bildregistrierung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: SIEMENS MEDICAL SOLUTIONS USA, INC., MALVERN, PA.,

R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20130726

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee