DE69737141T2

DE69737141T2 - Bildsegmentierung

Info

Publication number: DE69737141T2
Application number: DE69737141T
Authority: DE
Inventors: Ian Timothy TREW; David Richard GALLERY
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1996-11-13
Filing date: 1997-10-30
Publication date: 2007-10-04
Anticipated expiration: 2017-10-31
Also published as: EP0873654B1; GB9623573D0; US6173077B1; DE69737141D1; KR19990077203A; JP2000503509A; EP0873654A1; KR100583902B1; WO1998021893A1

Description

Die vorliegende Erfindung bezieht sich auf Bildsegmentierung mit verbesserter zeitlicher Konsistenz und auf Bildverarbeitung mit Verfahrensschritten in Abhängigkeit von der Segmentierung.
Ein Bild wird auf herkömmliche Art und Weise beschrieben durch Definition der Attribute jedes Pixels des Bildes, insbesondere der Pixelfarbe. In einem monochromen Bild bestehen die Attribute, die jedes Pixel definieren, üblicherweise aus dem Grauskalenwert des Pixels, während in einem Farbbild eine Anzahl Farbanteilwerte je Pixel definiert werden müssen. Die vorliegende Erfindung beschränkt sich aber nicht auf diese herkömmlichen Bilder und Attribute, und betrifft jedes räumliche Attribut, das auf herkömmliche Weise in Form einer Pixelanordnung in zwei oder mehr Dimensionen dargestellt werden kann. Auf gleiche Weise soll das Konzept der Zeit und der zeitlichen Konsistenz derart verstanden werden, dass es analoge Dimensionen enthält, wie wenn Segmentierung von tomographischen Bild-"Scheiben" für eine Sequenz von Bildern über eine dritte räumliche Dimension durchgeführt wird, nicht unbedingt in einer Zeitsequenz.
Bildsegmentierung ist eine bekannte Technik, die Pixel zu Gebieten gruppiert, wobei jedes Gebiet nur Pixel mit ähnlichen Attributen aufweist. Die Technik hat viele Anwendungen, insbesondere im Bereich der Bildcodierung (Kompression). Bildcodierungsschemen, wobei Bildsegmentierung angewandt wird, sind besonders geeignet für die Übertragung von Bildbewegung mit einer niedrigen Datenrate. Typische Datenraten können bis zu 64 kBits/s sein. Sie sind dadurch geeignet für Applikationen wie Videophon, was die Übertragung von Echtzeit-Videoinformation in der Schmalbandbreite einer Telefonleitung erfordert. Sogar wenn die Segmentierung nicht selbst codiert wird, kann die Segmentierung nützlich sein, beispielsweise zum Konzentrieren der verfügbaren Bandbreite auf die "wichtigen" Teile des Bildes, wie das Gesicht der sprechenden Person. Ein Bildcodierungsschema, das explizit Bildsegmentierung benutzt ist Gebiets- und Strukturcodierung, wie beschrieben in den veröffentlichten Patentanmeldungen EP-A-0437002 (PHB 33610) und EP-A-0454234 (PHB 33626). Die Japanische Patentanmeldung 08149461A von "Sony Corporation" beschreibt ein Verfahren zum Extrahieren der dreidimensionalen Forminformation in jedem Segment, wodurch eine Reihe von Bewegungsbildern geformt wird und zum Codieren der Reihe von Bewegungsbildern mit einer hohen Komprimierbarkeit durch Verwendung der Information. Wenn Segmentierungsschemen zum Codieren einer Reihe von Frames in einem Film angewandt werden, werden die sichtbaren Artefakte, die aus der Segmentierung entstehen, die an einzelnen Frames durchgeführt wird, mit jedem Frame ändern und können eine subjektiv sehr unangenehme Bildsequenzdarstellung schaffen. Deswegen ist es erwünscht, dass die Segmentierung zeitlich konsistent ist. Das heißt, dass ähnliche Gruppen mit Pixeln zu ähnlichen Gruppen in aufeinander folgenden Frames gehören sollen. Es dürfte auch einleuchten, dass Bildsegmentierung sich nicht auf die Anwendung bei Bildcodierung beschränkt und im Allgemeinen bei verschiedenen Bildverarbeitungsapplikationen angewandt werden kann, wie bei Bildverbesserung, Objektverfolgung, Extraktion von 3-D Geometrie aus Bildern, Computerunterstützter Animation und Färbung.
Eine bekannte Annäherung des Problems der zeitlich konsistenten Bildsegmentierung ist, das Bild in Gebiete einheitlicher Bewegung zu segmentieren, damit Objekte hergeleitet werden können. Es sind dann diese Objekte, für die Bewegungsvektoren berechnet und ausgeliefert werden. Beispiele einer derartigen Annäherung sind in: "Segmentation and Motion Estimation in Image Sequences" von Norbert Diehl (SPIE Heft 1260, "Sensing and Reconstruction of Three-dimensional Objects and Scenes") und in EP 0 579 319 (PHB 33802) im Namen der Anmelderin der vorliegenden Patentanmeldung beschrieben.
Ein Problem bei dieser Annäherung ist, dass man sich auf eine befriedigende Aufteilung des Bildes in die bestehenden Objekte verlässt. Dies verlässt sich seinerseits wieder auf Kenntnisse der Objekte, die wahrscheinlich in dem Bild vorhanden sind oder aus komplexer Verarbeitung vieler aufeinander folgender Bildframes hergeleitet werden. Wen nur wenig über derartige Objekte bekannt ist, wird die Modellierung sehr schwer und die Aufteilung des Bildes in derartige Objekte kann nicht befriedigend erzielt werden. Fehler beim befriedigenden Segmentieren neigt dazu, subjektiv sehr unangenehme Ergebnisse zu schaffen. So ist es beispielsweise in einer versuchsweisen Videophon-Applikation passiert, dass eine Nase auf der Stirn des übertragenen Gesichtes gewachsen war. Wie oben erwähnt, erfordert diese Annäherung eine komplizierte und ausgedehnte Datenbank von Objektmodellen und außerdem wird die Übereinstimmung derartiger Modelle mit den Objekten in dem Bild einen außergewöhnlichen Rechenaufwand erfordern. Auf diese Weise ist diese Annäherung zur Zeit keine zuverlässige Technik für eine allgemeine Bildcudierung.
Die vorliegende Erfindung hat u. a. zur Aufgabe, eine Annäherung der zeitlich konsistenten Segmentierung zu schaffen, wobei nicht die spezifische Modellierung von Objekten in dem Bild erforderlich ist.
Nach der vorliegenden Erfindung wird ein Verfahren zum Betreiben einer Bildverarbeitungsanordnung zum Erzeugen einer einheitlichen Segmentierung in Gebiete einer Sequenz relatierter Bildframes geschaffen, so dass gleiche Gruppen von Pixeln zu gleichen Gebieten in aufeinander folgenden Frames gehören, wobei das Verfahren für jedes interessante Frame die nachfolgenden Verfahrensschritte umfasst:

a) das Empfangen aktueller Framepixeldaten für das betreffende Frame, Bezugsframepixeldaten und eine Bezugsframesegmentierung;
b) das Berechnen von Bewegungsschätzungsinformation aus den aktuellen Framepixeldaten und den Bezugsframepixeldaten um räumliche Transformationen darzustellen, die zwischen den genannten Frames auftreten;
c) das Verwenden der genannten Bewegungsschätzungsinformations- und der Bezugsframesegmentierungsdaten zum Erhalten einer vorbestimmten aktuellen Framesegmentierung;
d) das Verwenden der genannten Bewegungsschätzungsinformation und der Bezugsframepixeldaten zum Erhalten vorhergesagter aktueller Framepixeldaten;
e) das Identifizieren nicht einwandfrei vorhergesagter Teile der vorhergesagten aktuellen Framesegmentierung durch einen Vergleich der empfangenen aktuellen Framepixeldaten und der vorhergesagten aktuellen Framepixeldaten; und
f) das Modifizieren der vorhergesagten aktuellen Framesegmentierung für die identifizierten Teile durch Zuordnung wenigstens einiger Pixel derartiger Teile zu bestehenden Gebieten.

Nach einem weiteren Aspekt der vorliegenden Erfindung wird eine Bildverarbeitungsanordnung zum Erzeugen einer konsistenten Segmentierung in Gebiete einer Sequenz relatierter Bildframes geschaffen, so dass gleiche Gruppen von Pixeln zu gleichen Gebieten in aufeinander folgenden Frames gehören, wobei diese Anordnung Folgendes umfasst:

a) Mittel zum Empfangen aktueller Framepixeldaten für ein betreffendes Frame, Bezugsframepixeldaten und eine Bezugsframesegmentierung;
b) Mittel zum Berechnen von Bewegungsschätzungsinformation aus den aktuellen Framepixeldaten und den Bezugsframepixeldaten um räumliche Transformationen darzustellen, die zwischen den genannten Frames auftreten;
c) Mittel zum Erhalten einer vorhergesagten aktuellen Framesegmentierung unter Verwendung der genannten Bewegungsschätzungsinformations- und der Bezugsframesegmentierungsdaten;
d) Mittel zum Erhalten vorhergesagter aktueller Framepixeldaten unter Verwendung der genannten Bewegungsschätzungsinformations- und der Bezugsframepixeldaten
e) Mittel zum Identifizieren nicht einwandfrei vorhergesagter Teile der vorhergesagten aktuellen Framesegmentierung durch einen Vergleich der empfangenen aktuellen Framepixeldaten und der vorhergesagten aktuellen Framepixeldaten; und
f) Mittel zum Modifizieren der vorhergesagten aktuellen Framesegmentierung für die identifizierten Teile durch Zuordnung wenigstens einiger Pixel derartiger Teile zu bestehenden Gebieten.

Nach noch einem anderen Aspekt der vorliegenden Erfindung wird ein von einem Computer verwendbares Medium geschaffen, das vom Computer auslesbare Instruktionen speichert um dafür zu sorgen, dass ein Prozess in einer Computergraphikanordnung Signale verarbeitet, die aktuelle Framepixeldaten für ein betreffendes Frame. Bezugsframepixeldaten und eine Bezugsframesegmentierung definieren, wobei die Instruktionen Instruktionen enthalten um dafür zu sorgen, dass der Prozessor Folgendes durchführt:

a) das Berechnen von Bewegungsschätzungsinformation aus den aktuellen Framepixeldaten und den Bezugsframepixeldaten um räumliche Transformationen darzustellen, die zwischen den genannten Frames auftreten;
b) das Verwenden der genannten Bewegungsschätzungsinformations- und der Bezugsframesegmentierungsdaten zum Erhalten einer vorhergesagten aktuellen Framesegmentierung;
c) das Verwenden der genannten Bewegungsschätzungsinformations- und der Bezugsframepixeldaten zum Erhalten vorhergesagter aktueller Framepixeldaten;
d) das Identifizieren nicht einwandfrei vorhergesagter Teile der vorhergesagten aktuellen Framesegmentierung durch einen Vergleich der empfangenen aktuellen Framepixeldaten und der vorhergesagten aktuellen Framepixeldaten; und
e) das Modifizieren der vorhergesagten aktuellen Framesegmentierung für die identifizierten Teile durch Zuordnung wenigstens einiger Pixel derartiger Teile zu bestehenden Gebieten.

Die zeitliche Konsistenz, verursacht durch die Anwendung der vorliegenden Erfindung kann auch den Rechenaufwand reduzieren, wenn einfache Voraussetzungen in Bezug auf die Bewegung in der Bildsequenz gemacht werden, indem ein Mechanismus geschaffen wird zum Detektieren und Korrigieren von Fehlern, wenn derartige Voraussetzungen nicht gültig sind.
Die vorliegende Erfindung, definiert in den beiliegenden Patentansprüchen, ermöglich die Schaffung einer konsistenten Segmentierung für eine Reihe relatierter Bilder, beispielsweise zum Erzeugen einer zeitlichen Konsistenz für die Segmentierung einer Filmsequenz mit sich verlagernden Objekten.
Bei hier beschriebenen Ausführungsformen umfasst ein Verfahren zum Segmentieren einige nachfolgende oder alle nachfolgenden Verfahrensschritte:

(a) das Segmentieren des Ausgangsbildes der Reihe zum Erzeugen einer Ausgangssegmentierung, welche die Pixel des Bildes aus einer Vielzahl von Gebieten markiert,
(b) das Berechnen von Bewegungsvektoren aus dem Ausgangsbild und dem nächsten Bild der Reihe,
(c) das Anwenden der Bewegungsvektoren auf die Ausgangssegmentierung zum Erzeugen einer vorhergesagten Segmentierung für das nächste Bild,
(d) das Verwenden des Ausgangsbildes und der Bewegungsvektoren zum Erhalten vorhergesagter Pixelwerte des nächsten Bildes,
(e) das Identifizieren von Pixeln, für welche die Bewegungsvektoren ungültig sind, durch einen Vergleich der vorhergesagten und der wirklichen Pixelwerte für das nächste Frame,
(f) das Segmentieren der identifizierten Pixel zum Schaffen weiterer Bildgebiete,
(g) das Ersetzen von Teilen der vorhergesagten Segmentierung durch die weiteren Bildgebiete zum Erzeugen einer besseren Segmentierung für das nächste Bild; und
(h) das Wiederholen der Schritte (b) bis (g) unter Verwendung des nächsten segmentierten Bildes aus Ausgangsbild und unter Anwendung der verbesserten Segmentierung als Ausgangssegmentierung.

Vor dem Schritt (f) können mehrere Heuristiken angewandt werden um die Anzahl identifizierter Pixel zu reduzieren, durch Zuordnung derselben zu gleichen Gebieten als Nachbarpixel, und/oder zum Bestimmen weiterer Pixel zur Betrachtung in dem Schritt (f).
Die nach der vorliegenden Erfindung durchgeführte Segmentierung schafft eine verbesserte zeitliche Konsistenz und deshalb werden, obschon es dennoch Artefakte in der Bildsegmentierung geben wird, diese von Frame zu Frame konsistent sein und folglich werden die Folgen für einen Zuschauer weniger unangenehm sein.
So wird beispielsweise für eine Ausführungsform eines Verfahrens nach der vorliegenden Erfindung vorausgesetzt, dass alle Interframebewegungen als zweidimensionale Planarbewegungen gekennzeichnet werden können so dass ein herkömmlicher zweidimensionaler Planarbewegungsschätzer, wie ein Blockübereinstimmungsschätzer, zum Berechnen der Bewegungsvektoren für jedes Pixel des Bildes verwendet werden kann. Diese Voraussetzung ist nicht nur für Sequenzen aus dem wirklichen Leben nicht allgemein gültig, sogar wenn die Interframebewegung exklusiv für die zweidimensionale Planarbewegung existieren würde, wie die Bewegungsvektoren nur für den Block berechnet werden, ist es äußerst unwahrscheinlich, dass genaue Bewegungsvektoren für alle einzelnen Pixel in jedem Block berechnet werden. Um ungenaue Bewegungsvektoren zu detektieren berechnet die Ausführungsform eine verlagerte Framedifferenz (DFD) jedes Pixels. Die DFD stellt je Pixel den Fehler zwischen einem Frame und der Schätzung dieses Frames, geliefert von den Bewegungsvektoren auf Basis der Nachbarframes dar. Eine außergewöhnliche DFD kann auf diese Weise angeben, dass die Bewegungsvektoren für ein bestimmtes Pixel nicht gültig ist. Die DFD wird dann verwendet um zu identifizieren, wo die von den Bewegungsvektoren vorhergesagte Segmentierung eine Korrektur erfordert.
Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 ein Blockschaltbild, das eine Übersicht des Segmentierungsprozesses in einer Ausführungsform der vorliegenden Erfindung schafft,
2A, 2B und 2C detaillierte Blockschaltbilder, die eine zeitlich konsistente Bildsegmentierung in der Ausführungsform zeigt,
3 ein Blockschaltbild, das das Verfahren zum Berechnen von Bewegungsvektoren zum Detektieren von Pixeln illustriert, wobei Bewegungsschätzung erfolglos war,
4A und 4B die Berechnung des Gradienten bei jedem Pixel in einer Ausführungsform der vorliegenden Erfindung,
5 ein Flussdiagramm des Prozesses der Randpixelzuordnung in der Ausführungsform,
6A und 6B je eine Darstellung der Pixelintensität und -gradienten als Beitrag an der Beschreibung des Prozesses, dargestellt in 5, und
7 ein Blocksachaltbild einer Bildcodierungsanordnung, wobei der Bildsegmentierungsprozess nach den 1 bis 6 angewandt wird.
1 zeigt eine Übersicht des Bildsegmentierungsprozesses für eine Reihe von Frames eines Films. In der beschriebenen Ausführungsform ist das Bild monochrom, wobei die Intensität jedes Pixels durch einen einzigen Grauskalenwert definiert ist. Die vorliegende Erfindung beschränkt sich aber nicht auf monochrome Verarbeitung und die Variationen, erforderlich für ein gefärbtes Bild oder jegliche Form einer Pixelanordnung dürften dem Fachmann einleuchten.
In der Figur werden durchzuführende Prozessschritte durch ovale Blöcke bezeichnet und die Hauptdatenstrukturen durch rechteckige Blöcke.
F1 bezeichnet eine Pixelanordnung mit Grauskalenwerten für das Frame zu dem Zeitpunkt t = n – 1, d.h. die Anordnung enthält einen Grauskalenwert jedes Pixels in dem Frame. Es wird vorausgesetzt, dass die Segmentierungen für Frames F1 und F0 zu dem Zeitpunkt (t = n) mit zeitlicher Konsistenz erzeugt werden müssen.
Wenn das Frame F1 das erste Frame der Reihe ist, wird es einem Ausgangssegmentierungsprozess 100 ausgesetzt um Segmentierungsdaten S1 zu schaffen, und zwar auf eine Art und Weise, wie nachher näher beschrieben.
In Bezug auf die Bewegung zwischen dem Frame F1 und dem nächsten Frame F0 (das zu dem Zeitpunkt t = n auftritt), werden Bewegungsvektoren M auf eine herkömmliche Art und Weise berechnet, wie nachstehend anhand der 3 und dem Schritt 231 näher beschrieben wird, und zwar aus den Grauskala-Framedaten F1 und den neuen Grauskala-Framedaten F0. Auch hier sind eine Anzahl verschiedener Techniken bekannt zur Berechnung derartiger Vektoren aber in der vorliegenden Ausführungsform wird Bewegung als zweidimensionale Translationen kleiner Pixelblöcke modelliert.
Wenn diese Bewegungsvektoren berechnet worden sind, werden sie durch einen Bewegungskompensationsprozess 102 auf die Ausgangssegmentierung S1 angewandt. Dies schafft eine erste Prädiktion S0¹ der gewünschten Segmentierung S0 für das Frame F0. Diese Prädiktion S0¹ wird aber für eine Anzahl Pixel ungültige Eingaben enthal ten, und zwar wegen, teilweise, welche Annäherungen und Voraussetzungen in dem Bewegungsdetektionsprozess, beispielsweise das Sperren von Pixeln, auch gemacht wurden. Fehler können ebenfalls durch Rauschen eingeführt werden, entweder extern oder innerhalb des Bildverarbeitungssystems und durch "unbedeckten Hintergrund", die nicht vorhergesagt werden können. Die Ausführungsform identifiziert dazu Pixel, für die die Segmentierung ungültig sein kann (die Kriterien für Ungültigkeit werden nachher näher beschrieben) und wendet mehrere etwaige Prozesse in Stufen zu solchen Pixeln an um zu erreichen, dass sie bestehenden Gebieten zugeordnet werden. Alle Pixel, die nicht erfolgreich zugeordnet werden, werden danach neuen Gebieten zugeordnet, geschaffen durch Durchführung eines Segmentierungsprozesses ganz von vorne an nicht zugeordneten Pixeln.
Zwei bestimmte Kategorien von Pixeln sind identifiziert worden, für die die vorhergesagten Segmentierungsdaten als ungültig behandelt werden. In der Ausführungsform wird jede dieser Kategorien durch einzelne Prozesse behandelt, in dem Versuch, Pixel bestehenden Gebieten neu zuzuordnen, obschon es in der Praxis auch möglich ist, die eine oder die andere Kategorie zu ignorieren, oder ihre Behandlung verschiedenartig zu kombinieren.
Die erste Kategorie Pixel sind diejenigen Pixel, die an den Grenzen der vorhergesagten Gebiete liegen. Derartige Pixel sind von dem Erfinder als besonders störungsempfindlich identifiziert worden. Außerdem werden, weil Bewegungsvektoren herkömmlicherweise für einen Pixelblock statt für einzelne Pixel berechnet werden, Fehler dazu neigen, an den Grenzen der Gebiete (Objekte) eingeführt zu werden, wo ein Block Pixel enthält, die in richtiger Art und Weise verschiedenen Objekten zugehören.
Die zweite Kategorie Pixel sind diejenigen Pixel, die beurteilt werden als sei Bewegungskompensation erfolglos gewesen. Die Bewegungsvektoren und Pixeldaten der Bildframes sind Kriterien, die zum Ermitteln einer erfolglosen Bewegungskompensation verwendet werden, wie nachstehend noch näher erläutert wird.
Der Prozess 104 identifiziert breit Pixel, die an den Grenzen der Gebiete liegen, denen sie in der vorhergesagten Segmentierung (Kategorie 1 Pixel) zugeordnet worden sind. Wie nachstehend noch detailliert beschrieben wird, versucht die Ausführungsform danach derartige Pixel mehr geeigneten Gebieten neu zuzuordnen, und zwar entsprechend den Pixelwerten und berechneten Gebietsstatistiken.
Der Prozess 106 versucht diejenigen Pixel geeigneten Gebieten zuzuordnen, für die der Bewegungsvektor des Blocks nicht erscheint um die Bewegung des Pixels einwandfrei anzugeben (Kategorie 2 Pixel), wobei diese Pixel von der Betrachtung in dem Prozess 104 ausgeschlossen wurden. Dies benutzt insbesondere die Folgerung, dass für diejenigen Pixel, deren Pixelwert von dem Bewegungsvektor des Blocks, zu dem es gehört, nicht einwandfrei vorausgesagt wurde das Gebiet des Pixels in der vorhergesagten Segmentierung auch nicht einwandfrei vorausgesagt wurde.
Diejenigen Pixel, bei denen Bewegungskompensation erfolglos war (Kategorie 2), die aber an oder in der Nähe der Grenze eines oder mehrerer bestehenden Gebiete liegen, können dann einem dieser Gebiete zugeordnet werden. Wie nachstehend völlig beschrieben, wird dies in der vorliegenden Ausführungsform dadurch erreicht, dass der Gradient der Pixelwerte bei jedem derartigen Pixel betrachtet wird.
Es dürfte einleuchten, dass obschon eine Anzahl Pixel, die an den Grenzen von Gebieten liegen (Kategorie 1) oder die ungültige Bewegungsvektoren hatten (Kategorie 2) bestehend Gebieten zugeordnet worden sind, wobei bestimmte Pixel dennoch zurückbleiben, die in Bezug auf die oben genannten Kriterien, nicht einem bestehenden Gebiet zugeordnet werden können. Dies wird meistens in Bezug auf aufgedeckte Objekte und Hintergrund entstehen. Diese Pixel werden folglich sich selber einem neuen Segmentierungsprozess aussetzen um neue Gebiete zu schaffen.
Nach Segmentierung wird bevorzugt, kleine Gebiete zu eliminieren. Eine derartige Eliminierung wird dadurch geleitet, dass jedes kleine Gebiet mit dem meist geeigneten Nachbarn vermischt wird und dies kann eine wesentliche Reduktion in der Menge von Verarbeitungsvorgängen mit sich bringen, die zusammen durchgeführt werden müssen. Weiterhin schafft dies einen Mechanismus zum Regeln der Anzahl verschiedener Gebiete, definiert durch die Segmentierung, die sonst überschüssig werden können. In der vorliegenden Ausführungsform werden die neuen Gebiete dementsprechend miteinander vermischt, vor der Mischung mit den bestehenden Gebieten aber dies ist nicht wesentlich.
Wiedergabeelement durch die gestrichelte Linie in 1 angegeben, wird für jedes nachfolgende Frame der Bewegungssequenz die neue Segmentierung S0 als die Ausgangssegmentierung (S1) genommen und der Prozess wird wiederholt.
Die 2A, 2B und 2C zeigen detailliert die Bildsegmentierung in der Ausführungsform.
In 2A werden Grauskaladaten für das Frame F1 auf jede beliebige Art und Weise einem Ausgangssegmentierungsprozess 11 ausgesetzt, und zwar abhängig von dem Bildinhalt und dem Zweck der Segmentierung. Ein Beispiel einer derartigen Segmentierung wird als "Brice-Fennema-Technik" bezeichnet, und ist in: "Scene analysis using regions" (Artificial Intelligence 1 (1970) 205-226) beschrieben worden. In der Auusührungsform wird eine Pixelanordnung geschaffen und es wird für jedes Pixel ein Wert eingeführt um das Gebiet zu identifizieren, von dem es ein Mitglied ist. Diese Darstellung der Segmentierung wird bevorzugt verwendet gegenüber der Kette von "Randsegmenten", die in der oben genannten Veröffentlichung verwendet wird, da dies die aufeinander folgenden Schritte der vorliegenden Ausführungsform vereinfacht. Eine derartige Darstellung ist aber nicht wesentlich und die Kettendarstellung könnte stattdessen verwendet werden. Insbesondere kann erwartet werden, dass die Kettendarstellung während der Ausgangssegmentierung angewandt wird und in die Pixelanordnungsform umgewandelt wird zum Aktualisieren der Segmentierung von Frame zu Frame. Auf jeden Fall ist das Ergebnis des Segmentierungsprozesses 11 Segmentdaten S1.
In de, Prozess 13 werden mehrere Gebietsstatistiken (STATS) für jedes Gebiet von S1 berechnet. In der Ausführungsform sind die berechneten Statistiken die Anzahl Pixel in jedem Gebiet, der mittlere Grauskalawert jedes Gebietes und die Standardabweichung jedes Gebietes. Stattdessen, dass die mittlere und die Standardabweichung explizit für jedes Gebiet gespeichert werden, werden die Summe und die Summe der Quadrate der grauskalawerte der Pixel gespeichert. Es dürfte einleuchten, dass dies die nachfolgende Berechnung der Standardabweichung vereinfacht, wenn Pixel sich an das Gebiet anschließen oder dasselbe verlassen und die Standardabweichung kann unter Anwendung der nachfolgenden Beziehung auf einfache Art und Weise berechnet werden:
wobei σ die Standardabweichung ist, wobei die Werte von x die einzelnen Grauskalawerte der Pixel sind, die Mitglied des Gebietes sind, wobei n die Anzahl Pixel in dem Gebiet ist und wobei μ der mittlere Grauskalawert des Gebietes ist.
Kleine Gebiete werden danach in dem Schritt 15 "eliminiert". In der Ausführungsform werden diejenigen Gebiete, die kleiner sind als 5 Pixel entfernt, obschon dies ein empirisch bestimmter Wert ist und nicht als begrenzend betrachtet werden soll. In der Pra xis lässt dies typischerweise 1000 Gebiete in dem Frame für ein Bild von 360 zu 280 Pixeln. Das Eliminieren kleiner Gebiete reduziert die nachfolgende Verarbeitung für das aktuelle Frame und wirkt auch der Tendenz entgegen, dass die Anzahl Gebiete während der Sequenz von Bildern wächst. Die Eliminierung könnte auf alternative Art und Weise in einem späteren Stadium in dem Verfahren durchgeführt werden, aber die Durchführung in diesem Stadium wird bevorzugt, da sie die nachfolgende Verarbeitung kleiner Gebiete eliminiert, die überhaupt keine Signifikanz haben. Auf alternative Art und Weise kann es durch eine sorgfältige Wahl des Segmentierungsprozesses und der in einem derartigen Prozess angewandten Kriterien möglich sein, zu vermeiden, dass kleine Gebiete geschaffen werden.
Der Prozess der Eliminierung wird durch Vermischung jedes kleinen Gebietes mit dem benachbarten Gebiet, dessen mittlerer Grauskalawert dem Wert des zu entfernenden Gebietes am nächsten liegt, implementiert. Die Segmentierungsanordnung S1 wird durch die neue Gebietsstruktur S1' überschrieben.
Außerdem wird die statistische Aufzeichnung STATS für jedes Gebiet in dem Schritt 17 aktualisiert. In der vorliegenden Ausführungsform werden die statistischen Aufzeichnungen vorwiegend dadurch aktualisiert, dass betrachtet wird, welche Pixel entfernt worden sind oder zu jedem Gebiet hinzugefügt wurden. Es dürfte einleuchten, dass in der Praxis dieser Schritt mit der Eliminierung kleiner Gebiete integriert werden kann (Schritt 15). Es dürfte ebenfalls einleuchten, dass es möglich ist, die Statistiken für jedes Gebiet komplett neu zu berechnen, nachdem der Eliminierungsschritt 15 beendet ist. Dies kann beispielsweise bevorzugt werden, wenn die Statistiken in Hardware berechnet werden. Als weitere Alternative können, weil da Nachbargebiet typischerweise viel gröber sein wird als das eliminierte kleine Gebiet, die Statistiken des Nachbargebietes ohne jegliche Änderung als eine angemessene Annäherung für die Statistiken des neuen Gebietes angewandt werden. Mit anderen Worten, der Schritt 17 ist fakultativ.
2B und 2C zeigen die jeweiligen Prozesse, durchgeführt an dem segmentierten Frame S1¹, nachdem die Ausgangssegmentierung S1¹ durchgeführt worden ist zum Liefern der Ausgangssegmentierungsdaten S0 für das aktuelle Frame F0, wie nun beschrieben wird.
In dem Schritt 19 werden die Bewegungsvektoren M zur Bewegungskompensation der Segmentdaten S1 für das Frame F1 verwendet, und zwar auf Pixel-zu- Pixelbasis um eine erste Vorhersage der Segmentdaten für das Frame F0 zu geben. Diese Prädiktion wird als S0¹ bezeichnet. Andere Verfahren der Bewegungskompensation sind in dem Stand der Technik bekannt. In der vorliegenden Ausführungsform wird vorausgesetzt, dass die Bewegungsvektoren M für jeden Block des aktuellen Frames S0 geliefert werden und sie werden die relative Lage von Pixeln in Segmentierungsdaten S1 angeben, deren Gebiet ID auf die Pixel des Blocks kopiert werden können, das zu dem betreffenden Zeitpunkt in der Anordnung S0¹ betrachtet wird, sogar wenn die durchgeführte Blockübereinstimmung durch den Bewegungsschätzer eine sehr schlechte Übereinstimmung ergibt. Andere Ausführungsformen sind möglich, wobei bestimmte Blöcke durch den Bewegungsschätzer gemerkt werden, als sei Bewegungsdetektion erfolglos gewesen, und es dürfte dem Fachmann einleuchten, dass die vorliegende Ausführungsform daran angepasst werden kann. Auf gleiche Weise kann das vorliegende Verfahren auf geeignete Weise angepasst werden, wobei "Vorwärts" Bewegungsvektoren verfügbar sind (einen je Block des vorhergehenden Frames), statt der "rückwärts" Bewegungsvektoren, die in der vorliegenden Ausführungsform verfügbar sind, oder wobei die Bewegungsschätzungsinformation eine ganz andere Form annimmt.
Es sei bemerkt, dass obschon die Werte von STATS in dieser Stufe aktualisiert werden könnten um auf die vorhergesagte Segmentierung S0¹ Bezug zu nehmen, wird dies im Wesentlichen nicht gemacht. Obschon die Statistiken aus den vorhergehenden Segmentierungsdaten erzeugt werden, sind sie innerhalb angemessener Fehler auf die aktuellen Segmentierungsdaten anwendbar.
Der Schritt 21 entfernt die einzelnen Pixel von S0¹, die durch eine erste Anordnung von Merkern U10 als ungültig gemerkt werden.
3 zeigt die Ermittlung der Merker U10, die in einem Verhältnis zu der verlagerten Framedifferenz (DFD) jedes Pixeln stehen. Die Daten F1 und F0 werden in den Bewegungsdetektor 1 eingegeben um die Bewegungsvektoren M zu berechnen. Beispiele von Bewegungsdetektoren sind in dem Stand der Technik durchaus bekannt, die herkömmlicherweise bei der Bildcodierung für HD-Fernsehen verwendet werden, sowie für Bildcodierungsschemen mit einer niedrigeren Bitrate, wie bei den durchaus bekannten MPEG und H.261 Normen. Beispiele derartiger Bewegungsdetektoren sind in: "Motion Estimation and Compensation" von Gerard de Haan (1992), ISBN 90-74445-01-2 und "Advances in Picture Coding" von Hans Musmann, Peter Pirsch und Hans Joachim Grallert ("Proceedings of the IEEE", Heft 73, Nr. 4, April 1995) beschrieben worden.
Der in der vorliegenden Ausführungsform verwendete Bewegungsdetektor arbeitet nur in Bezug auf zweidimensionale planare Bewegungen und berechnet die Translation der Blöcke von 8 × 8 Pixeln in der x- und y-Richtung. Es dürfte dem Fachmann aber einleuchten, dass ein komplexerer Bewegungsdetektor verwendet werden könnte, der imstande ist, Transformationen zu modellieren, die komplexer sind als eine einfache Translation und das die Blöcke verschiedene Größen haben können oder sogar ein einziges Pixel haben können. Eine andere Alternative ist die Berechnung von Bewegungsvektoren durch Gebiete.
Das einfache Verfahren zum Berechnen derartiger Bewegungsvektoren, angenommen in die vorliegende Ausführungsform ist, das alle Pixelblöcke in dem aktuellen Bildframe F0 nacheinander betrachtet werden, wobei durch das vorhergehende Frame F1 gestöbert wird, um einen Pixelblock zu finden, der am besten passt, d.h. um zu sehen, von woher der aktuelle Pixelblock sehr wahrscheinlich stammt. Die Suche in dem Frame F1 wird typischerweise in einer auswärtsgerichteten Spirale ausgehend von der Stelle des Blocks in F0 durchgeführt. Eine derartige rückwärtige Bewegungsvektorberechnung hat den Vorteil gegenüber der alternativen vorwärts gerichteten Bewegungsvektorberechnung, dass ein Vektor für jeden Block von F0 erzeugt wird. Aber vorwärts gerichtete Bewegungsvektoren können auch verwendet werden, insbesondere, wenn diese bereits in dem Gerät verfügbar sind. Das Fehlen eines Bewegungsvektors für bestimmte Pixel in F0 ist nicht fatal, da die Ausführungsform dazu vorgesehen werden kann, den Merker U10 anzubringen (Bewegungsvektor ungültig), und zwar unmittelbar vor derartigen Pixeln.
Wie oben beschrieben, wird der Bewegungsdetektor 1 einen Bewegungsvektor für jeden Pixelblock in F0 schaffen. Das Frame F1 wird danach einem Prozess der Bewegungskompensation ausgesetzt, und zwar unter Verwendung der hergeleiteten Bewegungsvektoren M. Mit anderen Worten, die Bewegungsvektoren werden auf das Frame F1 angewandt um eine Prädiktion des Frames F0 zu schaffen. Diese Prädiktion wird als F0¹ bezeichnet. Obschon jedes Pixel nicht einen eigenen exklusiven Vektor hat, dürfte es einleuchten, dass der Bewegungsvektor für den Block, der dieses Pixel enthält, verwendet wird. Bewegungskompensationsprozesse sind in dem betreffenden technischen Bereich wieder durchaus bekannt und brauchen nur an den Typ des angewandten Bewegungsdetek tionsprozess und an die nachfolgende Form und Bedeutung der verfügbaren Bewegungsvektoren angepasst zu werden. Die Segmentierungsprädiktion S0¹ wird aus der Segmentierung S1 geschaffen (Schritt 19), und zwar unter Anwendung derselben Bewegungsvektoren auf dieselbe Art und Weise.
F0 und F0¹ werden danach einem Pixeldifferenzberechnungsschritt 5 ausgesetzt, der für entsprechende Pixel die Differenz in den Grauskalawerten jedes Pixels zwischen den zwei Anordnungen detektiert, d.h. die Differenz zwischen dem wirklichen Wert des Pixels und dem vorhergesagten Wert desselben. In der vorliegenden Ausführungsform werden alle Pixel nacheinander betrachtet und die Berechnung der Pixeldifferenz schafft einen absoluten Wert (Größe) der Pixeldifferenz. Eine Pixelanordnung einer verlagerten Framedifferenz (DFD) wird auf diese Weise geschaffen, in der Figur durch DFD bezeichnet. In der Praxis können die DFD Werte als Nebenprodukt des Blockanpassungsprozesses in dem Schritt 1 bereits verfügbar sein, und zwar abhängig von der Implementierung.
In dem Schritt 7 wird der Wert der DFD für jedes Pixel getestet, und zwar um zu ermitteln, ob sie eine Schwelle T übersteigt. Die durch die Schwellensetzung geschaffenen Daten werden in der Merkeranordnung gespeichert, in der Figur durch U10 bezeichnet, und sind eine Anzeige davon, ob der Bewegungsvektor für den Block mit dem Pixel erfolglos war bei der Vorhersage des Wertes dieses einzelnen Pixels. In der vorliegenden Ausführungsform wird für alle Werte von DFD eine feste Schwelle verwendet, aber dies ist nicht wesentlich und stattdessen könnte der Wert der Schwelle variiert werden. In einer Anpassung des Verfahrens könnte beispielsweise die Verarbeitung durchgeführt werden zum Detektieren von Objekten (wie Vordergrund und Hintergrund) und es könnten verschiedene Schwellen auf diese jeweiligen Objekte angewandt werden.
Bei alternativen Ausführungsformen ist es möglich, einen Merker als Teil des Bewegungsvektorberechnungsschrittes 1 zu setzten um anzugeben, dass eine gute Übereinstimmung für den Block gefunden worden ist, dass der Bewegungsvektor gültig ist und dass es folglich für diesen Pixelblock nicht notwendig ist, die DFD zu berechnen. Es wäre dagegen auch möglich, einen Merker wie den U10-Merker unmittelbar während der Bewegungsvektorberechnung zu setzen, und zwar um anzugeben, dass eine derart schlechte Übereinstimmung gefunden wurde, dass der Bewegungsvektor nahezu sicherlich ungültig ist. Derartige Variationen können, obschon sie eine Steigerung der Komplexität notwendig machen, nachfolgende Verarbeitungszeit reduzieren, ins besondere in einer softwarebasierten Implementierung.
In 2B löscht der Schritt 21 die Pixel, die durch U10 in dem vorhergesagten Segmentierungsschritt S0¹ gemerkt wurden. Dies wird dadurch erreicht, dass in die Anordnung S0 für jedes zu löschende Pixel eine "Null"-Gebiets-ID gesetzt wird. Dieser Schritt verwirklicht die eingangs erwähnte Folgerung, und zwar, dass wenn ein Pixelwert schlecht vorhergesagt wurde, die vorhergesagte Gebiets-ID wahrscheinlich auch falsch ist. Der Ausgang dieses Prozesses wird als Segmentierung S0² bezeichnet.
An dieser Stelle ist es bequem, auch die S0² Daten und die Merker U10 zu verwenden um eine zweite Merkeranordnung zu schaffen, welche die oben anhand des Schrittes 104 nach 1 genannten Gebietsgrenzen identifizieren. Die zweite Merkeranordnung ist als U20 bezeichnet und wird in dem Schritt 23 berechnet. Die Merker U20 geben an, welche dieser Pixel Gebiets-IDs enthalten, die nominal gültig sind (d.h. U10 ist nicht gesetzt), die aber schlecht mit ihren Gebieten verbunden sind. Das Kriterium zum Beurteilen derartiger schlecht verbundener Pixel ist, ob ein Pixel völlig 8-fach mit Pixeln verbunden ist, die zu demselben Gebiet gehören. Ein völlig 8-fach verbundenes Pixel hat zwei horizontale, zwei vertikale und vier diagonale Nachbarn, alle mit derselben Gebiets-ID (wie in S0² gespeichert). Wenn das Pixel nicht völlig 8-fach verbunden ist, liegt das Pixel einigermaßen am Rand eines Gebietes. Die Pixelanordnung von Merkern U20 wird auf diese Weise geschaffen.
Pixel an Grenzen werden danach wo möglich durch den Grenzzuordnungsschritt 25 einem geeigneten Gebiet zugeordnet. Dieser Prozess benutzt den U20 Merker nebst den vorher geschaffenen statistischen Daten STATS (siehe den Schritt 17, 2A) und F0 Daten. Bestimmte Artefakte werden üblicherweise an Gebietsgrenzen geschaffen durch Störung innerhalb des Systems, und auch "externe" Störungen innerhalb der Quellenbilder. So werden beispielsweise schädliche Effekte oft deutlich, wenn ein Objekt, das durch eine 50 Hz Quelle beleuchtet wird, durch eine 60 Hz Kamera gesehen wird. Der Schritt 25 hilft bei der Eliminierung dieser Artefakte durch Neuzuordnung der Pixel an Gebietsgrenzen zu den meist geeigneten Gebieten, die nicht unbedingt die Gebiete sind, denen sie vorher zugeordnet waren.
Um zu bestimmen, ob Nachbargebiete sind für das betreffende Pixel geeignet(er) sind, vergleicht der Schritt 25 die Grauskala des Pixels (x), die mittlere Grauskala des Gebietes (μ) und die Standardabweichung des Gebietes (σ). Ein Nachbargebiet wird als geeignet beurteilt, dem das betreffende Pixel zugeordnet werden kann, wenn die nachfolgende Ungleichheit erfüllt wird: |x – μ| < 1,5σ
Wenn mehr als nur ein Nachbargebiet qualifiziert ist, wird das Pixel einem beliebigen Gebiet zugeordnet, das die Abweichung von dem Mittelwert minimiert. Für jedes Pixel, das erfolgreich einem Nachbargebiet zugeordnet wird, wird das geeignete Gebiet in die Segmentierung eingeführt, wobei die Anordnung S0² überschrieben wird und der U20 Merker gelöscht wird. Der Deutlichkeit halber wird die aktualisierte Segmentierung als S0³ bezeichnet und die aktualisierte U20 Merkeranordnung wird als U20¹ bezeichnet.
Es dürfte einleuchten, dass bestimmte Pixel der U20¹ gemerkten Pixel in Wesentlichen von dem Null-Bewegungsvektor sein werden. Der Schritt 27 "bestätigt" Pixel, wie diese demselben Gebiet zugeordnet sind, zu dem sie in der vorhergesagten Segmentierung zugeordnet waren.
Da die vorhergesagte Gebiets-ID noch immer in der Segmentierungsanordnung S0³ gespeichert ist, wird im Endeffekt kein Vorgang an diesen Daten durchgeführt. Der Merker U20¹ wird gelöscht (Schritt 29) für diejenigen Pixel, die erfolgreich zugeordnet wurden (bestätigt) und die aktualisierte Merkeranordnung wird nachstehend als U20² bezeichnet.
Auf gleiche Weise wie das Löschen im Schritt 21 werden die Pixel, die noch immer durch U20² gemerkt sind, durch Einfügung der Null-Gebiets-ID in die Segmentierungsanordnung S0³ gelöscht. Die aktualisierte Segmentierung wird in 2B durch S0⁴ bezeichnet.
Der Schritt 31 versucht danach Pixel zuzuordnen, bei denen Bewegungskompensation erfolglos war (diejenigen, die in der Anordnung U10 gemerkt sind) durch Betrachtung, ob die Pixel an dem Rand in dem Bild liegen und einem geeigneten Nachbargebiet zugeordnet werden können. Das am meisten geeignete Gebiet wird durch Betrachtung des Grauskalengradienten an dem Pixel wie folgt ermittelt.
4A und 4B zeigen den Gradientenberechnungsschritt 9 in der vorliegenden Ausführungsform. Die angewandte Gradientenberechnung ist durchaus bekannt und erfordert die Anwendung zweier Masken von j 3 × 3 Pixeln über die Anordnung F0 um eine Pixelanordnung von Gradienten G zu liefern, die je einen x Anteil G_x, und einen y-Anteil G_y enthalten. Diese Masken sind als "Sobel operators" bekannt und sind in 4B dargestellt. Die Operators G_x und G_y schaffen einen Wert, der für den Grauskalengradienten bei dem Pixel entsprechend dem zentralen Punkt der Maske repräsentativ ist. Es dürfte einleuchten, dass stattdessen eine alternative Gradientenberechnung angewandt werden kann. Es dürfte weiterhin einleuchten, dass obschon dieser Prozess der Gradientenberechnung an dieser Stelle als über das ganze Bildframe F0 durchgeführt beschrieben wird, braucht er nur in Bezug auf diejenigen Pixel durchgeführt zu werden, die einem Prozess ausgesetzt sind, wobei die Gradientenberechnung angewandt wird. Auch hier muss die gesteigerte Komplexität mit der möglichen Verringerung der Verarbeitungszeit und mit den Speicheranforderungen nach dem Detail der Implementierung ins Gleichgewicht gebracht werden.
Der Zuordnungsschritt 31, wobei die Gradienten G benutzt werden, wird nun anhand der 5 detailliert beschrieben. Die Schritte 3101 bis 3119 dieser Figur werden für jedes Pixel durchgeführt.
In dem Schritt 3103 wird betrachtet, ob das Pixel durch den Merker U10 gemerkt worden ist. Nur U10 gemerkte Pixel werden in dem Schritt 31 betrachtet. In dem Schritt 3105 wird erwogen, ob die Größe des Gradienten des betreffenden Pixels eine Schwelle übersteigt. Wo der Bereich möglicher Grauskalenwerte 0 bis 255 ist, ist von den Erfindern eine Schwelle von 12 empirisch bestimmt worden, wodurch eine geeignete Angabe geschaffen wird, ob ein Kantenelement vorhanden ist (eine Kontrastlinie zwischen zwei Farben). Es dürfte einleuchten, dass wenn ein anderer Bereich von Grauskalen verwendet wird oder wenn ein Farbbild verarbeitet wird, würden die Berechnung uns/oder die Schwellengröße des Gradienten auf entsprechende Art und Weise eingestellt werden. Wo die Größe den Wert 15 nicht übersteigt, wird das Pixel nicht weiter in 5 betrachtet und der Prozess geht weiter mit dem nächsten Pixel.
In dem Schritt 3107 wird erwogen, ob ein Pixel oder die beiden Pixel der Nachbarpixel in der Richtung des identifizierten Randes einem Gebiet zugeordnet werden. Wenn kein einziges Pixel zugeordnet wird, geht der Prozess mit dem nächsten Pixel weiter.
Wenn nur ein einziges Pixel (nicht aber die beiden Pixel) der Nachbarpixel einem Gebiet zugeordnet wird, wird in dem Schritt 3109 erwogen, ob die Größe des Gradienten bei dem aktuellen Pixel größer ist als die Größe des Gradienten des Nachbarpixels, das bereits einem Gebiet zugeordnet wurde. Wenn es eine derartige Beziehung gibt, wird das Pixel demselben Gebiet zugeordnet wie das Gebiet des Nachbarpixels (Schritt 3111) und der Prozess geht mit dem nächsten Pixel weiter. Wenn der Test bei 3111 nicht befriedigend ist, geht der Prozess mit dem nächsten Pixel weiter, ohne dass das Pixel dem Gebiet zugeordnet wird.
Auf alternative Weise kann in dem Schritt 3107 ermittelt werden, dass die beiden hinzutretenden Pixel bereits Gebieten zugeordnet sind. In dem Fall verzweigt sich der Prozess zu dem Schritt 3113.
In diesem Schritt 3113 wird erwogen, ob die Größe des Gradienten eines der angrenzenden Pixel (nicht aber der beiden angrenzenden Pixel) kleiner ist als die Größe des Gradienten des aktuellen Pixels (derselbe Test wie der Schritt 3109). Wenn ein Nachbarpixel diese Beziehung nicht erfüllt, wird das andere Nachbarpixel, das einen niedrigeren Gradienten hat, seine Gebiets-ID zu dem betreffenden Pixel in dem Schritt 3115 kopieren. Mit anderen Worten, der Rand wird in der Richtung des höheren Gradienten wesentlich schärfer und folglich wird das Pixel wahrscheinlich dem Gebiet des Pixels mit dem niedrigeren Gradienten gehören.
Auf alternative Weise kann in dem Schritt 3113 ermittelt werden, dass die beiden Nachbarpixel oder überhaupt keines der Nachbarpixel einen niedrigeren Gradienten hat. In den fällen ordnet der Schrott 3117 das Pixel demselben Gebiet zu, dem auch das Nachbarpixel mit dem niedrigeren Gradienten zugeordnet ist. In dem Fall, wo die beiden Nachbarpixel einen höheren Gradienten haben, wird der Rand in beiden Richtungen wesentlich schärfer, wird er weniger steil in der Richtung des Nachbarpixels mit dem niedrigeren Gradienten und folglich gehört das betreffende Pixel dem Gebiet, das diesem Pixel zugeordnet wurde. In dem Fall, wo die beiden Nachbarpixel einen niedrigeren Gradienten haben, liegt das Pixel an einem Rand und dadurch ist das Gebiet, dem es zugeordnet wird, gewissermaßen beliebig. Aber das Pixel mit dem niedrigeren Gradienten wird wahrscheinlich weiter von dem imaginären Rand und folglich wird das betreffende Pixel demselben Gebiet wie dieses Pixel zugeordnet.
Der praktische Effekt der oben beschriebenen Zuordnungstechnik wird nun anhand der 6 näher erläutert. 6A ist eine Graphik mit Grauskalenwerten um ein typisches Randelement zwischen weißen Pixeln auf der linken Seite der Graphik und schwarzen Pixeln au der rechten Seite der Graphik. 6B stellt den Gradienten des in 6A dargestellten Randes dar. Eine imaginäre Grenze zwischen Gebieten ist deutlich ange geben mit der Spitze der Gradientenkurve. Die Positionen von vier benachbarten Pixeln sind durch P1, P2, P3 und P4 bezeichnet.
Es wird nun ein erster Fall illustriert, in dem das betreffende Pixel P2 ist. Für diese Darstellung wird vorausgesetzt, dass das Nachbarpixel P1 einem bestimmten Gebiet zugeordnet worden ist, aber P3 nicht (Gebiets-ID = Null). Wie in 6B ersichtlich, ist der Gradient bei P2 größer als der bei P1. In diesem Fall wird der Zuordnungsprozess das Leiten des Testes, dargestellt im Schritt 3109 in 5. Dieser Test wird befriedigt und P2 wird demselben Gebiet wie P1 zugeordnet. Wenn aber ein zweiter Fall betrachtet wird, wobei P3 einem Gebiet zugeordnet wird, P1 aber nicht, wird P2 demselben Gebiet wie P3 zugeordnet, weil P3 einen Gradienten hat, der größer ist als bei P2. Weil der Gradient bei P3 größer ist als bei P2 wird vorausgesetzt, dass P2 sich nicht auf derselben Seite der Spitze befindet wie P3 und befindet sich folglich auf der anderen Seite der imaginären Grenze zwischen Gebieten.
Nun wird die Situation betrachtet, in der die Nachbarpixel eines Pixels beide verschiedenen Gebieten zugeordnet werden. Dasselbe Pixel P2 wird betrachtet, aber in dem Fall, wo P1 und P3 verschiedenen Gebieten zugeordnet werden. Der Zuordnungsprozess wird den Test in dem Schritt 3113 (5) leiten und wird das Pixel P2 demselben Gebiet wie P1 (Schritt 3115) zuordnen, und wahrscheinlich auf derselben Seite der imaginären Grenze.
Weiterhin ist in der Situation, in der P3 das nicht zugeordnete betreffende Pixel ist und P2 und P4 zugeordnet sind, wird P3 demselben Gebiet wie das von P2 zugeordnete (Schritt 3115), da dies höchstwahrscheinlich an derselben Seite des Randes ist.
Es sei bemerkt, dass der oben beschriebene Zuordnungsprozess der Einfachheit halber in der Ausführungsform angewandt worden ist und es dürfte einem Fachmann einleuchten, dass ein komplexerer Prozess (wobei beispielsweise eine Kurvenanpassung über mehrere Pixel angewandt wird) auch angewandt werden könnte. Wie oben bereits erläutert, wird der Prozess nach 5 für jedes Pixel wiederholt. Es sei bemerkt, dass, wenn dieser Prozess in der Zuordnung eines Pixels zu einem Gebiet erfolgreich gewesen ist, der U10 Merker gelöscht wird, und zwar, um dies anzugeben (nicht in 5 dargestellt). Die modifizierte Merkeranordnung wird als U10¹ bezeichnet. Die modifizierte Segmentierung nach dem Schritt 31 wird in 2B durch S0⁵ bezeichnet.
Der Schritt 31 wird fakultativ betrachtet, kann aber effektiv sein um geringfügige Verschiebungen in Randmerkmalen zu kompensieren, die große DFD-Werte erzeugen, und dadurch die Anzahl nicht zugeordneter in nachfolgenden Stufen zu verarbeitender Pixel reduzieren, und zwar mit Hilfe einfacher heuristischer Tests. Diese bestimmte Heuristiken sind selbstverständlich nur Beispiele der Kriterien, die angewandt werden können bei der Detektion und der Zuordnung von Pixeln in der Nähe der Randelemente. Der Schritt könnte im Grunde mehr als nur einmal wiederholt werden, um weitere Pixel zuzuordnen, je nachdem die Gebiete "wachsen" um die Randelemente zu absorbieren.
In 2B werden in dem Schritt 33 die zwei Merkeranordnungen U10¹ und U20² zu einer einzigen Merkeranordnung U0 kombiniert, die diejenigen Pixel merken, die dennoch nicht auf befriedigende Art und Weise einem Gebiet zugeordnet worden sind. Eine derartige Kombination kann durch ein einfaches logisches ODER-Glied erreicht werden und der Speicherraum für U10 oder U20 kann durch die neue Anordnung U0 überschrieben werden.
In dem Zuordnungsschritt 35 wird die Konnektivität von U0 gemerkten (nicht zugeordneten) Pixeln mit anderen nicht zugeordneten Pixeln näher betrachtet. Diejenigen Pixel, die eine niedrige 8-fache Konnektivität haben, werden benachbarten Gebieten wie folgt zugeordnet.
Jedes durch U0 gemerktes Pixel wird geprüft um zu sehen, ob die 8-fache Konnektivität mit anderen U0 gemerkten Pixeln größer ist als 2. Sollte dies nicht der Fall sein, so wird das Pixel einem beliebigen Nachbargebiet mit einer mittleren Grauskala zugeordnet, das dem Gebiet des Pixels entsprechend den gespeicherten Gebietsstatistiken am nächsten liegt. Der U0 Merker wird danach für dieses Pixel gelöscht. Der aktualisierte Merker wird als U0¹ bezeichnet. Die Einstellung ist, dass schlecht verbundene Pixel, isoliert von anderen nicht zugeordneten Gebieten, kaum selber Gebiete einer großen Bedeutung bilden. In der vorliegenden Ausführungsform hilft dazu der Schritt 35 die Erzeugung kleiner Gebiete zu verbieten, was nur in einer späteren Stufe eliminiert werden könnte. Der Schritt 35 eliminiert auch bestimmte lange dünne Reihen nicht zugeordneter Pixel, die längs Gebietsbegrenzungen entstehen können. Der Schritt 35 wird auch fakultativ betrachtet und die angewandten Heuristiken können variiert werden. Insbesondere könnten Werte anders als 2 für die Konnektivitätsschwelle verwendet werden. Ein Wert gleich 3 wird ei nen stärkeren Effekt auf längliche Gebiete haben, ein Wert gleich 1 wird nur sehr isolierte Pixel eliminieren.
Der oben genannte Schritt 35 wird in der vorliegenden Ausführungsform zweimal wiederholt, da der erste Durchgang zu neunen schlecht verbundenen Pixeln führen kann. Die aktualisierte Segmentierung nach der zweiten Wiederholung wird als S0⁶ bezeichnet.
In dieser Stufe werden diejenigen Pixel, die dennoch nicht erfolgreich einem der bestehenden Gebiete zugeordnet worden sind, nun sich selber in dem Schritt 37 (2C) zum Schaffen neuer Gebiete einem Segmentierungsprozess aussetzen. In der vorliegenden Ausführungsform wird derselbe Segmentierungsprozess angewandt zum Schaffen von Segmentierungsdaten SU0 für die neuen Gebiete vorher nicht zugeordneter Pixel wie dieser bei der Ausgangssegmentierung des F1 Bildes (Schritt 11) angewandt wurde, aber dies braucht nicht unbedingt der Fall zu sein.
Diese Neuen Gebiete werden, falls möglich, in dem Schritt 39 zusammengemischt, und zwar wieder unter Anwendung von Vermischungskriterien, wie denjenigen, wie diese in dem oben genannten Brice-Fennema-Artikel beschrieben. Dieser Prozess ermöglicht die Entfernung einer Anzahl unnötiger Gebiete. Die vermischte Segmentierung wird durch SU0¹ bezeichnet.
In dem Schritt 41 werden die neu geschaffenen Gebiete SU0¹ mit den bestehenden Gebieten S0⁶ vermischt. Die Vermischungskriterien können dieselben sein wie der vorhergehende Vermischungsschritt 39 oder sie können anders sein. In der Ausführungsform werden die gleichen Vermischungskriterien angewandt. Auch hier reduziert das Vermischen die Anzahl unnötiger Gebiete durch eine Kombination benachbarter Gebiete gleicher Grauskalenstatistiken.
Nach dem Vermischungsschritt 41 ist die schlussendliche Segmentierung für das Frame F0 erhalten worden, bezeichnet durch S0. S0 wird danach bei der Bildcodierung oder bei einer weiteren Verarbeitung, je nach der Anwendung, benutzt. Wie durch eine gestrichelte Linie in 1 angegeben, wird danach die aktualisierte Segmentierung S0 als die Ausgangssegmentierung für ein nächstes Frame angewandt und der ganze Prozess nach den 2A–2C wird wiederholt, was notwendig ist zum Erhalten einer vorübergehend konsistenten Segmentierung durch die ganze Filmsequenz hindurch.
7 zeigt eine Bildcodierungsanordnung, mit, darin aufgenommen, dem oben beschriebenen vorübergehend konsistenten Segmentierungsschritt. Der Codierer benutzt Gebiets- und Strukturcodierung, wobei Einzelheiten darüber sich in der oben genannten EP-A-0454234 finden lassen. Eine kurze Beschreibung wird an dieser Stelle dennoch gegeben.
Ein Leuchtdichtebildsignal Y wird einer Segmentierungsanordnung 72 zugeführt, die den oben beschriebenen Prozess implementiert, und ein modales Filter 73 benutzt die Segmentierung zum Schaffen eines Gebietssignals. Das Bildsignal und das Gebietssignal werden einer Subtrahierschaltung 75 zugeführt zum Schaffen eines Struktursignals, das in dem Codierer 77 codiert wird. Das Gebietssignal wird einer Randabbildungsschaltung 79 zugeführt, zum Erzeugen eines Gebietslistensignals und einer Randabbildung des ursprünglichen Bildes. Die Randabbildung wird in einer Elementprädiktionsanordnung 710 einer Schablonen ausgesetzt zum Schaffen einer Prädiktion aus der Nachschlagtabelle in einem Speicher 712 in Bezug auf den Wert eines Elementes in einer festen Lage grenzend an die Schablone. Wenn die Vorhersage einwandfrei ist, gibt ein Prädiktionsfehlersignal keinen Fehler an, während, wenn es einen Fehler gibt, das Prädiktionsfehlersignal entweder den aktuellen Wert transportiert, oder dieser Wert kann in der Nachschlagtabelle gefunden werden. Das Prädiktionsfehlersignal wird in einem zweiten Codierer 714 codiert. Das Gebietslistensignal 716, das Struktursignal 78 und das Fehlersignal bei 715 kann mit einer niedrigen Bandbreite zu einem Decoder übertragen werden, der das ursprüngliche Bild nahezu rekonstruiert.
Wenn eine Sequenz von Bildframes zur Übertragung eines Bewegungsbildes dem Codierer nach 7 zugeführt wird, liefert die Segmentierungsanordnung 72 dem modalen Filter 73 eine Segmentierung, die von Frame zu Frame zeitlich konsistent ist. Bewegungsinformation ist nicht notwendig um das Gebietssignal oder das Struktursignal in dem vorliegenden Beispiel zu komprimieren. Dennoch wird eine verbesserte subjektive Bildqualität erhalten, wenn die Filmsequenz, für eine bestimmte Bandbreite, auf Grund der zeitlichen Konsistenz, die der Segmentierung auferlegt worden ist, aus der Gebiets- und Strukturinformation decodiert wird.
Wie es einem Fachmann einleuchten dürfte, könnten die oben genannten Prozesse in Software, in Hardware oder in einer Kombination derselben ausgebildet wer den, obschon die oben beschriebene Ausführungsform in der Praxis in Software implementiert worden ist, nicht am wenigsten zwecks Experimente.
Wie bereits oben an mehreren Stellen erwähnt, dürfte es dem Fachmann einleuchten, dass viele Routinenvariationen in den Einzelheiten der Implementierung möglich sind und auch erwünscht sind, und zwar abhängig von der Applikation und den verfügbaren Hardwaremitteln. Die Pixelpegelanordnungen der Merker (U10, U20), der Gebiets-IDs (S1, S0), der DFD- und Gradientenwerte (G) bedeuten deutlich eine Belastung, die dadurch reduziert werden können, dass die Pixel in einem Teil des Bildes vor der Verlagerung zu dem nächsten Bild komplett verarbeitet werden. Die Komplexität der Verwaltung der jeweiligen Prozesse wird selbstverständlich größer. Die Werte von G brauchen insbesondere nicht für jedes Pixel erzeugt zu werden, und sogar DFD Berechnungen können auf bestimmte Pixel, Pixelblöcke oder andere Gruppen von Pixeln begrenzt werden, wenn die Einsparung an Rechenaufwand wesentlich ist. Andererseits haben die Erfinder gefunden, dass in einem experimentellen System mit dem kompletten Satz von Anordnungen von Variablen und Merkern, die Wirkung der jeweiligen Prozesse für einen Bereich von Quellenmaterialien sehr effektiv wiedergegeben wird. Diese Wiedergabe wird selbstverständlich eine Hilfe sein in der Feinabstimmung von Schwellen und anderen Parametern, und in der Identifikation, welche Teile des Prozesses in einer bestimmten Applikation eliminiert werden können mit einem geringen Verlust an Qualität. Insbesondere kann auf jeden der Schritte 23 bis 35 verzichtet werden mit einem geringen Verlust an Qualität.
Auf gleiche Weise dürfte es einleuchten, dass der mögliche Verwendungsbereich der Segmentierung in der Bildverarbeitung überhaupt nicht auf die oben detailliert beschriebenen Beispiel beschränkt ist. In der Bildcodierung kann die Segmentierung explizit codiert werden, wie Basis-Elektrode Gebiets- und Strukturcodierung oder sie kann als "Hinweis" auf die Codierung von Pixeldaten angewandt werden, insbesondere in Schemen, wie H.261 und MPEG mit einer variablen Bitrate je Pixel oder je Block. Der Verfolgung spezifischer Objekte oder Klassen von Bildelementen kann auch Hilfe geboten werden, und zwar zur Bildverbesserung oder Bildverarbeitung im Allgemeinen. So kann es beispielsweise erwünscht sein, den Kontrast in Gebieten einer spezifischern Farbe in mikroskopischen oder Bestrahlungsbewegungssequenzen automatisch zu steigern, oder eine weitere Verarbeitung nur in derartigen Gebieten automatisch erfolgen zu lassen. Weiterhin dürften dem Fachmann verschiedene Applikationen mit Maschinenbeobachtung und digitalen Film- und Video-Spezialeffekten, wie Färbung, einleuchten.
Die beschriebenen Prozesse können auf bequeme Art und Weise erweitert werden um mehrfarbige Bilder verschiedenartig zu bewältigen. Insbesondere im Falle von Farbbildern können die Pixelwerte, die durch die Segmentierungsroutine verarbeitet worden sind, vorverarbeitet werden um bestimmte Attribute zu verbessern. So könnte beispielsweise eine bestimmte Farbabbildung ein modifiziertes "Grauskala-Bild" schaffen, wobei Hautfarben hervorgehoben werden und dies kann statt der ursprünglichen Farbwerte in einer oder mehreren Stufen des Prozesses verwendet werden. Derartige Techniken sind im Allgemeinen Randtechniken gegenüber den hier beschriebenen erfinderischen Konzepten, können aber dadurch effektiv sein, dass sie die Qualität und die Nützlichkeit der Segmentierungsergebnisse erweitern.
Auch brauchen die vorliegenden Prozesse nicht auf jedes nachfolgende Frame in der Quellenbewegungsbildsequenz angewandt zu werden. So werden beispielsweise in dem durchaus bekannten MPEG-System Intraframe-Codierung, Interframe-Prädiktion und bidirektionale Prädiktion auf verschiedene Subsätze der Quellenframes (I Bilder, P Bilder und B Bilder) angewandt. Auf gleiche Weise brauch die zeitliche konsistente Aktualisierung der Segmentierung nicht auf jedes Frame angewandt zu werden und/oder kann verschiedenartig auf verschiedene Subsätze mit Frames angewandt werden.
Es dürfte dem Fachmann einleuchten, dass die vorliegende Erfindung in einem Computer, wie einem IBM kompatiblen PC oder dergleichen verkörpert werden kann. In einer derartigen Ausführungsform wird der Computer typischerweise feste und entfernbare Speichermedien, wie Festplatten- und Floppy-Laufwerke aufweisen, oder einen CD-ROM. Weiterhin kann die Sequenz von Instruktionen, erforderlich um dafür zu sorgen, dass der Computer entsprechend der vorliegenden Erfindung funktioniert, auf den festen oder entfernbaren Speichermedien gespeichert werden, zur nachfolgenden Auslesung in den internen Speicher zur Steuerung der zentralen Verarbeitungseinheit des Computers. Die Programminstruktionen können auf alternative Weise durch Kommunikationssignale von einer Fernspeicheranordnung angeliefert werden.
Aus der Lektüre der vorliegenden Beschreibung dürften dem Fachmann andere Abwandlungen einfallen. Solche Abwandlungen können andere Merkmale betreffen, die im Bereich des Entwurfs, der Herstellung und der Verwendung von Objektverfolgungs systemen und Bestandteilen davon bereits bekannt und statt der oder zusätzlich zu den hier bereits beschriebenen Merkmalen verwendbar sind. Obschon Patentansprüche in dieser Patentanmeldung in Bezug auf spezielle Kombinationen von Merkmalen formuliert worden sind, dürfte es einleuchten, dass der Rahmen der Beschreibung der vorliegenden Patentanmeldung auch neue Merkmale oder eine neue Kombination von Merkmalen umfasst, die hier explizit oder implizit beschrieben worden sind oder eine Verallgemeinerung davon, ob diese sich auf dieselbe Erfindung, wie diese vorliegend in jedem Patentanspruch beansprucht wird, bezieht oder nicht und ob sie einige oder alle derselben technischen Probleme lindert oder nicht, wie dies die vorliegende Erfindung tut. Die Anmelderin möchte bemerken, dass im Laufe der Behandlung der vorliegenden Patentanmeldung oder einer weiteren davon hergeleiteten Patentanmeldung neue Patentansprüche zu den Merkmalen und/oder Kombinationen derartiger Merkmale formuliert werden können.
Text in der Zeichnung
3

Bewegungsvektoren

5

Beide
Keine

6A

Pixelwert
Position
Schwarz
Weiß

Claims

Verfahren zum Betreiben einfer Bildverarbeitungsanordnung zum Erzeugen einer einheitlichen Segmentierung in Gebiete einer Sequenz relatierter Bildframes, so dass gleiche Gruppen von Pixeln zu gleichen Gebieten in aufeinander folgenden Frames gehören, wobei das Verfahren für jedes interessante Frame die nachfolgenden Verfahrensschritte umfasst: a) das Empfangen aktueller Framepixeldaten (FO) für das betreffende Frame, Bezugsframepixeldaten (F1) und eine Bezugsframesegmentierung (S1); b) das Berechnen (1) von Bewegungsschätzungsinformation (M) aus den aktuellen Framepixeldaten und den Bezugsframepixeldaten um räumliche Transformationen darzustellen, die zwischen den genannten Frames auftreten; c) das Verwenden (102) der genannten Bewegungsschätzungsinformations- und der Bezugsframesegmentierungsdaten zum Erhalten einer vorbestimmten aktuellen Framesegmentierung (SO¹); d) das Verwenden (3) der genannten Bewegungsschätzungsinformation und der Bezugsframepixeldaten zum Erhalten vorhergesagter aktueller Framepixeldaten (FO¹); e) das Identifizieren (21) nicht einwandfrei vorhergesagter Teile der vorhergesagten aktuellen Framesegmentierung durch einen Vergleich (5) der empfangenen aktuellen Framepixeldaten und der vorhergesagten aktuellen Framepixeldaten; und f) das Modifizieren (104, 106, 108) der vorhergesagten aktuellen Framesegmentierung für die identifizierten Teile durch Zuordnung wenigstens einiger Pixel derartiger Teile zu bestehenden Gebieten.
Verfahren nach Anspruch 1, wobei der Schritt (f) das Konstruieren (37) und das Einfügen (41) einer neuen Segmentierung der identifizierten nicht einwandfrei vorhergesagten Teile in die vorhergesagte aktuelle Framesegmentierung umfasst.
Verfahren nach Anspruch 2, wobei der Schritt (f) vorbereitende Schritte umfasst, und zwar der Zuordnung (25, 27) von Teilen zu denselben Gebieten wie Nachbarteile, die in dem Schritt (e) nicht identifiziert wurden, vor der Konstruktion der genannten neuen Segmentierung.
Verfahren nach Anspruch 2 oder 3, wobei die genannte neue Segmentierung einem Vermischungsprozess (39) ausgesetzt wird, und zwar zum Reduzieren der Anzahl neu geschaffener Gebiete vor der Einfügung in die vorhergesagte Segmentierung.
Verfahren nach Anspruch 2, 3 oder 4, wobei die Segmentierung einem Vermischungsprozess ausgesetzt wird, und zwar vor der Einfügung der neuen Segmentierung für die identifizierten Teile, zum Reduzieren der Anzahl Gebiete in der erhaltenen Segmentierung.
Verfahren nach einem der vorstehenden Ansprüche, wobei der Schritt (e) weiterhin Folgendes umfasst: das Verwenden der vorhergesagten Segmentierung zum Zuordnen weiterer Teile der vorhergesagten Segmentierung als nicht einwandfrei vorhergesagt.
Verfahren nach Anspruch 6, wobei die genannten weiteren Teile, die als nicht einwandfrei vorhergesagt bezeichnet wurden, diejenigen Teile sind, die an den Grenzen der Gebiete in der vorhergesagten Segmentierung liegen.
Verfahren nach einem der vorstehenden Ansprüche, wobei der genannte Modifizierungsschritt (f) einen Schritt umfasst zum Zuordnen nicht einwandfrei vorhergesagter Teile zu bestehenden Gebieten, und zwar abhängig von den zugeordneten Gebieten benachbarter Teile.
Verfahren nach Anspruch 8, wobei der Schritt (f) das Zuordnen wenigstens einiger Teile der nicht einwandfrei vorhergesagten Teile denselben gebieten zugeordnet werden, wie die einwandfrei vorhergesagten Nachbarteile, und zwar in Abhängigkeit von Pixeldatengradienten (G) in dem aktuellen Frame.
Verfahren nach Anspruch 9, wobei nicht einwandfrei vorhergesagte Teile mit Gradienten über einer Schwelle denselben Gebieten zugeordnet werden, wie Nachbarteile in Abhängigkeit von den Zuordnungen und Gradienten der genannten Nachbarteile.
Verfahren nach Anspruch 8, 9 oder 10, wobei der Schritt (f) das Zuordnen wenigstens einiger Teile der nicht einwandfrei vorhergesagten Teile denselben Gebieten wie die einwandfrei vorhergesagten Teile zugeordnet werden, und zwar in Abhängigkeit von Statistiken der Pixeldaten für diese Gebiete.
Verfahren nach einem der vorstehenden Ansprüche, wobei in den Schritten (e) und (f) die genannten Teile identifiziert und auf Pixel-für-Pixelbasis modifiziert werden.
Verfahren nach einem der vorstehenden Ansprüche, wobei das aktuelle Frame und die erhaltene Segmentierung in den Schritten (a) bis (f) verwendet werden als Bezugsframe und Bezugsframesegmentierung zum Erhalten der konsistenten Segmentierung für ein betreffendes Subsegmentframe.
Verfahren nach einem der vorstehenden Ansprüche, wobei die Bildframesequenz einen Film aufweist.
Verfahren nach einem der vorstehenden Ansprüche, wobei dieses Verfahren weiterhin den nachfolgenden Verfahrensschritt umfasst: das Verarbeiten von Pixeldaten des aktuellen Bildframes entsprechend der aktuellen Framesegmentierung, erhalten in dem Schritt (f) und das Ausliefern eines Signals, das die verarbeiteten Pixeldaten transportiert.
Verfahren nach Anspruch 15, das weiterhin den nachfolgenden Verfahrensschritt umfasst: das direkte oder indirekte Aufzeichnen des genannten verarbeiteten Bildframes auf oder in einem Aufzeichnungsmedium.
Verfahren nach Anspruch 15 oder 16, wobei der genannte Verarbeitungsschritt das betreffende Frame mit Kompression codiert, und zwar unter Verwendung der erhaltenen Segmentierung.
Verfahren nach Anspruch 17, wobei das genannte codierte Frame eine Darstellung der erhaltenen Segmentierung umfasst.
Verfahren nach Anspruch 17 oder 18, wobei die erhaltene Segmentierung zum verschiedenartigen Zuordnen von Bandbreite zu verschiedenen Teilen des Bildes verwendet wird.
Bildverarbeitungsanordnung zum Erzeugen einer konsistenten Segmentierung in Gebiete einer Sequenz relatierter Bildframes, so dass gleiche Gruppen von Pixeln zu gleichen Gebieten in aufeinander folgenden Frames gehören, wobei diese Anordnung Folgendes umfasst: a) Mittel zum Empfangen aktueller Framepixeldaten für ein betreffendes Frame, Bezugsframepixeldaten und eine Bezugsframesegmentierung; b) Mittel zum Berechnen von Bewegungsschätzungsinformation aus den aktuellen Framepixeldaten und den Bezugsframepixeldaten um räumliche Transformationen darzustellen, die zwischen den genannten Frames auftreten; c) Mittel zum Erhalten einer vorhergesagten aktuellen Framesegmentierung unter Verwendung der genannten Bewegungsschätzungsinformations- und der Bezugsframesegmentierungsdaten; d) Mittel zum Erhalten vorhergesagter aktueller Framepixeldaten unter Verwendung der genannten Bewegungsschätzungsinformations- und der Bezugsframepixeldaten e) Mittel zum Identifizieren nicht einwandfrei vorhergesagter Teile der vorhergesagten aktuellen Framesegmentierung durch einen Vergleich der empfangenen aktuellen Framepixeldaten und der vorhergesagten aktuellen Framepixeldaten; und f) Mittel zum Modifizieren der vorhergesagten aktuellen Framesegmentierung für die identifizierten Teile durch Zuordnung wenigstens einiger Pixel derartiger Teile zu bestehenden Gebieten.
Anordnung nach Anspruch 20, wobei die Modifizierungsmittel (f) Mittel zum Konstruieren und Einfügen einer neuen Segmentierung der identifizierten nicht einwandfrei vorhergesagten Teile in die vorhergesagte aktuelle Framesegmentierung.
Anordnung nach Anspruch 21, wobei die Modifizierungsmittel (f) Mittel aufweisen zum vorübergehenden Zuordnen von Teilen zu denselben gebieten wie benachbarte Teile, die nicht von den Identifizierungsmitteln identifiziert wurden, und zwar vor der Konstruktion der genannten neuen Segmentierung.
Anordnung nach Anspruch 21 oder 22, die weiterhin Mittel aufweist zum Mischen von Gebieten der genannten neuen Segmentierung zum Reduzieren der Anzahl neu geschaffener Gebiete vor der Einfügung in die vorhergesagte Segmentierung.
Anordnung nach Anspruch 21, 22 oder 23, die weiterhin Mittel aufweist zum Mischen von Gebieten der Segmentierung nach der Einfügung der neuen Segmentierung für die identifizierten Teile, zum Reduzieren der Anzahl Gebiete in der erhaltenen Segmentierung.
Anordnung nach einem der Ansprüche 20 bis 24, wobei die Identifizierungsmittel (e) weiterhin Mittel aufweisen zum Verwenden der vorhergesagten Segmentierung zum Zuordnen weiterer Teile der vorhergesagten Segmentierung als nicht einwandfrei vorhergesagt.
Anordnung nach Anspruch 25, wobei die genannten Identifizierungsmittel (e) dazu vorgesehen sind, dass weitere Teile, die als nicht einwandfrei vorhergesagt zugeordnet wurden, diejenigen teile sind, die an den Grenzen von Gebieten in der vorhergesagten Segmentierung liegen.
Anordnung nach einem der Ansprüche 20 bis 26, wobei die genannten Modifizierungsmittel (f) Mittel aufweisen zum Zuordnen nicht einwandfrei vorhergesagter Teile zu bestehenden Gebieten, abhängig von den Zugeordneten Gebieten benachbarter Teile.
Anordnung nach Anspruch 17, wobei die Modifizierungsmittel (f) Mittel aufweisen zum Zuordnen wenigstens einige Teile der nicht einwandfrei vorhergesagten Teile zu denselben Gebieten wie einwandfrei vorhergesagte benachbarte Gebiete in Abhän gigkeit von Pixeldatengradienten in dem aktuellen Frame.
Anordnung nach Anspruch 28, wobei die Modifizierungsmittel (f) derart vorgesehen sind, dass nicht einwandfrei vorhergesagte Teile mit Gradienten über einer Schwelle denselben Gebieten zugeordnet werden, wie Nachbarteile in Abhängigkeit von den Zuordnungen und Gradienten der genannten Nachbarteile.
Anordnung nach Anspruch 27, 28 oder 29, wobei die Modifizierungsmittel (f) dazu vorgesehen sind, dass wenigstens einige Teile der nicht einwandfrei vorhergesagten Teile denselben Gebieten zugeordnet werden wie einwandfrei vorhergesagte Nachbarteile in Abhängigkeit von Statistiken der Pixeldaten für diese Gebiete.
Anordnung nach einem der Ansprüche 20 bis 30, wobei die Identifizierungsmittel (e) und die Modifizierungsmittel (f) derart vorgesehen sind, dass Teile auf Pixel-für-Pixelbasis identifiziert und modifiziert werden.
Anordnung nach einem der Ansprüche 20 bis 31, derart vorgesehen, dass das aktuelle betreffende Frame und die erhaltene Segmentierung durch Mittel (a) bis (f) als Bezugsframe und Bezugsframesegmentierung benutzt werden zum Erhalten der konsistenten Segmentierung für ein nachfolgendes betreffendes Frame.
Anordnung nach einem der Ansprüche 20 bis 32, derart vorgesehen, dass die Bildframesequenz einen Film enthält.
Anordnung nach einem der Ansprüche 20 bis 33, weiterhin mit Mitteln zum verarbeiten von Pixeldaten des aktuellen Bildframes entsprechend der aktuellen Framesegmentierung, erhalten durch die Modifizierungsmittel (f) und Mitteln zum Ausliefern eines Signals, das die verarbeiteten Pixeldaten trägt.
Anordnung nach Anspruch 34, weiterhin mit Mitteln zum direkten und indirekten Aufzeichnen der genannten verarbeiteten Pixeldaten auf oder in einem Aufzeichnungsmedium.
Anordnung nach Anspruch 34 oder 35, wobei das genannte Verarbeitungsmittel ein Codierer ist zum Codieren des betreffenden Frames mit Kompression, unter Verwendung der erhaltenen Segmentierung.
Anordnung nach Anspruch 36, wobei das codierte Frame eine Darstellung der erhaltenen Segmentierung aufweist.
Anordnung nach Anspruch 36 oder 37, weiterhin mit Mitteln zum Verwenden der genannten erhaltenen Segmentierung zur Steuerung der Zuordnung der Bandbreite zu verschiedenen Teilen des Bildes.
Vom Computer verwendbares Medium, das vom Computer auslesbare Instruktionen speichert um dafür zu sorgen, dass ein Prozess in einer Computergraphikanordnung Signale verarbeitet, die aktuelle Framepixeldaten für ein betreffendes Frame. Bezugsframepixeldaten und eine Bezugsframesegmentierung definieren, wobei die Instruktionen Instruktionen enthalten um dafür zu sorgen, dass der Prozessor Folgendes durchführt: a) das Berechnen von Bewegungsschätzungsinformation aus den aktuellen Framepixeldaten und den Bezugsframepixeldaten um räumliche Transformationen darzustellen, die zwischen den genannten Frames auftreten; b) das Verwenden der genannten Bewegungsschätzungsinformations- und der Bezugsframesegmentierungsdaten zum Erhalten einer vorhergesagten aktuellen Framesegmentierung; c) das Verwenden der genannten Bewegungsschätzungsinformations- und der Bezugsframepixeldaten zum Erhalten vorhergesagter aktueller Framepixeldaten; d) das Identifizieren nicht einwandfrei vorhergesagter Teile der vorhergesagten aktuellen Framesegmentierung durch einen Vergleich der empfangenen aktuellen Framepixeldaten und der vorhergesagten aktuellen Framepixeldaten; und e) das Modifizieren der vorhergesagten aktuellen Framesegmentierung für die identifizierten Teile durch Zuordnung wenigstens einiger Pixel derartiger Teile zu bestehenden Gebieten.