DE69722040T2

DE69722040T2 - 2-d gittergeometrie und bewegungsvektorkompression

Info

Publication number: DE69722040T2
Application number: DE69722040T
Authority: DE
Inventors: J. Petrus VAN BEEK; Murat Ahmet TEKALP
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-12-16
Filing date: 1997-12-15
Publication date: 2004-04-01
Anticipated expiration: 2017-12-16
Also published as: US6047088A; EP1008108B1; DE69722040D1; JP2001506828A; WO1998027515A1; EP1008108A1

Description

Gebiet der Erfindung
Die Erfindung liegt auf dem Gebiet der Codierung und Manipulation von Bildern, genauer gesagt, dem Codieren von Sequenzen von 2D-Gittern, die im Wesentlichen einer Sequenz von Bildern entsprechen.
Hintergrund der Erfindung
Ein 2D-Dreiecksgitter bezieht sich auf die Mosaikabbildung einer visuellen 2D-Objektebene in Dreiecksflecke. Die Ecken der Dreiecksflecke werden als "Knotenpunkte" bezeichnet. Die die Knotenpunkte verbindenden geradlinigen Segmente werden als "Ränder" bezeichnet.
Ein dynamisches 2D-Gitter besteht aus einer zeitlichen Sequenz von 2D-Dreiecksgittern, wobei jedes Gitter dieselbe Topologie (d. h. Struktur) aufweist, jedoch Knotenpositionen von einem Gitter zum nächsten verschieden sein können. So kann ein dynamisches 2D-Gitter durch die Geometrie des anfänglichen 2D-Gitters und Bewegungsvektoren an den Knotenpunkten für folgende Gitter definiert sein, wobei jeder Bewegungsvektor von einem Knotenpunkt des vorigen Gitters in der Sequenz zu einem Knotenpunkt des aktuellen Gitters zeigt. Ein dynamisches 2D-Gitter kann dazu verwendet werden, 2D-Animationen dadurch zu erzeugen, dass eine Textur aus einem Stehbild mittels gut bekannter Texturabbildungsmaßnahmen auf aufeinanderfolgende 2D-Gitter abgebildet wird. Zum Beispiel kann ein dynamisches Gitter dazu verwendet werden, eine wehende Flagge aus einem Stehbild einer Flagge zu erzeugen. Die örtlichen Deformationen der Textur im zeitlichen Ablauf werden durch die Bewegung von Gitternknoten von einem Gitter zum nächsten erfasst. Demgemäß können verschiedene Animationen derselben Textur durch verschiedene Sätze von Knoten-Bewegungsvektoren erzielt werden.
Der Texturabbildungsvorgang nutzt die Struktur des Gitters, d. h. die Art, in der die Knoten des Gitters miteinander verbunden sind, d. h. die Konfiguration der Ränder des Gitters. Ein Gitter kann eine spezifizierte, implizi te Struktur aufweisen, die eine gleichmäßige Struktur oder eine Delaunay-Struktur, wie von S. M. Omohundro in "The Delaunay triangulation and function learning", International Computer Science Institute Technical Report TR-90-001, University of California Berkeley, Januar 1990 beschrieben wurde.
Effizientes Codieren einer Animationssequenz kann dadurch bewerkstelligt werden, dass die Stehbildtextur und das zugegehörige 2D-Gitter, d. h. die Geometrie und die Knotenvektoren, gesondert codiert werden. Das zugeordnete 2D-Gitter ist durch die Geometrie des ersten Gitters und die Bewegungsvektoren der Knoten des ersten und der folgenden Gitter repräsentiert. Das 2D-Gitter wird dadurch codiert, dass die Geometrie des ersten Gitters und die Bewegungsvektoren der Knoten dieses ersten und der folgenden Gitter codiert werden.
Die hier beschriebene Gittergeometrie-Kompressionstechnik ist auf 2D-Dreiecksgitter mit impliziter Topologie, genauer gesagt, Gitter mit gleichmäßiger und mit Delaunay-Topologie beschränkt. In diesen Fällen ist die Gittertopologie implizit definiert, wobei die Orte der Gitterknoten (auch als Ecken bezeichnet) und einige Zusatzinformationen, die später detailliert spezifiziert wird, angegeben werden. Algorithmen zum Realisieren von Delaunay-Triangulationen sind in der Literatur verfügbar und werden hier nicht beschrieben. Es sei darauf hingewiesen, dass Delaunay-Triangulationen eindeutig definiert sind, außer dann, wenn die zu triangulierenden Knoten bestimmte Degenerationen hinsichtlich ihrer Orte enthalten. Hier sei angenommen, dass sowohl der Gittercodierer als auch der Gitterdecodierer eine Technik, über die sie sich vereinbart haben, dazu nutzen, derartige Degenerationen zu handhaben. Derartige Techniken sind dem Fachmann gut bekannt. Die hier beschriebene Gittergeometrie-Kompressionstechnik erlaubt für diese eingeschränkten Gitterklappen ein hohes Kompressionsverhältnis.
Eine Gitterbewegung effizient zu repräsentieren ist von Bedeutung, um auf Gittern basierende Animationen zu beschreiben. Hier wird eine Technik zur Kompression einer Gitterbewegung für den 2D-Fall beschrieben, wobei jedoch darauf hingewiesen sei, dass das Prinzip in unkomplizierter Weise auf den Fall von 3D-Gittern mit 3D-Bewegung erweitert werden kann. Ferner sei darauf hingewiesen, dass die hier beschriebene Gitterbewegungs-Kompressionstechnik direkt bei Gittern mit allgemeiner Topologie anwendbar ist, obwohl hier angegebene Beispiele Gitter mit eingeschränkter Topologie beschreiben. Schließlich sei darauf hingewiesen, dass die Prinzipien der Erfindung hin sichtlich Bewegungscodierung auch unkompliziert auf die Codierung von Attributen zum Aussehen einer Oberfläche angewandt werden können.
Die hier beschriebenen Codierverfahren können z. B. in Zusammenhang mit MPEG-4 verwendet werden. MPEG-4 ist ein objektbasierender Multimedia-Kompressionsstandard, wie er von der Motion Picture Experts Group entwickelt wird und der eine gesonderte Codierung verschiedener audiovisueller Objekte (AVO) in einer Szene erlaubt und eine Erweiterung der bisherigen Standards MPEG-1/2 bildet. Diese AVOs werden codiert und dann im Benutzerterminal entsprechend einem gesendeten Szene-Beschreibungsscript und/oder Wechselwirkung mit dem Benutzer zusammengesetzt, um Anzeigerahmen zu erstellen. Die visuellen Objekte können über einen natürlichen oder synthetischen Inhalt verfügen, einschließlich Audio, Video, 3D-Grafikmodellen, Rolltext und Grafikoverlays usw.
Zusammenfassung der Erfindung
Die Erfindung beinhaltet Verfahren zum Codieren von Gitterdaten in ein komprimiertes Format sowie Verfahren zum Decodieren des komprimierten Formats. Die Verwendung eines komprimierten Formats erleichtert effiziente Speicherung und Kommunikation der Gitterdaten. Die beschriebenen Codierverfahren sind verlustfrei, d. h., dass das komprimierte Format dieselbe Information repräsentiert, wie sie in den ursprünglichen Gitterdaten enthalten ist. Gleichzeitig verringert die Verwendung des komprimierten Formats den benötigten Umfang an Speicherraum oder die Kommunikationsbandbreite.
Zur Erfindung gehört ein Systemverfahren zum Codieren und Decodieren eines dynamischen Gitters, einschließlich des Codierens und Decodierens einer Gittergeometrie einer Gruppe von Knotenpunkten; sowie das Codieren und Decodieren eines Gitterknoten-Bewegungsvektors für jeden Knotenpunkt.
Es ist eine Aufgabe der Erfindung, ein System und ein Verfahren zum Codieren und Decodieren eines Gitters und der Verschiebung von Knotenpunkten von einem momentanen Rahmenzeitpunkt zum nächsten zu schaffen.
Kurze Beschreibung der Zeichnungen
1 zeigt eine gitterbasierende Bewegungsmodellierung unter Verwendung eines Dreieckgitters.
2 zeigt die Knotenbewegung und die Verformung eines Bildobjekts, wenn ihm ein Gitter überlagert wird.
3 zeigt ein typisches Codierer/Decodierer-System.
4 zeigt eine Animationsanwendung, wobei es sich um Prozesse durch das System der 3 handelt.
5 zeigt ein verallgemeinertes, gleichmäßiges 2D-Gitter.
6 zeigt vier Typen gleichmäßiger Gitter.
7 zeigt eine Knotenpunkts-Reihenfolge in einem 2D-Dreiecksgitter vom Delaunay-Typ.
8 zeigt eine Knotenpunkt-Reihenfolge in einem 2D-Dreiecksgitter vom gleichmäßigen Typ.
9 zeigt einen Zwischenpunkt in einem Umfang-zuerst-Durchlauf eines 2D-Dreiecksgitters.
10 zeigt einen Umfang-zuerst-Durchlauf von Dreiecken in einem 2D-Gitter.
11 zeigt eine Gruppe decodierter Knotenpunkte und Gittergrenze-Randsegmenten.
12 zeigt ein decodiertes Dreiecksgitter, das durch eingeschränkte Delaunay-Triangulation erhalten wurde.
Detaillierte Beschreibung der bevorzugten Ausführungsform
Gitterbasierte Bewegungsmodellierung für Videoverarbeitung
Die Modellierung und Abschätzung der Bewegung von Objekten in einer Sequenz von Bildrahmen ist in der Videoverarbeitung üblich und verfügt über eine Anzahl von Anwendungen. Eine übliche Vorgehensweise ist blockbasierte Bewegungsmodellierung, bei der Bewegungsparameter für jeden Rechteckblock von Pixeln unabhängig abgeschätzt werden. Genauer gesagt, hat sich das Translations-Blockbewegungsmodell für Videokompression als zufriedenstellend er wiesen; es wurde in internationalen Standards wie MPEG-1, -2 und -4 verwendet. In jüngerer Zeit wurde als auf einem 2D-Gitter basierende Bewegungsmodellierung als vielversprechende Alternative bei der Videoverarbeitung gegenüber blockbasierender Bewegungsmodellierung vorgeschlagen.
Ein 2D-Gitter ist eine Mosaikabbildung (oder Unterteilung) eines planaren 2D-Bereichs in Polygonflecke. Nachfolgend werden die Ecken der Polygonflecke als die Knotenpunkte des Gitters bezeichnet. Die Flecke sind im Allgemeinen Dreiecke oder Vierecke, was zu Dreiecks- bzw. Vierecksgittern führt. Siehe die 1a. Bei auf einem 2D-Gitter beruhender Bewegungsmodellierung wird ein 2D-Gitter einem Bild oder einer Gruppe von Bildern so zugeordnet, dass die polygonalen Gitterflecke Texturflecken in den Bildern entsprechen, wobei die Textur aus den Bildpixeln innerhalb eines Flecks besteht. Polygonflecke in einem Bezugsrahmen werden durch die Bewegungen der Knotenpunkte zu Polygonflecken eines anderen Rahmens verformt, und die Textur innerhalb jedes Flecks im Bezugsrahmen wird unter Verwendung parametrischer Abbildung als Funktion der Knotenpunkt-Bewegungsvektoren unter Verformung auf den anderen Rahmen abgebildet. Siehe die 1b und 1c. Hinsichtlich Dreiecksgittern wird affine Abbildung verwendet, die Translation, Rotation, Maßstabsänderung und Scherung abbilden kann. Es ist zu beachten, dass bei gitterbasierender Bewegungsmodellierung die Flecke im Bezugsrahmen oder im aktuellen Rahmen nicht überlappen. So wie hier verwendet, bedeutet die Aussage, dass zwei Dreiecke benachbart sind, dass sie einen Rand gemeinsam haben.
Wenn angenommen wird, dass der Parameterabschätzung vernünftige Einschränkungen auferlegt werden, kann eine affine Transformation die Kontinuität der Abbildung über die Grenzen benachbarter Dreiecke hinweg gewährleisten. Die beinhaltet, dass das ursprüngliche 2D-Bewegungsfeld durch die Bewegung der Knotenpunkte kompakt repräsentiert werden kann, woraus ein kontinuierliches, stückweise affine Bewegungsfeld rekonstruiert werden kann.
3D-Polygongitter wurden für effiziente 3D-Objektgeometrie modellierung und -wiedergabe bei Computergrafik verwendet. Gleichungen, die parametrischen Abbildungen ähnlich sind, wie sei bei gitterbasierender Bewegungsmodellierung verwendet werden, wurden auch bei 3D-Grafiken dazu verwendet, eine Texturabbildung auszuführen, wobei es sich um eine beliebte Prozedur handelt, um natürliche Bilder mit Polygongittern wiederzugeben, die Grafikobjekte beschreiben, um fotorealistische Synthesebilder zu erhalten. Texturabbildung bei 3D-Grafik erfolgt durch Zuweisung einer Texturkoordinate (einer Pixelposition für ein 2D-Bild) für jeden 3D-Knotenpunkt im Polygongitter. So wird jedem Polygon-Oberflächenelement im 3D-Gitter ein Fleck des 2D-Bilds zugeordnet, der dann in das Polygongitter überführt wird, das der eigentlichen Verformungstransformation unterliegt. Eine Animation kann dadurch erzeugt werden, dass dasselbe Bild wiederholt in ein verformtes Gitter überführt wird. Ein ähnlicher Prozess kann mit 2D-Gittern ausgeführt werden, um ein Bild in eine animierte Bildsequenz zu überführen und Gitter entsprechend zu verformen.
Bewegungsabschätzung für gitterbasierende Videoverarbeitung
Die Bestimmung der Bewegung von 2D-Gittern aus einer vorgegebenen Bildsequenz erfolgt durch Abschätzen der Bewegung von Gitterknotenpunkten im Verlauf der Zeit. Im Fall einer auf einem 2D-Gitter beruhenden Bewegungsmodellierung betrifft die Bewegungsabschätzung die Suche in einem vorgegebenen Bezugsbild nach dem besten Orten der Knotenpunkte, so dass die dreieckigen Bildflecke im Bezugsrahmen optimal zu denen im aktuellen Bild passen. Das Gitter im anfänglichen Bezugsbild kann über regelmäßige Struktur verfügen, in welchem Fall es als gleichmäßiges Gitter bezeichnet wird, oder es kann an das Bild angepasst werden, in welchem Fall es als inhaltsbasiertes Gitter bezeichnet wird. Eine Beschreibung eines Algorithmus für ein inhaltsbasiertes (adaptives) Gitterdesign findet sich in der Literatur.
Für die Knotenbewegungsvektor-Suche von einem Rahmen zum nächsten wurden verschiedene Techniken vorgeschlagen. Das einfachste Verfahren besteht in der Erzeugung von Blöcken, die um die Knotenpunkte zentriert sind, wobei dann eine gradientenbasierte Technik oder eine Blockübereinstimmungsprüfung dazu verwendet wird, Bewegungsvektoren am Ort der Knoten aufzufinden. Durch hexagonale Übereinstimmungsprüfung und Übereinstimmungsprüfungstechniken für geschlossene Formen wird der optimale Bewegungsvektor an jedem Knoten bei parametrischer Verformung aller Flecke aufgefunden, die den Knoten umgeben, während Einschränkungen betreffend den Gitterzusammenhang durchgesetzt werden. Ein anderes Verfahren ist iterative, gradientenbasierte Optimierung von Knotenpunktorten, wobei Bildmerkmale und Gitterverformungskriterien berücksichtigt werden.
Es wird nun auf die 2 Bezug genommen, in der ein Bildobjekt 10 dargestellt ist. Die Bewegung der Knoten, wie der Knoten 12, 14, aus einem Bildobjekt 10 wird so beschrieben, dass das Bildobjekt in ein animiertes Bildobjekt 16, mit Knoten 12a, 14a transformiert wird. Die Bewegung der Knoten beschreibt eine örtliche Bewegung und Verformung des Objektbilds 10, über das ein Gitter 18 gelegt wird. Die Transformation, die das Gitter des Objekts 16 in das Bildobjekt 10 überführt, führt zu örtlicher Bewegung und Verformung sowie zu einer Maßstabsänderung des gesamten Bildobjekts.
Wie bereits angegeben, besteht eine Aufgabe der Erfindung darin, ein Verfahren zum Codieren und Decodieren eines Gitters und der Verschiebung von Knotenpunkten von einem Rahmenzeitpunkt zum nächsten zu schaffen. Die zu animierende Textur kann unter Verwendung eines Stehbild-Codierverfahrens codiert sein, wie bei MPEG-4 (Moving Picture Experts Group Standard 4) verwendet. Die zu animierende Textur kann ein Stehbild eines natürlichen Objekts sein, oder sie kann ein synthetisches (computererzeugtes) Bild sein.
Durch Anwenden des Decodierers werden die Textur und das Gitter decodiert und in Animation überführt. Die aktuelle Version von MPEG-4 Systems Working Draft (WD) spezifiziert ein Grundgerüst für animationsunterstützende Anwendungen, MPEG-4 Systems Working Draft V 5.0 of ISO/IEC 14496, Document No. N1825, Juli 1997, nachfolgend als MPEG-4 WD V 5.0 bezeichnet.
2D-Gittercodierer
Als Erstes werden das Codieren der Gittergeometrie und dann das Codieren von Gitterbewegungsvektoren beschrieben. Es sei angenommen, dass die Gitterstruktur (d. h. die Topologie) bekannt ist und dass es sich entweder um ein gleichmäßiges Gitter oder ein Delaunay-Gitter handelt.
In den 3 und 4 ist ein typisches System dargestellt, das das erfindungsgemäße Verfahren nutzen kann, und es verfügt über ein Codierer-Untersystem 20, das in der 3 dargestellt ist. Das Untersystem 20 verfügt über einen Texturcodierer 22, der Stehbild-Texturdaten 22 empfängt und einen texturcodierten Bitstrom 26 erzeugt. Ein Gittercodierer 28 empfängt eine 2D-Gittersequenz 30. Der Codierer 28 verfügt über einen Geometriecodierer 32 und einen Bewegungsvektorcodierer 34. Der Codierer 28 erzeugt einen gittercodierten Bitstrom 36.
Das Decodier-Untersystem 20 ist in der 4 dargestellt, und es verfügt über einen Texturcodierer 38 und einen Gitterdecodierer 40. Der Gitterdecodierer 40 verfügt über einen Geometriedecodierer 42 und einen Bewegungsvektordecodierer 44. Das Ausgangssignal des Texturdecodierers 38 und des Git terdecodierers 40 führt zu Texturabbildungsdaten 46, die bei einer Animationsanwendung 48 verwendet werden, was zu einem animierten Bild 50 führt. Der Fachmann erkennt, dass zwar die bevorzugte Ausführungsform des erfindungsgemäßen Systems hinsichtlich der Manipulation eines Stehbilds beschrieben ist, dass jedoch auch andere Bilder, wie Videobilder, manipuliert werden können.
Gittergeometrie-Codierung
Da das anfängliche 2D-Dreiecksgitter entweder ein gleichmäßiges Gitter oder ein Delaunay-Gitter ist, wird die Topologie des Dreiecksgitters (Verbindungen zwischen Knotenpunkten) nicht codiert; es werden nur die 2D-Knotenpunktkoordinaten
codiert. Im Bitstrom kann ein spezielles Flag spezifizieren, ob das anfängliche Gitter gleichmäßig oder ein Delaunay-Gitter ist. Siehe die untenstehende Tabelle 8.
Im Fall eines gleichmäßigen Gitters werden fünf Parameter nr_of_mesh_nodes_hori, nr_or_mesh_nodes_verti, mesh rect size hori, mesh_rect_size_verti, und triangle split code (in der untenstehenden Tabelle 5 näher definiert und beschrieben) dazu verwendet, die vollständige Topologie und die Knotenpunktorte zu spezifizieren. Ein Beispiel eines gleichmäßigen 2D-Gitters ist in der 5, allgemein mit 60 gekennzeichnet, dargestellt, wobei die Anzahl der Knoten 62, die zur Hervorhebung als dunkle Kreise dargestellt sind, in der horizontalen und vertikalen Richtung die Werte 5 bzw. 4 hat. Das Aufteilen von Rechtecken in Dreiecke kann gemäß vier verschiedenen Schemas erfolgen, wie es in der 6 dargestellt ist. Einer dieser Typen ist in der 5 dargestellt, der triangle_split_code = '00' entspricht. Andere Codes sind ferner in der Tabelle 9 definiert. Die ersten zwei Parameter nr_of_mesh_nodes_hori, nr_or_mesh_nodes_verti spezifizieren die Anzahl der Knoten in der horizontalen bzw. vertikalen Richtung für das gleichmäßige Gitter. Die nächsten zwei Parameter mesh_rect_size_hori, mesh_rect_size_verti spezifizieren die horizontale bzw. vertikale Größe jedes Rechtecks (das zwei Dreiecke enthält) in Halbpixeleinheiten. Dies spezifiziert das Layout und die Abmessungen des Gitters. Der letzte Parameter triangle_split_code spezifiziert, wie jedes Rechteck unterteilt wird, um zwei Dreiecke zu bilden.
Delaunay-Gitter
Die Knotenpunktkoordinaten werden dadurch codiert, dass als Erstes die Grenzknotenpunkte und dann die inneren Knotenpunkte des Gitters codiert werden. Um die inneren Knotenpositionen zu codieren, werden die Knoten einzeln unter Verwendung einer Nächster-Nachbar-Strategie durchlaufen, und jede Knotenposition wird differenziell unter Verwendung der Position des zuvor codierten Knotens als Vorläufer codiert. Eine lineare Reihenfolge der Knotenpunkte wird so berechnet, dass jeder Knoten einmal durchfahren wird.
Wenn ein Knoten durchfahren wird, wird seine Position in Bezug auf den zuvor codierten Knoten differenzcodiert. Das heißt, dass die Differenz zwischen der Position des aktuellen Knotens und dem rekonstruierten Wert des vorigen Knotens unter Verwendung einer Codierung mit variabler Länge (VLC) codiert wird. Die Reihenfolge ist dergestalt, dass die Grenzknoten als Erstes durchlaufen werden, und dann die inneren Knoten. Durch Liefern der Gesamtanzahl der Knotenpunkte und der Anzahl der Grenzknotenpunkte ist dem Decodierer bekannt, wieviele Knotenpunkte folgen werden und wieviele davon Grenzknoten sind; so ist er dazu in der Lage, die Polygongrenze und die Orte aller Knoten zu rekonstruieren.
Diese Prozedur ist in der 7 veranschaulicht, die ein Beispiel eines kleinen Dreiecksgitters 70 ist. Die 7 zeigt den Durchlauf von Knotenpunkten eines 2D-Dreiecksgitters und die Reihenfolge der zu codierenden Knotenpunkte. Als Erstes werden die Grenzknoten p₀ ... p₉ entsprechend der Verbindungsart besucht, d. h., dass der nächste Knoten immer der nächste verbundene Knoten an der Grenze in der Gegenuhrzeigerrichtung ist. Dann werden die inneren Knoten p₁₀ ... p₁₄ entsprechend der Nähe besucht, d. h., dass der nächste Knoten immer der nächstliegende Knoten ist, der noch nicht codiert ist. Es werden die Gesamtanzahl der Knoten und die Anzahl der
malem Wert x_n + y_n definiert ist, wobei angenommen ist, dass der Ursprung des Ortskoorrdinantensystems oben links liegt. Wenn mehr als ein Punkt mit demselben Wert von x_n + y_n vorliegt, wird der Knotenpunkt mit Minimalwert
diert; dann werden alle anderen Grenzknoten auf ähnliche Weise codiert.
Dann wird der noch nicht codierte innere Knoten, der dem letzten Grenzknoten am nächsten liegt, aufgefunden, und es wird die Differenz zwischen diesen codiert. Dieser Knoten ist als der noch nicht codierte Knoten n mit dem Minimalwert von |x_n – x_last| + |y_n – y_last| definiert, wobei (x_last, y_last) die Koordinaten des zuvor codierten Knotens repräsentieren. Dann wird der noch nicht codierte Knoten, der dem zuletzt codierten Knoten am nächsten liegt, aufgefunden und die Differenz wird codiert, usw. Jeder Knotenpunkt verfügt über eine x- und eine y-Koordinate,
von denen jede von der entsprechenden Koordinate des zuvor codierten Knotenpunkts subtrahiert wird. Die zwei sich ergebenden Differenzwerte werden unter Verwendung einer Codierung mit variabler Länge (VLC) codiert. Bei einer speziellen Ausführungsform der Erfindung werden Codes variabler Länge verwendet, wie sie von MPEG-4 zum Codieren von Sprite(in einer Grafik freibewegliche Figur)-Trajektorien spezifiziert sind. Im Prinzip können spezielle Codes mit variabler Länge konzipiert werden.
Codierung von Knotenbewegungsvektoren
..., N – 1 codiert. Es ist zu beachten, dass die Dreieckstopologie des Gitters über die ganze Sequenz hinweg dieselbe bleibt.
Nun werden zwei alternative Verfahren zur Codierung von Knotenbewegungsvektoren beschrieben, die beide eine Vorhersagecodierung der Knotenbewegungsvektoren beinhalten. Zur Vorhersagecodierung von Bewegungsvektoren gehört die Vorhersage jedes Bewegungsvektors mittels eines oder mehrerer bereits codierter Bewegungsvektoren anderer Knotenpunkte im Gitter; anschließend wird die Differenz zwischen dem vorhergesagten Vektor und dem tatsächlichen Bewegungsvektor an Stelle des Originals codiert. Das erste Verfahren, das Verfahren I, verwendet nur einen bereits codierten Bewegungsvektor zum Vorhersagen des Werts eines speziellen Bewegungsvektors. Das zweite Verfahren, das Verfahren II, verwendet zwei bereits codierte Bewegungsvektoren zum Vorhersagen des Werts eines speziellen Bewegungsvektors. Die Verfahren unterscheiden sich auch hinsichtlich der Wahl der Vorhersage-Bewegungsvektoren; beim Verfahren I ist der Vorhersage-Bewegungsvektor als solcher mit einer einfachen Knotenpunkt-Reihenfolge definiert; beim Verfahren II werden die Vorhersage-Bewegungsvektoren unter Verwendung eines Umfang-zuerst-Durchlaufs des Gitters definiert. Es ist zu beachten, dass die Bitstromsyntax zur Gitterbewegungscodierung, wie in der Tabelle 6 definiert, für das Verfahren I und das Verfahren II gleich ist.
Verfahren 2
Es wird eine eindeutige Reihenfolge verfügbarer Knotenpunkte
angenommen, wobei n die Reihenfolgenummer bezeichnet. Wenn das Gitter ein solches vom Delaunay-Typ ist, wie in der 7 dargestellt, ist die Reihenfolge einfach als diejenige Reihenfolge definiert, in der die Knotenpunktorte während der Gittergeometriecodierung codiert werden; d. h., dass der Knoten
tergeometriecodierung verwendete Reihenfolge beruht auf einem Durchlauf des Anfangsgitters, bei dem die Grenzknoten als erste besucht werden und dann die inneren Knoten besucht werden, wie bereits beschrieben.
Wenn das Gitter ein solches von gleichmäßigem Typ ist, wie in der 8 dargestellt, wird die Knotenreihenfolge auf Grundlage der Gitterstruktur wie folgt definiert. Der erste Knotenpunkt in der Reihenfolge
ist der Knotenpunkt, der ganz oben links im gleichmäßigen Gitter liegt; die folgenden Knotenpunkte in der Reihenfolge werden dadurch erhalten, dass die Knotenpunkte des gleichmäßigen Gitters von links nach rechts in der ersten (obersten) Reihe von Knotenpunkten durchlaufen werden; dann zum Knoten in der zweiten Reihe von Knoten unmittelbar unter dem letzten Knoten der ersten Reihe übergegangen wird; dann die zweite Reihe von rechts nach links durchlaufen wird; dann zur dritten Reihe von Knoten übergegangen wird und die dritte Reihe von links nach rechts durchlaufen wird, usw. Diese Reihenfolge ist durch einen einfachen Durchlauf des gleichmäßigen Gitters definiert.
Für jeden Knotenpunkt im Gitter wird ein Bitflag, das node_motion_vector_flag, codiert, um zu spezifizieren, ob dieser Knotenpunkt einen von null abweichenden Bewegungsvektor aufweist. Für jeden Knotenpunkt im Gitter mit einem von null abweichenden Bewegungsvektor wird ein Bewegungsvektor-Differenzvektor
codiert, um die Differenz zwischen dem Bewegungsvektor dieses Knotens und dem zuvor codierten Bewegungsvektor zu spezifizieren.
So ist der Codierprozess der Folgende. Die Bewegungsvektoren aller Knotenpunkte
n = 0, ..., N – 1 sind wie folgt definiert
Wenn der erste Knotenpunkt in der oben definierten Reihenfolge einen Bewegungsvektor vom Wert null aufweist, d. h., wenn
gilt, werden für diese Knotenpunkt keine ewegungsvektordaten codiert. Wenn der erste Knoeinen von null abweichenden Bewegungsvektor aufweist, wird ein Vektor
definiert, des ersten Knotenpunkts entspricht:
Der Vektor
wird durch VLC seiner x- und seiner y-Komponente codiert. Für alle anderen Knotenpunkte in der oben definierten Reihenfolge ist der Codierprozess der Folgende:
tordaten codiert. Andernfalls wird aus dem zuvor codierten Bewegungsvektor und dem aktuellen Bewegungsvektor durch die folgende Gleichung ein Bewegungsvektor-Differenzvektor
berechnet:
Dann wird der Vektor
durch Codierung mit variabler Länge seiner x- und seiner y-Komponente codiert. So werden, um die tatsächlichen Bewegungsvektoren zu codieren, Differenzvektoren
einzeln in der oben spezifizierten Reihenfolge codiert.
Verfahren II: Bewegungsvektorvorhersage
Da Verfahren beruht auf einer Vorhersagecodiertechnik, bei der zwei Bewegungsvektoren zum Berechnen eines Vorhersagewerts verwendet werden. Die Vorhersagecodiertechnik des Verfahrens II nutzt speziell die folgende Technik der Bewegungsvektorvorhersage. Um den Bewegungsvektor eines Knoten
vorherzusagen und den Vorhersagefehlerwert zu codieren. Ausgehend von einem Anfangsdreieck t_k, für das alle drei Knotenbewegungsvektoren codiert wurden, muss mindestens ein anderes, benachbartes Dreieck t_w vorhanden sein, das über zwei mit t_k gemeinsame Knoten verfügt. Da die Bewegungsvektoren der zwei Knoten, die t_k und t_w gemeinsam haben, bereits codiert sind, kön nen diese zwei Bewegungsvektoren dazu verwendet werden, den Bewegungsvektor des dritten Knotens in t_w vorherzusagen. Der tatsächliche Vorhersagevektor
wird durch Mitteln der zwei Vorhersagebewegungsvektoren berechnet, und die Komponenten des Vorhersagewerts werden mit Halbpixelgenauigkeit gerundet, was wie folgt geschieht:
Diese Vorhersageformel wird für alle Bewegungsvektoren verwendet, außer für die Codierung des ersten und des zweiten Codierungsvektors. Wenn der erste Bewegungsvektor codiert wird, wird der Vorhersagevektor auf den Nullvektor gesetzt:
Wenn der zweite Bewegungsvektor codiert wird, wird der Vorhersagevektor auf den ersten codierten Bewegungsvektor gesetzt:
Für jeden Knotenpunkt n wird ein Vorhersagefehlervektor
dadurch berechnet, dass die Differenz zwischen dem Vorhersagevektor und dem tatsächlichen Bewegungsvektor gebildet wird.
Jeder Vorsagefehlervektor wird unter Verwendung einer Codierung mit variabler Länge codiert. Diese Prozedur wird wiederholt, während die Dreiecke und Knoten des Gitters durchlaufen werden, wie unten erläutert.
Es ist zu beachten, dass der Vorhersagefehlervektor nur für Knotenpunkte mit einem von null abweichenden Bewegungsvektor codiert wird. Für alle anderen Knotenpunkte ist der Bewegungsvektor einfach
. Das zuvor angegebene node_motion_vector_flag wird dazu verwendet, zu spezifizieren, ob ein Knoten einen von null abweichenden Bewegungsvektor aufweist oder nicht.
Verfahren II: Gitterdurchlauf
Um alle Dreiecke und Knoten im Gitter mit der Nummer k zu besuchen und um die vom Gitter k zum Gitter k + 1 definierten Bewegungsvektoren zu codieren wird ein Umfang-zuerst-Durchlauf verwendet. Der Umfang-zuerst-Durchlauf ist ein eindeutig definierter Durchlauf des Gitters in solcher Weise, dass jedes Dreieck genau einmal durchlaufen wird jeder Knoten mindestens einmal besucht wird. Dieser Durchlauf ist durch die Topologie des Gitters bestimmt, die dem Codierer dauernd bekannt ist und die dem Decodierer bekannt ist, sobald er einmal das Anfangsgitter decodiert hat, so dass der Durchlauf des Gitters sowohl im Codierer als auch im Decodierer auf genau dieselbe Weise ausgeführt werden kann.
Der Umfang-zuerst-Durchlauf der Gitterdreiecke ist wie folgt definiert, und er ist in der 9 veranschaulicht und allgemein mit 90 gekennzeichnet. Zunächst wird ein Anfangsdreieck 92 wie folgt definiert der Gitterknoten 94 oben links wird als Knoten n mit dem Minimalwert x_n + y_n definiert, wobei davon ausgegangen wird, dass der Ursprung des Ortskoordinatensystems oben links liegt. Wenn mehr als ein Knoten mit demselben Wert von x_n + y_n vorliegt, wird unter diesen Knotenpunkten derjenige mit dem Minimalwert von y ausgewählt. Der Rand 96 zwischen dem Gitterknoten oben links und dem nächsten Knoten 98 in der Uhrzeigerrichtung entlang der Grenze ist ein Rand des als Anfangsdreieck spezifizierten Dreiecks. Das Anfangsdreieck wird mit der Zahl null markiert.
Als Zweites werden alle anderen Dreiecke iterativ mit Zahlen 1, 2, ..., M – 1 markiert, wobei M die Anzahl der Dreiecke im Gitter ist. Unter allen markierten Dreiecken, die über benachbarte Dreiecke verfügen, die noch nicht markiert sind, wird das Dreieck mit der Markierung mit der niedrigsten Nummer aufgefunden. Dieses Dreieck wird nachfolgend wird nachfolgend als aktuelles Dreieck 100 bezeichnet. Bei der ersten Iteration wird das Anfangsdreieck zum aktuellen Dreieck. Der Basisrand dieses Dreiecks wird als Rand definiert, der das Dreieck mit dem bereits markierten benachbarten Dreieck mit der niedrigsten Zahl verbindet. Im Fall des Anfangsdreieck ist der Basisrand als Rand zwischen dem Knoten oben links und dem nächsten Knoten entlang der Grenze in der Uhrzeigerrichtung definiert. Es wird der rechte Rand des aktuellen Dreiecks als nächster Rand in der Gegenuhrzeigerrichtung in Bezug auf den Basisrand definiert; außerdem wird der linke Rand als nächster Rand in der Uhrzeigerrichtung in Bezug auf den Basisrand defi
Als Drittes wird ermittelt, ob ein nicht markiertes Dreieck benachbart zum aktuellen Dreieck liegt, wobei der rechte Rand gemeinsam vorliegt. Wenn ein derartiges Dreieck vorhanden ist, wird es mit der nächsten verfügbaren Zahl markiert. Es wird ermittelt, ob ein nicht markiertes Dreieck benachbart zum aktuellen Dreieck liegt, wobei der linke Rand gemeinsam ist. Wenn ein derartiges Dreieck existiert, wird es mit der nächsten verfügbaren Zahl markiert. Dieser Prozess wird iterierend fortgesetzt, bis alle Dreiecke mit einer eindeutigen Zahl m markiert sind. Es wird nun auf die 9 Bezug genommen, in der ein Umfang-zuerst-Durchlauf für ein beispielhaftes 2D-Dreiecksgitter dargestellt ist. Der Durchlauf erfolgte bereits halb durch das Gitter – es wurden fünf Dreiecke markiert (mit Zahlen) und die Bewegungsvektoren von sechs Knotenpunkte wurden codiert (mit einem Kästchensymbol markiert). Das mit '3' markierte Dreieck ist das 'aktuelle Dreieck"; der Basisrand ist 'b'; der linke und der rechte Rand sind 'r' und '1'. Die Dreiecke, die als Nächstes markiert werden, sind die Dreiecke, die den rechten bzw. linken Rand mit dem aktuellen Dreieck gemeinsam haben. Nachdem diese Dreiecke markiert sind, ist das mit '4' markierte Dreieck das nächste 'aktuelle Dreieck' und es wird ein weiterer Bewegungsvektor codiert.
Die Reihenfolge der Dreiecke entsprechend den ihnen zugewiesenen Markierungszahlen definiert implizit die Reihenfolge, in der die Bewegungsvektordaten jedes Knotenpunkt codiert werden. Zunächst werden Bewegungsvektordaten für den Knoten oben links im Gitter codiert. Für den Bewegungsvektor dieses Knotens wird keine Vorhersage verwendet, so dass dessen Daten den Bewegungsvektor selbst spezifizieren. Dann werden Bewegungsvektordaten für den zweiten Knoten, der in der Uhrzeigerrichtung der nächste Knoten an der Grenze in Bezug auf den Knoten oben links ist, codiert. Diese Daten enthalten den Vorhersagefehler für den Bewegungsvektor dieses Knotens, wobei der Bewegungsvektor des Knotens oben links als Vorhersagewert verwendet wird. Diese erste zwei Knoten, die den Basisrand des Anfangsdreiecks bilden, werden mit der Markierung 'erledigt' markiert.
Während jeder Iteration des Umfang-zuerst-Durchlaufs werden, wie oben beschrieben, ausgehend vom Anfangsdreieck, die Bewegungsvektoren der zwei Knoten, die sich am selben Basisrand des aktuellen Dreiecks während dieser Iteration befinden, dazu verwendet, eine Vorhersage für den Bewegungsvektor des dritten Knotens dieses Dreiecks zu erzeugen. Wenn dieser dritte Knoten noch nicht mit 'erledigt' markiert ist, werden Vorhersagefehlerwerte dadurch berechnet, dass der Vorhersagewert vom aktuellen Bewegungsvektor subtrahiert wird, und die Bewegungsvektordaten werden durch VLC codiert.
Der dritte Knoten wird mit 'erledigt' markiert. Wenn der dritte Knoten bereits mit 'erledigt' markiert ist, wird er einfach ignoriert und es werden keine Daten codiert. Es ist zu beachten, dass wegen der Art des Durchlaufprozesses garantiert ist, dass die zwei Knoten am Basisrand des Dreiecks mit 'erledigt' markiert sind, wenn das Dreieck das 'aktuelle Dreieck' wird, was anzeigt, dass die zugehörigen Bewegungsvektoren bereits codiert sind und sie als Vorhersagewerte verwendet werden können. In der Tabelle 1 sind Bewegungsvektoren und Dreieckswarteschlange-Zustände für die Codierungsschritte des Verfahrens dargestellt.
Tabelle 1
Der Umfang-zuerst-Durchlauf der Dreiecke und das Codieren der Knoten-Bewegungsvektordaten können gleichzeitig dadurch ausgeführt werden, dass eine Zuerst-ein-zuerst-aus(FIFO)-Schlange von Dreiecken verwendet wird. Es ist jedoch zu beachten, dass die folgende Beschreibung einer bevorzugte Ausführungsform der Erfindung dient und dass die Realisierung des Bewegungsvektor-Codierprozesses unter Verwendung einer Dreieckswarteschlange nur einer von mehreren Arten zum Realisieren eines Umfang-zuerst-Durchlaufs entspricht.
Die FIFO-Schlange wird dazu verwendet, zeitweilig Dreiecke t_k einzuspeichern, wobei jedes Dreieck als geordnetes Tripel von Knotenpunkten t_k =
so spezifiziert ist, dass die Knotenpunkte des Dreiecks in einer Reihenfolge in der Uhrzeigerrichtung gespeichert werden, wobei der erste und der zweite Knotenpunkt immer dem Basisrand des Dreiecks entsprechen.
Der Knoten oben links im Gitter und sein Nachbarknoten entlang der Grenze, in der Uhrzeigerrichtung, definieren zusammen das Anfangsdreieck beim Durchlauf. Die diesen zwei Knoten zugeordneten Bewegungsvektoren werden auf die oben beschriebene Weise codiert. Die (anfänglich leere) FIFO-Schlange wird nun dadurch initialisiert, dass das Anfangsdreieck am Ende angehängt wird. Ferner wird das Anfangsdreieck mit der Zahl null markiert und seine zwei bereits verarbeiteten Knoten werden als 'erledigt' markiert. Als Nächstes wird die FIFO-Schlange wie folgt verarbeitet, bis sie leer ist.
Das geordnete Tripel
das sich am Kopf der Schlange befindet, wird aus dieser entfernt. Der Basisrand, der rechte Rand und der linke Rand dieses Dreiecks können unmittelbar aus diesem Tripel identifiziert werden. Wenn der dritte Knoten
als 'erledigt' markiert ist, erfolgt keine weitere Aktion; andernfalls wird ein Vorhersagevektor unter Verwendung der bereits codierten Bewegungsvektoren, die den ersten zwei
diert. Der betroffene Knotenpunkt wird nun mit 'erledigt' markiert. Es wird ermittelt, ob t_k über ein benachbartes Dreieck verfügt, das den rechten Rand gemeinsam hat, ohne bisherige Markierung. Wenn ein derartiges Dreieck vorhanden ist, wird es mit einer neuen Zahl markiert und an die Enden der Schlange angefügt. Es wird ermittelt, ob t_k über ein benachbartes Dreieck verfügt, das den linken Rand gemeinsam hat, ohne bisherige Markierung. Wenn ein derartiges Dreieck existiert, wird es mit einer neuen Zahl markiert und an das Ende der Schlange angehängt.
Wenn alle Dreiecke mit einer Zahl markiert wurden, werden keine weiteren Dreiecke mehr an die Schlange angehängt. Wenn die Schlange leer ist, sind alle Dreiecke verarbeitet und alle Knotenbewegungsvektoren sind codiert.
Da jedes Dreieck im Gitter über mindestens einen angrenzenden Nachbar verfügt und da Dreiecke markiert werden, wenn sie besucht werden, wird jedes Dreieck genau einmal besucht und der Durchlauf endet dann (und nur dann), wenn alle Dreiecke besucht sind. Der Umfang-zuerst-Durchlauf von Dreiecken definiert die Reihenfolge, gemäß der Knotenpunkte besucht werden. Knotenpunkte können mehr als einmal besucht werden, jedoch werden ihre Bewegungsvektoren nur beim ersten Besuch eines Knotens codiert. Jeder Knoten wird bei der Codierung markiert, so dass kein Versuch erfolgt, den entsprechenden Bewegungsvektor erneut zu codieren. Die eindeutige Reihenfolge der Knotenpunkte entspricht der Reihenfolge der in den Bitstrom gegebenen Bewegungsvektordaten.
Der Umfang-zuerst-Durchlauf ist in der 10 für ein kleines Dreiecksgitter veranschaulicht, wobei ein Durchlauf von Dreiecken dargestellt ist, die wahlfrei mit t₀, ..., t₉ markiert sind, wobei die entsprechende Reihenfolge
warteschlange wird mit t₃ initialisiert und t₃ wird markiert. Der tatsächliche Umfang-zuerst-Durchlauf des Gitters startet nun durch Entnehmen des vorderen Elements aus der langen, in diesem Fall t₃. Der Bewegungsvektor
Vorhersagewerte codiert, wobei der Vorhersagefehler in den Bitstrom gegeben wird. Der Knoten
wird mit 'erledigt' markiert. Der nächste Schritt besteht im Anfügen irgendwelcher Dreiecke benachbart zum aktuellen Dreieck t₃, die noch nicht markiert sind, an die Dreiecks-Warteschlange. Das Dreieck rechts vom aktuellen Dreieck (in diesem Fall t₅) wird als Erstes angehängt; dann das Dreieck auf der linken Seite (in diesem Fall t₀); beide werden markiert.
Die nächste Iteration des Durchlaufs beginnt mit dem Entfernen des vorderen Elements aus der Warteschlange, in diesem Fall t₅. Der Bewegungsvektor
Vorhersagewerten codiert, wobei der Vorhersagefehler aus dem Strom abgerufen wird. Der Knoten
wird als 'erledigt' markiert, und das verbundene Dreieck t₈ wird an die Dreiecks-Warteschlange angehängt und markiert.
Derartige Iterationen dauern an, bis die Dreiecks-Warteschlange leer ist und alle Knotenbewegungsvektoren codiert sind. Die Schritte des Algorithmus sind in der Tabelle 1 veranschaulicht.
2D-Gitterdecodierer
Gemäß der MPEG-4-Syntax, die hier später beschrieben wird, und unter erneuter Bezugnahme auf die 4 und die Tabellen 3–6 wird, nachdem mesh_object_start_code durch den Gitterdecodierer 40 decodiert wurde, eine Sequenz von Gitterobjektebenen codiert, bis_mesh_object_end_code erkannt wird. Das new_mesh_flag der Gitterobjektebenenklasse bestimmt, ob die folgenden Daten die Anfangsgeometrie eines neuen dynamischen Gitters spezifizieren, in welchem Fall die Daten an den Geometriedetektor 42 geliefert werden, oder ob sie die Bewegung von Knoten aus dem vorigen Gitter in das aktuelle Gitter in einer Abfolge von Gittern spezifizieren, in welchem Fall die Daten an den Bewegungsvektordecodierer 44 geliefert werden.
Nachfolgend wird die Decodierung der Gittergeometrie beschrieben, gefolgt von einer Beschreibung der Decodierung einer Gitterbewegung. Diese Beschreibung ist von allgemeiner Art, und sie kann unter Verwendung einer beliebigen anderen Syntax als der hier bei der bevorzugten Ausführungsform spezifizierten MPEG-4-Syntax realisiert werden.
Decodierung der Gittergeometrie
Da das anfängliche 2D-Dreiecksgitter entweder ein gleichmäßiges Gitter oder ein Delaunay-Gitter ist, wird die Gitterdreiecks-Topologie (Verbindungen zwischen Knotenpunkten) nicht codiert; es werden nur die 2D-Knotenpunktkoordinaten
codiert. Mesh_type_code (Tabelle 8) spezifiziert, ob das Anfangsgitter gleichmäßig oder vom Delaunay-Typ ist.
Gleichmäßiges Gitter
Wie bereits ausgeführt, spezifizieren fünf Parameter die Geometrie eines gleichmäßigen Gitters (Tabelle 5). Die zwei ersten decodierten Parameter spezifizieren die Anzahl der Knoten in der horizontalen bzw. vertikalen Richtung des gleichmäßigen Gitters. Die zwei nächsten decodierten Parameter spezifizieren die horizontale bzw. vertikale Größe jedes Rechtecks (das zwei Dreiecke enthält) in Einheiten, die auf halbe Pixeleinheiten genau sind. Der letzte Parameter spezifiziert, wie jedes Rechteck in zwei Dreiecke unterteilt wird.
Delaunay-Gitter
Als Erstes wird die Gesamtanzahl der Knotenpunkte im Gitter N decodiert; dann wird die Anzahl der Knotenpunkte auf der Grenze des Gitters N_b decodiert. Es wird darauf hingewiesen, dass N die Summe aus der Anzahl N_i der Knoten im Inneren des Gitters und der Anzahl N_b der Knoten auf der Grenze ist: N = Ni + Nb (8)
Dann werden die Orte von Knotenpunkten auf der Grenze und im Inneren decodiert. Der Ursprung des Ortskoordinatensystems wird oben links im Bildobjekt angenommen.
Es werden die x- und die y-Koordinate des ersten Knotenpunkts, mit einer Spezifizierung in Halbpixeleinheiten, unter Verwendung eines Codes fester Länge (FLC) decodiert. Alle anderen Knotenpunktorte werden dadurch berechnet, dass Differenzwerte zu bereits decodierten Knotenorten addiert werden. Inskesondere wird delta_x und delta_y zur x- bzw. zur y-Koordinate des zuvor decodierten Knotenorts addiert. Die Werte delta_x und delta_y werden jeweils dadurch decodiert, dass als Erstes ein Code variabler Länge (VLC) decodiert wird, der ihre jeweiligen Längen delta_x_len_vic und delta_y_len_vic spezifiziert, und dann ihre Werte decodiert werden. So
dadurch bestimmt, dass ein decodierter Wert zu den zuvor decodierten Knotenpunktkoordinaten addiert wird: x_n = x_n-1 + dx_n und y_n = y_n–1 + dy_n. Die Differenzwerte werden unter Verwendung von Codes variabler Länge, wie im Codierer verwendet wurden, decodiert.
Die Reihenfolge innerhalb der Sequenz decodierter Orte ist dergestalt, dass die ersten N_b Orte den Grenzknoten (in der Gegenuhrzeigerrichtung) entsprechen. Demgemäß kann der Decodierer, nachdem er die ersten N_b Orte empfangen hat, die Grenze des Gitters dadurch rekonstruieren, dass er jedes Paar aufeinanderfolgender Grenzknoten, sowie den ersten und den letzten, durch geradlinige Randsegmente verbindet. Die nächsten N – N_b Werte in der Sequenz decodierter Orte entsprechen inneren Knotenpunkten. So können, nachdem N Knoten empfangen wurden, die Orte sowohl der Grenz- als auch der inneren Knoten rekonstruiert werden, zusätzlich zur Polygonform der Grenze. Dies ist in der 11 dargestellt, die decodierte Knotenpunkte (Rechtecke) und Gittergrenze-Randsegmente (gerade Linien) zeigt, die den Eingangswerten der eingeschränkten Delaunay-Triangulation entsprechen.
Schließlich wird das Gitter dadurch erhalten, dass auf die Gruppe decodierter Knotenpunkte eine eingeschränkte Delaunay-Triangulation angewandt wird, wobei die Randsegmente an der Gittergrenze als Grenzwerte verwendet werden. Die Delaunay-Triangulation läuft dadurch ab, dass ein Rand zwischen zwei Knotenpunkten eingesetzt wird, wenn durch diese zwei Knotenpunkte ein Kreis verläuft, der in seinem Inneren keinen anderen Knotenpunkt enthält und keinen anderen Knotenpunkt schneidet. Die Randsegmente an der Grenze repräsentieren die einzigen Ausnahmen zu dieser Definition, und sie sollen im Prozess nicht entfernt werden. Ein Beispiel für ein durch eingeschränkte Triangulation der Knotenpunkte der 11 erhaltenes Gitter ist in der 12 dargestellt.
Decodierung von Knotenbewegungsvektoren
ters mit der Nummer k + 1 zu rekonstruieren. Es ist zu beachten, dass die Dreieckstopologie des Gitters über die gesamte Sequenz von Gittern hinweg dieselbe bleibt.
Wie bereits im Abschnitt mit der Überschrift "Codieren von Knotenbewegungsvektoren" erläutert, wurden zwei Verfahren zur Bewegungscodierung beschrieben. Demgemäß werden nun zwei Verfahren zur Bewegungsvektordecodierung beschrieben, die als Verfahren I und Verfahren II gekennzeichnet werden.
Verfahren I
Das Verfahren I beruht auf einer vorhersagenden Codierungstechnik, bei der nur ein Bewegungsvektor als Vorhersagewert verwendet wird. Es ist eine eindeutige Reihenfolge der Knotenpunkte
verfügbar, wobei n die Reihenfolgenummer bezeichnet. Wenn das Gitter ein solches vom Delaunay-Typ repräsentiert, ist diese Reihenfolge einfach als diejenige Reihenfolge definiert, in der die Knotenpunktsorte während der Gittergeometriedecodierung empfangen wurden. Der Knotenpunkt, für den der Ort als Erster empfangen
Knotenreihenfolge auf Grundlage der Gitterstruktur definiert, wie bereits im Abschnitt mit dem Titel "Codierung von Knotenbewegungsvektoren: Verfahren I" beschrieben. Diese Reihenfolge, die durch einen einfachen Durchlauf des gleichmäßigen Gitters definiert ist, ist in der 8 veranschaulicht.
Für jeden Knotenpunkt im Gitter spezifiziert ein 1-Bit-Flag, ob dieser Knotenpunkt über einen von null abweichenden Bewegungsvektor verfügt. Für jeden Knotenpunkt im Gitter mit einem von null abweichenden Bewegungsvektor spezifiziert ein Bewegungsvektor-Differenzvektor
die Differenz zwischen dem Bewegungsvektor dieses Knotens und dem zuvor decodierten Bewegungsvektor. Der Decodierprozess ist der Folgende: um die Bewegungsvektoren zu decodieren, werden die Vektoren
einzeln aus dem Bitstrom abgerufen und dazu verwendet, die neuen Orte von Knotenpunkten in der oben spezifizierten Reihenfolge zu berechnen. Wenn der erste Knotenpunkt in der Reihenfolge einen Bewegungsvektor vom Wert null aufweist, gilt:
Wenn der erste Knotenpunkt in der Reihenfolge einen von null abweichenden Bewegungsvektor aufweist, wird der erste Vektor
aus dem Bitstrom abgerufen, und er spezifiziert direkt den Bewegungsvektor des ersten Knotenpunkts:
Der neue Ort des ersten Knotenpunkts wird wie folge erhalten
Alle anderen aus dem Bitstrom abgerufenen Vektoren
sind Bewegungsvektor-Differenzvektoren, die zum zuvor decodierten Bewegungsvektor addiert werden, um den aktuellen Bewegungsvektor zu erhalt
n = 1, ..., N – 1 einen Bewegungsvektor vom Wert null aufweist, gilt:
während andernfalls gilt:
Der neue Ort der Knotenpunkte
n = 1, ..., N – 1 wird wie folgt erhalten:
Verfahren II: Bewegungsvektorvorhersage
Das Verfahren II beruht auf einer vorhersagenden Codiertechnik, bei der zwei Bewegungsvektoren zum Berechnen eines Vorhersagewerts verwendet werden. Die vorhersagende Decodiertechnik des Verfahrens II verwendet speziell
Vorhersagefehlerwert zu decodieren. Ausgehend von einem Anfangsdreiecke t_k, von dem alle drei Knotenbewegungsvektoren decodiert wurden, muss mindestens ein anderes, benachbartes Dreieck t_w vorhanden sein, das zwei Knoten mit t_k gemeinsam hat. Da die Bewegungsvektoren der zwei Knoten, die t_k und t_w gemeinsam haben, bereits decodiert wurden, können diese zwei Bewegungsvektoren dazu verwendet werden, den Bewegungsvektor des dritten Knotens in t_w vorherzusagen. Der tatsächliche Vorhersagevektor
wird durch Mitteln der zwei Vorhersagebewegungsvektoren berechnet, und die Komponenten des Vorhersagevektors werden wie folgt auf Halbpixelgenauigkeit gerundet:
Der Bewegungsvektor selbst wird wie folgt berechnet:
wobei
den Vorhersagefehlervektor bezeichnet, dessen Komponenten aus Codes variabler Länge decodiert werden. Diese Prozedur wird wiederholt, während die Dreiecke und die Knoten des Gitters durchlaufen werden, wie unten erläutert. Während alle Dreiecke des Gitters besucht werden, werden die Bewegungsvektordaten jedes Knotens einzeln aus dem Bitstrom decodiert. Es ist zu beachten, dass zum Decodieren des ersten Bewegungsvektors keine Vorhersage verwendet wird:
und das nur der erste codierte Bewegungsvektor als Vorhersagewert zum Codieren des zweiten Bewegungsvektors verwendet wird:
Es ist zu beachten, dass der Vorhersagefehlerwert nur für Knotenpunkte mit einem von null abweichenden Bewegungsvektor spezifiziert wird. Für alle anderen Knotenpunkte ist der Bewegungsvektor einfach
Verfahren II: Gitterdurchlauf
Es wird ein Umfang-zuerst-Durchlauf dazu verwendet, alle Dreiecke und Knoten im Gitter mit der Nummer k zu besuchen und die Bewegungsvektoren zu decodieren, die vom Gitter k zum Gitter k + 1 definiert sind. Der Umfangzuerst-Durchlauf der Dreiecke ist im Abschnitt "Codieren von Knotenbewegungsvektoren: Verfahren II" definiert, und er kann in ähnlicher Weise bei der Decodierphase angewandt werden.
Die Reihenfolge der Dreiecke entsprechend ihren Markierungszahlen, die ihnen während des Umfang-zuerst-Durchlaufs zugewiesen werden, definiert implizit die Reihenfolge, gemäß der die Bewegungsvektordaten für jeden Knotenpunkt decodiert werden, wie nachfolgend beschrieben. Zunächst werden aus dem Bitstrom Bewegungsvektordaten für den Knoten oben links im Gitter abgerufen. Für den Bewegungsvektor dieses Knotens wird keine Vorhersage verwendet, und demgemäß spezifiziert dieser Datenwert den Bewegungsvektor selbst. Bewegungsvektordaten für den zweiten Knoten, der der nächste Knoten auf der Grenze in der Uhrzeigerrichtung in Bezug auf den Knoten oben links ist, werden aus dem Bitstrom abgerufen. Diese Daten enthalten den Vorhersagefehler für den Bewegungsvektor dieses Knotens, wobei der Bewegungsvektor des Knotens oben links als Vorhersagewert verwendet wird. Diese ersten beiden Knoten (die den Basisrand des Anfangsdreiecks bilden) werden mit der Markierung 'erledigt' markiert.
Während jeder Iteration des oben beschriebenen Umfang-zuerst-Durchlaufs, und ausgehend vom Anfangsdreieck, werden die Bewegungsvektoren der zwei Knoten, die sich auf dem Basisrand des aktuellen Dreiecks während dieser Iteration befinden, dazu verwendet, einen Vorhersagewert für den Bewegungsvektor des dritten Knotens dieses Dreiecks zu erzeugen. Wenn dieser dritte Knoten noch nicht mit 'erledigt' markiert ist, werden Bewegungsvektordaten aus dem Bitstrom abgerufen und als Vorhersagefehlerwerte verwendet, d. h., dass die codierte Werte zum Vorhersagewert addiert werden, um den aktuellen Bewegungsvektor zu erhalten. Dann wird dieser dritte Knoten mit 'erledigt' markiert. Wenn der dritte Knoten bereits mit 'erledigt' markiert wird er einfach ignoriert und es werden keine Daten aus dem Bitstrom abgerufen. Auf Grund der Art des Durchlaufprozesses ist gewährleistet, dass die zwei Kno ten auf dem Basisrand eines Dreiecks als 'erledigt' markiert sind, wen_n dieses Dreieck zum "aktuellen Dreieck2 wird, was anzeigt, dass seine Bewegungsvektoren bereits decodiert wurden und als Vorhersagewerte verwendet werden können.
Da jedes Dreieck in Gitter über mindestens einen angrenzenden Nachbar verfügt und da Dreiecke markiert werden, wenn sie besucht werden, wird jedes Dreieck genau einmal besucht, und der Durchlauf endet dann (und nur dann), wenn alle Dreiecke besucht sind. Knotenpunkte können mehr als einmal besucht werden, jedoch werden ihre Bewegungsvektoren nur beim ersten Besuch eines Knotens decodiert, und jeder Knoten wird beim Decodieren markiert, weswegen kein Versuch erfolgt, den entsprechenden Bewegungsvektor erneut zu decodieren. Die eindeutige Reihenfolge der Knotenpunkte entspricht der Reihenfolge der im Bitstrom vorhandenen Bewegungsvektordaten.
Ähnlich wie in der Codierphase können der Umfang-zuerst-Durchlauf der Dreiecke und das Decodieren der Knotenbewegungsvektordaten gleichzeitig unter Verwendung einer Zuerst-ein-zuerst-aus(FIFO)-Schlange von Dreiecken ausgeführt werden. Zu Einzelheiten wird auf den obigen Abschnitt "Codierung von Knotenbewegungsvektoren" und die 10 verwiesen, die den Umfang-zuerst-Durchlaufprozess während des Decodierens eines kleinen Dreiecksgitters veranschaulicht. Die 10 zeigt den Durchlauf von Dreiecken, die wahlfrei als t₀, ..., t₉ markiert sind, und die entsprechende Reihenfolge der
ecks-Warteschlange wird mit t₃ initialisiert, und dann wird t₃ markiert.
Der tatsächliche Umfang-zuerst-Durchlauf des Gitters beginnt durch Entfernen des vorderen Elements aus der Schlange, in diesem Fall t₃. Nun wird der
als Vorhersagewerten und durch Abrufen des Vorhersagefehlers aus dem Bitstrom decodiert. Der Knoten
wird als 'erledigt' markiert. Der nächste Schritt besteht darin, irgendwelche Dreiecke angrenzend an das aktuelle Dreieck t₃, die noch nicht markiert sind, in der Dreiecks-Warteschlange anzufügen. Das Dreieck rechts vom aktuellen Dreieck (in diesem Fall t₅) wird als Erstes angehängt; dann das Dreieck auf der linken Seite (in diesem
Fall t₀); beide werden markiert. Die nächste Iteration des Durchlaufs beginnt durch Entfernen des vorderen Elements aus der Schlange, in diesem
kiert, und das verbundene Dreieck t₈ wird an die Dreiecks-Warteschlange angehängt und markiert. Derartige Iterationen dauern fort, bis die Dreiecks-Warteschlange leer ist und alle Knotenbewegungsvektoren decodiert sind; die Schritte des Algorithmus sind auch in der Tabelle 2 veranschaulicht.
Tabelle 2
Bitstromsyntax und -semantik
Das Folgende betrifft eine Realisierung der Erfindung innerhalb der aktuellen Version von MPEG-4 Working Draft (WD) V 5.0. Dieser Working Draft spezifiziert nur den Decodierprozess. Das Folgende ist ein objektorientierter Pseudocomputercode zum Realisieren des Decodierprozesses für sowohl die Gittergeometrie als auch Bewegungsvektoren entsprechend der Struktur der aktuellen Spezifikation von MPEG-4 WD V 5.0.
Mesh Object
Die Klasse Mesh Object definiert die Syntax für eine Sequenz von 2D-Gittern.
Tabelle 3
Mesh Object Plane
Die Klasse Mesh Object Plane definiert die Syntax zum Codieren eines einzelnen 2D-Gitters, entweder als neues Gitter oder in Bezug auf das zuvor codierte Gitter.
Tabelle 4
Die Klasse Mesh Geometry definiert die Syntax zum Codieren eines einzelnen 2D-Gitters, das entweder ein gleichmäßiges Gitter oder eine trianguliertes Delaunay-Gitter sein kann.
Tabelle 5
Die Klasse Mesh Motion definiert die Syntax zum Codieren der 2D-Bewegungsvektoren des vorigen 2D-Gitters auf das aktuelle Gitter, um dadurch das aktuelle 2D-Gitter zu codieren.
Tabelle 6
Semantik der Syntax
Die Gitter-Bitstromsyntax besteht aus zwei Teilen: der Gittergeometrie und der Gitterbewegung. Die Gittergeometrie wird nur dann codiert, wenn ein neues Gitter initialisiert werden muss; sie besteht aus den Anfangspositionen der Gitterknoten. Die Gitterbewegung wird zu folgenden Zeitpunkten codiert, um die Bewegung des dynamischen Gitters zu beschreiben; sie besteht aus einem Bewegungsvektor für jeden Gitterknoten.
Die Syntax eines dynamischen Gitters erlaubt die Codierung verschiedener Typen von 2D-Gitterstrukturen, z. B. gleichmäßigen oder Delaunay-eingeschränkten, sowie verschiedene Größenbereiche für die Knotenbewegungsvektoren. Die Genauigkeit der Knotenkoordinaten und des Knotenbewegungsvektors beträgt 0,5 Pixel. Der 1-Bit-Code marker_bit wird auf "1" gesetzt. Wenn dieses Bit auf "1" gesetzt wird, verhindert es eine Emulation von Startcodes.
mesh_object_start_code
Dies ist der Bitstring '000001BC' in Hexadezimalnotation. Er markiert den Start eines Gitterobjekts. Dies ein eindeutiger Bitstring mit einer Länge von 32 Bits zu Synchronisierzwecken.
mesh_object_end_code
Dies ist ein Bitstring in Hexadezimalnotation. Er markiert das Ende eines Gitterobjekts. Es handelt sich um einen eindeutigen Code einer Länge von 32 Bits zu Synchronisierzwecken.
mesh_object_plane_start_code
Dies ist der Bitstring '000001BD' in Hexadezimalnotation. Er markiert den Start einer Gitterobjektebene. Es ist ein eindeutiger Code einer Länge von 32 Bits zu Synchronisationszwecken.
new_mesh_flag
Dies ist ein 1-Bit-Code, der spezifiziert, ob ein neues Gitter zu initialisieren ist oder das aktuelle Gitter hinsichtlich des vorigen Gitters codiert wird.
Tabelle 7
mesh_type_code
Dies ist ein 1-Bit-Code, der den Typ der anfänglich codierten Gittergeometrie spezifiziert.
Tabelle 8
nr_of_mesh_nodes_hori
Dies ist ein 10-Bit-Code zum Spezifizieren der Anzahl der Knoten in einer Reihe eines gleichmäßigen Gitters.
nr_of_mesh_nodes_verti
Dies ist ein 10-Bit-Code zum Spezifizieren der Anzahl der Knoten in einer Spalte eines gleichmäßigen Gitters.
mesh_rect_size_hori
Dies ein 8-Bit-Code zum Spezifizieren der Breite eines Rechtecks eines gleichmäßigen Gitters (das zwei Dreiecke enthält) in Halbpixeleinheiten.
mesh_rect_size_verti
Dies ist ein 8-Bit-Code zum Spezifizieren der Höhe eines Rechtecks eines gleichmäßigen Gitters (das zwei Dreiecke enthält) in Halbpixeleinheiten. triangle split code Dies ist ein 2-Bit-Code zum Spezifizieren, wie Rechtecke eines gleichmäßigen Gitters aufgeteilt werden, um Dreiecke zu bilden.
Tabelle 9
mr_of_mesh_nodes
Dies ist ein 16-Bit-Code zum Definieren der Gesamtanzahl der Knoten (Ecken) eines (ungleichmäßigen) Delaunay-Gitters. Zu diesen Knoten gehören sowohl innere als auch Grenzknoten.
nr_of_boundary_nodes
Dies ist ein 10-Bit-Codes zum Definieren der Anzahl von Knoten (Ecken) auf der Grenze eines (ungleichmäßigen) Delaunay-Gitters.
node0_x
Dies ist ein 10-Bit-Code zum Spezifizieren der x-Koordinate des ersten Grenzknotens (Ecke) eines Gitters im Halbpixeleinheiten in Bezug auf ein Ortskoordinatensystem.
node0_y
Dies ist ein 10-Bit-Code zum Spezifizieren der y-Koordinate des ersten Grenzknotens (Ecke) eines Gitters im Halbpixeleinheiten in Bezug auf ein Ortskoordinatensystem.
delta_x_len_vic
Dies ist ein Code variabler Länge zum Spezifizieren der Länge des folgenden Codes delta_x. Die Codes delta_x_len_vic und delta_x spezifizieren gemeinsam die Differen zwischen den x-Koordinaten eines Knotens (Ecke) und des zuvor codierten Knotens (Ecke). Die Definition der Codes delta_x_len_vic und delta_x ist in MPEG-4 Video Verification Model 7.0 (VM 7.0) (N1642, Abschnitt 4.7.1.1) (April 1997), nachfolgend als MPEG-4 VVM 7.0 bezeichnet, angegeben, wo sie zur Codierung von Spritetrajektorien verwendet werden.
delta_x
Dies ist ein Code fester Länge zum Definieren des Werts der Differenz zwischen den x-Koordinaten eines Knotens (Ecke) und des zuvor codierten Knotens (Ecke). Die Definition der Codes delta_x_len_vic und delta_x sind in MPEG-4 WM 7.0, Abschnitt 4.7.1.1, angegeben, wo sie zur Codierung von Spritetrajektorien verwendet werden.
delta_y_len_vic
Dies ist ein Code variabler Länge zum Spezifizieren der Länge des folgenden Codes delta_y. Die Codes delta_y_len_vic und delta_y spezifizieren gemeinsam die Differen zwischen den y-Koordinaten eines Knotens (Ecke) und des zuvor codierten Knotens (Ecke). Die Definition der Codes delta_y_len_vic und delta_x ist in MPEG-4 VVM 7.0 , Abschnitt 4.7.1.1), angegeben, wo sie zur Codierung von Spritetrajektorien verwendet werden.
delta_y
Dies ist ein Code fester Länge zum Definieren des Werts der Differenz zwischen den y-Koordinaten eines Knotens (Ecke) und des zuvor codierten Kno tens (Ecke). Die Definition der Codes delta_y_len_vic und delta_y sind in MPEG-4 VVM 7.0, Abschnitt 4.7.1.1, angegeben, wo sie zur Codierung von Spritetrajektorien verwendet werden.
motion_range_code
Dies ist ein 2-Bit-Code zum Spezifizieren des Dynamikbereichs von Bewegungsvektoren.
Tabelle 10
node_motion_vector_flag
Dies ist ein 1-Bit-Code zum Spezifizieren, ob ein Bewegungsvektor folgt. Wenn ein Knoten über einen Bewegungsvektor vom Wert null verfügt, wird der Bewegungsvektor nicht codiert; statt dessen wird ein mode_motion_vector_flag mit dem Wert "0" geliefert. Wenn dieses Flag auf "1" gesetzt ist, bedeutet es, dass der Knoten über ein von null abweichenden Bewegungsvektor verfügt.
delta_mv_x_vic
Dies ist ein Code variabler Länge, der (gemeinsam mit delta_mv_x_res) den Wert der Differenz für die x-Komponente des Bewegungsvektors eines Knotens im Vergleich zur x-Komponente eines Vorhersagebewegungsvektors definiert. Der Abschnitt zum Decodierprozess beschreibt, wie der Vorhersagebewegungsvektor aufgefunden wird. Die Definition der Codes delta mv_x_vic und delta_mv_x_res ist in MPEG-4 VVM 7.0, Abschnitt 6.1.8 und 6.1.9, Tabelle 30, angegeben, wo sie zur Bewegungsvektordifferenz-Codierung verwendet werden.
delta_mv_x_res
Dies ist ein Code fester Länge zum Definieren des Rest betreffend die Differenz von Bewegungsvektoren, mit Codierung durch delta_mv_x_vic. Die Definition der Codes delta_mv_x_vic und delta_mv_x_res ist in MPEG-4 WM 7.0, Abschnitt 6.1.8 und 6.1.9 angegeben, wo sie zur Bewegungsvektordifferenz-Codierung verwendet werden.
delta_mv_y_vic
Dies ist ein Code variabler Länge, der (gemeinsam mit delta delta_mv_y_res) den Wert der Differenz für die y-Komponente des Bewegungsvektors eines Knotens im Vergleich zur x-Komponente eines Vorhersagebewegungsvektors definiert. Der Abschnitt zum Decodierprozess beschreibt, wie der Vorhersagebewegungsvektor aufgefunden wird. Die Definition der Codes delta_mv_y_vic und delta_mv_y_res ist in MPEG-4 WM 7.0, Abschnitt 6.1.8 und 6 1.9, Tabelle 30, angegeben, wo sie zur Bewegungsvektordifferenz-Codierung verwendet werden.
delta_mv_y_res
Dies ist ein Code fester Länge zum Definieren des Rest betreffend die Differenz von Bewegungsvektoren, mit Codierung durch delta_mv_y_vic. Die Definition der Codes delta_mv_y_vic und delta_mv_y_res ist in MPEG-4 VVM 7.0, Abschnitt 6.1.8 und 6.1.9 angegeben, wo sie zur Bewegungsvektordifferenz-Codierung verwendet werden.
Industrielle Anwendungen
Die dynamische 2D-Gitter-Repräsentation unterstützt die folgenden Anwendungens
Manipulation von Videoobjekten
Bei 3D-Computergrafik werden die Animationsparameter eines 3D-Gittermodells häufig synthetisch spezifiziert. Die Animationsparameter eines 2D-Gittermodells können in ähnlicher Weise synthetisch spezifiziert werden, jedoch können sie auch durch Bewegungsabschätzungen einer natürlichen Videosequenz hergeleitet werden. So erlaubt eine Gittermodellierung die interaktive Kombination natürlicher und synthetischer Objekte innerhalb eines einheit lichen Grundgerüsts. Zu möglichen Anwendungen gehören Objekttransfiguration (Ersetzen eines Objekts durch ein anderes Objekt in bewegtem Video), verstärkte Realität (Verstärken/Überlagern eines Objekts in einem bewegten Video durch Grafik oder Text) und räumliche/zeitliche Bildinterpolation (Zoomen oder Wandlung der Vollbildrate).
Videokompression
Es hat sich gezeigt, dass Bewegungsabschätzung und -kompensation wichtige Werkzeuge sind, damit Videocodiersysteme hohe Kompressionsverhältnisse erzielen. Die Eigenschaften des gitterbasierten Bewegungsmodells machen es zu einer geeigneten Alternative zu blockbasierter Bewegungsmodellierung zur Verwendung als Bewegungskompensations-Werkzeug bei Videocodierung, in welchem Fall die Bewegungsvektoren der Gitterknoten an Stelle von Blockbewegungsvektoren übertragen werden. Gitterbasierte Videokompression kann z. B. dadurch ausgeführt werden, dass Texturkarten nur in ausgewählten Schlüsselrahmen übertragen werden und diese Texturkarten (ohne dass irgendein Vorhersagefehlerbild gesendet wird) für die dazwischen liegenden Rahmen unter Verwendung von 2D-Gitterinformation animiert werden. Nur die Bilddaten des ersten Rahmens einer Sequenz werden codiert, und auch die Gitterbewegungsdaten, die allen Rahmen der Sequenz entsprechen. Wenn das Anfangsgitter an den Bildinhalt angepasst wird, muss Information zur Geometrie des Anfangsgitters ebenfalls codiert und übertragen werden. Im Fall einer Videocodierung ist die Geometrie des Anfangsgitters manchmal eingeschränkt, um den damit einhergehenden Overhead einzugrenzen (z. B. gleichmäßige Gitter); jedoch können im Fall einer Multimediacodierung, bei der mehrere Objekte (Video, Audio, Text, 2D/3D-Gitter usw.) unabhängig codiert werden, allgemeinere Gittergeometrie-Kompressionschemas angewandt werden.
Indexerzeugung und Browsing betreffend Videobibliotheken
Inhaltsbasierender Direktzugriff auf einzelne Videoobjekte bildet ein wünschenswertes Merkmal für etliche verteilte Multimediaanwendungen, wie objektbasiertes Browsen/Editieren/Manipulieren von Videodatenbanken. Aus der inhaltsbasierten 2D-Dreiecksgitter-Repräsentation von Videoinformation, wie sie bei derartigen Anwendungen verwendbar ist, können nützliche Bewegungs- und Formmerkmale hergeleitet werden.
Demgemäß wurden ein System und ein Verfahren zur 2D-Gittergeometrie- und Bewegungsvektorkompression offenbart. Obwohl eine bevorzugte Ausführungs form des erfindungsgemäßen Verfahrens, und mehrere zugehörige Variationen, offenbart wurden, ist zu beachten, dass daran weitere Variationen und Modifizierungen vorgenommen werden können, ohne vom Schutzumfang der in den beigefügten Ansprüchen definierten Erfindung abzuweichen.

Claims

Verfahren zum Codieren und Decodieren eines dynamischen Gitters, umfassend: – Codieren und Decodieren einer Gittergeometrie aus einer Gruppe von Knotenpunkten; und – Codieren und Decodieren eines Gitterknoten-Bewegungsvektors für jeden Knotenpunkt; – wobei zum Codieren und Decodieren eines Gitterknoten-Bewegungsvektors Folgendes gehört: a) Komprimieren der Bewegungsvektoren für jeden Knotenpunkt unter Verwendung eines linearen Durchlaufs der Knotenpunkte und einer Vorhersage, unter Verwendung einer Vorhersage erster oder höherer Ordnung, folgender Bewegungsvektoren für jeden Knotenpunkt; oder b) Komprimieren der Bewegungsvektoren für jeden Knotenpunkt unter Verwendung eines Umfang-zuerst-Durchlaufs der Knotenpunkte und eines Vorhersagens, unter Verwendung einer Vorhersage zweiter oder höherer Ordnung, folgender Bewegungsvektoren für jeden Knotenpunkt; – wobei es zum Komprimieren/Vorhersagen in den Schritten a) bzw. b) gehört, Vorhersagefehler unter Verwendung von Codes variabler Länge zu codieren und zu decodieren.
Verfahren nach Anspruch 1, bei dem das dynamische Gitter Polygonflecke enthält.
Verfahren nach Anspruch 2, bei dem die Polygonflecke Dreiecke sind und die Knotenpunkte die diesen Dreiecken entsprechenden Ecken sind.
Verfahren nach Anspruch 1, 2 oder 3, bei dem es zum Codieren und Decodieren einer Gittergeometrie gehört, eine Gittertopologie vom Delaunay-Typ zu komprimieren.
Verfahren nach Anspruch 1, 2 oder 3, bei dem es zum Codieren und Decodieren einer Gittergeometrie gehört, eine Gittertopologie von gleichmäßigem Typ zu komprimieren.
Verfahren nach Anspruch 1, 2 oder 3, bei dem die Gitterknotenpunkte für ein Gitter vom Delaunay-Typ durchlaufen und geordnet werden.
Verfahren nach Anspruch 1, 2 oder 3, bei dem die Gitterknotenpunkte für ein Gitter von gleichmäßigem Typ durchlaufen und geordnet werden.
System zum Codieren und Decodieren einer Abfolge von durch ein dynamisches Gitter repräsentierten Bildern, wobei das dynamische Gitter über eine vordefinierte Geometrie verfügt, die einem beliebigen, zu repräsentierenden Objekt entspricht, mit einer Gruppe von Knotenpunkten an beliebigen Stellen und Bewegungsvektoren für die Knotenpunkte, mit: – einem Codierer-Untersystem zum Codieren der Gittergeometrie der Gruppe von Knotenpunkten und zum Codieren eines Gitterknoten-Bewegungsvektors für jeden Knotenpunkt, mit: – einem Texturcodierer zum Codieren der Textur eines Bilds und zum Erzeugen eines Bildbitstroms hieraus; – einem Gittercodierer zum Codieren einer Gittersequenz, der einen Geometriecodierer zum Codieren der Geometrie eines Gitters und einen Bewegungsvektorcodierer zum Codieren der Bewegungsvektoren des Gitters und zum Erzeugen eines Gittercodebitstroms hieraus enthält; – einem Decodierer-Untersystem zum Decodieren der Gittergeometrie der Gruppe von Knotenpunkten und zum Decodieren eines Gitterknoten-Bewegungsvektors für jeden Knotenpunkt, mit: – einem Texturdecodierer zum Decodieren der Textur eines Bilds aus einem Bildbitstrom; – einem Gitterdecodierer zum Decodieren des Gittercodebitstroms, der einen Geometriedecodierer zum Decodieren der Geometrie des Gitters und einem Bewegungsvektordecodierer zum Decodieren der Bewegungsvektoren des Gitters enthält; und – einer Animationsanwendung zum Kombinieren der codierten Texturdaten und des decodierten Gitters und zum Erzeugen eines animierten Bilds hieraus.