DE60022018T2

DE60022018T2 - Verfahren und vorichtung zur bewegungsvektorfeldkodierung

Info

Publication number: DE60022018T2
Application number: DE60022018T
Authority: DE
Inventors: Miroslaw Guildford BOBER
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-03-16
Filing date: 2000-03-16
Publication date: 2006-06-29
Anticipated expiration: 2020-03-17
Also published as: CN1343424A; EP1169867B1; EP1536650A2; GB9906034D0; WO2000056076A1; US7724826B2; EP1555833B1; DE60022018D1; GB2348064A; JP2000295628A; EP1169867A1; US20050207500A1; EP1555833A2; CN1882087A; CN1201591C; CN1717050A; US6944227B1; EP1555833A3; EP1536650A3; AU3304900A

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Kodierung von Bewegungsvektorfeldern für Abfolgen von digitalisierten Bildern.
Das Prinzip der Bewegungskompensation für die Komprimierung von digitalisierten Filmbildern ist gut bekannt. In der Mehrheit der bekannten Lösungswege, darunter MPEG-1, MPEG-2 und H263 wird die Bewegungskompensation durch Verwenden von quadratischen oder rechteckigen Pixelblöcken durchgeführt und jedem Block wird ein Bewegungsvektor zugewiesen. Zum Beispiel ist es bekannt, einen Block von Pixeln, zum Beispiel einen 16 × 16-Block, mit Blöcken in einem vorhergehenden Bezugsbild, üblicherweise innerhalb eines begrenzten Bereichs des Bezugsbildes zu vergleichen. Der Block im Bezugsbild, welcher ziemlich ähnlich dem vorliegenden, unter Betrachtung stehenden Block ist, wird unter Verwendung eines Algorithmus wie dem kleinsten quadratischen Fehler gefunden und ein entsprechender Bewegungsvektor dem vorliegenden Block beigefügt. Daher werden 16 × 16 Blöcke in einem vorliegenden Bild mit einem jeweiligen Bewegungsvektor in Verbindung gebracht, wie in 1 dargestellt. Die Bewegungsvektoren werden nachfolgend auf entweder Full-Pel oder Sub-Pel-Genauigkeit (üblicherweise Half-Pel oder Quarter-Pel) quantiziert und das Ergebnis wird üblicherweise unterschiedlich kodiert.
Zuweisen eines einzelnen Bewegungsvektors für einen Pixelblock in einem Bild in bekannter Weise, was oben zusammengefasst ist, ist nützlich zum Darstellen von Verschiebungsbewegung. Jedoch gibt es eine Anzahl von Nachteilen in einem Lösungsweg, der auf blockbasierender Bewegungskompensation der oben besprochenen Art beruht, welcher deutlich die Leistung in Vorhersagealgorithmen beschränken kann. Zum Beispiel arbeitet so ein Lösungsweg nicht gut für Bereiche, welche Bewegung wie eine Rotation oder eine Maßstabsveränderung umfassen, welche komplexer ist als einfache Verschiebungsbewegung. Auch arbeitet die blockbasierende Vorhersage schlecht bei nicht starrer Bewegung wie jene, welche zum Beispiel durch Wolken oder Menschen gezeigt wird. Des Weiteren setzt der blockbasierende Lösungsweg Bewegungsgrenzen entlang der Blöcke und kann nicht genau Bewegungsgrenzen innerhalb der Blöcke wiederspiegeln. Des Weiteren können rekonstruierte Bilder "blockige" Kunstgebilde darstellen, insbesondere in Situationen, wo eine Bewegungsgrenze über einen Block verläuft.
Um solche Probleme zu erleichtern, haben manche Systeme veränderliche, blockgroße Bewegungskompensation mit parametrischen Bewegungsmodellen (darunter quasi-affine und affine Bewegungsmodelle zusätzlich zu einem Verschiebungsmodell) eingesetzt. In jenen Systemen hängt die Größe des Blocks, welcher für die Bewegungskompensation und das Bewegungsmodell verwendet wird, davon ab, wie viele sich bewegende Objekte in einem Bereich vorhanden sind, und hängt davon ab, wie komplex das Bewegungsfeld ist. Solch ein Lösungsweg bietet einige Verbesserungen gegenüber dem Lösungsweg, welcher Blöcke einer feststehenden Größe verwendet, wobei aber der Verbesserung Grenzen gesetzt sind.
Aspekte der Erfindung sind in den begleitenden Ansprüchen dargelegt.
Im Kontext dieser Beschreibung bedeutet der Begriff dicht in Bezug auf ein Bewegungsvektorfeld, dass es für einen Pixelblock der Größe 8 × 8 Pixel wenigstens zwei Bewegungsvektoren gibt. Zum Beispiel kann ein Bewegungsvektor jedem 4 × 4 Pixelblock oder jedem 2 × 2 Pixelblock zugewiesen sein. Vorzugsweise wird jedem Pixel ein Bewegungsvektor zugewiesen.
Als ein Ergebnis der Erfindung kann eine wirkungsvolle Darstellung des Bewegungsfelds zum Kodieren erzielt werden.
Ein rekonstruiertes Bild mit verbesserter visueller Qualität kann als ein Ergebnis der Bewegungskomposition mit besserer Vorhersage und der Tatsache, dass die Anzahl der Kunstgebilde verringert werden kann, erzielt werden. Insbesondere blockige Kunstgebilde können verringert oder zu Gänze ausgeschlossen werden. Auch bietet sich der Lösungsweg von selbst für eine skalierbare Darstellung des Bewegungsfeldes mit erhöhter Robustheit für Übertragungsfehler an, was unten genauer besprochen wird.
Gemäß einer Ausführungsform wird eine Mehrzahl von Versionen eines Bewegungsvektorfeldes mit unterschiedlichen Auflösungen erzeugt und kodiert.
Als ein Ergebnis können eine skalierbare Darstellung des Bewegungsfeldes und ein eingebetteter Bitstrom erzeugt werden. Daher kann eine grobe Version des Bewegungsvektorfeldes leicht durch Dekodieren eines Teils des Bitstromes rekonstruiert werden. Dies weist mehrere Vorteile auf. Zum Beispiel kann, wenn ein Teil des Bitstroms in der Übertragung schlecht übermittelt wird, immer noch eine Version des Bewegungsfeldes mit geringer Auflösung erstellt und zur Bewegungskompensation verwendet werden. Alternativ können einige Anwendungen nur eine grobe Version des Feldes erfordern und daher können Verarbeitungsleistung und Speichererfordernisse durch Rekonstruieren des groben Bildes direkt von einem verkürzten Bitstrom eingespart werden, als wenn eine volle Version rekonstruiert und dann geringer abgetastet wird, um eine grobe Version zu erzielen. Solch ein Lösungsweg kann zum Beispiel bei Videomobiltelefonen nützlich sein.
Gemäß einer Ausführungsform wird ein Bewegungsvektorfeld vorverarbeitet, um die Entropie zu verringern, ohne den Vorhersagefehler deutlich zu verringern. Dies kann durch Durchschnittsbildung der benachbarten Bewegungsvektoren getan werden, möglichst mit anderen Einschränkungen, welche die Wirkungen begrenzen, die solches Durchschnittsbilden auf die Qualität der Bewegungsvorhersage und auf den Schutz vor Bewegungsunstetigkeiten aufweisen kann.
Eine weitere Ausführungsform schließt das Identifizieren, wo Bewegungsunstetigkeiten im Bild auftreten, und das Glätten des Bewegungsvektorfeldes unter Miteinbeziehung, wo Bewegungsunstetigkeiten im Bild auftreten, mit ein.
Als ein Ergebnis kann eine genauere Wiedergabe des Bewegungsvektorfeldes erzielt werden.
Diese und andere Aspekte der Erfindung sind in den angeschlossenen Ansprüchen dargelegt.
Ausführungsformen der Erfindung werden nun mit Bezugnahme auf die begleitenden Zeichnungen beschrieben, wobei:
1 eine Darstellung eines Bewegungsvektorfeldes gemäß dem Stand der Technik ist;
2 ein Blockdiagramm eines Kodierers gemäß einer Ausführungsform der Erfindung ist;
3 eine Darstellung eines Bildbereichs ist, welcher Unstetigkeitskennungen zeigt;
4 ein Blockdiagramm eines Bauteils des Kodierers ist, gezeigt in 2;
5 eine Darstellung einer Bitstromausgabe aus dem Kodierer ist, gezeigt in 2;
6 ein Blockdiagramm eines Dekodierers gemäß einer Ausführungsform der Erfindung ist; und
7 ein Blockdiagramm eines hybriden DCT/MC-Codec gemäß einer Ausführungsform der Erfindung ist.
2 ist ein Blockdiagramm eines Multiauflösungsbewegungsvektorfeld(MMVF)-Kodierers gemäß einer Ausführungsform der Erfindung. Der MMVF-Kodierer, wie in 2 gezeigt, umfasst ein Bewegungsabschätzer(ME)-Modul 210 zum Erzeugen eines Bewegungsvektorfelds und eine Bewegungsunstetigkeitsabbildung für ein Bild in einer Abfolge von Bildern, welche in das Modul eingegeben werden. Die Ausgabe des Bewegungsabschätzer-Moduls ist verbunden mit der Eingabe eines Entropieverringerungsmoduls 220, welches zum Verarbeiten des Bewegungsvektorfelds unter Verwendung der Bewegungsunstetigkeitsabbildung vorhanden ist, um ein entropiebegrenztes Bewegungsvektorfeld mit Unstetigkeiten zu erzeugen. Die Ausgabe des Entropieverringerungsmoduls 220 ist mit der Eingabe eines Multiauflösungsvektorquantisierungsbewegungsfeld- und Unstetigkeitenkodiermoduls 230 verbunden, welches zum Erzeugen einer multiauflösungsvektorquantisierten (MMVF) Darstellung des Bewegungsvektorfelds vorhanden ist.
Der Betrieb des MMVF-Kodierers wird nun genauer im Folgenden beschrieben.
Das Bewegungsabschätzermodul 210 arbeitet mit einer Abfolge von Eingabebildkadern, um dichte Bewegungsvektorfelder zu erzeugen, jedes mit einer beigefügten Bewegungsunstetigkeitsabbildung.
Ein Bewegungsvektorfeld für einen Bildkader wird unter Verwendung von Bewegungsabschätzung, die auf dem Bildkader und einem Bezugskader beruht, abgeleitet. In dieser Ausführungsform wird die Abschätzung unter Verwendung des Bezugskaders durchgeführt, welcher von der kodierten Version des Originals des Bezugskaders und des nachfolgenden Originalkaders rekonstruiert wurde. Als eine Alternative könnte zum Beispiel die Bewegungsabschätzung unter Verwendung eines Originalbezugskaders und des Originalnachfolgekaders durchgeführt werden.
Die Bewegungsabschätzung wird unter Verwendung einer Variante einer bekannten Blockabgleichungstechnik durchgeführt. Ein Block von 16 × 16 Pixel im Bildkader wird mit Blöcken im Bezugskader verglichen. Wenn das ähnlichste Ebenbild gefunden wurde, wird ein entsprechender Bewegungsvektor einem Bezugspixel zugewiesen, welches in dieser Ausführungsform das oberste linke Pixel der vier Zentrumspixel ist. In anderen Ausführungsformen kann das Bezugspixel jedes Pixel in einem m × n-Block sein, aber es ist vorzugsweise nahe oder im Zentrum des Blocks. Diese Schritte werden für überlappende 16 × 16 Blöcke im Bildkader wiederholt, um einen Bewegungsvektor für jedes Pixel im Bild und folglich ein Bewegungsvektorfeld für das ganze Bild zu erzielen. Obwohl das Bewegungsvektorfeld, welches auf diese Weise erzeugt wird, noch eine blockartige Struktur aufweisen kann, wird ein genaues, dichtes Bewegungsvektorfeld im Entropieverringerungsmodul 220 zurückgewonnen. Andere Verfahren zum Erlangen eines Bewegungsvektors für ein Pixel, wie Pel-rekursive Techniken oder auf Gradienten basierende Verfahren, können verwendet werden, wie in "Digital Pictures – Representation, Compression and Standards" von A. Netravali und B.G. Haskell, Plenum Publishing 1995 beschrieben.
Das Bewegungsabschätzermodul 210 erzeugt auch eine Bewegungsunstetigkeitsabbildung, welche Bewegungsunstetigkeiten im Bildkader wiederspiegelt. Allgemein sind Bewegungsunstetigkeiten zwischen Pixeln angeordnet und so weist jedes Pixel vier Unstetigkeitskennungen 611, 612, 613, 614 auf, welche ihm beigefügt sind, eine für oben, unten, rechts und links, wie in 3 gezeigt. Jede Unstetigkeitskennung wird von zwei benachbarten Pixeln geteilt. Zum Beispiel stellt die rechte Unstetigkeitskennung 612 für Pixel 600 die linke Unstetigkeitskennung 612 für das Pixel 602 dar, welches sich benachbart dem Pixel 600 auf der rechten Seite befindet.
Bewegungsunstetigkeiten im Bild werden durch Verwenden einer geeigneten Technik identifiziert, wie die Technik, welche in der Arbeit "Robust Motion Analysis" durch M. Bober und J. Kittler, CVPR, 1994, pp 947–952, beschrieben ist. Kurz gesagt, statistische Analyse wird eingesetzt, um die Verbreitung der Restfehler in einem Block in Bezug auf den ähnlichsten Ebenbildblock im vorherigen Kader abzuschätzen. Pixel, welche einen Restfehler außerhalb eines annehmbaren Bereichs aufweisen, werden so behandelt, als gehörten sie einem zu jenen im Rest des Blocks unterschiedlichen Bewegungsbereich an. Die Grenzen zwischen unterschiedlichen Bewegungsbereichen sind die Bewegungsunstetigkeiten.
Das Bewegungsvektorfeld und die Bewegungsunstetigkeitsabbildung, welche durch das Bewegungsabschätzermodul 210 abgeleitet werden, werden dem Entropieverringerungsmodul 220 eingegeben. Das Entropieverringerungsmodul 220 verarbeitet das Bewegungsvektorfeld, welches im Bewegungsabschätzermodul 210 abgeschätzt wird, wobei die Bewegungsunstetigkeitskennzeichen mit in Betracht gezogen werden, um die Bewegungsgrenzen zu erhalten, um eine entropiebeschränktes Bewegungsvektorfeld zu erzeugen. Das Verfahren basiert auf einer Pel-rekursiven Technik und wird genauer unten beschrieben.
Das Verarbeiten für ein einzelnes Pixel im Bild wird nun für ein einzelnes Pixel mit Bezugnahme auf 3 beschrieben. Das zentrale Pixel 600 und seine vier Nachbarn: oben, links, rechts und unten 601, 602, 603, 604 werden betrachtet. Außerdem werden die vier Bewegungsunstetigkeitskennzeichen 611, 612, 613, 614 für das zentrale Pixel 600 betrachtet. Jedes Pixel weist einen Bewegungsvektor auf, der ihm beigefügt ist, das heißt, Pixel 600 besitzt einen Bewegungsvektor V600 und so weiter. Nach dem Verarbeiten wird ein neuer Wert des Bewegungsvektors V600 für das zentrale Pixel berechnet.
Das Verarbeiten in dieser Ausführungsform basiert auf dem Heranziehen eines gewichteten Durchschnitts des Bewegungsvektors des zentralen Pixels 600 und der Bewegungsvektoren jener benachbarten Pixel 601, 602, 603, 604, welche nicht vom zentralen Pixel durch ein aktives Unstetigkeitskennzeichen getrennt sind. Genauer gesagt, V600x(i + 1) = [(k·V600x(i)) + V601x(i) + V602x (i) + V603x(i) + V604x(i)]/(k + 4)und V600y(i + 1) = [(k·V600y(i)) + V601y(i) + V602y(i) + V603y(i) + V604y(i)]/(k + 4)wobei V60nx(i) und V60ny(i) die Bewegungsvektorkomponenten sind, welche dem Pixel 60n in der i-ten Iteration zugewiesen sind, und k eine Konstante größer als oder gleich null ist.
Wenn eines oder mehrere der benachbarten Pixel vom zentralen Pixel durch eine aktive Bewegungsgrenze getrennt ist/sind, wird es/werden sie in der Berechnung mit dementsprechender Anpassung des Nenners ausgelassen. Zum Beispiel wird unter der Annahme, dass das Bewegungsunstetigkeitskennzeichen 611 aktiv ist, V600x(i + 1) so berechnet: V600x(i + 1) = [(k·V600x(i)) + V602x(i) + V603x(i) + V604x(i)]/(k + 3)
In einer alternativen Ausführungsform basiert das Verarbeiten wieder auf einem Durchschnitt, aber der Vorhersagefehler wird ebenfalls miteinbezogen.
Genauer gesagt, V600x(i + 1) = [(V601x(i) + V602x(i) + V603x(i) + V604x(i))/4] – PE/((m + V 2I)·VxI) V600y(i + 1) = [(V601y(i) + V602y(i) + V603y(i) + V604y(i)/4] – PE/((m + V 2I)·VyI)
Hier ist PE der Vorhersagefehler, das ist der Unterschied in Luminanz-Werten zwischen dem Pixel 600 und dem Pixel im Bezugskader nach dem Versatz unter Verwendung des Bewegungsvektors, welcher in der Iteration i berechnet wurde, das ist V600(i), wo V600(i) = (V600x(i), V600y(i)). VxI und VyI sind die Komponenten des Bildintensitätsgradienten für Pixel 600. Der Bildgradient in dieser Ausführungsform wird auf der Grundlage der Luminanz-Werte des zentralen Pixels und eines benachbarten Pixels berechnet. Insbesondere gilt: VxI = I₆₀₂ – I₆₀₀ und VyI = I₆₀₁ – I₆₀₀, wo I_60n den Luminanz-Wert des Pixels 60n darstellt. Der Bildgradient kann auf andere Arten unter Verwendung benachbarter Pixel berechnet werden. Zum Beispiel VxI und VyI können als
Es gilt: V ²I = (VxI)² + (VyI)², und m ist eine Konstante größer 0. In dieser alternativen Ausführungsform gilt: m = 100. Wiederum, wenn eines der benachbarten Pixel durch eine aktive Bewegungsgrenze getrennt ist, wird es von der Berechnung ausgeschlossen. Daher gilt dann unter der Annahme, dass das Bewegungsunstetigkeitskennzeichen 611 aktiv ist, V600x(i + 1) = [(V602x(i) + V603x(i) + V604x(i))/3] – PE/((m + V 2I)·VxI)
In jedem der alternativen Verarbeitungsverfahren, die oben beschrieben sind, wird das Verarbeiten für alle Pixel im Bild durchgeführt und eine Anzahl von Iterationen oder Durchläufe wird ausgeführt. Die Ordnung, in welcher die Pixel in einem einzelnen Durchgang verarbeitet werden, beeinflusst die Ergebnisse nur unwesentlich. In diesen Ausführungsformen werden 5–10 Iterationen durchgeführt, obwohl die optimale Anzahl der Iterationen in anderen Ausführungsformen vom Typ des Bewegungsabschätzers, der eingesetzt wird, abhängt.
Als ein Ergebnis der Verarbeitung, wie oben beschrieben, wird eine geglättete, entropiebeschränkte Version des Bewegungsvektorfeldes erzielt, wobei die Bewegungsunstetigkeiten bewahrt bleiben. Durch Miteinbeziehen der Bewegungsunstetigkeitskennzeichen und des Vorhersagefehlers im zweiten Verarbeitungsverfahren, oben beschrieben, wird das Glätten nur in den Bereichen durchgeführt, wo es nicht den Wirkungsgrad der Bewegungskompensationsvorhersage verringert. Eine Beispieldarstellung eines Bereichs eines Bewegungsvektorfeldes mit Bewegungsunstetigkeiten als Ausgabe durch das Entropieverringerungsmodul 200 wird, gekennzeichnet als 225, in 2 gezeigt, wo die Kreise Pixel darstellen, die Pfeile Bewegungsvektoren darstellen und die Linie zwischen den Pixeln eine Bewegungsunstetigkeit darstellt.
Das entropiebeschränkte Bewegungsvektorfeld mit Bewegungsunstetigkeiten, erzeugt durch das Entropieverringerungsmodul 220, ist die Eingabe für das Multiauflösungsbewegungsvektorfeldquantisations(MMVFQ)- und Unstetigkeitenkodiermodul 230.
4 zeigt das MMVFQ- und Unstetigkeitenkodiermodul detaillierter.
Mit Bezugnahme auf 4 ist das Bewegungsvektorfeld, welches vom Entropieverringerungsmodul 220 erzielt wird, die Eingabe in ein Bewegungsfeldpyramidenmodul 310, welches einen Satz von n + 1 Bewegungsfeldern erzeugt, welche Versionen des Originalbewegungsvektorfeldes mit abnehmenden räumlichen Auflösungen sind. Die n + 1 Bewegungsfelder weisen die Bildauflösungen s0 bis sn auf, wo das Bewegungsfeld mit der Originalbildauflösung die Auflösung sn und das gröbste Auflösungsbewegungsfeld eine Auflösung s0 aufweist. Ein Bewegungsfeld der Auflösung sm wird durch Tiefpassfilterung und geringerer Abtastrate der Bewegung höherer Auflösung der Auflösung s(m + 1) erzielt. Dieser Vorgang wird n Male ausgeführt, beginnend vom Originalbewegungsfeld, um die n + 1 Felder zu erzeugen, was eine Pyramide von Bewegungsvektorfeldern genannt wird.
Gemäß dieser Ausführungsform ist der geringere Abtastungsfaktor k 2, und der Tiefpassfiltervorgang mittelt die vx und vy Werte innerhalb eines 2 × 2 Blocks. Die Durchschnittswerte vx_aver und vy_aver werden dann hergenommen, um die Bewegung des Blocks bei gröberer Auflösung darzustellen. Jedoch können verschiedene geringere Abtastfaktoren k (k > 1) und verschiedene Tiefpassfilter verwendet werden.
Die Pyramide der Bewegungsfelder wird dann verarbeitet. Das Bewegungsfeld bei Auflösung s0 wird durch einen Vektorquantisation(VQ)-Kodierer 330a kodiert, welcher ein Kodebuch c0 verwendet. Die Ausgabe vom VQ-Kodierer 330a geht an ein Modul 380a zum Entropiekodieren, um eine Darstellung des Bewegungsfeldes auf der gröbsten Auflösung s0 auszubilden, und an einen VQ-Dekodierer 360a. Der VQ-Dekodierer 360a verwendet das Kodebuch c0, um das grobe Bewegungsfeld zu rekonstruieren, welches dann an ein höheres Abtastmodul 340a weitergegeben wird, wo die Auflösung des Bewegungsfeldes um einen Faktor k erhöht wird. Ein Differentialmodul 350a berechnet den Unterschied zwischen dem Bewegungsfeld bei Auflösung s1 und dem höher abgetasteten wiederhergestellten Bewegungsfeld, welches vom Feld der Auflösung s0 erhalten wird. Das so erzielte Restfehlerbewegungsfeld bei Auflösung s1 ist die Ausgabe vom Differentialmodul 350a, um durch den VQ-Kodierer 330b unter Verwendung des Kodebuches c1 verarbeitet zu werden. Die oben beschriebenen Schritte werden rekursiv bei zunehmenden Auflösungen wiederholt, bis die Bewegungsfelder bei allen Auflösungen bis zur Originalauflösung verarbeitet worden sind und n + 1 Komponentendarstellungen des Originalbewegungsvektorfeldes erzielt sind.
Die Vektorquantisation, die oben erwähnt ist, wird für jedes der Bewegungsvektorfelder in den Kodiermodulen 330a – 330n durchgeführt. Die Vektorquantisation verläuft analog zu jener, welche in "Scalable image encoding using Gaussian pyramid vector quantization with resolution-independent block size" von L. Cieplinski und M. Bober, Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing 1997, Band 4, pp 2949–2952, beschrieben ist, wo die Vektorquantisation in Bezug auf die Luminanzwerte eines Standbildes beschrieben ist.
Die Vektoren, auf welche die Vektorquantisation auf jeder Auflösung angewendet wird, können auf eine der folgenden Arten gebildet werden:

1) Durch unabhängiges Gruppieren von o (o > 1) Komponentengeschwindigkeiten von nicht überlappenden Bereichen in den Geschwindigkeitskomponentenfeldern vx und vy. Die Bereiche weisen identische Gestalt auf und bedecken gemeinsam das gesamte Geschwindigkeitsfeld. Für jeden Bereich werden zwei o-dimensionale Vektoren gebildet VQx = (vx1, ...vxi, ...vxo), VQy = (vy1, ...vyi, ...vyo), wobei vxi, vyi die x und y Geschwindigkeitskomponenten des Pixels i innerhalb des Blocks sind.
In diesem Beispiel weisen VQx und VQy dieselben Abmessungen auf, aber sie können auch unterschiedliche Abmessungen aufweisen.
2) Durch Durchführen einer Transformation auf dem Vektorfeld V vor dem Ausbilden der Vektoren wie oben. Der Zweck der Transformation besteht darin, um die Komponentenfelder statistisch unabhängig zu machen oder um ihre Korrelation zu verringern, um die Kodierleistung zu verbessern. Zum Beispiel kann jeder Vektor v = (vx, vy) an jedem Pixelort im Bild in log-polare Darstellung vp = (vpr, vpa) umgewandelt werden, wobei die Komponenten vpa, vpr so definiert sind: vpr = Quadratwurzel (vx·vx + vy·vy) vpa = arkus tangens (vy/vx), if vx ≠ 0. Π/2, if vx = 0 und vy > 0 –Π/2, if vx = 0 und vy < 0.
Für jeden Bereich werden zwei o-dimensionale Vektoren gebildet VQr = (vpr1, ...vpj, ...vpro), VQa = (vpa1, ...vpaj, ...vpao), wobei vprj, vpaj aus der Transformation erhalten werden, die oben umrissen ist.
3) Die Komponentenvektoren VQx, VQy, wie in 2) definiert, können zusammengruppiert werden, um den Vektor VQ = (VQx, VQy) oder VQ = (VQr, VQa) zu bilden, und VQ kann quantisiert werden. Natürlich weist der VQ-Vektor, der auf diese Weise gebildet wird, die Dimension 2o auf.
In dieser Ausführungsform wird das Verfahren aus 2) oben mit rechteckigen Blöcken aus 2 × 2 Pixeln angewendet, so dass VQ auf 4-dimensionalen Vektoren durchgeführt wird.

Durch Verwenden von Vektoren, welche Komponenten von Bewegungsvektoren von mehr als einem Pixel oder Block aufweisen, kann die VQ Korrelationen zwischen Geschwindigkeitskomponenten zwischen benachbarten Pixeln oder Blöcken ausnutzen. Zum Beispiel sind im Verfahren aus 1) oben die Komponenten VQx von benachbarten Pixeln wahrscheinlich gleich, außer zum Beispiel, wo eine Bewegungsunstetigkeit auftritt. In ähnlicher Weise sind die Komponenten VQy wahrscheinlich gleich. Diese Charakteristik kann im Bestimmen des Kodebuches für die Vektorquantisation verwendet werden, was zu einem höheren Wirkungsgrad führt.
Die Komponentendarstellungen 370 ... 37n des Bewegungsvektorfeldes, welches vom Entropiekodierer 380a – 380n ausgegeben wird, werden in eine eingebettete Darstellung 260, wie zum Beispiel in 5 gezeigt, verbunden, welche die Komponentendarstellungen bei unterschiedlichen Auflösungen zeigt, wobei sie durch Trenner getrennt sind.
Ein Dekodierer 500 zum Dekodieren der eingebetteten Darstellung des Bewegungsfeldes, um die Bewegungsfelder bei unterschiedlichen Auflösungen sowie das Originalbewegungsfeld zu rekonstruieren, ist in 6 gezeigt. Die Rekonstruktion beginnt mit der gröbsten Auflösungsdarstellung. Sie wird durch einen Entropiedekodierer 510a dekodiert und an einen VQ-Dekodierer 515a weitergegeben, wo sie unter Verwendung des Kodebuches c0 dekodiert wird, um das rekonstruierte Bewegungsfeld bei Auflösung s0 zu erhalten. Das rekonstruierte Bewegungsfeld s0 wird dann mit erhöhter Abtastrate durch das Up-Sampling-Modul 525a auf gleiche Weise wie im Kodierer abgetastet, um eine Annäherung des Feldes bei Auflösung s1 zu erhalten. Der Restfehler für das Bewegungsfeld bei Auflösung s1 wird dann auf eine gleiche Weise rekonstruiert. Der Restfehler für die Auflösung s1 und das Feld, welches mit höherer Abtastrate aus dem Feld bei Auflösung s0 abgetastet wird, werden in einem Summenbildungsmodul addiert, um ein rekonstruiertes Bewegungsfeld auf der Auflösungsstufe s1 zu erzeugen. Der Vorgang wird auf jeder feineren Auflösung wiederholt, bis das Originalauflösungsbewegungsfeld erzielt wird. Jedoch kann der Vorgang bei jeder beliebigen Auflösung vor der Originalauflösung angehalten werden, wenn dies gewünscht ist.
7 zeigt einen hybriden DCT/MC-Codec zum Kodieren und Dekodieren von Videobilddaten gemäß einer Ausführungsform der vorliegenden Erfindung.
Die Kodiererseite umfasst ein DCT-Modul 710 zum Durchführen diskreter Kosinus-Transformationen an den Eingabebilddaten. Das DCT-Modul 710 ist mit einem anpassbaren Quantisierer 720 zum Durchführen sich anpassender Quantisation an der DCT-Koeffizienten-Ausgabe aus dem DCT-Modul verbunden. Der Quantisierer 720 wird durch einen Ratenregler 730 gesteuert. Die Ausgabe des Quantisierers 720 ist mit einem Variable-Längen-Kodierer 740 und einem Invers-Quantisierer 750 verbunden. Die Ausgabe des Invers-Quantisierers ist mit einem Invers-DCT-Modul 760 zum Rekonstruieren einer Version des Originalkaders verbunden. Die Ausgabe des DCT-Moduls 760 ist mit einer Mehrzahl von Kaderspeichern 770 verbunden. Die Ausgaben der Kaderspeicher 770 sind mit einem Multi-Auflösungs-Bewegungsvektorfeld(MMVF)-Kodierer 780 zum Ableiten und Kodieren eines Bewegungsvektorfeldes verbunden. Der MMVF-Kodierer 780 ist mit einem höheren Bewegungskompensationsmodul 790 zum Durchführen von Bewegungskompensation auf eine bekannte Weise verbunden. Der MMVF-Kodierer 780 gibt auch Daten, welche ein kodiertes Bewegungsvektorfeld darstellen, an den Variable-Längen-Kodierer 740 aus und die Ausgabe des Variable-Längen-Kodierers 740 ist mit einem Puffer 800 verbunden. Der Puffer 800 wird verwendet, um den Ratenregler 730 anzupassen, und die gespeicherten Daten werden zur Übertragung oder Aufzeichnung auf einem Aufzeichnungsmedium ausgegeben.
Entsprechende Komponenten sind im Dekodierer bereitgestellt, darunter ein Puffer 810, ein Variable-Längen-Kodierer 820, ein Invers-Quantisierer 830, ein Invers-DCT-Modul 840, ein höheres Bewegungskompensationsmodul 850, Kaderspeicher 860, ein MMVF-Dekodierer 870.
Der Kodierer und der Dekodierer arbeiten im Wesentlichen auf eine bekannte Weise zum Kodieren der Videobilddaten, abgesehen vom Kodieren und Dekodieren des Bewegungsvektorfeldes unter Verwendung des MMVF-Kodierers 780 und des Dekodierers 870. Der MMVF-Kodierer 780 und der Dekodierer 870 arbeiten im Wesentlichen so, wie oben beschrieben. Jedoch führen hier der Variable-Längen-Kodierer 740 und der Dekodierer 820 die Entropiekodierung und -dekodierung anstelle der Entropiekodierer 380a – 380n und -dekodierer 515a – 515n durch, wie oben beschrieben. Es ist möglich, einen einzelnen Variable-Längen-Kodierer 940 anstelle der n Entropiekodierer 380a – 380n zu verwenden, wobei unterschiedliche Verweistabellen für die Bilddaten bei unterschiedlichen Auflösungen eingesetzt werden und wobei desgleichen für den Dekodierer 820 gilt.
Der Wirkungsgrad (basierend auf der durchschnittlichen Anzahl von Bits pro Pixel) des Kodierens, wie oben beschrieben, kann gleich den oder besser als die bekannten Verfahren sein. Obwohl die Zuweisung eines Bewegungsvektors zu jedem Pixel die Menge der Bewegungsinformation erhöht, wird diese in der nachfolgenden Verarbeitung verringert, das heißt in der Entropieverringerungsverarbeitung und der Vektorquantisation. Die durchschnittliche Anzahl der Bits pro Pixel wird natürlich vom Wesen der Daten, welche kodiert werden, abhängen.
In der Ausführungsform der Erfindung, die oben beschrieben ist, wird eine Bewegungsunstetigkeitsabbildung abgeleitet und in den nachfolgenden Verarbeitungsschritten verwendet, aber es ist nicht wesentlich, Bewegungsunstetigkeiten zu beachten. Statt wie in der beschriebenen Ausführungsform einen Bewegungsvektor für jedes Pixel abzuleiten, ist die Erfindung auch auf einen Lösungsweg anwendbar, wo ein Bewegungsvektor einer Gruppe von Pixeln wie zum Beispiel einem 2 × 2 oder 4 × 4 Pixelblock zugewiesen werden kann. Ein wichtiges Merkmal jedoch besteht darin, dass das sich ergebende Bewegungsvektorfeld dicht ist.
Die Erfindung ist insbesondere für Anwendungen nützlich, welche Bildsequenzen betreffen, wenn eine oder mehrere der folgenden Bedingungen zutreffen:

i) die Kanalbandbreite ist begrenzt;
ii) das Risiko der Datenverstümmelung ist hoch, oder
iii) der Benutzer kann aus dem Erzielen einer Version mit geringer Auflösung der Bewegungsdaten einen Vorteil ziehen.

Bewegungsinformation, welche gemäß der Erfindung abgeleitet und dargestellt ist, kann in einer Datenbank gespeichert und für Such- und Auswertungszwecke verwendet werden. Zum Beispiel kann eine Person, welche nach einer Abfolge eines bestimmten Bewegungstyps sucht, zuerst grobe Bewegungsinformation aus der Datenbank (welche Bewegungsvektorinformation speichert, die gemäß der vorliegenden Erfindung erzeugt wurde) erhalten und dann eine ausgewählte Abfolge in ursprünglicher Auflösung abrufen.

Claims

Verfahren zur Darstellung von Bewegung in einer Folge von digitalisierten Bildern, umfassend das Ableiten eines Bewegungsvektorfeldes für ein Bild, worin ein Bewegungsvektor für eine Gruppe von Pixeln von der Abmessung weniger als ein 8 × 8 Pixel-Block abgeleitet wird, und Ausführung der Vektorquantisation auf dem Bewegungsvektorfeld, dadurch gekennzeichnet, dass die Vektorquantisation an Vektoren ausgeführt wird, welche durch Zusammengruppieren entsprechender Komponenten von wenigstens zwei Bewegungsvektoren des Bewegungsvektorfeldes ausgebildet sind.
Verfahren nach Anspruch 1, worin ein Bewegungsvektor für jedes Pixel abgeleitet wird.
Verfahren nach Anspruch 1 oder Anspruch 2, wobei gruppierte entsprechende Vektorkomponenten separat von anderen gruppierten entsprechenden Vektorkomponenten vektorquantisiert werden.
Verfahren nach einem der Ansprüche 1 bis 3, umfassend das Ausführen variabler Längenkodierung nach der Vektorquantisation.
Verfahren nach einem der Ansprüche 1 bis 4, umfassend das Identifizieren, wo Bewegungsunstetigkeiten im Bild auftreten.
Verfahren nach einem der Ansprüche 1 bis 5, umfassend das Verarbeiten des Bewegungsvektorfeldes, um die Entropie des Vektorfeldes vor der Vektorquantisation zu verringern.
Verfahren nach Anspruch 6 in Abhängigkeit von Anspruch 5, worin die Bewegungsunstetigkeiten beim Verarbeiten zur Entropie-Verringerung eingesetzt werden.
Verfahren nach Anspruch 6 oder Anspruch 7, worin die Entropie-Verringerung durch Ersetzen eines gegebenen Bewegungsvektors durch einen neuen Bewegungsvektors durchgeführt wird, worin die Berechnung des neuen Bewegungsvektors die Durchschnittsbildung über Bewegungsvektoren in der Nachbarschaft des gegebenen Bewegungsvektors mit einschließt.
Verfahren nach Anspruch 8 in Abhängigkeit von Anspruch 7, worin ein Bewegungsvektor, welcher vom gegebenen Bewegungsvektor durch eine Bewegungsunstetigkeit getrennt ist, in der Durchschnittsbildung unberücksichtigt bleibt.
Verfahren nach einem der Ansprüche 1 bis 9, umfassend das Erzeugen und Kodieren einer Mehrzahl von Versionen des Bewegungsvektorfelds mit unterschiedlichen Auflösungen.
Verfahren nach Anspruch 10, umfassend Abtasten mit niedriger Abtastrate des Bewegungsvektorfeldes, um niedrig abgetastete Versionen des Feldes mit einer ersten groben Auflösung und mit einer zweiten feineren Auflösung zu erzeugen, Kodieren des Bewegungsvektorfeldes grober Auflösung, Abtasten mit erhöhter Abtastrate des Feldes mit grober Auflösung und Vergleichen des mit erhöhter Abtastrate abgetasteten Feldes mit grober Auflösung mit dem Feld feinerer Auflösung, um einen Restfehler zu erzeugen, und Kodieren des Restfehlers auf der feineren Auflösung als das Bewegungsvektorfeld, welches vektorquantisiert ist.
Verfahren nach einem der vorangehenden Ansprüche, worin Vektorquantisation an Vektoren, welche Komponenten aufweisen, die x Geschwindigkeitskomponenten der Bewegungsvektoren für n Nachbarpixel oder -blöcken entsprechen, und Komponenten durchgeführt wird, welche y Geschwindigkeitskomponenten der Bewegungsvektoren für m Nachbarpixel oder -blöcken entsprechen, wobei n und m größer oder gleich 2 sind.
Verfahren nach einem der vorangehenden Ansprüche, worin Vektorquantisation an Vektoren durchgeführt wird, welche durch Gruppieren entsprechender Komponenten von mehr als zwei Bewegungsvektoren gebildet werden.
Kodierer, welcher ausgelegt ist, um Bewegungsinformation für eine Abfolge von digitalisierten Bildern zu kodieren, umfassend Mittel zum Durchführen der Schritte eines Verfahrens nach einem der Ansprüche 1 bis 13.
Dekodierer, umfassend einen Vektorquantisationsdekodierer, welcher ausgelegt ist, um Bewegungsinformation für eine Abfolge von digitalisierten Bildern zu dekodieren, die entsprechend einem Verfahren nach einem der Ansprüche 1 bis 13 kodiert wurden.
Kodierer nach Anspruch 14, umfassend einen Bewegungsabschätzer (210) zum Ableiten eines Bewegungsvektorfeldes für ein Bild und einen Vektorquantisierer (230) zum Kodieren des Bewegungsvektorfeldes.
Hybrider DCT-MC Codec, umfassend einen Kodierer nach Anspruch 14 oder Anspruch 16 und einen Dekodierer nach Anspruch 15.