DE60003070T2

DE60003070T2 - Adaptive bewegungsvektorfeldkodierung

Info

Publication number: DE60003070T2
Application number: DE60003070T
Authority: DE
Inventors: Marta Karczewicz; Jani Lainema
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1999-08-11
Filing date: 2000-08-10
Publication date: 2004-04-01
Anticipated expiration: 2020-08-11
Also published as: WO2001011892A9; CN1229997C; US7161983B2; EP1228645B1; ATE241887T1; WO2001011892A1; US20040258155A1; EP1228645A1; CN1370376A; DE60003070D1; JP4596718B2; JP2003532309A

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft die Videokomprimierung. Die Erfindung betrifft insbesondere das Codieren eines geschätzten Bewegungsfeldes und das Erzeugen von Bewegungsinformationen in einer Videosequenz.
HINTERGRUND DER ERFINDUNG
Die bewegungskompensierte Vorhersage ist ein Grundelement der meisten Videocodierungsschemata. Um die Funktionsweise der bewegungskompensierten Vorhersage zu beschreiben, sollte bekannt werden, daß jedes digitale Bild Gruppen von Bildelementen (Pixel) enthält, die bestimmten Teilen des Bildes entsprechen. Jedes Bildelement kann z. B. als die Intensitäten von Rot, Grün und Blau (im RGB-Farbsystem) oder als die Intensitäten der Luminanz und von zwei Chrominanz-Komponenten repräsentiert werden.
1 zeigt veranschaulichend zwei Segmente S_k und S_l eines Bildes, wovon jedes eine Gruppe von Bildelementen 10 bis 15 an alten Orten, d. h. in einem vorherigen Bild der Bildsequenz zeigt. Die neuen Orte dieser Bildelemente in einem momentanen Bild sind als Positionen 10' bis 15' dargestellt. Die Änderung ihrer Orte, d. h. ihre Bewegung definiert entsprechende Bewegungsvektoren v¹ _k bis v³ _k und v¹ _l bis v³ _l der Bildelemente in diesen Segmenten. Im einfachsten Fall sind diese Segmente Quadrate oder Rechtecke. Alternativ und in Legacy-Schemata können sie außerdem eine willkürliche Form besitzen, wie in 1 gezeigt ist.
2 ist eine schematische Darstellung eines Codierers zum Komprimieren von Videosequenzen unter Verwendung der Bewegungskompensation. Wesentliche Elemente im Codierer sind ein Block 1 "bewegungskompensierte Vorhersage", ein Block 2 "Bewegungsfeldschätzung" und ein Bewegungsfeld-Codierer 3. Das Funktionsprinzip von bewegungskompensierten Videocodierern besteht darin, den Vorhersagefehler E_n(x, y), der eine Differenz zwischen dem ankommenden Bild I_n(x, y), das codiert ist und als das momentane Bild bezeichnet wird, und einem Vorhersagebild Î_n(x, y) zu komprimieren, wobei gilt: En(x, y) = In(x, y) – În(x, y) (1)
Das Vorhersagebild Î_n(x, y) wird durch den Block 1 "bewegungskompensierte Vorhersage" konstruiert und wird unter Verwendung von Bildelementwerten des vorherigen Bildes oder irgendeines anderen, bereits codierten Bildes, das mit Ĩ_re _f(x, y) bezeichnet wird und ein Referenzbild genannt wird, und den Bewegungsvektoren von Bildelementen zwischen dem momentanen Bild und dem Referenzbild aufgebaut. Bewegungsvektoren werden durch den Block 2 "Bewegungsfeldschätzung" berechnet und das resultierende Vektorfeld wird anschließend auf irgendeine Weise codiert, bevor es als eine Eingabe an den Vorhersageblock 1 bereitgestellt wird. Das Vorhersagebild lautet dann:

În(x, y) = Ĩref[x +
x(x, y), y +
y(x, y) (2)

wobei
x(x, y) und
y(x, y) die Werte der horizontalen und vertikalen Verschiebung eines Bildelements am Ort (x, y) sind und das Zahlenpaar
x(x, y),
y(x, y) als Bewegungsvektor dieses Bildelements bezeichnet wird. Die Menge von Bewegungsvektoren aller Bildelemente im momentanen Bild I_n(x, y) wird als Bewegungsvektorfeld bezeichnet. Das codierte Bewegungsvektorfeld wird als Bewegungsinformation gemeinsam mit den codierten Vorhersagefehlerinformationen an den Decodierer übertragen.
In dem Decodierer, der in 3 gezeigt ist, wird das momentane Ausgangsbild Ĩ_n(x, y) rekonstruiert, indem die Vorhersage des Bildelements Î_n(x, y) im Referenzbild Ĩ_ref(x, y) gefunden wird und der decodierte Vorhersagefehler addiert wird. Der Block 21 "bewegungskompensierte Vorhersage" erzeugt das Vorhersagebild unter Verwendung der empfangenen Bewegungsinformationen und des Referenzbildes Ĩ_ref(x, y). Der Vorhersagefehler-Decodierer 22 erzeugt den decodierten Vorhersagefehler Ê_n(x, y) zum Addieren zum Vorhersagebild, wobei das Ergebnis das momentane Ausgangsbild Ĩ_n(x, y) ist.
Die allgemeine Aufgabe der bewegungskompensierten (MC) Vorhersage besteht darin, den Umfang der Informationen, die an den Decodierer übertragen werden müssen, gemeinsam mit dem Umfang des gemessenen Vorhersagefehlers, z. B. als die Energie von E_n(x, y) minimal zu machen.
Das Dokument "Representation of motion information for image coding" von H. Nguen, E. Dubois, Proc. Picture Coding Symposium '90, Cambridge, Massachusetts, 18.–26. März 1990, S. 841–845 gibt einen Überblick der Bewegungsfeld-Codierungstechniken. Als Faustregel gilt, eine Verringerung des Vorhersagefehlers erfordert ein intelligenteres Bewegungsfeldmodell, d. h. es müssen für seine Codierung mehr Bits verwendet werden. Deswegen besteht das Gesamtziel der Videocodierung darin, das Bewegungsvektorfeld so kompakt wie möglich zu codieren, während der Vorhersagefehler so klein wie möglich gehalten wird.
Der Block 2 "Bewegungsfeldschätzung", der in 2 gezeigt ist, berechnet Bewegungsvektoren aller Bildelemente eines vorgegebenen Bildsegments, wobei der Vorhersagefehler in diesem Segment, z. B. der quadratische Vorhersagefehler minimal gemacht wird.
Wegen der sehr großen Anzahl von Bildelementen in dem Bild ist es nicht effektiv, für jedes Bildelement einen separaten Bewegungsvektor zu übertragen. Statt dessen wird in den meisten Videocodierungsschemata das momentane Bild in größere Bildsegmente unterteilt, so daß alle Bewegungsvektoren des Segments durch wenige Parameter beschrieben werden können. Bildsegmente können quadratische Blöcke sein, es werden z. B. Blöcke mit 16 × 16 und 8 × 8 Bildelementen in Codecs gemäß internationalen Standards ISO/IEC MPEG-1, MPEG-2, MPEG-4 oder ITU-T H.261 und H.263 verwendet oder sie können willkürlich geformte Bereiche enthalten, die z. B. durch einen Segmentierungs-Algorithmus erhalten werden. In der Praxis enthalten Segmente wenigstens einige Zehn Bildelemente.
Um die Bewegungsvektoren der Bildelemente in einem Segment kompakt darzustellen, sollen die Bewegungsvektoren durch eine Funktion von wenigen Parametern beschrieben werden. Eine derartige Funktion wird als Bewegungsvektorfeldmodell bezeichnet. Eine bekannte Gruppe von Modellen ist ein lineares Bewegungsmodell, bei dem die Bewegungsvektoren durch Linearkombinationen von Bewegungsfeld-Basisfunktionen dargestellt werden. Bei derartigen Modellen werden die Bewegungsvektoren von Bildsegmenten durch eine allgemeine Formel beschrieben:
wobei die Parameter c_i als Bewegungskoeffizienten bezeichnet werden und an den Decodierer übertragen werden. Das Bewegungsmodell für ein Segment basiert im allgemeinen auf N + M Bewegungskoeffizienten. Die Funktionen f_i(x, y) werden als Bewegungsfeld-Basisfunktionen bezeichnet und sind sowohl dem Codierer als auch den Decodierer bekannt. Bekannte Bewegungsfeld-Schätztechniken unterscheiden sich sowohl in bezug auf das Modell, das verwendet wird, um das Bewegungsfeld zu repräsentieren, als auch im Algorithmus, um eine gewählte Größe des Vorhersagefehlers minimal zu machen.
Sowohl der Umfang als auch die Komplexität der Bewegung ist zwischen Bildern und zwischen Segmenten unterschiedlich. In einem Fall kann ein Teil des Bildinhalts gedreht, verwunden und von einer Seite des Bildes zur gegenüberliegenden Seite des Bildes verschoben sein. In einem anderen Fall kann sich dagegen eine Videokamera langsam um ihre vertikale Achse drehen, so daß sich die Bildelemente in einer horizontalen Ebene leicht bewegen. Es ist deswegen nicht effektiv, immer alle N + M Bewegungskoeffizienten pro Segment zu verwenden.
Eine Möglichkeit, die Bewegungsinformationen zu reduzieren, besteht darin, einfach die Anzahl der Bewegungskoeffizienten des Bewegungsfeldmodells, das die Bewegung von Bildelementorten von einem Bild zum anderen modelliert, zu reduzieren. Der Vorhersagefehler wird jedoch größer, wenn das Bewegungsfeldmodell gröber wird.
Es ist für jedes Segment erforderlich, die minimale Anzahl von Bewegungskoeffizienten zu bestimmen, die einen zufriedenstellend kleinen Vorhersagefehler erzielt. Der Vorgang einer derartigen adaptiven Auswahl der Bewegungskoeffizienten wird als Bewegungskoeffizientenentfernung bezeichnet. Dieser Vorgang wird im Codierer durch den Block 3 "Bewegungsfeld-Codierung" ausgeführt, siehe 2. Er wird nach der Bewegungsfeldschätzung ausgeführt, die durch den Block 2 "Bewegungsfeldschätzung" ausgeführt wird.
In Zukunft wird die digitale Videoübertragung zwischen drahtlosen Mobilterminals möglich sein. Derartige Terminals besitzen gewöhnlich einen begrenzten Platz für zusätzliche Komponenten und werden durch eine Batterie betrieben, so daß sie wahrscheinlich keine Rechenkapazität beinhalten, die mit der von feststehenden Vorrichtungen, wie etwa Desktop-Computer, vergleichbar ist. Es ist deswegen wesentlich, daß die Bewegungsfeld-Codierung, die in einem Video codierer ausgeführt wird, rechentechnisch einfach ist, so daß sie für den Prozessor der Vorrichtung keine übermäßige Belastung darstellt. Außerdem sollte das Modell des codierten Bewegungsfeldes rechentechnisch einfach sein, um eine spätere Decodierung in einem Decodierer des empfangenden Terminals (Mobilterminal) zu vereinfachen.
Verfahren zum Ausführen der Bewegungsschätzung mit verschiedenen Modellen und zum Auswählen des am besten geeigneten Modells werden in den Dokumenten "Region-based motion estimation using deterministic relaxation schemes for image sequence coding", von H. Nicolas und C. Labit, Proc. 1994, International Conference on Acoustics, Speech and Signal Processing, S. III265–268 und "Efficient region-based motion estimation and symmetry oriented segmentation for Image sequence coding" von P. Cicconi und H. Nicolas, IEEE Tran. on Circuits and Systems for Video Technology, Bd. 4, Nr. 3, Juni 1994, S. 357–364 vorgeschlagen. Die Verfahren versuchen, das Bewegungsmodell in Abhängigkeit von der Komplexität der Bewegung anzupassen, indem die Bewegungsschätzung mit verschiedenen Modellen ausgeführt und das am besten geeignete Modell ausgewählt wird. Der Hauptnachteil dieser Modelle ist ihre hohe rechentechnische Komplexität und die kleine Anzahl von unterschiedlichen Bewegungsfeldmodellen, die in der Praxis getestet werden können.
Ein weiteres Verfahren ist in WO 97/16025 beschrieben. Ein Video-Codec enthält einen Bewegungsfeld-Codierer, der die Anzahl der Bewegungskoeffizienten eines Bewegungsvektorfeldes minimal macht. In dem Codierer enthält ein erster Block Mittel zum Bilden einer neuen Matrixdarstellung des Bewegungsvektorfeldes. Das neue codierte Bewegungsvektorfeld ist linear. Ein zweiter Hauptblock enthält Mittel zum Verschmelzen von benachbarten Segmenten, wenn der kombinierte Segmentbereich unter Verwendung eines gemeinsamen Bewegungsfeldes vorhergesagt werden kann. Die verschmolzenen Informationen werden an einen Decodierer übertragen. Ein dritter Hauptblock enthält Mittel zur Entfernung von Bewegungsfeld-Basisfunktionen. Nach jedem Entfernungsschritt wird der quadratische Vorhersagefehler berechnet und die Entfernung wird fortgesetzt, bis die Größe des Fehlers nicht mehr annehmbar ist. Die endgültigen Koeffizienten werden durch das Lösen einer linearen Matrixgleichung berechnet. Im Ergebnis wird für jedes Segment eine verringerte Anzahl von Bewegungskoeffizienten erreicht. Die Bewegungskoeffizienten werden an den Decodierer übertragen. Diese Lösung ermöglicht, daß Bewegungskoeffizienten entnommen werden, bis ein bestimmter Schwellenwert des Vorhersagefehlers erreicht wird.
Es besteht jedoch trotzdem ein Bedarf, die Komplexität des Vorgangs der Bewegungscodierung sowie den Umfang der Bewegungsinformationen, die an den Decodierer gesendet werden muß, zu reduzieren, während eine minimale Verschlechterung der Qualität eines decodierten Bildes bewirkt wird.
Es ist eine Aufgabe der vorliegenden Erfindung, den Umfang der Bewegungsinformationen um einen großen Faktor zu reduzieren, ohne den Rekonstruktionsfehler stark zu vergrößern.
Es ist eine weitere Aufgabe, die Komplexität des Bewegungsfeld-Codierers gering zu halten, um eine praktische Implementierung unter Verwendung verfügbarer Signalprozessoren oder Universal-Mikroprozessoren zu ermöglichen.
Zusammenfassung der Erfindung
Die Erfindung ist durch die beigefügten Ansprüche definiert.
Durch die Nutzung des Vorteils der vorhergesagten Bewegungskoeffizienten in einem Bewegungsanalysator, der Teil des Bewegungsfeld-Codierers eines Videocodierers ist, wird eine bessere Leistung von Rate und Verzerrung als bei bisher bekannten Lösungen erreicht.
Ferner kann ein Block "Bewegungskoeffizientenentfernung" verwendet werden, um mehrere alternative Kombinationen der Bewegungskoeffizienten für die Verwendung bei der weiteren Optimierung der Leistung von Rate und Verzerrung berechnet werden. Der Block "Bewegungskoeffizientenentfernung" ist vorzugsweise geeignet, bestimmte Kostenfunktionen zu implementieren, um eine Kombination zu finden, bei der die endgültige Rate/Verzerrung optimiert ist.
KURZBESCHREIBUNG DER ZEICHNUNG
1 ist eine schematische Darstellung eines Bildes, das in Segmente unter teilt ist;
2 ist eine schematische Darstellung eines Codierers gemäß dem Stand der Technik;
3 ist eine schematische Darstellung eines Decodierers gemäß dem Stand der Technik;
4 ist ein Bewegungsfeld-Codierer gemäß einer Ausführungsform der Erfindung;
5 ist ein Bewegungsanalysator gemäß einer Ausführungsform der Erfindung;
6 ist eine schematische Darstellung einer Mobilstation gemäß einer Ausführungsform der Erfindung; und
7 ist eine schematische Darstellung eines Mobiltelekommunikationsnetzes gemäß einer Ausführungsform der Erfindung.
GENAUE BESCHREIBUNG
Die 1 bis 3 wurden bereits oben beschrieben.
Im folgenden wird ein Überblick über die Erfindung gegeben, um die weitere Beschreibung von verschiedenen Ausführungsformen der Erfindung zu vereinfachen.
Gemäß einer bevorzugten Ausführungsform der Erfindung umfaßt der Bewegungsfeld-Codierer eines Videocodierers zwei Hauptblöcke.
Der erste Hauptblock wird als Bewegungsanalysator 32, 4 und 5, bezeichnet. Seine Aufgabe besteht darin, eine neue Darstellung des eingegebenen Bewegungsfeldes, das durch den Block 2 "Bewegungsfeldschätzung" von 2 erzeugt wird, zu finden. Diese neue Darstellung wird an den zweiten Hauptblock, einen Block 4 "Bewegungskoeffizientenentfernung" von 4 angelegt. Die Operationen des Bewegungsanalysators enthalten mehrere Schritte, die Matrixoperationen umfassen: In einem ersten Schritt wird die Abhängigkeit des Vorhersagebildes von Bewegungsvektoren unter Verwendung eines Approximationsverfahrens linearisiert. Im zweiten Schritt werden eine Matrix A_k und ein Vektor d_k konstruiert, um den quadratischen Vorhersagefehler minimal zu machen. Im dritten Schritt wird ein diagonales System aus linearen Gleichungen auf der Grundlage der Faktoren von A_k aufgebaut, um eine flexible Bewegungsdarstellung in der Form einer diagonalen Matrix R_k und eines Hilfsvektors z_k zu erzeugen.
Der Block 34 "Bewegungskoeffizientenentfernung" empfängt die diagonale Matrix R_k und den Hilfsvektor z_k, die durch den Block "Bewegungsanalysator" erzeugt werden. Die Bewegungsvektoren eines Segments werden durch eine Anzahl Bewegungskoeffizienten repräsentiert. Für jedes dieser Segmente bestimmt der Block 34 "Bewegungskoeffizientenentfernung" ob es möglich ist, das Bewegungsfeldmodell zu vereinfachen, ohne eine übermäßige Vergrößerung des Rekonstruktionsfehlers zu bewirken. Typischerweise werden einige Basisfunktionen aus dem Bewegungsmodell entfernt, wodurch weniger Koeffizienten erforderlich sind, um ein solches vereinfachtes Bewegungsfeldmodell zu beschreiben.
Der Block 34 "Bewegungskoeffizientenentfernung" modifiziert Matrixgleichungen, die die diagonale Matrix R_k enthalten, indem eine Spalte der diagonalen Matrix R_k entfernt und das neue System in Dreieckform gebildet wird. Im Ergebnis ist in den Gleichungen ein Bewegungskoeffizient weniger vorhanden und vom Vektor z_k wurde ein Term entfernt. Diese Operation entspricht dem Entfernen einer Basisfunktion aus dem Bewegungsfeldmodell. Um ein Bewegungsfeldmodell zu bestimmen, das eine gewählte Vorsagefehlergröße oder eine Kostenfunktion optimiert, werden diese Operationen wiederholt, bis in dem Bewegungsfeldmodell keine Basisfunktionen mehr vorhanden sind. Jedes Mal, wenn eine Basisfunktion entfernt wird, wird eine neue Menge aus Bewegungskoeffizienten bewertet, indem die Matrixgleichungen gelöst werden. Das kann durch Verwendung eines der wohlbekannten Algorithmen erfolgen, z. B. die Rücksubstitution. Die endgültige Menge aus Bewegungsparametern, d. h. die ausgewählt wird, um die Bewegung eines bestimmten Segments zu repräsentieren, ist die Menge, die die Kostenfunktion minimal macht. Die Kostenfunktion ist vorzugsweise eine gewichtete Summe aus einem Maß des Vorhersagefehlers und einem Maß der Informationen, die für das Decodieren des Bildes erforder lich sind.
Für jedes verarbeitete Segment gibt der Block 34 "Bewegungskoeffizientenentfernung" Auswahlinformationen aus, die die Basisfunktionen definieren, die aus dem Bewegungsfeldmodell entfernt wurden. Außerdem gibt er neue Bewegungskoeffizienten aus, die den restlichen Basisfunktionen entsprechen. Sowohl die Auswahlinformationen als auch die neuen Bewegungskoeffizienten werden an den Decodierer übertragen.
4 veranschaulicht einen Bewegungsfeld-Codierer 3 gemäß einer Ausführungsform der Erfindung. Er entspricht dem Block 3 von 2. Er empfängt das Referenzbild Ĩ_ref(x, y), das momentane Bild Ĩ_n(x, y), vorhergesagte Bewegungskoeffizienten, falls diese vorhanden sind, und das Bewegungsvektorfeld [Δx(x, y), Δy(x, y)], das vom Block 2 "Bewegungsfeldschätzung" von 2 erzeugt wird.
Der Ausgang des Videocodierers enthält ein komprimiertes Bild, das in Segmente unterteilt ist, die durch Bewegungskoeffizienten für ein Segment S_k definiert sind, das P Bildelemente mit den Koordinaten (x_i, y_i), i = 1, 2, ..., P enthält. Die Aufgabe des Bewegungsfeld-Codierers besteht darin, die Bewegungskoeffizienten
eines komprimierten Bewegungsvektorfeldes [
x(·),
y(·)] zu finden wobei die Bewegungsvektoren durch ein lineares Bewegungsmodell beschrieben werden und das Feld die folgende Form besitzt:
so daß es eine ausgewählte Kostenfunktion, z. B. die Lagrangian-Kosten, minimal macht: L(Sk) = D(Sk) + λR(Sk) (5)wobei die Verzerrung D(S_k) der quadratische Fehler zwischen dem ursprünglichen und dem codierten Segment ist. Die Rate R(S_k) ist gleich der Anzahl von Bits, die benötigt werden, um das Segment zu codieren, und der Parameter λ ist ein im voraus definierter Koeffizient, der den Kompromiß zwischen der Qualität des codierten Segments und der Anzahl von Bits, die für die Komprimierung des Segments benötigt werden, definiert.
Um diese Aufgabe zu erfüllen, umfaßt der Bewegungsfeld-Codierer 3 zwei Hauptblöcke, die der Block 32 "Bewegungsanalysator" und der Block 34 "Bewegungskoeffiziententfernung" sind. Die Aufgabe des Bewegungsanalysators 32 besteht darin, eine neue Darstellung des Bewegungsfeldes zu finden. Diese neue Darstellung wird später in dem Block 34 "Bewegungskoeffiziententfernung" verwendet, um Bewegungskoeffizienten für ein vorgegebenes Bildsegment schnell und zuverlässig zu finden. Der Block 34 "Bewegungskoeffiziententfernung" verringert den Umfang der Bewegungsinformationen, die verwendet werden, um das Bewegungsfeld eines Segments zu beschreiben, was ein Anwachsen des quadratischen Vorhersagefehlers zur Folge hat, der definiert ist als
Die Funktion des Bewegungsanalysators 32 wird anschließend unter Bezugnahme auf 5 genau beschrieben. Die Funktion des Bewegungsanalysators 32 umfaßt die folgenden Schritte:
Schritt 1: Linearisierung des Fehlers, Block 42. Bei diesem Schritt wird das Referenzbild Ĩ_ref(·) in Formel (6) unter Verwendung eines bekannten Approximationsverfahrens näherungsweise so dargestellt, daß seine Abhängigkeit von [Δx(x, y), Δy(x, y)] linear wird. Dann werden die Elemente in der Summe von Formel (6) eine Linearkombination der Bewegungskoeffizienten c_i
Schritt 2: Bildung von Matrizen, Block 43. Die Minimierung von Formel (7) ist vollständig gleichbedeutend mit der Minimierung des Matrixausdrucks (E_kc_k – y_k)^T(E_kc_k – y_k) oder mit der Lösung der folgenden Gleichung: Akck = dk (8)wobei A_k = E_k ^TE_k und d_k = E_k ^Ty_k. Der Vektor y_k wird im Block 46 gebildet.
Schritt 3: Bildung der Dreieckform und Erzeugen des Ausgangs, Block 44. In diesem Schritt wird die Gleichung (8) unter Verwendung eines bekannten Verfahrens in Dreieckform gebildet, um A_k in ein Produkt aus einer niedrigeren Matrix R_kT und ihrer Transponierten R_k zu zerlegen: Ak = Rk TRk (10)
Das kann unter Verwendung der Cholesky-Zerlegung ausgeführt werden.
Ein Hilfsvektor z_k ^O wird erzeugt, indem Rk Tzk O = dk (11)z. B. unter Verwendung der Rücksubstitution gelöst wird. Der Vektor der Bewegungskoeffizienten c_k, der die Formel (7) minimal macht, ist nun der unbekannte Vektor in dem diagonalen System Rkck = zk O (12)und kann bei Bedarf z. B. unter Verwendung der Rücksubstitution ermittelt werden.
Die Bewegungskoeffizienten c_k können als Summen der vorhergesagten Bewegungskoeffizienten p_k und der Verfeinerungsbewegungskoeffizienten r_k gegeben sein. Die vorhergesagten Bewegungskoeffizienten werden aus zuvor erzeugten Bewegungskoeffizienten vorhergesagt und die Verfeinerungsbewegungskoeffizienten entsprechen der Differenz zwischen den vorhergesagten Bewegungskoeffizienten und den Bewegungskoeffizienten, die im Block "Bewegungsfeldschätzung" (2) berechnet wurden. In diesem Fall besitzt die Gleichung (12) die Form Rk(rk + pk) = zk O (13)und ein Ausgangsvektor wird erzeugt, indem zk = zk O – Rkpk (14)berechnet wird. Der Block 47 bildet den Term z_k ^O und der Block 45 erzeugt den Term R_kp_k. Der Ausgang des folgenden Blocks 34 "Bewegungskoeffiziententfernung" wird an Stelle der Absolutbewegungskoeffizienten zu den Verfeinerungsbewegungskoeffizienten. Andernfalls ist der Ausgangsvektor z_k = z_k ^O.
Der Block 34 "Bewegungskoeffiziententfernung" empfängt als Eingang die Matrix R_k und den Vektor z_k, der durch den Block 32 "Bewegungsanalysator" erzeugt wird. Die Bewegungsvektoren jedes Segments werden durch N + M Bewegungskoeffizienten repräsentiert.
Für ein gegebenes Segment S_k bestimmt der Block "Bewegungskoeffiziententfernung", ob es möglich ist, das Bewegungsfeldmodell zu vereinfachen, ohne daß die gewählte Fehlergröße übermäßig anwächst. Ein vereinfachtes Bewegungsfeldmodell wird erhalten, wenn aus dem Modell von Gleichung (3), das im technischen Hintergrund dieser Anmeldung beschrieben wurde, einige Basisfunktionen entfernt werden. Es werden weniger Koeffizienten benötigt, um ein derartiges vereinfachtes Bewegungsfeldmodell zu beschreiben.
Der folgende iterative Vorgang wird ausgeführt, um das optimale Bewegungsvektorfeld zu finden.
Schritt A: Anfängliche Kostenberechnung. Die Lagrangian-Kosten für das Segment werden für das vollständige Bewegungsmodell bewertet und zusammen mit einer vollständigen Menge aus Bewegungskoeffizienten gespeichert.
Schritt B: Ermitteln der Basisfunktion mit dem geringsten Einfluß auf die Vorhersagequalität. R_k ⁿ soll eine obere diagonale charakteristische n × n-Matrix, in der n Basisfunktionen verbleiben, und R_k ^n,i soll dieselbe Matrix, bei der die i-te Spalte entfernt wurde, bezeichnen. Es werden n Mengen aus Gleichungen erzeugt, wobei jeweils die i-te Spalte von der Matrix R_k ⁿ entfernt ist und das i-te Element vom Vektor c_k ⁿ entfernt ist: Rk n,ick n,i = zk n, i = 1, ..., n (15)
Alle erzeugten Gleichungen werden in bekannter Weise in Dreieckform gebracht, indem eine Reihe von Multiplikationen der Zeilen mit skalaren Größen ausgeführt werden, woraufhin die Addition der Zeilen folgt, d. h. die Gleichung (15) wird in die folgende Form umgewandelt:
wobei (q_i)² eine Approximation des Anstiegs des quadratischen Vorhersagefeh lers infolge der Entfernung der i-ten Basisfunktion aus dem Bewegungsmodell ist. Die Spalte, die bei ihrer Entfernung den kleinsten Wert (q_i)² erzielt, ist die Spalte, die bei dieser Iteration entfernt wird, wodurch effektiv bewirkt wird, daß die i-te Basisfunktion aus dem Bewegungsmodell entfernt wird.
Schritt C: Entfernen einer Basisfunktion aus dem Modell. Eine neue Matrixgleichung wird aufgestellt, indem die Matrix R_k ^n,i und der Vektor z_k ^n,i ausgewählt werden, die der zu entfernenden Basisfunktion zugehörig sind, und die letzte Zeile der Matrix und das letzte Element des Vektors in der folgenden Weise entfernt werden:
Schritt D: Koeffizientenberechnung. Eine neue Menge aus Bewegungskoeffizienten für die reduzierte Menge aus Basisfunktionen wird berechnet, indem das dreieckförmige System Rk n–1ck n–1 = zk n–1 (18)z. B. durch Rücksubstitution gelöst wird.
Schritt E: Kostenberechnung. Die Lagrangian-Kosten für das Segment werden errechnet und gemeinsam mit der Menge aus Bewegungsparametern gespeichert, wenn dieses Modell das bisher beste Modell ist.
Schritt F: Endgültige Bewegungsmodellauswahl. Falls noch zu entfernende Basisfunktionen vorhanden sind, werden die Schritte B bis E wiederholt. Wenn aus dem Modell alle Basisfunktionen entfernt worden sind, wird der Ausgang erzeugt. Der Ausgang umfaßt Auswahlinformationen, die beschreiben, welche Basisfunktionen aus dem Bewegungsfeldmodell entfernt werden sollten, sowie neue Bewegungskoeffizienten, die den restlichen Basisfunktionen entsprechen. Sowohl die Auswahlinformationen als auch die Bewegungskoeffizienten werden an den Decodierer übertragen.
Der Hauptvorteil der vorliegenden Erfindung gegenüber Lösungen des Standes der Technik liegt in der Fähigkeit, den Umfang der Bewegungsinformationen um einen großen Faktor zu verringern, ohne einen starken Anstieg des Rekonstruktionsfehlers zu bewirken. Außerdem ist die Komplexität des Gesamtsystems gering, wodurch eine praktische Implementierung bei verfügbaren Signalprozessoren oder Universal-Mikroprozessoren möglich ist.
Der Block "Bewegungskoeffiziententfernung" ist ein sehr leistungsfähiges Werkzeug zur schnellen Anpassung des Bewegungsmodells an den momentanen Umfang und Typ der Bewegung in der Videoszene. Dieser Block kann verwendet werden, um eine große Anzahl von Bewegungsmodellen mit oder ohne Vorhersage der Bewegungsparameter zu testen. Ein starker Vorteil dieses Schemas besteht darin, daß es den Vorgang der Bewegungsschätzung nicht wiederholen muß, wenn das Bewegungsmodell geändert wird, und es ist somit berechnungstechnisch einfach. Durch die Verwendung der Bewegungsschätzung, der der Bewegungsanalysator folgt, kann der Bewegungsfeld-Codierer für jedes gewünschte Modell des Bewegungsfeldes durch das Lösen von einem System linearer Gleichungen, das berechnungstechnisch sehr einfach ist, neue Bewegungskoeffizienten finden.
In der bevorzugten Ausführungsform wird ein orthonormiertes affines Bewegungsvektorfeldmodell mit sechs Koeffizienten verwendet. In der Praxis kann dieses Modell sogar eine sehr komplexe Bewegung in Videosequenzen mit einem hohen Grad der Genauigkeit behandeln und erzielt gute Vorhersageergebnisse.
Das affine Bewegungsvektorfeld ist ein Bewegungsmodell, das verwendet werden kann, um Bewegungsvektoren mit einer Menge von Bewegungskoeffizienten näherungsweise zu bestimmen. Das affine Bewegungsmodell ermöglicht eine Beschreibung von verschiedenen Bewegungstypen, einschließlich translierende, rotatorische, zoomende und verwundene Bewegungen. Es enthält sechs Basisfunktionen, wobei die Bewegungsvektoren in diesem Fall im wesentlichen durch eine Summe ersetzt werden können, die sechs Basisfunktionen enthält, die mit Bewegungskoeffizienten multipliziert werden, wobei jeder Bewegungskoeffizient für eine bestimmte Basisfunktion berechnet wird. Die Basisfunktionen selbst sind sowohl dem Codierer als auch dem Decodierer bekannt.
Im Block 32 "Bewegungsanalysator" wird die Linearisierung von Schritt 1 unter Verwendung der Taylor-Erweiterung des Referenzbildes Ĩ_ref(x, y) an jedem Bildelement (x_i, y_i) in der Umgebung der Punkte ausgeführt, mit i = 1, 2, ..., P (wobei P die Anzahl der Bildelemente im Segment ist): xi' = xi + Δx(xi, yi) Yi' = yi + Δy(xi, yi) (19)
Unter Verwendung der Eigenschaft Σa² = Σ(–a)² lautet der Vorhersagefehler dann
Die Hilfswerte g_j(x, y) werden unter Verwendung der folgenden Formel berechnet:
wobei die Funktionen f_j(x_i, y_i) Basisfunktionen sind, die in Gleichung (4) definiert wurden. Die Matrix E_k und der Vektor y_k in Gleichung (9) werden unter Verwendung der folgenden Formeln gebildet:
G_x(x, y) und G_y(x, y) sind Werte des horizontalen und des vertikalen Gradienten des Referenzbildes Ĩ_ref(x, y), der unter Verwendung der Ableitung der wohlbekannten kubischen Spline-Interpolationsfunktion berechnet wird.
Die Faktoren der Matrix A_k werden unter Verwendung der Cholesky-Zerlegung bestimmt und das System in Formel (15) wird unter Verwendung einer Folge von Givens-Rotationen in Dreieckform gebracht.
Die Bewegungskoeffizienten für neue Bewegungsmodelle werden berechnet, indem die Gleichung (18) unter Verwendung eines Rücksubstitutions-Algorithmus gelöst wird.
Die Bildelementwerte von Ĩ_ref(x, y), G_x(x, y) und G_y(x, y) sind lediglich für ganzzahlige Koordinaten x und y definiert. Wenn x und y nicht ganzzahlig sind, werden die Bildelementwerte unter Verwendung der kubischen Spline-Interpolation berechnet, die ganzzahlige Bildelementwerte in der Umgebung von x und y verwendet.
6 zeigt eine Mobilstation MS gemäß einer Ausführungsform der Erfindung. Eine zentrale Verarbeitungseinheit, ein Mikroprozessor μP, steuert die Blöcke, die für verschiedene Funktionen der Mobilstation verantwortlich sind: einen Arbeitsspeicher RAM, einen Hochfrequenzblock RF, einen Festwertspeicher ROM, eine Benutzerschnittstelle UI mit einer Anzeige DPL und einer Tastatur KBD sowie einen Digitalkamera-Block CAM. Die Betriebsanweisungen des Mikroprozessors, d. h. der Programmcode und die Basisfunktionen der Mobilstation wurden bereits im voraus, z. B. während des Herstellungsvorgangs im ROM gespeichert. Der Mikroprozessor verwendet gemäß seinem Programm den RF-Block zum Senden und Empfangen von Nachrichten auf dem Funkweg. Der Mikroprozessor überwacht den Zustand der Benutzerschnittstelle UI und steuert den Digitalkamera-Block CAM. In Reaktion auf einen Benutzerbefehl weist der Mikroprozessor den Kamerablock CAM an, ein digitales Bild im RAM aufzuzeichnen. Wenn das Bild aufgenommen wurde oder alternativ während des Aufnahmevorgangs unterteilt der Mikroprozessor das Bild in Bildsegmente und berechnet Bewegungsfeldmodelle für die Segmente, um ein komprimiertes Bild zu erzeugen, wie in der vorhergehenden Beschreibung erläutert wurde. Ein Benutzer kann der Mobilstation befehlen, das Bild auf ihrer Anzeige anzuzeigen oder das komprimierte Bild unter Verwendung des RF-Blocks an eine andere Mobilstation, ein leitungsgebundenes Telephon, eine Fax-Vorrichtung oder eine andere Telekommunikationsvorrichtung zu senden. In einer bevorzugten Ausführungsform wird eine solche Übertragung des Bildes begonnen, sobald das erste Segment codiert ist, so daß der Empfänger den Decodierungsvorgang mit einer minimalen Verzögerung beginnen kann. In einer alternativen Ausführungsform umfaßt die Mobilstation einen Codiererblock ENC, der speziell für das Codieren und möglicherweise außerdem für das Decodieren von digitalen Videodaten vorgesehen ist.
7 ist ein Blockschaltplan eines Mobiltelekommunikationsnetzes gemäß einer Ausführungsform der Erfindung. Mobilstationen MS stehen über Funkverbindungen mit Basisstationen BTS in Kommunikation. Die Basisstationen BTS sind ferner über eine sogenannte Abis-Schnittstelle mit einem Basisstation-Controller BSC verbunden, der mehrere Basisstationen steuert und verwaltet. Das Gesamtsystem, das durch mehrere Basisstationen BTS (typischerweise einige Dutzend Basisstationen) und einen einzelnen Basisstation-Controller BSC gebildet wird, wird als ein Basisstationssystem BSS bezeichnet. Im einzelnen verwaltet der Basisstation-Controller BSC die Funkkommunikationskanäle und die Gesprächsübergaben. Der Basisstation-Controller BSC ist andererseits über die sogenannte A-Schnittstelle mit einem Mobildienst-Vermittlungszentrum MSC verbunden, das die Herstellung von Verbindungen sowohl von den Mobilstationen als auch zu diesen koordiniert. Eine weitere Verbindung wird über das Mobildienst-Vermittlungszentrum MSC in den Bereich außerhalb des Mobilkommunikationsnetzes hergestellt. Außerhalb des Mobilkommunikationsnetzes können sich weitere Netze, z. B. das Internet befinden, die über Gateways GTW (Anschlußstellen) an das Mobilkommunikationsnetz angeschlossen sind. In einem derartigen Netz oder im Mobilkommunikationsnetz können sich weitere Stationen, die Videosignale codieren oder decodieren, befinden, wie etwa Computer (PCs). In einer Ausführungsform der Erfindung umfaßt das Mobilkommunikationsnetz einen Videoserver, um Videodaten an eine MS zu senden, die bei einer derartigen Vorrichtung registriert ist. Diese Videodaten werden unter Verwendung des Verfahrens der bewegungskompensierten Videokomprimierung, das in diesem Dokument oben beschrieben wurde, komprimiert. Der Videoserver kann als Gateway zu einer Online-Videoquelle dienen oder kann vorher aufgezeichnete Videoclips (Video-Kurzfilme) enthalten.
Das System kann auf verschiedene Arten implementiert werden, ohne vom Erfindungsgedanken und vom Umfang der Erfindung abzuweichen. Es können z. B.:

– andere Bewegungsmodelle verwendet werden;
– an Stelle der Lagrangian-Kosten, die in Gleichung (5) angegeben sind, andere Kostenfunktionen verwendet werden;
– andere Verfahren verwendet werden, um den Term in der Formel (6) linear zu machen; und
– andere Algorithmen zur Bildung der Faktoren im Bewegungsanalysator verwendet werden (z. B. die QR-Zerlegung an Stelle der Cholesky-Zerlegung)
– Die Strategie zum Festlegen der Entfernungreihenfolge von Basisfunktionen kann variieren (es kann z. B. eine im voraus definierte Reihenfolge an Stelle der Bewertung der Werte q_i in der Gleichung (16) verwendet werden).
– Einige Bewegungsmodelle können im Block "Bewegungskoeffizientenentfernung" übersprungen werden (wenn z. B. einige Eingangskoeffizienten eine vernachlässigbare Amplitude besitzen, kann der Algorithmus entscheiden, die entsprechenden Basisfunktionen zu verwerfen).
– Die Kostenberechnung im Block "Bewegungskoeffizientenentfernung" muß nicht unmittelbar nach der Entfernung einer Basisfunktion stattfinden, sondern kann später erfolgen. Das bedeutet, daß im Block "Koeffizientenentfernung" an Stelle der Schritte B–E die Schritte B–D wiederholt werden können. Der Schritt E (Kostenberechnung) kann anschließend (für dieses Segment) in einer anderen Schleife für alle erzeugten Bewegungsmodelle ausgeführt werden.
– Die Bildung der Dreieckform des Systems von Gleichung (15) kann unter Verwendung verschiedener Algorithmen ausgeführt werden.
– Die Berechnung der endgültigen Koeffizienten durch Gleichung (18) kann ausgeführt werden, indem mehrere bekannte Algorithmen zum Lösen von Systemen aus linearen Gleichungen verwendet werden.
– Vorhersageterme in den Gleichungen (13) und (14) können alternativ aufgenommen werden, indem Bewegungsvektoren (Δx(x_i, y_i) und Δy(x_i, y_i)) in der Gleichung (23) durch Bewegungsvektorverfeinerungen (Differenzen zwischen geschätzten Bewegungsvektoren und vorhergesagten Bewegungsvektoren) ersetzt werden.
– Es können andere Interpolationsverfahren verwendet werden, um Werte von I_n–1(x, y), G_x(x, y) und G_y(x, y) bei nicht ganzzahligen Koordinaten zu erhalten.

Claims

Videocodierer für eine bewegungskompensierte Codierung von Videodaten, mit: Mitteln, die auf der Grundlage eines Referenzbildes einen ersten Bewegungsvektor für ein erstes Bildsegment S_k eines zu codierenden momentanen Bildes erzeugen; einem Bewegungsfeld-Codierer, der den ersten Bewegungsvektor codiert, um komprimierte Bewegungsinformationen zu schaffen, die einen ersten Bewegungskoeffizienten-Vektor c_k umfassen, der eine Menge aus Absolutbewegungskoeffizienten c_i enthält, derart, daß c_i·f_i(x, y) eine Approximation des ersten Bewegungsvektors repräsentiert, wobei f_i(x, y) eine Menge aus Basisfunktionen definiert und i ein Index ist, der Entsprechungen zwischen besonderen Basisfunktionen und Absolutbewegungskoeffizienten c_i definiert; Mitteln, die auf der Grundlage des Referenzbildes einen zweiten Bewegungsvektor für ein zweites Bildsegment S_I des anschließend zu codierenden momentanen Bildes erzeugen; Mitteln, die den zweiten Bewegungsvektor codieren, um komprimierte Bewegungsinformationen zu schaffen, die einen zweiten Bewegungskoeffizientenvektor c_I umfassen, der eine zweite Menge aus Absolutbewegungskoeffizienten c_j enthält, derart, daß c_j·f_j(x, y) eine Approximation des zweiten Bewegungsvektors für das zweite Bildsegment S_I repräsentiert, wobei f_j(x, y) eine Menge aus Basisfunktionen definiert und j ein Index ist, der Entsprechungen zwischen besonderen Basisfunktionen und Absolutbewegungskoeffizienten c_j definiert; und Mitteln, die auf der Grundlage des vorher erzeugten ersten Bewegungskoeffizientenvektors c_k einen vorhergesagten Bewegungskoeffizienten-Vektor p_I für das zweite Bildsegment S_I vorhersagen, der eine Menge aus vorhergesagten Bewegungskoeffizienten p_j enthält; dadurch gekennzeichnet, daß der Videocodierer ferner umfaßt: Mittel, die jeden der Absolutbewegungskoeffizienten c_j der zweiten Menge aus Absolutbewegungskoeffizienten als eine Summe aus einem entsprechenden vorhergesagten Bewegungskoeffizienten p_j und aus einem Verfeinerungsbewegungskoeffizienten r_j darstellen, wobei jeder der Verfeinerungsbewegungskoeffizienten r_j die Differenz zwischen einem der Absolutbewegungskoeffizienten c_j und dem entsprechenden vorhergesagten Bewegungskoeffizienten p_j repräsentiert; Mittel, die Werte für die Verfeinerungsbewegungskoeffizienten r_j bestimmen; und Mittel, die den zweiten Bewegungskoeffizientenvektor c_I für das zweite Bildsegment S_I als einen Vektor aus Verfeinerungsbewegungskoeffizienten r_j repräsentieren.
Videocodierer nach Anspruch 1, dadurch gekennzeichnet, daß jeder der Bewegungsvektoren durch ein affines Bewegungsmodell repräsentiert wird.
Videocodierer nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Absolutbewegungskoeffizienten, die Verfeinerungsbewegungskoeffizienten und die vorhergesagten Bewegungskoeffizienten zusammen mit den entsprechenden Basisfunktionen ein affines Bewegungsmodell repräsentieren.
Videocodierer nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Codierer ferner umfaßt: Mittel, die erste Kosten (L(S_I)) berechnen, die einen ersten Bildverzerrungsbetrag und eine erste Menge von Informationen, die für die Darstellung des Segments S_I mit dem ersten Verzerrungsbetrag erforderlich sind, darstellen und einer ersten Auswahl von Bewegungskoeffizienten entsprechen; Mittel, die zweite Kosten (L(S_I)) berechnen, die einen zweiten Bildverzerrungsbetrag und eine zweite Menge von Informationen, die für die Darstellung des Segments S_I mit dem zweiten Verzerrungsbetrag erforderlich sind, darstellen und einer zweiten Auswahl von Bewegungskoeffizienten entsprechen, wobei die zweite Auswahl von der ersten Auswahl verschieden ist; Mittel, die unter den ersten und zweiten Kosten jene auswählen, die näher bei vorgegebenen Maximalkosten liegen, diese jedoch nicht überschreiten; und Mittel, die Bewegungskoeffizienten c_j entsprechend den gewählten Kosten berechnen.
Videocodierer nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Codierer ferner umfaßt: Mittel, die für das zweite Bildsegment S_I eine Matrix E_I und einen Vektor y_I berechnen; Mittel, die ein im voraus definiertes Verzerrungsmaß für das zweite Segment als eine Funktion von E_jc_I – y_I berechnen, wobei c_I der zweite Bewegungsvektor ist, der die zweite Menge aus Absolutbewegungskoeffizienten c_j enthält; und Mittel, die aus der Matrix E_I und einem Vektor y_I eine diagonale Matrix R_I und einen entsprechenden Vektor z_I ^O erzeugen.
Videocodierer nach Anspruch 5, dadurch gekennzeichnet, daß er ferner Mittel umfaßt, die die Matrix R_I durch Zerlegung der Matrix A_I = E_I ^TE_I in eine niedrigere diagonale Matrix R_I ^T und ihre Transponierte R_I zerlegen, so daß A_l = R_l ^TR_l gilt.
Videocodierer nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß er ferner Mittel umfaßt, die einen Vektor z_I ^O dadurch erhalten, daß sie d_I = E_I ^Ty_I berechnen und die Menge von Gleichungen R_l ^Tz_l ^O = d_l lösen.
Videocodierer nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, daß er ferner Mittel umfaßt, die einen Ausgangsvektor z_l = z_l ^O – R_lp_l berechnen.
Speichervorrichtung, die einen Videocodierer nach einem der Ansprüche 1 bis 8 enthält.
Mobilstation, die einen Videocodierer nach einem der Ansprüche 1 bis 8 enthält.
Mobiltelekommunikationsnetz, das einen Videocodierer nach einem der Ansprüche 1 bis 8 enthält.
Computerprogrammprodukt, das einen Videocodierer nach einem der Ansprüche 1 bis 8 enthält.
Verfahren für die bewegungskompensierte Codierung von Videodaten, das die folgenden Schritte umfaßt: Erzeugen eines ersten Bewegungsvektors für ein erstes Bildsegment S_k eines zu codierenden momentanen Bildes auf der Grundlage eines Referenzbildes; Codieren des ersten Bewegungsvektors, um komprimierte Bewegungsinformationen zu schaffen, die einen ersten Bewegungskoeffizientenvektor c_k enthalten, der eine erste Menge aus Absolutbewegungskoeffizienten c_j umfaßt, derart, daß c_j·f_j(x, y) eine Approximation des ersten Bewegungsvektors repräsentiert, wobei f_j(x, y) eine Menge von Basisfunktionen definiert und i ein Index ist, der Entsprechungen zwischen besonderen Basisfunktionen und Absolutbewegungskoeffizienten c_j definiert; Erzeugen eines zweiten Bewegungsvektors für ein zweites Bildsegment S_I des anschließend zu codierenden momentanen Bildes auf der Grundlage des Referenzbildes; Codieren des zweiten Bewegungsvektors, um komprimierte Bewegungsinformationen zu schaffen, die einen zweiten Bewegungskoeffizientenvektor c_I enthalten, der eine zweite Menge aus Absolutbewegungskoeffizienten c_j enthält, derart, daß c_j·f_j(x, y) eine Approximation des zweiten Bewegungsvektors für das zweite Bildsegment S_I repräsentiert, wobei f_j(x, y) eine Menge aus Basisfunktionen definiert und j ein Index ist, der Entsprechungen zwischen besonderen Basisfunktionen und Absolutbewegungskoeffizienten c_j definiert; und Vorhersagen eines vorhergesagten Bewegungskoeffizientenvektors p_I für das zweite Bildsegment S_I, der eine Menge aus vorhergesagten Bewegungskoeffizienten p_j enthält, auf der Grundlage des ersten Bewegungskoeffizientenvektors c_k; dadurch gekennzeichnet, daß das Verfahren ferner umfaßt: Darstellen jedes der Absolutbewegungskoeffizienten c_j der zweiten Menge aus Absolutbewegungskoeffizienten als einer Summe aus einem entsprechenden vorhergesagten Bewegungskoeffizienten p_j und einem Verfeinerungsbewegungskoeffizienten r_j, wobei jeder der Verfeinerungsbewegungskoeffizienten r_j eine Differenz zwischen einem der Absolutbewegungskoeffizienten c_j und einem entsprechenden vorhergesagten Bewegungskoeffizienten p_j repräsentiert; Bestimmen von Werten für die Verfeinerungsbewegungskoeffizienten r_j; und Darstellen des zweiten Bewegungskoeffizientenvektors c_I als einen Vektor aus Verfeinerungsbewegungskoeffizienten r_j.
Verfahren nach Anspruch 13, dadurch gekennzeichnet, daß die Bewegungsvektoren durch ein affines Bewegungsmodell dargestellt werden.
Verfahren nach Anspruch 13 oder 14, dadurch gekennzeichnet, daß die Absolutbewegungskoeffizienten, die Verfeinerungsbewegungskoeffizienten und die vorhergesagten Bewegungskoeffizienten zusammen mit den entsprechenden Basisfunktionen ein affines Bewegungsmodell repräsentieren.
Verfahren nach einem der Ansprüche 13 bis 15, dadurch gekennzeichnet, daß das Verfahren ferner die folgenden Schritte umfaßt: Berechnen erster Kosten (L(S_I)), die einen ersten Bildverzerrungsbetrag und eine erste Menge von Informationen, die für die Darstellung des Segments S_I mit dem ersten Verzerrungsbetrag notwendig sind, repräsentieren und einer ersten Auswahl von Bewegungskoeffizienten entsprechen; Berechnen zweiter Kosten (L(S_I)), die einen zweiten Bildverzerrungsbetrag und eine zweite Menge von Informationen, die für die Darstellung des Segments S_I mit dem zweiten Verzerrungsbetrag erforderlich sind, repräsentieren und einer zweiten Auswahl von Bewegungskoeffizienten entsprechen, wobei die zweite Auswahl von der ersten Auswahl verschieden ist; Wählen jener Kosten unter den ersten und zweiten Kosten, die näher bei vorgegebenen maximalen Kosten liegen, diese jedoch nicht überschreiten; und Berechnen von Bewegungskoeffizienten c_j, die den gewählten Kosten entsprechen.
Verfahren nach einem der Ansprüche 13 bis 16, dadurch gekennzeichnet, daß das Verfahren ferner die folgenden Schritte umfaßt: Berechnen einer Matrix E_I und eines Vektors y_I für das zweite Bildsegment S_I; Berechnen eines im voraus definierten Verzerrungsmaßes für das zweite Segment S_I als eine Funktion von E_Ic_I – y_I, wobei c_I der zweite Bewegungsvektor ist, der die zweite Menge aus Absolutbewegungskoeffizienten c_j enthält; und Erzeugen einer diagonalen Matrix R_I und eines entsprechenden Vektors z_I ^O aus der Matrix E_I und aus einem Vektor y_I.
Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß das Verfahren ferner den Schritt umfaßt, bei dem die Matrix R_I dadurch erhalten wird, daß die Matrix A_I = E_I ^TE_I in eine niedrigere diagonale Matrix R_I ^T und ihre Transponierte R_I zerlegt wird, so daß A_l = R_l ^TR_l gilt.
Verfahren nach Anspruch 17 oder 18, dadurch gekennzeichnet, daß das Verfahren ferner den Schritt umfaßt, bei dem ein Vektor z_I ^O erhalten wird durch Berechnen von d_I = E_I ^Ty_I und durch Lösen der Menge von Gleichungen R_l ^Tz_l ^O = d_l.
Verfahren nach einem der Ansprüche 17 bis 19, dadurch gekennzeichnet, daß das Verfahren ferner die folgenden Schritte umfaßt: Berechnen eines Ausgangsvektors z_l = z_l ^O – R_lp_l.