DE69130190T2

DE69130190T2 - Hierarchisches Bewegungsabschätzungsverfahren in einer Bildsequenz

Info

Publication number: DE69130190T2
Application number: DE69130190T
Authority: DE
Inventors: Bertrand F-92045 Paris La Defense Chupeau; Michel F-92045 Paris La Defense Pecot
Original assignee: Thomson Multimedia SA
Current assignee: Vantiva SA
Priority date: 1990-06-06
Filing date: 1991-05-29
Publication date: 1999-04-22
Anticipated expiration: 2011-05-30
Also published as: DE69130190D1; KR920702517A; FR2663178A1; JPH05501188A; EP0460997B1; ATE171291T1; EP0460997A1; FR2663178B1; JP3614425B2; US5278915A; WO1991019264A1

Description

Die vorliegende Erfindung betrifft ein hierarchisches Bewegungsabschätzungsverfahren in einer Bildsequenz, das auf einer Zerlegung des Spektrums der Bilder in Unterbänder basiert.
Die bekannten Algorithmen zur Bewegungsabschätzung, die unmittelbar die Bilder bearbeiten und auf Lösungen mit einer Korrelation oder einem Gradienten basieren, ergeben bei großen Bewegungen in gleichmäßigen Bildbereichen keine zufriedenstellenden Ergebnisse. Die Berechnung der Felder des Versatzes durch eine hierarchische Kodierung, wie sie zum Beispiel in dem Artikel IEEE von Frank Glazer (conference à Washington, Juni 83) mit dem Titel "Scene Matching by Hierarchical Correlation" beschrieben wird, verwendet einen Aufbau mit einer Pyramide, der keine gute Genauigkeit im Verhältnis zu dem Berechnungsaufwand ermöglicht. Außerdem wird die Bewegung feiner Bilddetails im allgemeinen sehr schlecht wiedergegeben.
Der Zweck der Erfindung ist es, diese Nachteile zu umgehen.
Zu diesem Zweck ist die Aufgabe der Erfindung ein Verfahren zur hierarchischen Bewegungsschätzung in einer Bildsequenz, dadurch gekennzeichnet, daß eine hierarchische Zerlegung des Bildes durch Auflösungswerte erfolgt, daß eine Bewegung beim Wert der gröbsten Auflösung geschätzt wird und daß die Schätzung bei jedem Wert in dem Maße verfeinert wird, wie die Auflösung ansteigt.
Die Erfindung hat als Hauptvorteil, daß sie eine Berechnung eines Feldes von Versatzvektoren zwischen zwei aufeinanderfolgenden Bildern einer Sequenz ermöglicht. Dieses Feld kann durch jedes Pixel des Bildes definiert sein, mit einer Genauigkeit in dem Versatz unterhalb eines Pixels. Außerdem ermöglicht die Einführung der beiden Pyramiden von Bildern mit hohen Sequenz ermöglicht. Dieses Feld kann durch jedes Pixel des Bildes definiert sein, mit einer Genauigkeit in dem Versatz unterhalb eines Pixels. Außerdem ermöglicht die Einführung der beiden Pyramiden von Bildern mit hohen Frequenzen mit zunehmenden Auflösungen, die Bewegung von feinen Details des Bildes zu rekonstruieren, die bei einer einfachen
Schätzung mit nur einer Pyramide mit niedriger Frequenz nicht vorhanden wäre.
Das Verfahren gemäß der Erfindung hat ebenso den Vorteil, daß es in allen Vorrichtungen zur Verarbeitung von Bildern angewendet werden kann, die ein Feld der Bewegung nahe zu dem reellen Feld benötigen wie zum Beispiel Kodiervorrichtungen durch Kompensation der Bewegung in dem Teilbild, zum Beispiel Anwendungen für Fernsehen mit hoher Auflösung, oder auch Vorrichtungen zur Normenumsetzung 50 Hz/60 Hz, zur Entschachtelung von Halbbildern oder zur Umsetzung 50 Hz/100 Hz.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung, die anhand der beigefügten Zeichnung erfolgt.
Darin zeigen
- Fig. 1 eine Pyramide mit mehreren Auflösungen,
- Fig. 2 eine Zerlegung eines Bildes in Unterbänder,
- Fig. 3 eine Ausführungsform eines elementaren Aufbaus zur Zerlegung eines Bildes in Unterbänder,
- Fig. 4 eine Ausführungsform eines elementaren Aufbaus zur Rekonstruktion eines Bildes aus seinen Unterbändern,
- Fig. 5 einen Schnitt des Bildspektrums entlang drei aufeinanderfolgenden Iteratio-nen,
- Fig. 6 eine Baumstruktur der Zerlegung des Bildes am Ausgang einer Kaskade von drei elementaren Aufbauten,
- Fig. 7 einen Aufbau mit drei Pyramiden, gewonnen durch vier Auflösungswerte,
- Fig. 8 einen Bewegungsvektor, dargestellt zwischen zwei aufeinanderfolgenden Bildern,
- Fig. 9 und 10 zwei Beispiele für die Projektion der Versatzvektoren eines Bildes mit grober Auflösung zu einem Bild mit einer feineren Auflösung,
- Fig. 11 eine Darstellung von Wahlmöglichkeiten zwischen den vorgeschlagenen Versatzvektoren,
- Fig. 12 ein Beispiel der Fusion von Schätzungen bei den Pyramiden mit hoher Frequenz für die Berechnung der Schätzung bei der Pyramide mit niedriger Frequenz,
Fig. 13 eine Darstellung des Verarbeitungsalgorithmus, der für das erfindungsgemäße Verfahren durchgeführt wurde, und
- Fig. 14 eine Interpolationskurve, die es ermöglicht, die Bewegungsfelder mit einer Genauigkeit unterhalb eines Pixels zu schätzen.
Gemäß der Erfindung erfolgt die Analyse der Bewegung in einer Bildsequenz in hierarchischer Weise. Sie besteht darin, daß zunächst eine Bewegung bei einem groben Auflösungswert des Bildes geschätzt, und dann diese Schätzung verfeinert wird, in dem Maße, wie die Auflösung der verarbeiteten Bilder zunimmt.
Fig. 1 beschreibt eine Pyramide mit mehreren Bildauflösungen, bestehend aus einer Anordnung von Bildern mit der Auflösung 2-j, wobei j zu dem Intervall [o, j] gehört, dem Bild mit voller Auflösung entsprechend j = o. Auf diese Weise dient eine Schätzung einem Auflösungswert 2-j zur Auslösung einer Schätzung bei einem höheren Auflösungswert 2-(j-1). Die Erfindung verwendet drei derartige Pyramiden mit mehreren Auflösungen, eine Pyramide von Bildern mit niedrigen Frequenzen und zwei Pyramiden von Bildern mit hohen Frequenzen. Diese drei Pyramiden werden in üblicher Weise dadurch gewonnen, daß eine hierarchische Zerlegung in Unterbänder der Bilder angewendet wird.
Eine Form der Aufteilung des Spektrums eines Bildes ist in Fig. 2 entlang vier Frequenzbänder I&sub1;, I&sub2;, I&sub3; und I&sub4;, in einer zweidimensionalen orthonormierten Darstellung mit zwei Achsen wx und wY dargestellt, auf denen jeweils die räumlichen Frequenzen wx und wy aufgetragen sind, die jeweils in Zyklen durch die Größe und die Höhe des Bildes gemessen werden.
Das Band I&sub1; entspricht dem Bereich der niedrigen Frequenzen, und die drei anderen Bänder I&sub2;, I&sub3; und I&sub4; entsprechen dem Bereich mit hohen Frequenzen. Eine derartige Aufteilung kann zum Beispiel durch einen Aufteilungsaufbau erreicht werden, der in der in Fig. 3 dargestellten Art gebildet ist. Dieser Aufbau enthält eine erste Anordnung von eindimensionalen Hochpaßfiltern (H&sub1;), bezeichnet mit (1&sub1;, 1&sub2; und 1&sub3;), die mit Dezimierschaltungen mit dem Teilerfaktor zwei (2&sub2;, 2&sub2; und 2&sub3;) verbunden sind, und eine zweite Anordnung von eindimensionalen Tiefpaßfiltern (H&sub0;), bezeichnet mit (3&sub1;, 3&sub2; und 3&sub3;), die mit Dezimierschaltungen mit dem Tellerfaktor zwei (4&sub1;, 4&sub2; und 4&sub3;) verbunden sind. Die Filter 1&sub1; und 3&sub2; bewirken jeweils eine erste Filterung entlang den Spalten des an ihren Eingang angelegten Bildes.
Die Filter 1&sub2; und 3&sub1; bewirken eine Filterung entlang den Zeilen des Bildes für die Punkte, die durch das Hochpaßfilter 1&sub1; und den Dezimierer 2&sub1; bereits gefiltert und um den Faktor zwei verkleinert wurden. Die Filter 1&sub3; und 3&sub3; bewirken eine Filterung entlang den Zeilen des Bildes bei Punkten, die bereits durch das Tiefpaßfilter 3&sub2; und den Dezimierer 4&sub1; gefiltert und um den Faktor zwei verringert wurden. Die Ausgangssignale der Filter 3&sub3;, 1&sub3;, 3&sub1; und 1&sub2; werden ihrerseits um den Faktor zwei verringert, um jeweils die Zerlegung des Ausgangsbildes I in die vier Unterbänder I&sub1;, I&sub2;, I&sub3; und I&sub4; der Fig. 2 zu bewirken.
Die Rekonstruktion des Bildes I aus den Teilbildern I&sub1;, I&sub2;, I&sub3; und I&sub4; kann in der in Fig. 4 dargestellten Weise mittels Filter (G&sub1;) 5&sub1; bis 5&sub3; und Filter (G&sub0;) 5&sub4;, 5&sub6; und 5&sub7; mit einer Übertragungsfunktion erfolgen, die in der komplexen Ebene der komplexen Variablen Z durch folgende Gleichungen definiert ist:
G&sub0;(Z) = 2 H&sub1;(-Z) / D(Z) (1)
G&sub1;(Z) = -2 H&sub0;(-Z) / D(Z) (2)
worin D (Z) = H(Z). H&sub1;(-Z) -H&sub0;(-Z). H&sub1;(Z) (3).
In Fig. 4 werden die in den Unterbändern I&sub1;, I&sub2;, I&sub3; und I&sub4; erhaltenen Bildelemente jeweils Eingängen von Filtern 5&sub6;, 5&sub2;, 5&sub4; und 5&sub1; mit Überabtastungen mit dem Faktor zwei, jeweils bezeichnet mit 6&sub1;, 6&sub4;, zugeführt.
Die Ausgangsspannungen der Filter 5&sub1;, 5&sub4; einerseits und 5&sub2;, 5&sub6; andererseits werden jeweils Addierschaltungen 7&sub1;, 72 zugeführt. Die Ausgangsspannungen der Addierschaltungen 7&sub1;, 7&sub2; werden jeweils über Abtaststufen 8&sub1;, 8&sub2; jeweiligen Filtern 5&sub5;, 5&sub7; zugeführt. Das resultierende Bild I ergibt sich an dem Ausgang einer Addierschaltung (9), die jeweils an Ausgänge der Filter 5&sub5;, 5&sub7; angeschlossen ist.
Die Filter G&sub0; und G&sub1;, die durch die Gleichungen (1) und (2) beschrieben werden, ermöglichen eine vollständige Rekonstruktion des Ursprungsbildes, wie auch immer die Filter H&sub0; und H&sub1; sein mögen. Dennoch ist es aus Gründen der digitalen Stabilität in dem arithmetischen Abschluß vorzuziehen, Filter mit einem endlichen Impulsverhalten (RIF = reponse impulsionelle finie) anzuwenden. Außerdem können die Filter RIF mit einem endlichen Impulsverhalten mit einer linearen Phase versehen werden, die besser an die Verarbeitung der Bilder angepaßt ist, insbesondere dann, wenn die mittleren Auflösungen entsprechenden, gefilterten Bilder von Interesse sind. Unter diesen Bedingungen sollten die Filter für die Rekonstruktion Übertragungsfunktionen aufweisen, die folgendermaßen definiert sind:
G&sub0;(Z) = 2H&sub1;(-Z) (4)
und
G&sub1;(Z)= -2H&sub0;(-Z) (5)
Die Gleichungen (4) und (5) haben den Vorteil, daß sie eine Überlappung zwischen den Bändern unterdrücken.
Die Bedingung für eine vollständige Rekonstruktion des Ursprungsbildes läßt sich folgendermaßen ausdrücken: D (Z) = ZL.
Zum Beispiel könnte es benutzt werden, die Filter H&sub0; und H&sub1; als Filter auszubilden, die bekannt sind unter den Abkürzungen "QMF" oder "CQF" für "Quadrature Miror Filter" oder "Conjugate Quadrature Filter", für die Beschreibungen in den folgenden Artikeln zu finden sind:
- von M. J. D Johnston mit dem Titel "Filter family design for use in quadrature miror filter" und veröffentlicht in Proceeding ICAST 1980, Seiten 291-294; oder von M. K. J. Smith und TP Barnwell mit dem Titel "Exact reconstruction technics for tree structured subband codors", veröffentlicht in der Zeitschrift IEEE ASSP, Band 34, Nr. 3, Juni 1986;
oder auch in der Dissertation von M. C. Galand mit dem Titel "Codage en sous Bande, theorie et application à la compression numerique du signal de parole". Nizza 1983.
Die Anordnung der elementaren Aufbauten für die Zerlegung von dem Typ, wie er in den Fig. 3 und 4 beschrieben wurde, hat den Vorteil, daß sie Aufteilungen des Spektrums entsprechend vielen verschiedenen Formen ermöglicht. Eine hierarchische Aufteilung des Spektrums wird für die Bewegungsschätzung verwendet.
Ein Beispiel, das drei Aufbauten für die Aufteilung verwendet, ist in Fig. 5 dargestellt, und die entsprechende Baumstruktur der Zerlegung ist in Fig. 6 gezeigt.
Diese Zerlegung bildet direkt drei Pyramiden von Bildern mit hohen Frequenzen und mit zunehmender Auflösung.
In Fig. 5 werden die Bilder mit hohen Frequenzen, die sich in der Richtung der Horizontalachse X der Frequenzen des Bildes erstrecken, durch die Blöcke 3.2-2.2 und 1.2 gebildet. Die Bilder mit hohen Frequenzen, die sich in der Richtung Y der Vertikalachse der Frequenzen erstrecken, werden durch die Blöcke 3.3-2.3 und 1.3 gebildet, und die Bilder mit hohen Frequenzen entlang den Richtungen X und Y werden durch die Blöcke 3.4- 2.4 und 1.4 gebildet.
Jedes Bild entspricht im Aufbau einem bestimmten Typ von Bilddetails, insbesondere die vertikalen Konturen für die erste, die horizontalen Konturen für die zweite.
Nur diese beiden ersten Pyramiden werden wirksam für die Bewegungsschätzung verwendet: die erste dient dazu, die horizontale Bewegung der vertikalen Konturen des Bildes klarzustellen, und die zweite dazu, die vertikale Bewegung der horizontalen Konturen des Bildes klarzustellen. Die dritte Pyramide wird aufgrund der Tatsache nicht berücksichtigt, daß die Art der Bilder, die sie bilden, im allgemeinen zu sehr gestört ist.
Die Zerlegung gemäß den Fig. 5 und 6 macht es ebenso möglich, eine Pyramide von Bildern mit niedrigen Frequenzen zu bilden, die aus den Blöcken I&sub3;&sub1;, I&sub2;&sub1;, I&sub1;&sub1; und I zusammengesetzt ist, wenn sie bei jeder Stufe des Bildes I&sub1; der Fig. 2 von der Tiefpaßfilterung der Zeilen und der Spalten und einer Unterabtastung um den Faktor zwei berücksichtigt wird.
Ein Aufbau mit drei Pyramiden, entsprechend vier Auflösungswerten, ist in Fig. 7 dargestellt. Dieser Aufbau zeigt, daß es bei jedem Auflösungswert immer drei Bilder gibt, ein Bild mit niedrigen Frequenzen, ein Bild mit hohen Frequenzen entlang der Horizontalachse und ein Bild mit hohen Frequenzen entlang der Vertikalachse.
Die Bestimmung des Feldes der Bewegung erfolgt durch eine Berechnung der hierarchischen Schätzung für diese drei Pyramiden. Es handelt sich, wie die Fig. 8 für jedes Pixel X = (i, j) eines laufenden Bildes I(t) zeigt, darum, das Pixel Xp = (i' - j') zu bestimmen, das dem in dem vorangehenden Bild I(t - 1) entspricht. Der Bewegungsvektor D (X) ist definiert duch:
D = (i' - i, j' - j) und ist derart, daß:
I (t - 1, Xp) = I(t, X)
Das allgemeine Prinzip der Bewegungsschätzung kann folgendermaßen beschrieben werden: es werden drei hierarchische Schätzungen parallel für die drei Pyramiden durchgeführt. Die beiden für die Pyramiden mit hohen Frequenzen gewonnenen Schätzungen dienen nur dazu, bei jedem Auflösungswert die für die Pyramide mit niedriger Frequenz erhaltene Schätzung anzureichern (die die wirklich nützliche Information darstellt). Das erfolgt durch eine Fusion der Information, die aus den drei Pyramiden bei jedem Auflösungswert gewonnen wird, wobei die resultierende Schätzung der Pyramide mit niedriger Frequenz zugeteilt wird.
Jede hierarchische Schätzung läuft in der folgenden Weise ab:
Der berechnete Versatz, in dem Punkt, der in dem Bild einem geringeren Auflösungswert entspricht, dient für die Voraussage bei der Schätzung eines höheren Auflösungswertes.
Wenn D2 -(j + 1) den für ein Bild mit der Auflösung 2-(j+1) berechneten Vektor bezeichnet und D&sub2;-j den Vektor zur Berechnung bei dem Bild bei der laufenden Auflösung 2-j, dann ist D&sub2;-j gegeben durch
D&sub2;-j = 2 · D&sub2; - (j + 1) + dD.
Das führt dazu, den Vektor dD zu schätzen, der eine geringe Änderung um die Voraussage darstellt, die gleich dem Zweifachen des geschätzten Vektors bei dem vorangehenden Auflösungswert ist, der den Faktor der Unterabtastung ergibt.
In erster Nährung kann, wie in Fig. 9 gezeigt ist, die Bewegung eines Punktes beim unteren Wert als mögliche Auslösung der Bewegung von vier Punkten bei dem betrachteten Auflösungswert verwendet werden.
Dennoch bietet eine derartige Näherung nur eine einzige mögliche Auslösung (oder Voraussage) für die Schätzung der Bewegung in jedem Punkt des betrachteten Wertes.
Es scheint realistischer, die erhaltene Schätzung auf einen geringeren Wert für 16, die ihn bei einem höheren Auflösungswert umgeben, zu projizieren. Wie Fig. 10 zeigt, werden vier mögliche Voraussagen in jedem Punkt dieses Wertes anstelle einer einzigen durchgeführt, was nur die Schätzung verbessern kann. Für den Punkt 10 dieser Figur wird ihr Anteil für die Voraussage für 16 Punkte der feineren Auflösung verwendet, und der Punkt 11 des feinen Wertes verwendet für die Voraussage 4 Punkte mit einem groben Wert. Für jeden Auflösungswert wird eine Korrektur von ±1 Pixel um den Voraussagewert zugelassen.
Wie die Fig. 11 zeigt, führt das dazu, daß neun mögliche Vektoren um 4 Voraussagevektoren D&sub0; herum geprüft werden, wobei die Abweichung des Vektors dD auf ±1 Pixel in X und in Y begrenzt wird.
Diese Begrenzung in der Abweichung des Vektors dD auf ±1 Pixel legt die Maximalamplitude der zu schätzenden Bewegung fest. Natürlich entsprechen, wenn man N Zerlegungswerte betrachtet, 1 Pixel mit dem Auflösungswert k 2k-1 Pixel bei dem Ursprungsbild (zum Beispiel der Wert 1). Wenn man den Voraussagewert 0 beim gröbsten Wert k wählt, wird die maximale, am Ausgang der Pyramide geschätzte Bewegung:
Das entspricht zum Beispiel einer maximalen Bewegungsamplitude von 31 Pixeln für eine Zerlegung auf 5 Werte.
Bei einem bestimmten Auflösungswert verfügt man in jedem Punkt über vier mögliche Voraussagen, die jeder, wie Fig. 11 zeigt, neun mögliche Vektoren erzeugen. Die Wahl des Bewegungsvektors im betrachteten Punkt muß jedoch unter 36 Vektoren erfolgen. Der gewählte Vektor ist derjenige, der den Ausfallfehler (l'erreur de recalage) auf einem Fenster von 3 · 3 Pixeln minimiert, das um den betrachteten Punkt zentriert ist.
Wenn man bezeichnet mit h das laufende Bild,
It-1 das vorangehende Bild
und mit Dx = (U, V) den Versatzvektor, geprüft durch den Punkt
x mit den Koordinaten (i, j), ist der Ausfallfehler gegeben durch die Differenz zwischen den versetzten Bildern DFD (X, D):
DFD(X, D) = (I(t-1,j+k-u(X),j+1-V(X) - I(t,i &sbplus; k, j &sbplus; 1))²
k = -1, 1
1 = -1, 1
Der gewählte Versatzvektor D ist derjenige, der die geringste Differenz zwischen dem versetzten Bild DFD (X, D) ergibt.
Wenn jedoch die Schätzung in einem gleichförmigen Bereich des Bildes stattfindet und Werte von null für die Differenzen zwischen den versetzten Bildern DFD (X, D) ergibt, welches auch der vorgeschlagene Vektor ist, ist das vorgenannte Kriterium nicht mehr zutreffend, und es besteht wieder eine Gefahr einer Abweichung des Algorithmus.
Dieses Problem wird gelöst, indem eine Untersuchung für die bestehende Differenz zwischen dem Minimalwert der Anordnung der Differenzen zwischen versetzten Bildern DFD (X, D) und dem Maximalwert durchgeführt wird.
Wenn diese Differenz zu gering ist, geht man dazu über, immer denselben Voraussagewert unter den vier möglichen Voraussagewerten zu behalten. Derartige vorausgehende Schätzungen erfolgen in unabhängiger Weise für die beiden zuvor beschriebenen Pyramiden mit hohen Frequenzen.
Für die Schätzung bei der Pyramide mit niedrigen Frequenzen wird bei jedem Auflösungswert das Feld der geschätzten Bewegung durch die Fusion der Detailinformationen aus den hohen Frequenzen angereichert.
Da die Bilder mit hohen Frequenzen die überwiegende Zeit beim Wert null sind, ausgenommen bei den Konturen der Objekte, sind die geschätzten Bewegungen bei diesen Konturen dafür interessant, die geschätzte Bewegung bei der Pyramide mit niedrigen Frequenzen zu verfeinern, und die Informationen bei den gestörten Bereichen der Bilder mit hohen Frequenzen werden nicht berücksichtigt. Das erfolgt dadurch, indem ein Schwellwert für die Richtigkeit für die Bilder mit hohen Frequenzen festgelegt wird, bevor die entsprechende berechnete Bewegung angehalten wird.
Dieser Schwellwert wird in Abhängigkeit von der Varianz oder dem Quadrat der mittleren Abweichung V des betrachteten Unterbandes festgesetzt. Ein Punkt eines Unterbandes mit hoher Frequenz wird unter diesen Bedingungen berücksichtigt, wenn der Absolutwert der Helligkeit in diesem Punkt oberhalb KV liegt. Es sei bemerkt, daß die Unterbänder mit hohen Frequenzen im Mittel null sind. Ein Beispiel der Fusion ist in Fig. 12 dargestellt. In dieser Figur entsprechen jedem Punkt Xi des Bildes mit niedriger Frequenz Punkte Xix und Xjy bei den Bildern mit hohen Frequenzen in den Richtungen X und Y.
Vier Fälle der Figuren sind als abhängig von der Tatsache anzusehen, ob der Schwellwert in einem oder mehreren der vier Bänder der Bilder erreicht werden kann.
In einem ersten Fall, wenn der Schwellwert weder bei X noch bei Y erreicht wird, bedeutet das, daß keine Informationen bei den hohen Frequenzen vorliegen und die in Betrachtung gezogene Bewegung diejenige ist, die bei den niedrigen Frequenzen geschätzt wurde.
In einem zweiten Fall, wo der Schwellwert bei XX und nicht bei Xy erreicht wird, erfolgt die Wahl zwischen zwei möglichen Versatzvektoren: der eine: DBF = (U(X)), V(X)) geschätzt bei den niedrigen Frequenzen, der andere: DHF = (U(Xx), V(X)), dessen Komponente in X bei den hohen Frequenzen geschätzt wird.
In einem dritten Fall, wo der Schwellwert in Xy und nicht in Xx erreicht wird, erfolgt die Wahl zwischen zwei Versatzvektoren, der eine:
DBF = (U(x), V(x)), geschätzt für die niedrigen Frequenzen, und der andere:
DHF = (U(x), V(Xy)), dessen Komponente in Y für die hohen Frequenzen geschätzt wird.
Schließlich erfolgt, ensprechend einem vierten Fall, wo der Schwellwert in Xx und in Xy erreicht wird, die Wahl zwischen vier Vektoren.
Ein erster: DBF = (U(X), V(X)), geschätzt für niedrige Frequenzen,
ein zweiter: DHF1 (U(Xx), V(x)), dessen Komponente in X für die hohen Frequenzen geschätzt wird,
ein dritter: DHF2 = (U(X), V(Xy)), dessen Komponente in Y für die hohen Frequenzen geschätzt wird,
und ein vierter: DHF3 = (U(Xx), V(Xy)), dessen Komponente für die hohen Frequenzen in X und Y geschätzt wird.
In allen diesen Fällen ist der gewählte Vektor derjenige, der den Ausfallfehler für das Bild mit niedrigen Frequenzen minimiert.
Auf diese Weise berücksichtigt die Schätzung bei der Pyramide mit niedrigen Frequenzen bei jedem Wert die Schätzungen bei den Bildern mit Details bei demselben Wert. Dieses fusionierte Feld wird im folgenden, wie in Fig. 13 gezeigt, als Voraussage der Schätzung bei dem folgenden Wert verwendet.
Auf diese Weise erfolgt bei jedem in Fig. 13 dargestellten Auflösungswert 2, 3 und 4 eine Schätzung in jedem Unterband mit einer Voraussage der Schätzung in demselben Unterband oder vorangehenden Wert, und es erfolgt eine Fusion der drei Schätzungen, die auf das Unterband mit niedrigen Frequenzen zurückgehen.
Die Schätzung beim Wert 1 erfolgt in dem Ursprungsbild und für eine Voraussage der Fusion der Schätzungen beim Wert 2.
Natürlich kann die Genauigkeit der Schätzung mit 1 Pixel aus dem letzten Auflösungswert des Bewegungsfeldes noch verbessert werden, indem zum Beispiel das Ursprungsbild mit 2 oder 4 usw. angesprochen wird oder mehrere der Punkte in X und Y angesprochen werden, um Schätzungsgenauigkeiten von 1/2, 1/4 usw. 1/2K Pixeln zu erlangen. Da jedoch diese Lösung schnell sehr kostspielig werden kann, sollte man vorziehen, ein schnelles Interpolationsverfahren anzuwenden, das darin besteht, das Minimum jeder Differenz zwischen versetzten Bildern DFD in Abhängigkeit von einer der beiden Variablen U und V zu ermitteln, wobei die andere konstant bleibt, wie das in Fig. 14 dargestellt ist, wo die Kurve DFD für ein konstantes V abgebildet ist.
Die Abbildung der Kurve erfolgt durch drei Werte von U (U - 1, U und U + 1). Die derart erhaltene Parabel zeigt ein Minimum bei dem Abszissenwert DX, der die Komponente des Versatzes bei X ist. Derselbe Vorgang kann in der Richtung Y des Bildes erfolgen. Man erhält auf diese Weise einen reellen Versatzvektor D = (Dx, Dy) mit einer Genauigkeit unterhalb eines Pixel. Dieses Verfahren ist in seiner Wirkung sehr schnell, da bei der Wahl das Kriterium DFD (U, V) für 9 dem gewählten Vektor benachbarte Vektoren berechnet wird. Im ungünstigsten Fall, wo der gewählte Vektor auf einer der Ecken des dargestellten Quadrates mit Pixeln liegt, bestehen nur zwei Werte von DFD (D) für die Berechnung, um die Interpretation durch die Parabel zu bewirken. Andererseits gibt es keinen Wert für die Berechnung, wenn er im Mittelpunkt liegt, und einen einzigen Wert für die Berechnung für die anderen Punkte.

Claims

1. Verfahren zur hierarchischen Bewegungsabschätzung in einer Bildsequenz mit einer hierarchischen Zerlegung des Bildes durch Auflösungswerte (I&sub3;&sub1;, I&sub3;&sub2;, I&sub3;&sub3;; I&sub2;&sub1;, I&sub2;&sub2;, I&sub2;&sub3;; I&sub1;&sub1;, I&sub1;&sub2;, I&sub1;&sub3;, I) und einer Schätzung einer Bewegung beim gröbsten Auflösungswert (I&sub3;&sub1;, I&sub3;&sub2;, I&sub3;&sub3;) und einer Verfeinerung der Schätzung bei jedem Wert in dem Maße, wie die Auflösung ansteigt, dadurch gekennzeichnet, daß

drei Pyramiden von Bildern mit zunehmenden Auflösungen gebildet werden, eine Pyramide mit Bildern mit niedrigen Frequenzen (I&sub3;&sub1;, I&sub2;&sub1;, I&sub1;&sub1;) und zwei Pyramiden von Bildern mit hohen Frequenzen entlang der horizontalen Richtung (I&sub3;&sub2;, I&sub2;&sub2;, I&sub1;&sub2;) und der vertikalen Richtung (I&sub3;&sub3;, I&sub2;&sub3;, I&sub1;&sub3;) der Bilder.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Analyse der Bewegung mittels einer hierarchischen Zerlegung in Unterbänder des analysierten Bildes erfolgt, indem bei jedem Wert der Zerlegung das niedrige Frequenzband (I&sub1;) und die hohen Frequenzbänder (I&sub2;, I&sub3;) die vertikalen bzw. die horizontalen Konturen des Bildes darstellen.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Bewegung jedes Punktes des laufenden Bildes geschätzt wird, indem eine Übereinstimmung eines Blocks von Punkten N x N, zentriert um den laufenden Punkt, mit den homologen Punkten in dem vorangehenden Bild hergestellt wird, wobei die Untersuchung des Versatzes beim laufenden Wert der Auflösung um dem beim vorangehenden Wert berechneten Versatz erfolgt.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, da die Schätzung Punkt für Punkt der Bewegung in einer hierarchischen Weise für jede der drei Pyramiden erfolgt.

5. Verfahren nach einem der Ansprüche 3 und 4, dadurch gekennzeichnet, daß für jede Schätzung und bei einem bestimmten Wert der Auflösung vier Voraussagevektoren verwendet werden, wobei diese Vektoren durch die Zuweisung jedes Schätzungsvektors eines Punktes des Auflösungswertes unterhalb 16 entsprechenden Punkten gewonnen werden, die den Punkt bei dem betrachteten Auflösungswert umgeben.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß für den Beginn einer Schätzung bei einem festgelegten Auflösungswert vier Voraussagevektoren (Do) für den unteren Auflösungswert verwendet werden und in der Nachbarschaft jedes der vier Vektoren der Versatzvektor (Do) untersucht wird, der die geringste Differenz zwischen versetzten Bildern (DFD) ergibt.

7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Bewegungsschätzung unabhängig für jede Pyramide der Bilder mit hohen Frequenzen erfolgt und daß die Bewegungsschätzung eines Bildes mit niedrigen Frequenzen bei einem bestimmten Auflösungswert dadurch erfolgt, daß unter den Komponenten der Schätzvektoren mit hohen Frequenzen und mit niedrigen Frequenzen diejenigen ausgewählt werden, die den Ausfallfehler bei dem Bild mit niedrigen Frequenzen minimieren.

8. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß immer derselbe Voraussagevektor in den gleichmäßigen Bereichen des Bildes gespeichert wird.

9. Verfahren nach einem der Ansprüche 6-8, dadurch gekennzeichnet, daß der parabelförmige Verlauf der Differenz zwischen dem verschobenen Bild (DFD) als Funktion jedes Koordinatenwertes des Bewegungsvektors ausgewertet wird und der Versatzvektor als Funktion des Minimums dieser Auswertung berechnet wird.