-
Die vorliegende Erfindung betrifft ein hierarchisches
Bewegungsabschätzungsverfahren in einer Bildsequenz, das auf einer
Zerlegung des Spektrums der Bilder in Unterbänder basiert.
-
Die bekannten Algorithmen zur Bewegungsabschätzung, die unmittelbar die
Bilder bearbeiten und auf Lösungen mit einer Korrelation oder einem
Gradienten basieren, ergeben bei großen Bewegungen in gleichmäßigen
Bildbereichen keine zufriedenstellenden Ergebnisse. Die Berechnung der
Felder des Versatzes durch eine hierarchische Kodierung, wie sie zum
Beispiel in dem Artikel IEEE von Frank Glazer (conference à Washington,
Juni 83) mit dem Titel "Scene Matching by Hierarchical Correlation"
beschrieben wird, verwendet einen Aufbau mit einer Pyramide, der keine
gute Genauigkeit im Verhältnis zu dem Berechnungsaufwand ermöglicht.
Außerdem wird die Bewegung feiner Bilddetails im allgemeinen sehr
schlecht wiedergegeben.
-
Der Zweck der Erfindung ist es, diese Nachteile zu umgehen.
-
Zu diesem Zweck ist die Aufgabe der Erfindung ein Verfahren zur
hierarchischen Bewegungsschätzung in einer Bildsequenz, dadurch
gekennzeichnet, daß eine hierarchische Zerlegung des Bildes durch
Auflösungswerte erfolgt, daß eine Bewegung beim Wert der gröbsten
Auflösung geschätzt wird und daß die Schätzung bei jedem Wert in dem
Maße verfeinert wird, wie die Auflösung ansteigt.
-
Die Erfindung hat als Hauptvorteil, daß sie eine Berechnung eines Feldes
von Versatzvektoren zwischen zwei aufeinanderfolgenden Bildern einer
Sequenz ermöglicht. Dieses Feld kann durch jedes Pixel des Bildes definiert
sein, mit einer Genauigkeit in dem Versatz unterhalb eines Pixels. Außerdem
ermöglicht die Einführung der beiden Pyramiden von Bildern mit hohen
Sequenz ermöglicht. Dieses Feld kann durch jedes Pixel des Bildes definiert
sein, mit einer Genauigkeit in dem Versatz unterhalb eines Pixels. Außerdem
ermöglicht die Einführung der beiden Pyramiden von Bildern mit hohen
Frequenzen mit zunehmenden Auflösungen, die Bewegung von feinen
Details des Bildes zu rekonstruieren, die bei einer einfachen
-
Schätzung mit nur einer Pyramide mit niedriger Frequenz nicht vorhanden
wäre.
-
Das Verfahren gemäß der Erfindung hat ebenso den Vorteil, daß es in allen
Vorrichtungen zur Verarbeitung von Bildern angewendet werden kann, die
ein Feld der Bewegung nahe zu dem reellen Feld benötigen wie zum
Beispiel Kodiervorrichtungen durch Kompensation der Bewegung in dem
Teilbild, zum Beispiel Anwendungen für Fernsehen mit hoher Auflösung,
oder auch Vorrichtungen zur Normenumsetzung 50 Hz/60 Hz, zur
Entschachtelung von Halbbildern oder zur Umsetzung 50 Hz/100 Hz.
-
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der
folgenden Beschreibung, die anhand der beigefügten Zeichnung erfolgt.
-
Darin zeigen
-
- Fig. 1 eine Pyramide mit mehreren Auflösungen,
-
- Fig. 2 eine Zerlegung eines Bildes in Unterbänder,
-
- Fig. 3 eine Ausführungsform eines elementaren Aufbaus zur Zerlegung
eines Bildes in Unterbänder,
-
- Fig. 4 eine Ausführungsform eines elementaren Aufbaus zur
Rekonstruktion eines Bildes aus seinen Unterbändern,
-
- Fig. 5 einen Schnitt des Bildspektrums entlang drei aufeinanderfolgenden
Iteratio-nen,
-
- Fig. 6 eine Baumstruktur der Zerlegung des Bildes am Ausgang einer
Kaskade von drei elementaren Aufbauten,
-
- Fig. 7 einen Aufbau mit drei Pyramiden, gewonnen durch vier
Auflösungswerte,
-
- Fig. 8 einen Bewegungsvektor, dargestellt zwischen zwei
aufeinanderfolgenden Bildern,
-
- Fig. 9 und 10 zwei Beispiele für die Projektion der Versatzvektoren eines
Bildes mit grober Auflösung zu einem Bild mit einer feineren Auflösung,
-
- Fig. 11 eine Darstellung von Wahlmöglichkeiten zwischen den
vorgeschlagenen Versatzvektoren,
-
- Fig. 12 ein Beispiel der Fusion von Schätzungen bei den Pyramiden mit
hoher Frequenz für die Berechnung der Schätzung bei der Pyramide mit
niedriger Frequenz,
-
Fig. 13 eine Darstellung des Verarbeitungsalgorithmus, der für das
erfindungsgemäße Verfahren durchgeführt wurde, und
-
- Fig. 14 eine Interpolationskurve, die es ermöglicht, die Bewegungsfelder
mit einer Genauigkeit unterhalb eines Pixels zu schätzen.
-
Gemäß der Erfindung erfolgt die Analyse der Bewegung in einer
Bildsequenz in hierarchischer Weise. Sie besteht darin, daß zunächst eine
Bewegung bei einem groben Auflösungswert des Bildes geschätzt, und dann
diese Schätzung verfeinert wird, in dem Maße, wie die Auflösung der
verarbeiteten Bilder zunimmt.
-
Fig. 1 beschreibt eine Pyramide mit mehreren Bildauflösungen, bestehend
aus einer Anordnung von Bildern mit der Auflösung 2-j, wobei j zu dem
Intervall [o, j] gehört, dem Bild mit voller Auflösung entsprechend j = o. Auf
diese Weise dient eine Schätzung einem Auflösungswert 2-j zur Auslösung
einer Schätzung bei einem höheren Auflösungswert 2-(j-1). Die Erfindung
verwendet drei derartige Pyramiden mit mehreren Auflösungen, eine
Pyramide von Bildern mit niedrigen Frequenzen und zwei Pyramiden von
Bildern mit hohen Frequenzen. Diese drei Pyramiden werden in üblicher
Weise dadurch gewonnen, daß eine hierarchische Zerlegung in Unterbänder
der Bilder angewendet wird.
-
Eine Form der Aufteilung des Spektrums eines Bildes ist in Fig. 2 entlang
vier Frequenzbänder I&sub1;, I&sub2;, I&sub3; und I&sub4;, in einer zweidimensionalen
orthonormierten Darstellung mit zwei Achsen wx und wY dargestellt, auf
denen jeweils die räumlichen Frequenzen wx und wy aufgetragen sind, die
jeweils in Zyklen durch die Größe und die Höhe des Bildes gemessen
werden.
-
Das Band I&sub1; entspricht dem Bereich der niedrigen Frequenzen, und die drei
anderen Bänder I&sub2;, I&sub3; und I&sub4; entsprechen dem Bereich mit hohen
Frequenzen. Eine derartige Aufteilung kann zum Beispiel durch einen
Aufteilungsaufbau erreicht werden, der in der in Fig. 3 dargestellten Art
gebildet ist. Dieser Aufbau enthält eine erste Anordnung von
eindimensionalen Hochpaßfiltern (H&sub1;), bezeichnet mit (1&sub1;, 1&sub2; und 1&sub3;), die mit
Dezimierschaltungen mit dem Teilerfaktor zwei (2&sub2;, 2&sub2; und 2&sub3;) verbunden
sind, und eine zweite Anordnung von eindimensionalen Tiefpaßfiltern (H&sub0;),
bezeichnet mit (3&sub1;, 3&sub2; und 3&sub3;), die mit Dezimierschaltungen mit dem
Tellerfaktor zwei (4&sub1;, 4&sub2; und 4&sub3;) verbunden sind. Die Filter 1&sub1; und 3&sub2; bewirken
jeweils eine erste Filterung entlang den Spalten des an ihren Eingang
angelegten Bildes.
-
Die Filter 1&sub2; und 3&sub1; bewirken eine Filterung entlang den Zeilen des Bildes für
die Punkte, die durch das Hochpaßfilter 1&sub1; und den Dezimierer 2&sub1; bereits
gefiltert und um den Faktor zwei verkleinert wurden. Die Filter 1&sub3; und 3&sub3;
bewirken eine Filterung entlang den Zeilen des Bildes bei Punkten, die
bereits durch das Tiefpaßfilter 3&sub2; und den Dezimierer 4&sub1; gefiltert und um den
Faktor zwei verringert wurden. Die Ausgangssignale der Filter 3&sub3;, 1&sub3;, 3&sub1; und
1&sub2; werden ihrerseits um den Faktor zwei verringert, um jeweils die Zerlegung
des Ausgangsbildes I in die vier Unterbänder I&sub1;, I&sub2;, I&sub3; und I&sub4; der Fig. 2 zu
bewirken.
-
Die Rekonstruktion des Bildes I aus den Teilbildern I&sub1;, I&sub2;, I&sub3; und I&sub4; kann in der
in Fig. 4 dargestellten Weise mittels Filter (G&sub1;) 5&sub1; bis 5&sub3; und Filter (G&sub0;) 5&sub4;, 5&sub6;
und 5&sub7; mit einer Übertragungsfunktion erfolgen, die in der komplexen Ebene
der komplexen Variablen Z durch folgende Gleichungen definiert ist:
-
G&sub0;(Z) = 2 H&sub1;(-Z) / D(Z) (1)
-
G&sub1;(Z) = -2 H&sub0;(-Z) / D(Z) (2)
-
worin D (Z) = H(Z). H&sub1;(-Z) -H&sub0;(-Z). H&sub1;(Z) (3).
-
In Fig. 4 werden die in den Unterbändern I&sub1;, I&sub2;, I&sub3; und I&sub4; erhaltenen
Bildelemente jeweils Eingängen von Filtern 5&sub6;, 5&sub2;, 5&sub4; und 5&sub1; mit
Überabtastungen mit dem Faktor zwei, jeweils bezeichnet mit 6&sub1;, 6&sub4;,
zugeführt.
-
Die Ausgangsspannungen der Filter 5&sub1;, 5&sub4; einerseits und 5&sub2;, 5&sub6; andererseits
werden jeweils Addierschaltungen 7&sub1;, 72 zugeführt. Die
Ausgangsspannungen der Addierschaltungen 7&sub1;, 7&sub2; werden jeweils über
Abtaststufen 8&sub1;, 8&sub2; jeweiligen Filtern 5&sub5;, 5&sub7; zugeführt. Das resultierende Bild I
ergibt sich an dem Ausgang einer Addierschaltung (9), die jeweils an
Ausgänge der Filter 5&sub5;, 5&sub7; angeschlossen ist.
-
Die Filter G&sub0; und G&sub1;, die durch die Gleichungen (1) und (2) beschrieben
werden, ermöglichen eine vollständige Rekonstruktion des Ursprungsbildes,
wie auch immer die Filter H&sub0; und H&sub1; sein mögen. Dennoch ist es aus
Gründen der digitalen Stabilität in dem arithmetischen Abschluß
vorzuziehen, Filter mit einem endlichen Impulsverhalten (RIF = reponse
impulsionelle finie) anzuwenden. Außerdem können die Filter RIF mit einem
endlichen Impulsverhalten mit einer linearen Phase versehen werden, die
besser an die Verarbeitung der Bilder angepaßt ist, insbesondere dann,
wenn die mittleren Auflösungen entsprechenden, gefilterten Bilder von
Interesse sind. Unter diesen Bedingungen sollten die Filter für die
Rekonstruktion Übertragungsfunktionen aufweisen, die folgendermaßen
definiert sind:
-
G&sub0;(Z) = 2H&sub1;(-Z) (4)
-
und
-
G&sub1;(Z)= -2H&sub0;(-Z) (5)
-
Die Gleichungen (4) und (5) haben den Vorteil, daß sie eine Überlappung
zwischen den Bändern unterdrücken.
-
Die Bedingung für eine vollständige Rekonstruktion des Ursprungsbildes läßt
sich folgendermaßen ausdrücken: D (Z) = ZL.
-
Zum Beispiel könnte es benutzt werden, die Filter H&sub0; und H&sub1; als Filter
auszubilden, die bekannt sind unter den Abkürzungen "QMF" oder "CQF" für
"Quadrature Miror Filter" oder "Conjugate Quadrature Filter", für die
Beschreibungen in den folgenden Artikeln zu finden sind:
-
- von M. J. D Johnston mit dem Titel "Filter family design for use in quadrature
miror filter" und veröffentlicht in Proceeding ICAST 1980, Seiten 291-294;
oder von M. K. J. Smith und TP Barnwell mit dem Titel "Exact reconstruction
technics for tree structured subband codors", veröffentlicht in der Zeitschrift
IEEE ASSP, Band 34, Nr. 3, Juni 1986;
-
oder auch in der Dissertation von M. C. Galand mit dem Titel "Codage en
sous Bande, theorie et application à la compression numerique du signal de
parole". Nizza 1983.
-
Die Anordnung der elementaren Aufbauten für die Zerlegung von dem Typ,
wie er in den Fig. 3 und 4 beschrieben wurde, hat den Vorteil, daß sie
Aufteilungen des Spektrums entsprechend vielen verschiedenen Formen
ermöglicht. Eine hierarchische Aufteilung des Spektrums wird für die
Bewegungsschätzung verwendet.
-
Ein Beispiel, das drei Aufbauten für die Aufteilung verwendet, ist in Fig. 5
dargestellt, und die entsprechende Baumstruktur der Zerlegung ist in Fig. 6
gezeigt.
-
Diese Zerlegung bildet direkt drei Pyramiden von Bildern mit hohen
Frequenzen und mit zunehmender Auflösung.
-
In Fig. 5 werden die Bilder mit hohen Frequenzen, die sich in der Richtung
der Horizontalachse X der Frequenzen des Bildes erstrecken, durch die
Blöcke 3.2-2.2 und 1.2 gebildet. Die Bilder mit hohen Frequenzen, die sich
in der Richtung Y der Vertikalachse der Frequenzen erstrecken, werden
durch die Blöcke 3.3-2.3 und 1.3 gebildet, und die Bilder mit hohen
Frequenzen entlang den Richtungen X und Y werden durch die Blöcke 3.4-
2.4 und 1.4 gebildet.
-
Jedes Bild entspricht im Aufbau einem bestimmten Typ von Bilddetails,
insbesondere die vertikalen Konturen für die erste, die horizontalen Konturen
für die zweite.
-
Nur diese beiden ersten Pyramiden werden wirksam für die
Bewegungsschätzung verwendet: die erste dient dazu, die horizontale
Bewegung der vertikalen Konturen des Bildes klarzustellen, und die zweite
dazu, die vertikale Bewegung der horizontalen Konturen des Bildes
klarzustellen. Die dritte Pyramide wird aufgrund der Tatsache nicht
berücksichtigt, daß die Art der Bilder, die sie bilden, im allgemeinen zu sehr
gestört ist.
-
Die Zerlegung gemäß den Fig. 5 und 6 macht es ebenso möglich, eine
Pyramide von Bildern mit niedrigen Frequenzen zu bilden, die aus den
Blöcken I&sub3;&sub1;, I&sub2;&sub1;, I&sub1;&sub1; und I zusammengesetzt ist, wenn sie bei jeder Stufe des
Bildes I&sub1; der Fig. 2 von der Tiefpaßfilterung der Zeilen und der Spalten und
einer Unterabtastung um den Faktor zwei berücksichtigt wird.
-
Ein Aufbau mit drei Pyramiden, entsprechend vier Auflösungswerten, ist in
Fig. 7 dargestellt. Dieser Aufbau zeigt, daß es bei jedem Auflösungswert
immer drei Bilder gibt, ein Bild mit niedrigen Frequenzen, ein Bild mit hohen
Frequenzen entlang der Horizontalachse und ein Bild mit hohen Frequenzen
entlang der Vertikalachse.
-
Die Bestimmung des Feldes der Bewegung erfolgt durch eine Berechnung
der hierarchischen Schätzung für diese drei Pyramiden. Es handelt sich, wie
die Fig. 8 für jedes Pixel X = (i, j) eines laufenden Bildes I(t) zeigt, darum,
das Pixel Xp = (i' - j') zu bestimmen, das dem in dem vorangehenden Bild I(t -
1) entspricht. Der Bewegungsvektor D (X) ist definiert duch:
-
D = (i' - i, j' - j) und ist derart, daß:
-
I (t - 1, Xp) = I(t, X)
-
Das allgemeine Prinzip der Bewegungsschätzung kann folgendermaßen
beschrieben werden: es werden drei hierarchische Schätzungen parallel für
die drei Pyramiden durchgeführt. Die beiden für die Pyramiden mit hohen
Frequenzen gewonnenen Schätzungen dienen nur dazu, bei jedem
Auflösungswert die für die Pyramide mit niedriger Frequenz erhaltene
Schätzung anzureichern (die die wirklich nützliche Information darstellt). Das
erfolgt durch eine Fusion der Information, die aus den drei Pyramiden bei
jedem Auflösungswert gewonnen wird, wobei die resultierende Schätzung
der Pyramide mit niedriger Frequenz zugeteilt wird.
-
Jede hierarchische Schätzung läuft in der folgenden Weise ab:
-
Der berechnete Versatz, in dem Punkt, der in dem Bild einem geringeren
Auflösungswert entspricht, dient für die Voraussage bei der Schätzung eines
höheren Auflösungswertes.
-
Wenn D2 -(j + 1) den für ein Bild mit der Auflösung 2-(j+1) berechneten Vektor
bezeichnet und D&sub2;-j den Vektor zur Berechnung bei dem Bild bei der
laufenden Auflösung 2-j, dann ist D&sub2;-j gegeben durch
-
D&sub2;-j = 2 · D&sub2; - (j + 1) + dD.
-
Das führt dazu, den Vektor dD zu schätzen, der eine geringe Änderung um
die Voraussage darstellt, die gleich dem Zweifachen des geschätzten
Vektors bei dem vorangehenden Auflösungswert ist, der den Faktor der
Unterabtastung ergibt.
-
In erster Nährung kann, wie in Fig. 9 gezeigt ist, die Bewegung eines
Punktes beim unteren Wert als mögliche Auslösung der Bewegung von vier
Punkten bei dem betrachteten Auflösungswert verwendet werden.
-
Dennoch bietet eine derartige Näherung nur eine einzige mögliche
Auslösung (oder Voraussage) für die Schätzung der Bewegung in jedem
Punkt des betrachteten Wertes.
-
Es scheint realistischer, die erhaltene Schätzung auf einen geringeren Wert
für 16, die ihn bei einem höheren Auflösungswert umgeben, zu projizieren.
Wie Fig. 10 zeigt, werden vier mögliche Voraussagen in jedem Punkt dieses
Wertes anstelle einer einzigen durchgeführt, was nur die Schätzung
verbessern kann. Für den Punkt 10 dieser Figur wird ihr Anteil für die
Voraussage für 16 Punkte der feineren Auflösung verwendet, und der Punkt
11 des feinen Wertes verwendet für die Voraussage 4 Punkte mit einem
groben Wert. Für jeden Auflösungswert wird eine Korrektur von ±1 Pixel um
den Voraussagewert zugelassen.
-
Wie die Fig. 11 zeigt, führt das dazu, daß neun mögliche Vektoren um 4
Voraussagevektoren D&sub0; herum geprüft werden, wobei die Abweichung des
Vektors dD auf ±1 Pixel in X und in Y begrenzt wird.
-
Diese Begrenzung in der Abweichung des Vektors dD auf ±1 Pixel legt die
Maximalamplitude der zu schätzenden Bewegung fest. Natürlich
entsprechen, wenn man N Zerlegungswerte betrachtet, 1 Pixel mit dem
Auflösungswert k 2k-1 Pixel bei dem Ursprungsbild (zum Beispiel der Wert
1). Wenn man den Voraussagewert 0 beim gröbsten Wert k wählt, wird die
maximale, am Ausgang der Pyramide geschätzte Bewegung:
-
Das entspricht zum Beispiel einer maximalen Bewegungsamplitude von 31
Pixeln für eine Zerlegung auf 5 Werte.
-
Bei einem bestimmten Auflösungswert verfügt man in jedem Punkt über vier
mögliche Voraussagen, die jeder, wie Fig. 11 zeigt, neun mögliche Vektoren
erzeugen. Die Wahl des Bewegungsvektors im betrachteten Punkt muß
jedoch unter 36 Vektoren erfolgen. Der gewählte Vektor ist derjenige, der
den Ausfallfehler (l'erreur de recalage) auf einem Fenster von 3 · 3 Pixeln
minimiert, das um den betrachteten Punkt zentriert ist.
-
Wenn man bezeichnet mit h das laufende Bild,
-
It-1 das vorangehende Bild
-
und mit Dx = (U, V) den Versatzvektor, geprüft durch den Punkt
-
x mit den Koordinaten (i, j), ist der Ausfallfehler gegeben durch die Differenz
zwischen den versetzten Bildern DFD (X, D):
-
DFD(X, D) = (I(t-1,j+k-u(X),j+1-V(X) - I(t,i &sbplus; k, j &sbplus; 1))²
-
k = -1, 1
-
1 = -1, 1
-
Der gewählte Versatzvektor D ist derjenige, der die geringste Differenz
zwischen dem versetzten Bild DFD (X, D) ergibt.
-
Wenn jedoch die Schätzung in einem gleichförmigen Bereich des Bildes
stattfindet und Werte von null für die Differenzen zwischen den versetzten
Bildern DFD (X, D) ergibt, welches auch der vorgeschlagene Vektor ist, ist
das vorgenannte Kriterium nicht mehr zutreffend, und es besteht wieder eine
Gefahr einer Abweichung des Algorithmus.
-
Dieses Problem wird gelöst, indem eine Untersuchung für die bestehende
Differenz zwischen dem Minimalwert der Anordnung der Differenzen
zwischen versetzten Bildern DFD (X, D) und dem Maximalwert durchgeführt
wird.
-
Wenn diese Differenz zu gering ist, geht man dazu über, immer denselben
Voraussagewert unter den vier möglichen Voraussagewerten zu behalten.
Derartige vorausgehende Schätzungen erfolgen in unabhängiger Weise für
die beiden zuvor beschriebenen Pyramiden mit hohen Frequenzen.
-
Für die Schätzung bei der Pyramide mit niedrigen Frequenzen wird bei
jedem Auflösungswert das Feld der geschätzten Bewegung durch die Fusion
der Detailinformationen aus den hohen Frequenzen angereichert.
-
Da die Bilder mit hohen Frequenzen die überwiegende Zeit beim Wert null
sind, ausgenommen bei den Konturen der Objekte, sind die geschätzten
Bewegungen bei diesen Konturen dafür interessant, die geschätzte
Bewegung bei der Pyramide mit niedrigen Frequenzen zu verfeinern, und die
Informationen bei den gestörten Bereichen der Bilder mit hohen Frequenzen
werden nicht berücksichtigt. Das erfolgt dadurch, indem ein Schwellwert für
die Richtigkeit für die Bilder mit hohen Frequenzen festgelegt wird, bevor die
entsprechende berechnete Bewegung angehalten wird.
-
Dieser Schwellwert wird in Abhängigkeit von der Varianz oder dem Quadrat
der mittleren Abweichung V des betrachteten Unterbandes festgesetzt. Ein
Punkt eines Unterbandes mit hoher Frequenz wird unter diesen
Bedingungen berücksichtigt, wenn der Absolutwert der Helligkeit in diesem
Punkt oberhalb KV liegt. Es sei bemerkt, daß die Unterbänder mit hohen
Frequenzen im Mittel null sind. Ein Beispiel der Fusion ist in Fig. 12
dargestellt. In dieser Figur entsprechen jedem Punkt Xi des Bildes mit
niedriger Frequenz Punkte Xix und Xjy bei den Bildern mit hohen Frequenzen
in den Richtungen X und Y.
-
Vier Fälle der Figuren sind als abhängig von der Tatsache anzusehen, ob
der Schwellwert in einem oder mehreren der vier Bänder der Bilder erreicht
werden kann.
-
In einem ersten Fall, wenn der Schwellwert weder bei X noch bei Y erreicht
wird, bedeutet das, daß keine Informationen bei den hohen Frequenzen
vorliegen und die in Betrachtung gezogene Bewegung diejenige ist, die bei
den niedrigen Frequenzen geschätzt wurde.
-
In einem zweiten Fall, wo der Schwellwert bei XX und nicht bei Xy erreicht
wird, erfolgt die Wahl zwischen zwei möglichen Versatzvektoren: der eine:
DBF = (U(X)), V(X)) geschätzt bei den niedrigen Frequenzen, der andere:
DHF = (U(Xx), V(X)), dessen Komponente in X bei den hohen Frequenzen
geschätzt wird.
-
In einem dritten Fall, wo der Schwellwert in Xy und nicht in Xx erreicht wird,
erfolgt die Wahl zwischen zwei Versatzvektoren, der eine:
-
DBF = (U(x), V(x)), geschätzt für die niedrigen Frequenzen,
und der andere:
-
DHF = (U(x), V(Xy)), dessen Komponente in Y für die hohen
Frequenzen geschätzt wird.
-
Schließlich erfolgt, ensprechend einem vierten Fall, wo der Schwellwert in Xx
und in Xy erreicht wird, die Wahl zwischen vier Vektoren.
-
Ein erster: DBF = (U(X), V(X)), geschätzt für niedrige Frequenzen,
-
ein zweiter: DHF1 (U(Xx), V(x)), dessen Komponente in X für die
hohen Frequenzen geschätzt wird,
-
ein dritter: DHF2 = (U(X), V(Xy)), dessen Komponente in Y für die
hohen Frequenzen geschätzt wird,
-
und ein vierter: DHF3 = (U(Xx), V(Xy)), dessen Komponente für die hohen
Frequenzen in X und Y geschätzt wird.
-
In allen diesen Fällen ist der gewählte Vektor derjenige, der den Ausfallfehler
für das Bild mit niedrigen Frequenzen minimiert.
-
Auf diese Weise berücksichtigt die Schätzung bei der Pyramide mit niedrigen
Frequenzen bei jedem Wert die Schätzungen bei den Bildern mit Details bei
demselben Wert. Dieses fusionierte Feld wird im folgenden, wie in Fig. 13
gezeigt, als Voraussage der Schätzung bei dem folgenden Wert verwendet.
-
Auf diese Weise erfolgt bei jedem in Fig. 13 dargestellten Auflösungswert 2,
3 und 4 eine Schätzung in jedem Unterband mit einer Voraussage der
Schätzung in demselben Unterband oder vorangehenden Wert, und es
erfolgt eine Fusion der drei Schätzungen, die auf das Unterband mit
niedrigen Frequenzen zurückgehen.
-
Die Schätzung beim Wert 1 erfolgt in dem Ursprungsbild und für eine
Voraussage der Fusion der Schätzungen beim Wert 2.
-
Natürlich kann die Genauigkeit der Schätzung mit 1 Pixel aus dem letzten
Auflösungswert des Bewegungsfeldes noch verbessert werden, indem zum
Beispiel das Ursprungsbild mit 2 oder 4 usw. angesprochen wird oder
mehrere der Punkte in X und Y angesprochen werden, um
Schätzungsgenauigkeiten von 1/2, 1/4 usw. 1/2K Pixeln zu erlangen. Da
jedoch diese Lösung schnell sehr kostspielig werden kann, sollte man
vorziehen, ein schnelles Interpolationsverfahren anzuwenden, das darin
besteht, das Minimum jeder Differenz zwischen versetzten Bildern DFD in
Abhängigkeit von einer der beiden Variablen U und V zu ermitteln, wobei die
andere konstant bleibt, wie das in Fig. 14 dargestellt ist, wo die Kurve DFD
für ein konstantes V abgebildet ist.
-
Die Abbildung der Kurve erfolgt durch drei Werte von U (U - 1, U und U + 1).
Die derart erhaltene Parabel zeigt ein Minimum bei dem Abszissenwert DX,
der die Komponente des Versatzes bei X ist. Derselbe Vorgang kann in der
Richtung Y des Bildes erfolgen. Man erhält auf diese Weise einen reellen
Versatzvektor D = (Dx, Dy) mit einer Genauigkeit unterhalb eines Pixel.
Dieses Verfahren ist in seiner Wirkung sehr schnell, da bei der Wahl das
Kriterium DFD (U, V) für 9 dem gewählten Vektor benachbarte Vektoren
berechnet wird. Im ungünstigsten Fall, wo der gewählte Vektor auf einer der
Ecken des dargestellten Quadrates mit Pixeln liegt, bestehen nur zwei Werte
von DFD (D) für die Berechnung, um die Interpretation durch die Parabel zu
bewirken. Andererseits gibt es keinen Wert für die Berechnung, wenn er im
Mittelpunkt liegt, und einen einzigen Wert für die Berechnung für die anderen
Punkte.