-
Die
Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur
Verarbeitung von Videosignalen. Genauer gesagt bezieht sich die
Erfindung auf die Bewertung von Bewegung und/oder Tiefe.
-
US-A.5.793.430
offenbart, dass für
periodische Strukturen die aus der Blockanpassung resultierenden
Bewegungsvektoren korrigiert werden, indem man einen zuverlässigeren
Vektor vom Rand eines sich bewegenden Objektes nimmt, das die periodische
Struktur enthält.
Dies geschieht durch Berechnung und Vergleich unterschiedlicher
Fehlerkombinationen zur Identifizierung periodischer Strukturen und
durch Ersetzen eines aktuellen Bewegungsvektors durch einen aus
einem angrenzenden Pixelblock, entweder dem Block zur Linken oder
dem darüber
liegenden Block, je nachdem welcher den kleineren Fehler im gegenwärtigen Block
ergibt, oder indem eine Kombination aus beiden (z.B. der Mittelwert)
gewählt
wird.
-
In
dem Dokument „Block
matching motion estimation using block integration based on reliability metric" von T. Yoshida,
H. Katoh und Y. Sakai (in: Proceedings International Conference
on Image Processing, Seite 152–155,
Band II von III, 26.–29.
Oktober 1997, Santa Barbara, Kalifornien), wird ein Verfahren der
Bewegungsbewertung für
die Verbesserung der Genauigkeit und Kohärenz von Bewegungsvektoren vorgeschlagen.
Das vorgeschlagene Verfahren beruht auf der Integration eines passenden
Blockes unter Verwendung einer Zuverlässigkeitsmetrik von Bewegungsvektoren.
Zuerst wird die Zuverlässigkeitsmetrik
für alle
passenden Blöcke
im Zielbild berechnet und dann, basierend auf diesem Wert und seiner Richtungsabhängigkeit,
werden vier passende Nachbarblöcke
daraufhin überprüft, ob sie
integriert werden sollten oder nicht. Abschließend werden für die integrierten
passenden Blöcke
die Bewegungsvektoren durch die Technik der Blockanpassung bewertet. Da
die Blockintegration nur für
flache passende Blöcke
oder solche mit einer einfachen Kante durchgeführt wird, wird die Kohärenz verbessert,
während
die Leistung des Bewegungsausgleichs so weit wie möglich beibehalten
wird.
-
In
dem Dokument „Global
motion estimation for image sequence coding applications" von Z. Eisips und
D. Malah (in: 17th Convention of electrical and electronical engineers
in Israel, Proceedings 1991, Seite 186–189) wird ein Algorithmus
zur Bewertung der globalen Bewegung in Bildfolgen beschrieben. Der
Algorithmus beruht auf Schätzwerten von
Blockverschiebungen. Der Algorithmus wählt einen Satz von zuverlässigsten
Blockverschiebungen aus und wendet darauf die Methode der kleinsten Quadrate
an, um aus diesen Verschiebungen einen Anfangsschätzwert der
Modellparameter zu erhalten. Dann folgt eine Verifizierungsstufe,
um die Blöcke
zu entfernen, deren Verschiebungen nicht kompatibel zu diesem Schätzwert sind.
Ein Block ist gut angepasst, wenn die erhaltene mittlere, absolute
Differenz (MAD) niedriger als ein Schwellenwert ist. Die Anpassung
ist dann am zuverlässigsten,
wenn diese MAD signifikant besser ist als die MAD ohne Bewegungsausgleich.
Dies kann man als einen Weg ansehen, die Anwendung von Schätzwerten
der Verschiebung zu vermeiden, die man für glatte sowie für rauschähnlich texturierte
Bereiche erhalten hat, wo die tatsächliche Bewegung durch einen
lokalen Anpassungsalgorithmus nicht angemessen bewertet werden kann.
Abschließend
wird die Methode der kleinsten Quadrate nur auf die verifizierten
Blockverschiebungen angewandt, um einen genaueren Schätzwert der
Modellparameter zu erhalten.
-
Der
Erfindung liegt u.a. die Aufgabe zugrunde, ein verbessertes Bewertungsverfahren
zu schaffen. Zu diesem Zweck liefert die Erfindung, wie in den unabhängigen Patentansprüchen definiert,
ein Verfahren und eine Vorrichtung zur Verarbeitung von Videosignalen.
Vorteilhafte Ausführungsformen
sind in den abhängigen
Patentansprüchen
definiert.
-
Diese
und andere Aspekte der Erfindung werden aus den im Folgenden beschriebenen
Ausführungsformen
ersichtlich und sollen unter Bezugnahme darauf erläutert werden.
-
Es
zeigen:
-
1 die
Bewegungs- oder Tiefenausbreitung in Anwesenheit eines angrenzenden
Gradienten, und
-
2 ein
Ausführungsbeispiel
einer Vorrichtung zur Verarbeitung von Videosignalen gemäß der vorliegenden
Erfindung.
-
Die
Erfindung beruht auf den folgenden Erkenntnissen. Die Bewertung
der Tiefe von Videobildern kann man auf ein Verfahren der Bewertung
der blockweisen Anpassung von Bewegung zurückführen. Einige Blöcke, die
man als nicht-anpassungsfähig
bezeichnen kann, enthalten u.U. nicht genügend Informationen für eine genaue
Anpassung. In der Erfindung werden deren Definition sowie die Vorschriften
vorgeschlagen, mit ihnen während
und nach dem iterativen Anpassungsalgorithmus zurechtzukommen.
-
Bei
der Extraktion einer block-basierten Struktur aus der Bewegung wird
vorgeschlagen, das Bild in Blöcke
aufzuteilen. Vor dem iterativen Anpassungsprozess werden diese Blöcke geordnet.
Dies kann auf verschiedene Art und Weise erfolgen. Anstelle einer
zeilenweisen Verarbeitung der Blöcke
ist eine Lösung,
sie nach der Menge der in ihnen enthaltenen Texturinformationen
(statistische Sicherheit/Konfidenz) zu ordnen. Auf diese Weise beginnt die
Verarbeitung bei den Regionen, die die genauesten Ergebnisse liefern
können.
Die Blöcke,
die die geringste Textur aufweisen und deshalb möglicherweise zu einer Anpassung
an Rauschen führen,
werden zuletzt verarbeitet. Während
des Anpassungsprozesses werden den Blöcken neue Bewegungswerte zugeordnet,
die aus der am besten passenden Nachbarbewegung resultieren. Dies
kann als eine Ausbreitung der Bewegungs- oder Tiefeninformationen betrachtet
werden. Dieser Ansatz gestattet die Ausbreitung der Informationen
in dem Bild von hoch-texturierten hin zu nicht-texturierten Regionen.
-
Bei
einer einzigen Iteration über
ein Einzelbild werden alle Blöcke
inspiziert. Folglich können alte
Blöcke
die Quelle eines neuen Bewegungswertes sein. Bei der Betrachtung
eines Blocks mit schlechter Texturqualität sind 2 Situationen möglich:
- • die
Nachbarschaft eines solchen Blocks ist reichhaltig genug, um eine
korrekte Bewegungsinformation in diesen Block hinein zu bringen; oder
- • die
benachbarten Blöcke
sind auch gering texturiert und die Anpassungsqualität kann wegen
der Anpassung an Rauschen hoch sein.
-
Im
ersten Falle kopiert der Algorithmus die Informationen aus dem am
besten passenden Nachbar. Da der am besten passenden Nachbar aus
den Nachbarn mit hoher Konfidenz ausgewählt wird, können wir betreffend des neuen
Bewegungswertes des betrachteten Blockes sicher sein.
-
Da
im zweiten Falte die Blöcke
mit hoher Konfidenz aus einem wenig texturierten Bereich ausgewählt werden,
kann der am besten passende Block auf Rauschen und nicht auf Merkmale
passen. Der Bewegungswert, der kopiert wird, kann eine niedrige Kon fidenz
haben. Daraus ergeben sich fehlerhafte Bewegungswerte, die in eine
wenig texturierte Nachbarschaft verbreitet werden.
-
Ein
während
der Blockanpassung auftretendes weiteres Problem ist das Problem
von Regionen, die exakt die gleichen Blöcke enthalten. Diese können sich
z.B. aus wiederholten, räumlich
invarianten Texturmotiven zusammensetzen. Für solche Blöcke kann man die beste Anpassung
für mehrere
Bewegungswerte und daher Tiefe erzielen. Diese hoch-texturierten
Blöcke
können
auch zur Quelle von fehlerhaften Bewegungswerten werden.
-
Eine
Lösung
kann der Begriff des "nicht-anpassungsfähigen Blocks" sein. Es wird vorgeschlagen,
einen Block dann "nicht-anpassungsfähig" zu nennen, wenn
seine Anpassung an die benachbarten Blöcke nicht zu einem genauen
Ergebnis führen kann.
Für solche
Blöcke
wird vorgeschlagen, die Blockanpassung nicht durchzuführen. Es
wird vorgeschlagen, einen zusammenhängenden Bereich, der nicht-anpassungsfähige Blöcke enthält, als
nicht-anpassungsfähige
Region zu bezeichnen.
-
Wir
schlagen folgende Kriterien für
die Nicht-Anpassungsfähigkeit
eines Blocks vor:
- • Die Entropie der Texturinformationen
aller benachbarten Blöcke
kann unter einem Schwellenwert der Akzeptierbarkeit liegen, z.B.
bei glatten Bildbereichen und/oder flachen Anpassungsblöcken.
- • Die
Anpassungsqualität
der benachbarten Blöcke
kann unter einem Schwellenwert der Akzeptierbarkeit liegen, d.h.,
der Anpassungsfehler ist zu groß.
- • Die
benachbarten Blöcke
können
mit dem betrachteten Block identisch sein.
-
In
einer Ausführungsform
könnte
die Entropie mit Hilfe des in [2] beschriebenen Verfahrens berechnet
werden, wobei nur 8 Winkel benutzt werden, so dass die Berechnung
effizient ist; jedoch können auch
preiswertere Näherungen
an die Entropie verwendet werden.
-
Die
nicht-anpassungsfähigen
Blöcke
werden bis zur letzten Iteration des Algorithmus maskiert. In der
letzten Iteration werden die Werte aus den Blöcken, die in der Nachbarschaft
liegen, in die Region der nicht-anpassungsfähigen Blöcke kopiert.
-
Um
die Informationsausbreitung in den nicht-anpassungsfähigen Regionen
zu steuern, wird vorgeschlagen, innerhalb einer nicht-anpassungsfähigen Region
die Gradienteninformation (der Textur-Gradient verändert sich)
von den umgebenden anpassungs fähigen
Blöcken
aus weiterzugeben. Es ist besonders wichtig, wenn ein nicht-anpassungsfähiger Block
von benachbarten, anpassungsfähigen Blöcken mit
unterschiedlicher Bewegung umgeben ist. 1 erklärt die Vorgehensweise.
Die Idee ist, die Bewegungs- oder Tiefenwerte so weiterzugeben, dass
die Außengradienten
verlängert
werden.
-
In 1 bezeichnen
d1 und d2 für
anpassungsfähige
Blöcke
erhaltene Bewegungs- oder Tiefeninformationen. N-M bezeichnen nicht-anpassungsfähige Blöcke. Eine
fette Linie in der oberen Reihe bezeichnet einen Gradienten g. Dieser
Gradient g wird in vertikaler Richtung weitergegeben, angedeutet
durch eine unterbrochene fette Linie pg. Der Wert d2 wird den nicht-anpassungsfähigen Blöcken N-M
zugeordnet.
-
2 zeigt
eine Ausführungsform
einer Vorrichtung zur Verarbeitung von Videosignalen gemäß der vorliegenden
Erfindung. Ein Video-Eingangssignal V wird einer Kennzeichnungseinheit
L, einer Bewegungsschätzfunktion
ME und einer Verbesserungseinheit EU zugeführt. Optional wird ein Ausgangssignal
der Kennzeichnungseinheit L auf die Bewegungsschätzfunktion ME gegeben, um diese
am Versuch zu hindern, Bewegungsvektoren für die nicht-anpassungsfähigen Blöcke N-M
zu ermitteln. Ein Ausgangssignal der Bewegungsschätzfunktion ME
wird auf eine Erzeugungseinheit PU gegeben, um Bewegungsvektoren
für die
nicht-anpassungsfähigen
Blöcke
N-M zu erhalten. Die Bewegungsvektoren für alle Blöcke des Videosignals werden
auf die Verbesserungseinheit EU gegeben, um ein verbessertes Videosignal
EV zu erzeugen, das z.B. eine doppelte Halbbildgeschwindigkeit hat.
Das verbesserte Videosignal EV wird auf eine Anzeigeeinheit D gegeben.
-
Ein
primärer
Aspekt der Erfindung kann folgendermaßen zusammengefasst werden:
Für Blöcke mit
reichhaltiger Textur können
zuverlässige
Bewegungs-/Tiefeninformationen erzeugt werden, nicht aber für Blöcke mit
geringer Textur. Darüber
hinaus kann es sogar für
Blöcke
mit reichhaltiger Textur zu einem Problem kommen, wenn eine Region
identischer Blöcke
vorhanden ist, die z.B. wiederholte, räumlich invariante Texturmotive
umfassen. Für
solche Blöcke
kann die beste Anpassung für
mehrere Bewegungs-/Tiefenwerte
erhalten werden. Es wird vorgeschlagen, beide Arten von Blöcken als
nicht-anpassungsfähig zu kennzeichnen.
Diese Blöcke
werden bis zur letzten Iteration des Algorithmus maskiert. Danach
werden die für
die anpassungsfähigen Blöcke erhaltenen
Werte in die benachbarten, nicht-anpassungsfähigen Blöcke kopiert. Wenn ganze Regionen
von nicht-anpassungsfähigen
Blöcken vorhanden
sind, werden die Werte aus den benachbarten anpassungsfähigen Blöcken vorzugsweise entlang
von Gradienten (von Texturveränderungen) in
die nicht-anpassungsfähige
Region weitergegeben, um die Vermischung von Informationen aus zwei sich
unterschiedlich bewegenden Objekten zu vermeiden. Die Erfindung
resultiert in einer besseren Qualität der Bewegungs-/Tiefenbewertung.
Dies wird vorteilhaft bei der Tiefenrekonstruktion für statische Umgebungen
angewandt, die auf Videosequenzen beruhen.
-
Es
ist anzumerken, dass die oben angeführten Ausführungsbeispiele die Erfindung
eher illustrieren als einschränken,
und dass Fachleute in der Lage sein werden, innerhalb der im Anhang
genannten Patentansprüche
alternative Ausführungsformen
zu entwerfen. In den Patentansprüchen
sollten Bezugszeichen in Klammern nicht als Einschränkung des Patentanspruchs
angesehen werden. Das Wort "umfassen" (engl. „comprising") schließt das Vorhandensein
von anderen als den in den Ansprüchen
erwähnten
Elementen oder Schritten nicht aus. Ebenso schließt das Wort "ein(e)" (engl. „a" oder „an") vor einem Element
das Vorhandensein mehrerer derartiger Elemente nicht aus. Die Erfindung
kann mit Hilfe von Hardware, zu der mehrere unterschiedliche Elemente
gehören,
und mit Hilfe eines entsprechend programmierten Computers ausgeführt werden.
Im Patentanspruch für
die Vorrichtung, der verschiedene Mittel aufzählt, können mehrere dieser Mittel
von ein und demselben Hardwareelement verkörpert sein.
-
Im
Verfahrensanspruch braucht die Reihenfolge der Schritte nicht mit
der Reihenfolge übereinzustimmen,
in der die Schritte in dem Anspruch zitiert werden. Im besonderen
heißt
das, dass der Schritt zur Erzeugung von Bewegungs- oder Tiefeninformationen
vor dem Schritt ausgeführt
werden kann, bei dem bestimmte Teile des Videosignals als nicht-anpassungsfähig gekennzeichnet
werden; wenn der Anpassungsfehler dazu dient, Teile des Videosignals,
für die
ein hoher Anpassungsfehler erhalten wird, als nicht-anpassungsfähig zu kennzeichnen, muss
der Generierungsschritt vor dem Kennzeichnungsschritt erfolgen.
Basiert jedoch der Kennzeichnungsschritt in der Weise auf Texturinformationen, dass
geringe Textur die Bezeichnung „nicht-anpassungsfähig" ergibt, kann dieser
Schritt vor dem Schritt zur Erzeugung der Bewegungs- oder Tiefeninformationen
erfolgen; Ausführen
des Kennzeichnungsschrittes vor dem Erzeugungsschritt führt zu dem
Vorteil, dass der Erzeugungsschritt nur für solche Teile des Videosignals
ausgeführt
werden muss, die nicht als nicht-anpassungsfähig gekennzeichnet sind.
-
Literaturhinweise:
-
- [1] G. de Haan, "Motion Estimation and Compensation,
An integrated approach to consumer display field rate conversion", Doktorarbeit, Philips
Electronics N. V., 17.09.1992, ISBN 90-74445-01-2.
- [2] Piotr Wilinski and Kees van Overveld, „Depth From Motion using Confidence
Based Block Matching",
Image and Multidimensional Digital Signal Processing Workshop, Alpbach, Österreich,
Juli 1998.
- [3] WO9940726, Piotr Wilinski and Kees van Overveld, "Motion or depth estimation".