DE60028884T2

DE60028884T2 - Videosignalverarbeitung

Info

Publication number: DE60028884T2
Application number: DE60028884T
Authority: DE
Inventors: Piotr Wilinski; W. Cornelis VAN OVERVELD
Original assignee: Koninklijke Philips Electronics NV
Current assignee: IPG Electronics 503 Ltd
Priority date: 1999-03-18
Filing date: 2000-02-25
Publication date: 2007-01-25
Anticipated expiration: 2020-02-26
Also published as: EP1078332B1; EP1078332A1; ES2254155T3; JP2002540516A; EP1078332B9; ATE315821T1; US6563873B1; KR20010025045A; WO2000057360A1; DE60028884D1

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Verarbeitung von Videosignalen. Genauer gesagt bezieht sich die Erfindung auf die Bewertung von Bewegung und/oder Tiefe.
US-A.5.793.430 offenbart, dass für periodische Strukturen die aus der Blockanpassung resultierenden Bewegungsvektoren korrigiert werden, indem man einen zuverlässigeren Vektor vom Rand eines sich bewegenden Objektes nimmt, das die periodische Struktur enthält. Dies geschieht durch Berechnung und Vergleich unterschiedlicher Fehlerkombinationen zur Identifizierung periodischer Strukturen und durch Ersetzen eines aktuellen Bewegungsvektors durch einen aus einem angrenzenden Pixelblock, entweder dem Block zur Linken oder dem darüber liegenden Block, je nachdem welcher den kleineren Fehler im gegenwärtigen Block ergibt, oder indem eine Kombination aus beiden (z.B. der Mittelwert) gewählt wird.
In dem Dokument „Block matching motion estimation using block integration based on reliability metric" von T. Yoshida, H. Katoh und Y. Sakai (in: Proceedings International Conference on Image Processing, Seite 152–155, Band II von III, 26.–29. Oktober 1997, Santa Barbara, Kalifornien), wird ein Verfahren der Bewegungsbewertung für die Verbesserung der Genauigkeit und Kohärenz von Bewegungsvektoren vorgeschlagen. Das vorgeschlagene Verfahren beruht auf der Integration eines passenden Blockes unter Verwendung einer Zuverlässigkeitsmetrik von Bewegungsvektoren. Zuerst wird die Zuverlässigkeitsmetrik für alle passenden Blöcke im Zielbild berechnet und dann, basierend auf diesem Wert und seiner Richtungsabhängigkeit, werden vier passende Nachbarblöcke daraufhin überprüft, ob sie integriert werden sollten oder nicht. Abschließend werden für die integrierten passenden Blöcke die Bewegungsvektoren durch die Technik der Blockanpassung bewertet. Da die Blockintegration nur für flache passende Blöcke oder solche mit einer einfachen Kante durchgeführt wird, wird die Kohärenz verbessert, während die Leistung des Bewegungsausgleichs so weit wie möglich beibehalten wird.
In dem Dokument „Global motion estimation for image sequence coding applications" von Z. Eisips und D. Malah (in: 17th Convention of electrical and electronical engineers in Israel, Proceedings 1991, Seite 186–189) wird ein Algorithmus zur Bewertung der globalen Bewegung in Bildfolgen beschrieben. Der Algorithmus beruht auf Schätzwerten von Blockverschiebungen. Der Algorithmus wählt einen Satz von zuverlässigsten Blockverschiebungen aus und wendet darauf die Methode der kleinsten Quadrate an, um aus diesen Verschiebungen einen Anfangsschätzwert der Modellparameter zu erhalten. Dann folgt eine Verifizierungsstufe, um die Blöcke zu entfernen, deren Verschiebungen nicht kompatibel zu diesem Schätzwert sind. Ein Block ist gut angepasst, wenn die erhaltene mittlere, absolute Differenz (MAD) niedriger als ein Schwellenwert ist. Die Anpassung ist dann am zuverlässigsten, wenn diese MAD signifikant besser ist als die MAD ohne Bewegungsausgleich. Dies kann man als einen Weg ansehen, die Anwendung von Schätzwerten der Verschiebung zu vermeiden, die man für glatte sowie für rauschähnlich texturierte Bereiche erhalten hat, wo die tatsächliche Bewegung durch einen lokalen Anpassungsalgorithmus nicht angemessen bewertet werden kann. Abschließend wird die Methode der kleinsten Quadrate nur auf die verifizierten Blockverschiebungen angewandt, um einen genaueren Schätzwert der Modellparameter zu erhalten.
Der Erfindung liegt u.a. die Aufgabe zugrunde, ein verbessertes Bewertungsverfahren zu schaffen. Zu diesem Zweck liefert die Erfindung, wie in den unabhängigen Patentansprüchen definiert, ein Verfahren und eine Vorrichtung zur Verarbeitung von Videosignalen. Vorteilhafte Ausführungsformen sind in den abhängigen Patentansprüchen definiert.
Diese und andere Aspekte der Erfindung werden aus den im Folgenden beschriebenen Ausführungsformen ersichtlich und sollen unter Bezugnahme darauf erläutert werden.
Es zeigen:
1 die Bewegungs- oder Tiefenausbreitung in Anwesenheit eines angrenzenden Gradienten, und
2 ein Ausführungsbeispiel einer Vorrichtung zur Verarbeitung von Videosignalen gemäß der vorliegenden Erfindung.
Die Erfindung beruht auf den folgenden Erkenntnissen. Die Bewertung der Tiefe von Videobildern kann man auf ein Verfahren der Bewertung der blockweisen Anpassung von Bewegung zurückführen. Einige Blöcke, die man als nicht-anpassungsfähig bezeichnen kann, enthalten u.U. nicht genügend Informationen für eine genaue Anpassung. In der Erfindung werden deren Definition sowie die Vorschriften vorgeschlagen, mit ihnen während und nach dem iterativen Anpassungsalgorithmus zurechtzukommen.
Bei der Extraktion einer block-basierten Struktur aus der Bewegung wird vorgeschlagen, das Bild in Blöcke aufzuteilen. Vor dem iterativen Anpassungsprozess werden diese Blöcke geordnet. Dies kann auf verschiedene Art und Weise erfolgen. Anstelle einer zeilenweisen Verarbeitung der Blöcke ist eine Lösung, sie nach der Menge der in ihnen enthaltenen Texturinformationen (statistische Sicherheit/Konfidenz) zu ordnen. Auf diese Weise beginnt die Verarbeitung bei den Regionen, die die genauesten Ergebnisse liefern können. Die Blöcke, die die geringste Textur aufweisen und deshalb möglicherweise zu einer Anpassung an Rauschen führen, werden zuletzt verarbeitet. Während des Anpassungsprozesses werden den Blöcken neue Bewegungswerte zugeordnet, die aus der am besten passenden Nachbarbewegung resultieren. Dies kann als eine Ausbreitung der Bewegungs- oder Tiefeninformationen betrachtet werden. Dieser Ansatz gestattet die Ausbreitung der Informationen in dem Bild von hoch-texturierten hin zu nicht-texturierten Regionen.
Bei einer einzigen Iteration über ein Einzelbild werden alle Blöcke inspiziert. Folglich können alte Blöcke die Quelle eines neuen Bewegungswertes sein. Bei der Betrachtung eines Blocks mit schlechter Texturqualität sind 2 Situationen möglich:

• die Nachbarschaft eines solchen Blocks ist reichhaltig genug, um eine korrekte Bewegungsinformation in diesen Block hinein zu bringen; oder
• die benachbarten Blöcke sind auch gering texturiert und die Anpassungsqualität kann wegen der Anpassung an Rauschen hoch sein.

Im ersten Falle kopiert der Algorithmus die Informationen aus dem am besten passenden Nachbar. Da der am besten passenden Nachbar aus den Nachbarn mit hoher Konfidenz ausgewählt wird, können wir betreffend des neuen Bewegungswertes des betrachteten Blockes sicher sein.
Da im zweiten Falte die Blöcke mit hoher Konfidenz aus einem wenig texturierten Bereich ausgewählt werden, kann der am besten passende Block auf Rauschen und nicht auf Merkmale passen. Der Bewegungswert, der kopiert wird, kann eine niedrige Kon fidenz haben. Daraus ergeben sich fehlerhafte Bewegungswerte, die in eine wenig texturierte Nachbarschaft verbreitet werden.
Ein während der Blockanpassung auftretendes weiteres Problem ist das Problem von Regionen, die exakt die gleichen Blöcke enthalten. Diese können sich z.B. aus wiederholten, räumlich invarianten Texturmotiven zusammensetzen. Für solche Blöcke kann man die beste Anpassung für mehrere Bewegungswerte und daher Tiefe erzielen. Diese hoch-texturierten Blöcke können auch zur Quelle von fehlerhaften Bewegungswerten werden.
Eine Lösung kann der Begriff des "nicht-anpassungsfähigen Blocks" sein. Es wird vorgeschlagen, einen Block dann "nicht-anpassungsfähig" zu nennen, wenn seine Anpassung an die benachbarten Blöcke nicht zu einem genauen Ergebnis führen kann. Für solche Blöcke wird vorgeschlagen, die Blockanpassung nicht durchzuführen. Es wird vorgeschlagen, einen zusammenhängenden Bereich, der nicht-anpassungsfähige Blöcke enthält, als nicht-anpassungsfähige Region zu bezeichnen.
Wir schlagen folgende Kriterien für die Nicht-Anpassungsfähigkeit eines Blocks vor:

• Die Entropie der Texturinformationen aller benachbarten Blöcke kann unter einem Schwellenwert der Akzeptierbarkeit liegen, z.B. bei glatten Bildbereichen und/oder flachen Anpassungsblöcken.
• Die Anpassungsqualität der benachbarten Blöcke kann unter einem Schwellenwert der Akzeptierbarkeit liegen, d.h., der Anpassungsfehler ist zu groß.
• Die benachbarten Blöcke können mit dem betrachteten Block identisch sein.

In einer Ausführungsform könnte die Entropie mit Hilfe des in [2] beschriebenen Verfahrens berechnet werden, wobei nur 8 Winkel benutzt werden, so dass die Berechnung effizient ist; jedoch können auch preiswertere Näherungen an die Entropie verwendet werden.
Die nicht-anpassungsfähigen Blöcke werden bis zur letzten Iteration des Algorithmus maskiert. In der letzten Iteration werden die Werte aus den Blöcken, die in der Nachbarschaft liegen, in die Region der nicht-anpassungsfähigen Blöcke kopiert.
Um die Informationsausbreitung in den nicht-anpassungsfähigen Regionen zu steuern, wird vorgeschlagen, innerhalb einer nicht-anpassungsfähigen Region die Gradienteninformation (der Textur-Gradient verändert sich) von den umgebenden anpassungs fähigen Blöcken aus weiterzugeben. Es ist besonders wichtig, wenn ein nicht-anpassungsfähiger Block von benachbarten, anpassungsfähigen Blöcken mit unterschiedlicher Bewegung umgeben ist. 1 erklärt die Vorgehensweise. Die Idee ist, die Bewegungs- oder Tiefenwerte so weiterzugeben, dass die Außengradienten verlängert werden.
In 1 bezeichnen d1 und d2 für anpassungsfähige Blöcke erhaltene Bewegungs- oder Tiefeninformationen. N-M bezeichnen nicht-anpassungsfähige Blöcke. Eine fette Linie in der oberen Reihe bezeichnet einen Gradienten g. Dieser Gradient g wird in vertikaler Richtung weitergegeben, angedeutet durch eine unterbrochene fette Linie pg. Der Wert d2 wird den nicht-anpassungsfähigen Blöcken N-M zugeordnet.
2 zeigt eine Ausführungsform einer Vorrichtung zur Verarbeitung von Videosignalen gemäß der vorliegenden Erfindung. Ein Video-Eingangssignal V wird einer Kennzeichnungseinheit L, einer Bewegungsschätzfunktion ME und einer Verbesserungseinheit EU zugeführt. Optional wird ein Ausgangssignal der Kennzeichnungseinheit L auf die Bewegungsschätzfunktion ME gegeben, um diese am Versuch zu hindern, Bewegungsvektoren für die nicht-anpassungsfähigen Blöcke N-M zu ermitteln. Ein Ausgangssignal der Bewegungsschätzfunktion ME wird auf eine Erzeugungseinheit PU gegeben, um Bewegungsvektoren für die nicht-anpassungsfähigen Blöcke N-M zu erhalten. Die Bewegungsvektoren für alle Blöcke des Videosignals werden auf die Verbesserungseinheit EU gegeben, um ein verbessertes Videosignal EV zu erzeugen, das z.B. eine doppelte Halbbildgeschwindigkeit hat. Das verbesserte Videosignal EV wird auf eine Anzeigeeinheit D gegeben.
Ein primärer Aspekt der Erfindung kann folgendermaßen zusammengefasst werden: Für Blöcke mit reichhaltiger Textur können zuverlässige Bewegungs-/Tiefeninformationen erzeugt werden, nicht aber für Blöcke mit geringer Textur. Darüber hinaus kann es sogar für Blöcke mit reichhaltiger Textur zu einem Problem kommen, wenn eine Region identischer Blöcke vorhanden ist, die z.B. wiederholte, räumlich invariante Texturmotive umfassen. Für solche Blöcke kann die beste Anpassung für mehrere Bewegungs-/Tiefenwerte erhalten werden. Es wird vorgeschlagen, beide Arten von Blöcken als nicht-anpassungsfähig zu kennzeichnen. Diese Blöcke werden bis zur letzten Iteration des Algorithmus maskiert. Danach werden die für die anpassungsfähigen Blöcke erhaltenen Werte in die benachbarten, nicht-anpassungsfähigen Blöcke kopiert. Wenn ganze Regionen von nicht-anpassungsfähigen Blöcken vorhanden sind, werden die Werte aus den benachbarten anpassungsfähigen Blöcken vorzugsweise entlang von Gradienten (von Texturveränderungen) in die nicht-anpassungsfähige Region weitergegeben, um die Vermischung von Informationen aus zwei sich unterschiedlich bewegenden Objekten zu vermeiden. Die Erfindung resultiert in einer besseren Qualität der Bewegungs-/Tiefenbewertung. Dies wird vorteilhaft bei der Tiefenrekonstruktion für statische Umgebungen angewandt, die auf Videosequenzen beruhen.
Es ist anzumerken, dass die oben angeführten Ausführungsbeispiele die Erfindung eher illustrieren als einschränken, und dass Fachleute in der Lage sein werden, innerhalb der im Anhang genannten Patentansprüche alternative Ausführungsformen zu entwerfen. In den Patentansprüchen sollten Bezugszeichen in Klammern nicht als Einschränkung des Patentanspruchs angesehen werden. Das Wort "umfassen" (engl. „comprising") schließt das Vorhandensein von anderen als den in den Ansprüchen erwähnten Elementen oder Schritten nicht aus. Ebenso schließt das Wort "ein(e)" (engl. „a" oder „an") vor einem Element das Vorhandensein mehrerer derartiger Elemente nicht aus. Die Erfindung kann mit Hilfe von Hardware, zu der mehrere unterschiedliche Elemente gehören, und mit Hilfe eines entsprechend programmierten Computers ausgeführt werden. Im Patentanspruch für die Vorrichtung, der verschiedene Mittel aufzählt, können mehrere dieser Mittel von ein und demselben Hardwareelement verkörpert sein.
Im Verfahrensanspruch braucht die Reihenfolge der Schritte nicht mit der Reihenfolge übereinzustimmen, in der die Schritte in dem Anspruch zitiert werden. Im besonderen heißt das, dass der Schritt zur Erzeugung von Bewegungs- oder Tiefeninformationen vor dem Schritt ausgeführt werden kann, bei dem bestimmte Teile des Videosignals als nicht-anpassungsfähig gekennzeichnet werden; wenn der Anpassungsfehler dazu dient, Teile des Videosignals, für die ein hoher Anpassungsfehler erhalten wird, als nicht-anpassungsfähig zu kennzeichnen, muss der Generierungsschritt vor dem Kennzeichnungsschritt erfolgen. Basiert jedoch der Kennzeichnungsschritt in der Weise auf Texturinformationen, dass geringe Textur die Bezeichnung „nicht-anpassungsfähig" ergibt, kann dieser Schritt vor dem Schritt zur Erzeugung der Bewegungs- oder Tiefeninformationen erfolgen; Ausführen des Kennzeichnungsschrittes vor dem Erzeugungsschritt führt zu dem Vorteil, dass der Erzeugungsschritt nur für solche Teile des Videosignals ausgeführt werden muss, die nicht als nicht-anpassungsfähig gekennzeichnet sind.
Literaturhinweise:

[1] G. de Haan, "Motion Estimation and Compensation, An integrated approach to consumer display field rate conversion", Doktorarbeit, Philips Electronics N. V., 17.09.1992, ISBN 90-74445-01-2.
[2] Piotr Wilinski and Kees van Overveld, „Depth From Motion using Confidence Based Block Matching", Image and Multidimensional Digital Signal Processing Workshop, Alpbach, Österreich, Juli 1998.
[3] WO9940726, Piotr Wilinski and Kees van Overveld, "Motion or depth estimation".

Claims

Verfahren zur Verarbeitung von Videosignalen, das folgende Schritte umfasst: Kennzeichnen (L) von Teilen (N-M) eines Videosignals (V) als nicht-anpassungsfähige Teile (N-M), wenn für diese Teile (N-M) keine zuverlässigen Bewegungs- oder Tiefeninformationen erhalten werden können; Erzeugen (ME) von Bewegungs- oder Tiefeninformationen (d1, d2) für das genannte Videosignal (V); und Erstellen (PU) von Bewegungs- oder Tiefeninformationen (d2) für die genannten nicht-anpassungsfähigen Teile (N-M) dieses Videosignals (V) aus den genannten Bewegungs- oder Tiefeninformationen (d1, d2), die für dieses Videosignal (V) erzeugt wurden, dadurch gekennzeichnet, dass ein Teil des Videosignals als nicht-anpassungsfähig gekennzeichnet wird, wenn – eine Entropie der Texturinformationen aller benachbarten Teile unter einem ersten Schwellenwert liegt, – eine Anpassungsqualität benachbarter Teile unter einem zweiten Schwellenwert liegt, und/oder – benachbarte Teile mit dem genannten Teil des Videosignals identisch sind.
Verfahren nach Anspruch 1, bei dem der genannte Erstellungsschritt (PU) den Schritt des Kopierens von Bewegungs- oder Tiefeninformationswerten (d2) aus neben den nicht-anpassungsfähigen Teilen (N-M) befindlichen Teilen des genannten Videosignals (V) in die genannten nicht-anpassungsfähigen Teile (N-M) beinhaltet.
Verfahren nach Anspruch 1, bei dem der genannte Erstellungsschritt (PU) den Schritt der Weitergabe von Gradienteninformation (g) aus umgebenden anpassungsfähigen Teilen des genannten Videosignals (V) in einen nicht-anpassungsfähigen Teil (N-M) beinhaltet, um außerhalb der nicht-anpassungsfähigen Teile (N-M) befindliche Gradienten (g) zu verlängern.
Vorrichtung zur Verarbeitung von Videosignalen mit: Mitteln (L) zum Kennzeichnen von Teilen (N-M) eines Videosignals (V) als nicht anpassungsfähige Teile (N-M), wenn für diese Teile (N-M) keine zuverlässigen Bewegungs- oder Tiefeninformationen erhalten werden können Mitteln (ME) zum Erzeugen von Bewegungs- oder Tiefeninformationen (d1, d2) für das genannte Videosignal (V), und Mitteln (PU) zum Erstellen von Bewegungs- und Tiefeninformationen (d2) für die genannten nicht-anpassungsfähigen Teile (N-M) dieses Videosignals (V) aus den genannten, für dieses Videosignal (V) erzeugten Bewegungs- oder Tiefeninformationen (d1, d2), dadurch gekennzeichnet, dass ein Teil des Videosignals als nicht anpasssungsfähig gekennzeichnet wird, wenn – eine Entropie der Texturinformationen aller benachbarten Teile unter einem ersten Schwellenwert liegt, – eine Anpassungsqualität benachbarter Teile unter einem zweiten Schwellenwert liegt, und/oder – benachbarte Teile mit dem genannten Teil des Videosignals identisch sind.
Vorrichtung zur Verarbeitung von Videosignalen nach Anspruch 4, die außerdem umfasst: Mittel (EU) zur Verarbeitung dieses Videosignals (V) in Abhängigkeit von den genannten Bewegungs- oder Tiefeninformationen (d1, d2), um ein verarbeitetes Signal (EV) zu erhalten sowie Mittel (D) zur Anzeige dieses verarbeiteten Videosignals (EV).