DE102007002545A1

DE102007002545A1 - Verfahren zur 3D-Signalextrapolation

Info

Publication number: DE102007002545A1
Application number: DE102007002545A
Authority: DE
Inventors: André KAUP; Katrin Meisinger
Original assignee: Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Current assignee: Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date: 2006-01-17
Filing date: 2007-01-17
Publication date: 2007-07-19

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Signalextrapolation, bei dem in Signalen mit Signalwerten, die eine in zumindest drei Dimensionen korrelierte Information repräsentieren, fehlende und/oder fehlerhafte und/oder vorbestimmbare Signalwerte auf Basis anderer Signalwerte der Signale geschätzt und durch die geschätzten Signalwerte ersetzt werden. Für die Schätzung eines Signalwertes werden bei dem vorgeschlagenen Verfahren bekannte Signalwerte aus den zumindest drei Dimensionen herangezogen, wobei vorzugsweise ein parametrisches Modell für die Schätzung eingesetzt wird. Das Verfahren liefert eine verbesserte Korrektur durch die gleichzeitige Ausnützung von sowohl örtlicher als auch zeitlicher Korrelation der Bilddaten.

Description

Technisches Anwendungsgebiet
Die vorliegende Erfindung betrifft ein Verfahren zur Signalextrapolation, bei dem in Signalen mit Signalwerten, die eine in zumindest drei Dimensionen korrelierte Information repräsentieren, fehlende und/oder fehlerhafte und/oder vorbestimmbare Signalwerte auf Basis anderer Signalwerte der Signale geschätzt und durch die geschätzten Signalwerte ersetzt werden.

In vielen Anwendungen der Video-Signalverarbeitung spielt die Schätzung von Bildbereichen aus dem umgebenden Bild- bzw. Videosignal eine wichtige Rolle. Unter der Umgebung ist dabei sowohl die örtliche Umgebung, d.h. die Umgebung innerhalb eines Bildes, als auch die zeitliche Umgebung, d.h. vorangegangene und/oder nachfolgende Bilder, zu verstehen. Die möglichst gleichmäßige Fortsetzung eines Signals über einen begrenzten Ausschnitt an bekannten Abtastwerten hinweg wird hier als Signalextrapolation bezeichnet.

So lassen sich beispielsweise in der mobilen Videokommunikation durch Kanalstörungen auftretende Übertragungsfehler am Empfänger dadurch verdecken, dass die verloren gegangenen Bildbereiche durch Extrapolation aus den umliegenden, korrekt empfangenen Videodaten geschätzt werden. In der hybriden Videocodierung werden in der Regel Verfahren der Signalprädiktion zur Erhöhung der Codiereffizienz eingesetzt, die ebenfalls als Extrapolation des schon bekannten Bildsignals zur Vorhersage der folgenden Signalwerte gesehen werden können.

Stand der Technik

Unbekannte Signalbereiche werden in Videos herkömmlich durch eine örtliche Prädiktion (d. h. zweidimensional) oder eine bewegungskompensierte Prädiktion (d. h. zweidimensionaler fester Bewegungsvektor) geschätzt. Bei der örtlichen Prädiktion wird der betrachtete Block entweder im Bildbereich aus den umliegenden Bildpunkten geschätzt oder im Transformationsbereich, beispielsweise nach einer DCT-Transformation, aus den umliegenden Transformationskoeffizienten prädiziert. Die bewegungskompensierte Prädiktion nutzt die Tatsache, dass zwischen aufeinander folgenden Bildern große Ähnlichkeit besteht. Bei blockbasierten Verfahren wird das Bild in Blöcke aufgeteilt und für jeden Block die Bewegung von einem Bild zum nächsten geschätzt. Die Bewegung wird in Form des Bewegungsvektors als Verschiebung in x- und y-Richtung beschrieben. Es wird derjenige Block als Prädiktionsblock im vorangegangenen Bild ausgewählt, der den kleinsten Fehler liefert. Als Fehlermaß dient hierbei beispielsweise die Summe der absoluten Differenzen.

In aktuellen Videocodier-Standards, wie MPEG2, MPEG4 oder H.264, kommen die bereits beschriebenen Konzepte der örtlichen und zeitlichen Prädiktion zur Erhöhung der Codiereffizienz zum Einsatz. Bei intracodierten Bildern, wie dem ersten Bild einer Video- Sequenz oder auch beispielsweise nach einem Szenenwechsel, wird der zu codierende Block aus der Umgebung innerhalb eines Bildes prädiziert. So wird beispielsweise bei H.263 der Block im Transformationsbereich aus den umliegenden Transformationskoeffizienten geschätzt, wohingegen bei H.264 im Ortsbereich prädiziert wird. Bei der bewegungskompensierten Prädiktion dient der bewegungskompensierte Block aus dem vorangegangenen Bild als Prädiktor für den zu codierenden Block. Es wird nur noch das Differenzsignal zwischen dem aktuellen Block und dem prädizierten Block codiert und übertragen. Das Bild am Empfänger setzt sich dann aus dem bewegungskompensierten Block und dem Restfehlersignal zusammen. Bei blockbasierten Verfahren in der Videocodierung, wie beispielsweise MPEG oder H.26x kommt es bei fehlerhafter Übertragung jedoch zu Blockverlusten, wodurch eine decoderseitige Fehlerverschleierung erforderlich wird.

In A. Kaup et al., „Frequency selective signal extrapolation with applications to error concealment in image communication", Int. J. Electron. Commun. (AEÜ), Band 59, Seiten 147–156, Juni 2005, wird ein Verfahren beschrieben, bei dem die örtliche Umgebung inklusive dem fehlenden Block durch einige wenige spektrale Koeffizienten beschrieben wird. Der fehlende Block wird durch Extrapolation gewonnen.

Bei Verfahren, die die Dimension Zeit ausnutzen, besteht der einfachste Ansatz in einem Algorithmus, bei dem der sich örtlich an der gleichen Stelle befindende Makroblock aus dem vorhergehenden Bild an die Stelle des verloren gegangenen Blockes kopiert wird. Bei Bewegung führt dieses Verfahren jedoch zu starken Störungen. Deswegen wird bei der bewegungskompensierten Prädiktion entweder der korrekt empfangene oder der aus den Bewegungsvektoren der umliegenden Blöcke gemittelte Bewegungsvektor zur Kompensation verwendet.

Aus W.M. Lam et al., „Recovery of lost or erroneously received motion vectors", in Proc. Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 1993, S. V417–V420, wird ein Verfahren beschrieben, das bei der Wiederherstellung des Bewegungsvektors noch einen Schritt weiter geht. Bei diesem Verfahren wird durch einen als „Boundary Matching" bezeichneten Algorithmus (BMA) bei der Wiederherstellung des Bewegungsvektors das Ortssignal der umliegenden korrekt empfangenen Blöcke mit einbezogen. Dadurch wird ein wesentlich besseres Ergebnis erzielt. Dazu wird der Grenzfehler an den Blockgrenzen zwischen dem mit Testbewegungsvektoren wieder hergestellten Signal und angrenzenden Blöcken berechnet. Es wird der Bewegungsvektor ausgewählt, der in einem minimalen Fehlermaß resultiert. Bei zusätzlichem Verlust des Restfehlersignals wird der „Extended Boundary Matching Algorithmus (EMBA)" angewandt. Dabei wird das Restfehlersignal des oberen, des linken, des rechten und des unterhalb liegenden Blocks eingesetzt und mit Hilfe von BMA für jeden Fall der wieder hergestellten Bewegungsvektoren getestet. Es wird diejenige Kombination aus Bewegungsvektor und Restfehlersignal zur Verschleierung eingesetzt, die das geringste Fehlermaß liefert.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zur Signalverarbeitung für eine Signalextrapolation anzugeben, mit der sich bessere Ergebnisse, insbesondere bei der Anwendung auf Video-Sequenzen, erzielen lassen.

Die Aufgabe wird mit dem Verfahren nach Patentanspruch 1 gelöst. Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche oder können der nachfolgenden Beschreibung sowie dem Ausführungsbeispiel entnommen werden.

Bei dem vorgeschlagenen Verfahren werden in Signalen mit Signalwerten, die eine in zumindest drei Dimensionen korrelierte Information repräsentieren, fehlende und/oder fehlerhafte und/oder vorbestimmbare Signalwerte auf Basis anderer Signalwerte der Signale geschätzt und durch die geschätzten Signalwerte ersetzt, wobei für die Schätzung eines Signalwertes bekannte Signalwerte aus den zumindest drei Dimensionen herangezogen werden. Vorzugsweise umfassen hierbei die zumindest drei Dimensionen eine zeitliche und zumindest zwei räumliche Dimensionen.

Das Verfahren zur Signalextrapolation kann beispielsweise auf Video-Signale angewendet werden, wobei dann bei Videosequenzen auch Informationen aus vorherigen oder nachfolgenden Bildern über den zu schätzenden Bildinhalt zu gewonnen werden. Im Gegensatz zu den bekannten zweidimensionalen Verfahren, wie sie beispielsweise in der genannten Veröffentlichung von A. Kaup et al. eingesetzt werden, wird also nicht nur der den zu schätzenden Block umgebende Bildinhalt innerhalb des Bildes zur Prädiktion verwendet, sondern gleichzeitig auch der Bildinhalt vorheriger und/oder nachfolgender Bilder.

In der bevorzugten Ausgestaltung des Verfahrens werden die für die Schätzung herangezogenen bekannten Signalwerte mit einem parametrischen Modell angenähert und die fehlenden und/oder fehlerhaften und/oder vorbestimmbaren Signalwerte anschließend auf Basis des parametrischen Modells geschätzt. Das parametrische Modell erlaubt eine gleichzeitige Beschreibung des Videosignals in örtlicher und zeitlicher Richtung. Unbekannte Bildsignalwerte können deshalb unter gleichzeitiger Nutzung von örtlichen und zeitlichen Korrelationen der Videodaten extrapoliert werden.

Vorzugsweise wird hierbei ein dreidimensionales parametrisches Modell eingesetzt, dass die für die Schätzung herangezogenen bekannten Signalwerte durch eine mit Koeffizienten gewichtete Linearkombination von Basisfunktionen annähert. Prinzipiell eignen sich als Basisfunktionen vor allem periodische Funktionen, da sie in der Lage sind, das Signal periodisch in den unbekannten Bereich fortzusetzen. Als Basisfunktionen werden hierbei vorzugsweise diskretisierte periodische Funktionen (DFT) eingesetzt. Es hat sich gezeigt, dass sich DFT-Basisfunktionen für die Extrapolation besonders eignen.

Die Bestimmung der Koeffizienten des parametrischen Modells kann durch Minimierung einer gewichteten Restfehlerenergie zwischen den für die Schätzung herangezogenen bekannten Signalwerten und entsprechenden mit dem parametrischen Modell erhaltenen Signalwerten erfolgen. Die Annäherung erfolgt bei Einsatz eines parametrischen Modells vorzugsweise durch sukzessive Approximation.

Das vorliegende Verfahren nutzt einen kombinierten örtlich-zeitlichen Extrapolationsansatz. Der große Vorteil dieses Verfahrens im Vergleich zu den herkömmlich bewegungskompensierten Ansätzen liegt in der gleichzeitigen Ausnutzung von sowohl örtlicher als auch zeitlicher Korrelation der Bilddaten. Der zu schätzende Block muss bei der örtlichen Prädiktion eine inhaltliche Fortsetzung der Umgebung sein. Bei der bewegungskompensierten Prädiktion kann durch die Verschiebung eines Blockes nur translatorische Bewegung nachgebildet werden. Auch Helligkeitsunterschiede können nicht prädiziert werden. Mit der 3D-Signalextrapolation gemäß dem vorgeschlagenen Verfahren ist es nun möglich, nicht nur translatorische Bewegungen, sondern auch Verformungen des Inhalts, nachzubilden. Des Weiteren können auch durch die Einbeziehung der örtlichen Nachbarblöcke Helligkeitsunterschiede ausgeglichen werden.

Eine für die Durchführung des Verfahrens geeignete Vorrichtung umfasst zumindest eine Recheneinheit und eine Speichereinheit sowie ein Modul zur Durchführung der Verfahrensschritte gemäß dem vorgeschlagenen Verfahren. Bei diesem Modul kann es sich um ein Software-Modul handeln, das zur Durchführung der entsprechenden Verfahrensschritte programmiert ist. Die Vorrichtung umfasst eine Eingangsschnittstelle für die zu verarbeitenden sowie eine Ausgangsschnittstelle für die verarbeiteten Signale.

Kurze Beschreibung der Zeichnungen
Das vorgeschlagene Verfahren wird nachfolgend anhand von Ausführungsbeispielen in Verbindung mit den Zeichnungen nochmals kurz erläutert. Hierbei zeigen:
1 eine Anordnung von mehreren Bildern einer Bildsequenz zur Veranschaulichung der dreidimensionalen Extrapolation gemäß dem vorliegenden Verfahren;
2 ein Bildbeispiel für eine zeitliche Fehlerverschleierung mit entsprechender Korrektur; und
3 ein weiteres Beispiel für eine zeitliche Fehlerverschleierung mit entsprechender Korrektur.
Wege zur Ausführung der Erfindung
Im vorliegenden Ausführungsbeispiel wird das vorgeschlagene Verfahren zur Signalextrapolation mit einem parametrischen Modell durchgeführt, bei dem die Annäherung bzw. Schätzung durch sukzessive Approximation erfolgt. Das Verfahren wird hierbei auf dreidimensionale Videosignale (2 räumliche Dimensionen und eine Zeitdimension) angewendet, um bei Videosequenzen auch die Informationen aus den vorherigen oder nach folgenden Bildern über den zu schätzenden Bildinhalt zu gewinnen.
1 zeigt hierzu eine mögliche Anordnung von sieben Bildern, wobei die örtlichen Dimensionen mit m, n und die zeitliche Dimension mit t gekennzeichnet sind. Der grau hinterlegte Block B im Bild τ soll aus dem Bereich A extrapoliert werden, der zur Schätzung genutzt wird und sich über die vorherigen und/oder nachfolgenden Bilder der betrachteten Videosequenz erstreckt. Dargestellt sind hier nur die jeweiligen Bildausschnitte, die für die Rekonstruktion des zu schätzenden Bereiches herangezogen werden. Die Gesamtregion L, bestehend aus der zu schätzenden Region B und der Bildregion A, wird durch ein Volumen beschrieben.
Die bekannten Bildpunkte f[m, n, t] sollen durch ein parametrisches Modell g[m, n, t] approximiert werden. g[m, n, t] bildet die bekannte Umgebung durch eine mit Expansionskoeffizienten c_k,l,p gewichtete Linearkombination von Basisfunktionen φ_k,l,p [m, n, t] nach, die im gesamten Bereich L definiert sind:
wobei die Menge K die verwendeten Basisfunktionen beschreibt. Die Anzahl von möglichen Basisfunktionen gleicht der Anzahl von Bildpunkten in der Gesamtregion L.
Um die Expansionskoeffizienten zu bestimmen, wird als Fehlermaß die gewichtete Restfehlerenergie zwischen dem Originalsignal und der Nachbildung in der bekannten Umgebung ausgewertet. Die Gewichtsfunktion w[m, n, t] hat nur in der bekannten Umgebung von Null verschiedene Amplitudenwerte p[m, n, t]
Folgendes Fehlerkriterium wird während der Approximation in Abhängigkeit der bekannten Umgebung minimiert:
wobei w[m, n, t] eine Gewichtung von für die Extrapolation wichtigeren Bereichen erlaubt und somit von der Anwendung abhängt.
Das Fehlerkriterium wird durch Ableitung des Fehlermaßes nach den gesuchten Koeffizienten und anschließendes zu Null setzen minimiert. Da dies ein unterbestimmtes Problem ist, wird der bekannte Bereich sukzessive approximiert. Das bedeutet, dass die Koeffizienten durch einen iterativen Algorithmus bestimmt werden. Pro Iteration wird zuerst diejenige Basisfunktion φ_k,l,p[m, n, t] ausgewählt, die zu einer maximalen Abnahme der Restfehlerenergie führt oder auch weniger aufwändig z.B. die Basisfunktion, die die den größten Betrag aufweist. Anschließend wird der zugehörige Expansionskoeffizient berechnet. Der Algorithmus terminiert, wenn die Abnahme der Restfehlerenergie unter eine vorher bestimmte Schranke fällt. Der Inhalt der bekannten Umgebung, der Bereich A, wird so durch einige wichtige Merkmale mittels gewichteter Basisfunktionen beschrieben.
Da die Basisfunktionen im gesamten Bereich L definiert sind, ist somit eine Beschreibung für den zu schätzenden Bereich B in Form des parametrischen Modells gegeben. Deswegen liefert jede Approximation des bekannten Bereichs A gleichzeitig eine Schätzung des unbekannten Bereichs B, die für die Signalextrapolation genutzt wird. Prinzipiell eignen sich als Basisfunktionen periodische Funktionen, da sie in der Lage sind, das Signal periodisch in den unbekannten Bereich fortzusetzen. Es hat sich gezeigt, dass sich DFT-Basisfunktionen für die Extrapolation besonders eignen.
Das Verfahren lässt sich bei allen Anwendungen einsetzen, bei denen Signalwerte aus drei Dimensionen geschätzt werden können. In der Videosignalverarbeitung betrifft dies beispielsweise die bewegungskompensierte Prädiktion, die bewegungskompensierte Prädiktion von B-Bildern (aus zeitlich vorangegangenen und nachfolgenden Bildern), die zeitliche Fehlerverschleierung bei Übertragungsverlusten, das Deinterlacing oder das Logo-Inpainting.
Die 2 und 3 stellen zwei Bildbeispiele für die zeitliche Fehlerverschleierung dar. Die 2 zeigt in der linken Teilabbildung ein Bild einer Videosequenz, das nach gestörter Übertragung aufgrund der blockbasierten Codierung Blockverluste am Empfänger aufweist. In der mittleren Teilabbildung ist das Ergebnis nach Kopieren des Blockes aus dem vorangegangenen Bild gezeigt. Da sich der Baum weiter bewegt hat, sind am Stamm Artefakte sichtbar. Die rechte Teilabbildung zeigt das Ergebnis nach der Durchführung des vorliegenden Verfahrens, d.h. nach erfolgreicher Extrapolation des umliegenden Bildinhalts (sowohl örtlich als auch zeitlich) in die Fehlstelle. Hierbei wurden jeweils zwei vorangegangene, zwei nachfolgende und das aktuelle Bild in die Extrapolation mit einbezogen. Durch die dreidimensionale Extrapolation gelingt eine Kompensation der Bewegung. Somit kann der Stamm des Baumes korrekt nachgebildet werden, wie dies aus 2 erkennbar ist.
3 zeigt die Fehlerverschleierung anhand einer anderen Sequenz. In der linken Teilabbildung ist das Bild mit Zeilenverlusten aufgrund gestörter Übertragung gezeigt. Die mittlere Teilabbildung zeigt wiederum das Ergebnis nach der Ersetzung der Fehlstelle mit dem Block aus dem vorangegangenen Bild, der an der gleichen Bildposition liegt. Da im vorangegangenen Bild die Crew mit Blitz fotografiert wird, weist das korrigierte Bild nach Kopieren des Blockes Helligkeitsunterschiede auf. Die rechte Teilabbildung zeigt wiederum das Ergebnis nach Anwendung des vorliegenden Verfahrens, d.h. nach der dreidimensionalen Extrapolation – hier unter Heranziehung jeweils zweier vorangegangener, zweier nachfolgender und des aktuellen Bildes. Die Helligkeitsunterschiede können aufgrund der Einbeziehung der örtlich umliegenden Bildpunkte angeglichen werden.

Claims

Verfahren zur Signalextrapolation, bei dem in Signalen mit Signalwerten, die eine in zumindest drei Dimensionen korrelierte Information repräsentieren, fehlende und/oder fehlerhafte und/oder vorbestimmbare Signalwerte auf Basis anderer Signalwerte der Signale geschätzt und durch die geschätzten Signalwerte ersetzt werden, wobei für die Schätzung eines Signalwertes bekannte Signalwerte aus den zumindest drei Dimensionen herangezogen werden.
Verfahren nach Anspruch 1, bei dem die zumindest drei Dimensionen eine zeitliche und zumindest zwei räumliche Dimensionen umfassen.
Verfahren nach Anspruch 1 oder 2, bei dem die für die Schätzung herangezogenen bekannten Signalwerte mit einem dreidimensionalen parametrischen Modell angenähert und die fehlenden und/oder fehlerhaften und/oder vorbestimmbaren Signalwerte anschließend auf Basis des parametrischen Modells geschätzt werden.
Verfahren nach Anspruch 3, bei dem ein parametrisches Modell eingesetzt wird, das die für die Schätzung herangezogenen bekannten Signalwerte durch eine mit Koeffizienten gewichtete Linearkombination von Basisfunktionen annähert.
Verfahren nach Anspruch 4, bei dem als Basisfunktionen diskretisierte periodische Funktionen (DFT) eingesetzt werden.
Verfahren nach Anspruch 4 oder 5, bei dem die Bestimmung der Koeffizienten des parametrischen Modells durch Minimierung einer gewichteten Restfehlerenergie zwischen den für die Schätzung herangezogenen bekannten Signalwerten und entsprechenden mit dem parametrischen Modell erhaltenen Signalwerten erfolgt.
Verfahren nach einem oder mehreren der Ansprüche 3 bis 6, bei dem die Annäherung durch sukzessive Approximation erfolgt.
Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, bei dem die Signale Bildsignale einer Videosequenz sind, wobei fehlende und/oder fehlerhafte und/oder vorbestimmbare Bildbereiche von Bildern der Videosequenz auf Basis anderer Bildbereiche der Bilder geschätzt und durch die geschätzten Bildbereiche ersetzt werden und für die Schätzung eines Bildbereiches eines Bildes sowohl bekannte Bildbereiche des gleichen Bildes als auch bekannte Bildbereiche ein oder mehrerer zeitlich vorausgegangener und/oder nachfolgender Bilder der Videosequenz herangezogen werden.
Vorrichtung zur Durchführung des Verfahrens, die zumindest eine Recheneinheit und eine Speichereinheit sowie ein Modul zur Durchführung der Verfahrensschritte gemäß einem oder mehreren der vorangehenden Patentansprüche aufweist.