-
Technisches Anwendungsgebiet
-
Die
vorliegende Erfindung betrifft ein Verfahren zur Signalextrapolation,
bei dem in Signalen mit Signalwerten, die eine in zumindest drei
Dimensionen korrelierte Information repräsentieren, fehlende und/oder fehlerhafte
und/oder vorbestimmbare Signalwerte auf Basis anderer Signalwerte
der Signale geschätzt
und durch die geschätzten
Signalwerte ersetzt werden.
-
In
vielen Anwendungen der Video-Signalverarbeitung spielt die Schätzung von
Bildbereichen aus dem umgebenden Bild- bzw. Videosignal eine wichtige
Rolle. Unter der Umgebung ist dabei sowohl die örtliche Umgebung, d.h. die
Umgebung innerhalb eines Bildes, als auch die zeitliche Umgebung,
d.h. vorangegangene und/oder nachfolgende Bilder, zu verstehen.
Die möglichst
gleichmäßige Fortsetzung
eines Signals über
einen begrenzten Ausschnitt an bekannten Abtastwerten hinweg wird
hier als Signalextrapolation bezeichnet.
-
So
lassen sich beispielsweise in der mobilen Videokommunikation durch
Kanalstörungen
auftretende Übertragungsfehler
am Empfänger
dadurch verdecken, dass die verloren gegangenen Bildbereiche durch
Extrapolation aus den umliegenden, korrekt empfangenen Videodaten
geschätzt
werden. In der hybriden Videocodierung werden in der Regel Verfahren
der Signalprädiktion
zur Erhöhung
der Codiereffizienz eingesetzt, die ebenfalls als Extrapolation
des schon bekannten Bildsignals zur Vorhersage der folgenden Signalwerte
gesehen werden können.
-
Stand der Technik
-
Unbekannte
Signalbereiche werden in Videos herkömmlich durch eine örtliche
Prädiktion
(d. h. zweidimensional) oder eine bewegungskompensierte Prädiktion
(d. h. zweidimensionaler fester Bewegungsvektor) geschätzt. Bei
der örtlichen
Prädiktion
wird der betrachtete Block entweder im Bildbereich aus den umliegenden
Bildpunkten geschätzt
oder im Transformationsbereich, beispielsweise nach einer DCT-Transformation, aus
den umliegenden Transformationskoeffizienten prädiziert. Die bewegungskompensierte
Prädiktion
nutzt die Tatsache, dass zwischen aufeinander folgenden Bildern
große Ähnlichkeit
besteht. Bei blockbasierten Verfahren wird das Bild in Blöcke aufgeteilt
und für
jeden Block die Bewegung von einem Bild zum nächsten geschätzt. Die
Bewegung wird in Form des Bewegungsvektors als Verschiebung in x-
und y-Richtung beschrieben. Es wird derjenige Block als Prädiktionsblock
im vorangegangenen Bild ausgewählt,
der den kleinsten Fehler liefert. Als Fehlermaß dient hierbei beispielsweise
die Summe der absoluten Differenzen.
-
In
aktuellen Videocodier-Standards, wie MPEG2, MPEG4 oder H.264, kommen
die bereits beschriebenen Konzepte der örtlichen und zeitlichen Prädiktion
zur Erhöhung
der Codiereffizienz zum Einsatz. Bei intracodierten Bildern, wie
dem ersten Bild einer Video- Sequenz
oder auch beispielsweise nach einem Szenenwechsel, wird der zu codierende
Block aus der Umgebung innerhalb eines Bildes prädiziert. So wird beispielsweise
bei H.263 der Block im Transformationsbereich aus den umliegenden
Transformationskoeffizienten geschätzt, wohingegen bei H.264 im
Ortsbereich prädiziert
wird. Bei der bewegungskompensierten Prädiktion dient der bewegungskompensierte
Block aus dem vorangegangenen Bild als Prädiktor für den zu codierenden Block.
Es wird nur noch das Differenzsignal zwischen dem aktuellen Block
und dem prädizierten
Block codiert und übertragen.
Das Bild am Empfänger
setzt sich dann aus dem bewegungskompensierten Block und dem Restfehlersignal
zusammen. Bei blockbasierten Verfahren in der Videocodierung, wie
beispielsweise MPEG oder H.26x kommt es bei fehlerhafter Übertragung
jedoch zu Blockverlusten, wodurch eine decoderseitige Fehlerverschleierung
erforderlich wird.
-
In
A. Kaup et al., „Frequency
selective signal extrapolation with applications to error concealment
in image communication",
Int. J. Electron. Commun. (AEÜ),
Band 59, Seiten 147–156,
Juni 2005, wird ein Verfahren beschrieben, bei dem die örtliche
Umgebung inklusive dem fehlenden Block durch einige wenige spektrale
Koeffizienten beschrieben wird. Der fehlende Block wird durch Extrapolation
gewonnen.
-
Bei
Verfahren, die die Dimension Zeit ausnutzen, besteht der einfachste
Ansatz in einem Algorithmus, bei dem der sich örtlich an der gleichen Stelle
befindende Makroblock aus dem vorhergehenden Bild an die Stelle
des verloren gegangenen Blockes kopiert wird. Bei Bewegung führt dieses
Verfahren jedoch zu starken Störungen.
Deswegen wird bei der bewegungskompensierten Prädiktion entweder der korrekt
empfangene oder der aus den Bewegungsvektoren der umliegenden Blöcke gemittelte
Bewegungsvektor zur Kompensation verwendet.
-
Aus
W.M. Lam et al., „Recovery
of lost or erroneously received motion vectors", in Proc. Int. Conf. on Acoustics,
Speech and Signal Processing (ICASSP), April 1993, S. V417–V420, wird
ein Verfahren beschrieben, das bei der Wiederherstellung des Bewegungsvektors
noch einen Schritt weiter geht. Bei diesem Verfahren wird durch
einen als „Boundary
Matching" bezeichneten
Algorithmus (BMA) bei der Wiederherstellung des Bewegungsvektors
das Ortssignal der umliegenden korrekt empfangenen Blöcke mit
einbezogen. Dadurch wird ein wesentlich besseres Ergebnis erzielt.
Dazu wird der Grenzfehler an den Blockgrenzen zwischen dem mit Testbewegungsvektoren
wieder hergestellten Signal und angrenzenden Blöcken berechnet. Es wird der Bewegungsvektor
ausgewählt,
der in einem minimalen Fehlermaß resultiert.
Bei zusätzlichem
Verlust des Restfehlersignals wird der „Extended Boundary Matching
Algorithmus (EMBA)" angewandt.
Dabei wird das Restfehlersignal des oberen, des linken, des rechten
und des unterhalb liegenden Blocks eingesetzt und mit Hilfe von
BMA für
jeden Fall der wieder hergestellten Bewegungsvektoren getestet.
Es wird diejenige Kombination aus Bewegungsvektor und Restfehlersignal
zur Verschleierung eingesetzt, die das geringste Fehlermaß liefert.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren
zur Signalverarbeitung für
eine Signalextrapolation anzugeben, mit der sich bessere Ergebnisse,
insbesondere bei der Anwendung auf Video-Sequenzen, erzielen lassen.
-
Die
Aufgabe wird mit dem Verfahren nach Patentanspruch 1 gelöst. Vorteilhafte
Ausgestaltungen sind Gegenstand der Unteransprüche oder können der nachfolgenden Beschreibung
sowie dem Ausführungsbeispiel
entnommen werden.
-
Bei
dem vorgeschlagenen Verfahren werden in Signalen mit Signalwerten,
die eine in zumindest drei Dimensionen korrelierte Information repräsentieren,
fehlende und/oder fehlerhafte und/oder vorbestimmbare Signalwerte
auf Basis anderer Signalwerte der Signale geschätzt und durch die geschätzten Signalwerte
ersetzt, wobei für
die Schätzung
eines Signalwertes bekannte Signalwerte aus den zumindest drei Dimensionen herangezogen
werden. Vorzugsweise umfassen hierbei die zumindest drei Dimensionen
eine zeitliche und zumindest zwei räumliche Dimensionen.
-
Das
Verfahren zur Signalextrapolation kann beispielsweise auf Video-Signale
angewendet werden, wobei dann bei Videosequenzen auch Informationen
aus vorherigen oder nachfolgenden Bildern über den zu schätzenden
Bildinhalt zu gewonnen werden. Im Gegensatz zu den bekannten zweidimensionalen
Verfahren, wie sie beispielsweise in der genannten Veröffentlichung
von A. Kaup et al. eingesetzt werden, wird also nicht nur der den
zu schätzenden
Block umgebende Bildinhalt innerhalb des Bildes zur Prädiktion
verwendet, sondern gleichzeitig auch der Bildinhalt vorheriger und/oder
nachfolgender Bilder.
-
In
der bevorzugten Ausgestaltung des Verfahrens werden die für die Schätzung herangezogenen
bekannten Signalwerte mit einem parametrischen Modell angenähert und
die fehlenden und/oder fehlerhaften und/oder vorbestimmbaren Signalwerte
anschließend
auf Basis des parametrischen Modells geschätzt. Das parametrische Modell
erlaubt eine gleichzeitige Beschreibung des Videosignals in örtlicher
und zeitlicher Richtung. Unbekannte Bildsignalwerte können deshalb
unter gleichzeitiger Nutzung von örtlichen und zeitlichen Korrelationen
der Videodaten extrapoliert werden.
-
Vorzugsweise
wird hierbei ein dreidimensionales parametrisches Modell eingesetzt,
dass die für
die Schätzung
herangezogenen bekannten Signalwerte durch eine mit Koeffizienten
gewichtete Linearkombination von Basisfunktionen annähert. Prinzipiell
eignen sich als Basisfunktionen vor allem periodische Funktionen, da
sie in der Lage sind, das Signal periodisch in den unbekannten Bereich
fortzusetzen. Als Basisfunktionen werden hierbei vorzugsweise diskretisierte
periodische Funktionen (DFT) eingesetzt. Es hat sich gezeigt, dass sich
DFT-Basisfunktionen für
die Extrapolation besonders eignen.
-
Die
Bestimmung der Koeffizienten des parametrischen Modells kann durch
Minimierung einer gewichteten Restfehlerenergie zwischen den für die Schätzung herangezogenen
bekannten Signalwerten und entsprechenden mit dem parametrischen
Modell erhaltenen Signalwerten erfolgen. Die Annäherung erfolgt bei Einsatz
eines parametrischen Modells vorzugsweise durch sukzessive Approximation.
-
Das
vorliegende Verfahren nutzt einen kombinierten örtlich-zeitlichen Extrapolationsansatz.
Der große Vorteil
dieses Verfahrens im Vergleich zu den herkömmlich bewegungskompensierten
Ansätzen
liegt in der gleichzeitigen Ausnutzung von sowohl örtlicher
als auch zeitlicher Korrelation der Bilddaten. Der zu schätzende Block
muss bei der örtlichen
Prädiktion
eine inhaltliche Fortsetzung der Umgebung sein. Bei der bewegungskompensierten
Prädiktion
kann durch die Verschiebung eines Blockes nur translatorische Bewegung nachgebildet
werden. Auch Helligkeitsunterschiede können nicht prädiziert
werden. Mit der 3D-Signalextrapolation gemäß dem vorgeschlagenen Verfahren
ist es nun möglich,
nicht nur translatorische Bewegungen, sondern auch Verformungen
des Inhalts, nachzubilden. Des Weiteren können auch durch die Einbeziehung
der örtlichen
Nachbarblöcke
Helligkeitsunterschiede ausgeglichen werden.
-
Eine
für die
Durchführung
des Verfahrens geeignete Vorrichtung umfasst zumindest eine Recheneinheit
und eine Speichereinheit sowie ein Modul zur Durchführung der
Verfahrensschritte gemäß dem vorgeschlagenen
Verfahren. Bei diesem Modul kann es sich um ein Software-Modul handeln,
das zur Durchführung der
entsprechenden Verfahrensschritte programmiert ist. Die Vorrichtung
umfasst eine Eingangsschnittstelle für die zu verarbeitenden sowie
eine Ausgangsschnittstelle für
die verarbeiteten Signale.
-
Kurze Beschreibung
der Zeichnungen
-
Das
vorgeschlagene Verfahren wird nachfolgend anhand von Ausführungsbeispielen
in Verbindung mit den Zeichnungen nochmals kurz erläutert. Hierbei
zeigen:
-
1 eine
Anordnung von mehreren Bildern einer Bildsequenz zur Veranschaulichung
der dreidimensionalen Extrapolation gemäß dem vorliegenden Verfahren;
-
2 ein
Bildbeispiel für
eine zeitliche Fehlerverschleierung mit entsprechender Korrektur;
und
-
3 ein
weiteres Beispiel für
eine zeitliche Fehlerverschleierung mit entsprechender Korrektur.
-
Wege zur Ausführung der
Erfindung
-
Im
vorliegenden Ausführungsbeispiel
wird das vorgeschlagene Verfahren zur Signalextrapolation mit einem
parametrischen Modell durchgeführt,
bei dem die Annäherung
bzw. Schätzung
durch sukzessive Approximation erfolgt. Das Verfahren wird hierbei
auf dreidimensionale Videosignale (2 räumliche Dimensionen und eine
Zeitdimension) angewendet, um bei Videosequenzen auch die Informationen
aus den vorherigen oder nach folgenden Bildern über den zu schätzenden
Bildinhalt zu gewinnen.
-
1 zeigt
hierzu eine mögliche
Anordnung von sieben Bildern, wobei die örtlichen Dimensionen mit m,
n und die zeitliche Dimension mit t gekennzeichnet sind. Der grau
hinterlegte Block B im Bild τ soll
aus dem Bereich A extrapoliert werden, der zur Schätzung genutzt
wird und sich über
die vorherigen und/oder nachfolgenden Bilder der betrachteten Videosequenz
erstreckt. Dargestellt sind hier nur die jeweiligen Bildausschnitte,
die für
die Rekonstruktion des zu schätzenden
Bereiches herangezogen werden. Die Gesamtregion L, bestehend aus
der zu schätzenden
Region B und der Bildregion A, wird durch ein Volumen beschrieben.
-
Die
bekannten Bildpunkte f[m, n, t] sollen durch ein parametrisches
Modell g[m, n, t] approximiert werden. g[m, n, t] bildet die bekannte
Umgebung durch eine mit Expansionskoeffizienten c
k,l,p gewichtete
Linearkombination von Basisfunktionen φ
k,l,p [m,
n, t] nach, die im gesamten Bereich L definiert sind:
wobei die Menge K die verwendeten
Basisfunktionen beschreibt. Die Anzahl von möglichen Basisfunktionen gleicht
der Anzahl von Bildpunkten in der Gesamtregion L.
-
Um
die Expansionskoeffizienten zu bestimmen, wird als Fehlermaß die gewichtete
Restfehlerenergie zwischen dem Originalsignal und der Nachbildung
in der bekannten Umgebung ausgewertet. Die Gewichtsfunktion w[m,
n, t] hat nur in der bekannten Umgebung von Null verschiedene Amplitudenwerte
p[m, n, t]
-
Folgendes
Fehlerkriterium wird während
der Approximation in Abhängigkeit
der bekannten Umgebung minimiert:
wobei w[m, n, t] eine Gewichtung
von für
die Extrapolation wichtigeren Bereichen erlaubt und somit von der Anwendung
abhängt.
-
Das
Fehlerkriterium wird durch Ableitung des Fehlermaßes nach
den gesuchten Koeffizienten und anschließendes zu Null setzen minimiert.
Da dies ein unterbestimmtes Problem ist, wird der bekannte Bereich sukzessive
approximiert. Das bedeutet, dass die Koeffizienten durch einen iterativen
Algorithmus bestimmt werden. Pro Iteration wird zuerst diejenige
Basisfunktion φk,l,p[m, n, t] ausgewählt, die zu einer maximalen
Abnahme der Restfehlerenergie führt
oder auch weniger aufwändig
z.B. die Basisfunktion, die die den größten Betrag aufweist. Anschließend wird
der zugehörige
Expansionskoeffizient berechnet. Der Algorithmus terminiert, wenn
die Abnahme der Restfehlerenergie unter eine vorher bestimmte Schranke
fällt.
Der Inhalt der bekannten Umgebung, der Bereich A, wird so durch
einige wichtige Merkmale mittels gewichteter Basisfunktionen beschrieben.
-
Da
die Basisfunktionen im gesamten Bereich L definiert sind, ist somit
eine Beschreibung für
den zu schätzenden
Bereich B in Form des parametrischen Modells gegeben. Deswegen liefert
jede Approximation des bekannten Bereichs A gleichzeitig eine Schätzung des
unbekannten Bereichs B, die für
die Signalextrapolation genutzt wird. Prinzipiell eignen sich als
Basisfunktionen periodische Funktionen, da sie in der Lage sind,
das Signal periodisch in den unbekannten Bereich fortzusetzen. Es
hat sich gezeigt, dass sich DFT-Basisfunktionen für die Extrapolation
besonders eignen.
-
Das
Verfahren lässt
sich bei allen Anwendungen einsetzen, bei denen Signalwerte aus
drei Dimensionen geschätzt
werden können.
In der Videosignalverarbeitung betrifft dies beispielsweise die
bewegungskompensierte Prädiktion,
die bewegungskompensierte Prädiktion
von B-Bildern (aus
zeitlich vorangegangenen und nachfolgenden Bildern), die zeitliche
Fehlerverschleierung bei Übertragungsverlusten,
das Deinterlacing oder das Logo-Inpainting.
-
Die 2 und 3 stellen
zwei Bildbeispiele für
die zeitliche Fehlerverschleierung dar. Die 2 zeigt
in der linken Teilabbildung ein Bild einer Videosequenz, das nach
gestörter Übertragung
aufgrund der blockbasierten Codierung Blockverluste am Empfänger aufweist.
In der mittleren Teilabbildung ist das Ergebnis nach Kopieren des
Blockes aus dem vorangegangenen Bild gezeigt. Da sich der Baum weiter
bewegt hat, sind am Stamm Artefakte sichtbar. Die rechte Teilabbildung
zeigt das Ergebnis nach der Durchführung des vorliegenden Verfahrens,
d.h. nach erfolgreicher Extrapolation des umliegenden Bildinhalts
(sowohl örtlich
als auch zeitlich) in die Fehlstelle. Hierbei wurden jeweils zwei
vorangegangene, zwei nachfolgende und das aktuelle Bild in die Extrapolation
mit einbezogen. Durch die dreidimensionale Extrapolation gelingt
eine Kompensation der Bewegung. Somit kann der Stamm des Baumes
korrekt nachgebildet werden, wie dies aus 2 erkennbar
ist.
-
3 zeigt
die Fehlerverschleierung anhand einer anderen Sequenz. In der linken
Teilabbildung ist das Bild mit Zeilenverlusten aufgrund gestörter Übertragung
gezeigt. Die mittlere Teilabbildung zeigt wiederum das Ergebnis
nach der Ersetzung der Fehlstelle mit dem Block aus dem vorangegangenen
Bild, der an der gleichen Bildposition liegt. Da im vorangegangenen
Bild die Crew mit Blitz fotografiert wird, weist das korrigierte
Bild nach Kopieren des Blockes Helligkeitsunterschiede auf. Die
rechte Teilabbildung zeigt wiederum das Ergebnis nach Anwendung
des vorliegenden Verfahrens, d.h. nach der dreidimensionalen Extrapolation – hier unter
Heranziehung jeweils zweier vorangegangener, zweier nachfolgender
und des aktuellen Bildes. Die Helligkeitsunterschiede können aufgrund
der Einbeziehung der örtlich
umliegenden Bildpunkte angeglichen werden.