DE602004002455T2

DE602004002455T2 - Bewegungsvektorschätzung durch adaptive zeitliche Vorhersage

Info

Publication number: DE602004002455T2
Application number: DE602004002455T
Authority: DE
Inventors: Ralf Hubrich; Michael Eckhardt
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2004-04-30
Filing date: 2004-04-30
Publication date: 2007-01-11
Anticipated expiration: 2024-05-01
Also published as: EP1592248B1; KR20060047595A; CN100370807C; DE602004002455D1; JP2005318620A; EP1592248A1; CN1694495A; JP4724459B2; US20050243926A1

Description

Die vorliegende Erfindung bezieht sich auf eine verbesserte Bewegungsschätzung. Insbesondere bezieht sich die vorliegende Erfindung auf ein Verfahren zur Schätzung eines Bewegungsvektors zwischen Bildblöcken in einer Videosequenz und einem zugehörigen Bewegungsschätzer.
Die Bewegungsschätzung kommt in immer mehr Anwendungen zum Einsatz, insbesondere bei der digitalen Signalverarbeitung moderner Fernsehgeräte. Insbesondere führen moderne Fernsehgeräte eine Vollbildraten-Umwandlung durch, vor allem in Form einer Aufwärts-Umwandlung oder einer bewegungskompensierten Aufwärts-Umwandlung, um die Bildqualität der wiedergegebenen Bilder zu erhöhen. Die Aufwärts-Umwandlung mit Bewegungskompensation wird zum Beispiel für Videosequenzen mit einer Halbbild- oder Vollbild-Frequenz von 50 Hz auf höhere Frequenzen wie 60 Hz, 66,67 Hz, 75 Hz, 100 Hz etc. durchgeführt. Während eine 50 Hz-Eingangssignalfrequenz vor allem für die Ausstrahlung von Fernsehsignalen auf der Basis des PAL- oder SECAM-Standards gedacht ist, weisen NTSC-basierte Videosignale eine Eingangsfrequenz von 60 Hz auf. Ein 60 Hz-Eingangsvideosignal kann auf höhere Frequenzen wie 72 Hz, 80 Hz, 90 Hz, 120 Hz usw. umgewandelt werden.
Bei der Aufwärts-Umwandlung müssen Zwischenbilder generiert werden, die den Videoinhalt an den zeitlichen Positionen widerspiegeln, die nicht durch die 50 Hz- oder 60 Hz-Eingangsvideosequenz dargestellt werden. Zu diesem Zweck muss die Bewegung der Bewegungsobjekte berücksichtigt werden, um die Änderungen zwischen den nachfolgenden Bildern angemessen widerzuspiegeln, die durch die Bewegung der Objekte verursacht wurden. Die Bewegung der Objekte wird auf der Basis von Blöcken berechnet, und eine Bewegungskompensation wird auf der Basis der relativen zeitlichen Position des neu generierten Bildes zwischen dem vorhergehenden und den nachfolgenden Bildern generiert.
Bei der Bestimmung eines Bewegungsvektors wird jedes Bild in eine Mehrzahl von Blöcken unterteilt. Jeder Block wird der Bewegungsschätzung unterzogen, um die Verschiebung eines Objekts im Vergleich zum vorhergehenden Bild zu erfassen. Ein zeitaufwändiger Vollsuchalgorithmus zum Erfassen eines am besten passenden Blocks im vorhergehenden Bild in einem vorab festgelegten Suchbereich wird vorzugsweise vermieden durch die Verwendung einer Mehrzahl von vorab definierten Vektorkandidaten. Die Menge der Vektorkandidaten umfasst mehrere vordefinierter Bewegungsvektoren, die höchstwahrscheinlich auftreten.
Ein Bewegungsvektor wird aus den Vektorkandidaten auf der Basis eines Fehlerwertes ausgewählt, der für jeden Vektorkandidaten berechnet wird. Diese Fehlerfunktion berechnet den Übereinstimmungsgrad zwischen dem aktuellen Block und dem Kandidatenblock im vorherigen Bild, das in Übereinstimmung mit dem entsprechenden Vektorkandidat ausgewählt wurde. Der am besten passende Vektor mit der kleinsten Fehlerfunktion wird als Bewegungsvektor des aktuellen Blocks ausgewählt. Als Maß für den Ähnlichkeitsgrad zwischen dem aktuellen und dem vorherigen Block kann die Summe der absoluten Differenzen (SAD) verwendet werden.
Die Menge der vordefinierten Vektorkandidaten kann diejenigen Bewegungsvektoren als Vektorkandidaten enthalten, die bereits für die benachbarten Blöcke des aktuellen Bildes bestimmt wurden, Bewegungsvektoren, die für Blöcke in dem vorhergehenden Bild an einer ähnlichen Position bestimmt wurden usw.
Der Artikel "An Efficient True-Motion Estimator Using Candidate Vectors from a Parametric Motion Model" von Gerard de Haan u.a. in IEEE Transactions on Circuits and Systems for Video Technology, Vol. 8, Nr.1, Februar 1998, beschreibt die Berechnung eine globalen Bewegungsvektors als Vektorkandidat. Der globale Bewegungsvektor spiegelt eine gemeinsame Bewegung aller Blöcke im Bild wider.
EP-A-0 578 290 beschreibt weitere Vektorkandidaten, die auf den Bewegungsvektoren benachbarter Blöcke des aktuellen Bildes basieren. Die Länge und Richtung diese Vektoren wird durch das Hinzufügen eines Aktualisierungsvektors geändert, der eine Zufallsgröße aufweist. Die Auswahl dieses Vektortyps als Bewegungsvektor des aktuellen Blocks kann durch das Hinzufügen vordefinierter Strafabzugswerte zur entsprechenden SAD gesteuert werden. In Übereinstimmung mit dem hinzugefügten Strafabzug kann eine als Bewegungsvektor des aktuellen Blocks auszuwählende Wahrscheinlichkeit entsprechend reduziert werden.
Zusätzlich zur Interpolation des Bildes kann eine Bewegungsschätzung weiter während der Kodierung der Videobilder verwendet werden, um zeitweilige Redundanzen auszunutzen. Zu diesem Zweck wurden verschiedene Videocodierstandards entwickelt. Weit verbreitet sind die als H.26x oder MPEG-x bezeichneten Kodierstandards.
Die Bewegungsschätzung mit einer zeitlichen Vorhersage für die Bestimmung des Bewegungsvektors kann nur die Bewegung des aktuellen Blocks korrekt vorhersagen, wenn der referenzierte Block im vorhergehenden Bild zum selben Bewegungsobjekt wie im aktuellen Block gehört. Wenn der Block in einem vorhergehenden Bild, das für den Erhalt eines Bewegungsvektors referenziert wird, nicht zum selben Bewegungsobjekt gehört, spiegelt der vorhergehende Bewegungsvektor nicht die Bewegung des Objekts wieder und kann in der Folge nicht als Bewegungsvektor für den aktuellen Block dienen. Insbesonders leiden die Randbereiche der Bewegungsobjekte unter der schlechten Vorhersagequalität, da die referenzierten Blöcke in dem vorhergehenden Bild mit höherer Wahrscheinlichkeit nicht zum selben Bildobjekt gehören.
Diese Unzulänglichkeit bei der Bestimmung des Bewegungsvektors auf der Basis einer zeitlicher Vorhersage ist noch schwerwiegender für Videosequenzen, die aus Bewegtbildern stammen. Entsprechend dem Umwandlungsschema Bewegtbild-in-Video werden identische Bilder häufig in der Videosequenz wiederholt, in Übereinstimmung mit einem vordefinierten Pull-down-Muster. Aufgrund der geringeren Zahl der Bewegungsphasen, die von den Bewegtbildern dargestellt werden, wird die Verschiebung eines Bewegungsobjekts zwischen Bildern, die unterschiedliche Bewegungsphasen darstellen, noch größer. Die größere Verschiebung der Bewegungsobjekte zwischen den Bildern gestaltet die zeitliche Vorhersage schwieriger und führt sichtbare Artefakte in die bewegungskompensierten Bilder ein, insbesondere bei den Konturen von schnellen Bewegungsobjekten.
Die vorliegende Erfindung zielt darauf ab, diese Nachteile des Stands der Technik zu überwinden und ein verbessertes Verfahren zur Bestimmung eines Bewegungsvektors und einen verbesserten Bewegungsschätzer bereitzustellen.
Dies wird durch die Merkmale in den Hauptansprüchen verwirklicht.
Nach einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren für die Bestimmung eines Bewegungsvektors für einen Block eines aktuellen Bildes in einer Sequenz von Videobildern bereitgestellt. Jedes Bild ist in eine Mehrzahl von Blöcken unterteilt. Das Verfahren bestimmt einen Bewegungsvektor für den aktuellen Block auf der Basis eines Bewegungsvektors, der für einen Block eines vorhergehenden Bildes geschätzt wurde. Der Block des vorhergehenden Bildes befindet sich an einer Position, die einen vordefinierten Versatz zur Position des aktuellen Blocks aufweist. Die Größe des Versatzes wird in Abhängigkeit davon festgelegt, ob die Bilddaten ein Bild eines Bewegtbildtyps darstellen.
Nach einem weiteren Aspekt der vorliegenden Erfindung wird ein Bewegungsschätzer für die Bestimmung eines Bewegungsvektors für einen Block eines aktuellen Bildes in einer Sequenz von Videobildern bereitgestellt. Jedes Videobild ist in eine Mehrzahl von Blöcken unterteilt. Der Bewegungsschätzer bestimmt einen Bewegungsvektor für den aktuellen Block auf der Basis eines Bewegungsvektors, der für einen Block eines vorhergehenden Bildes geschätzt wurde. Der Block des vorhergehenden Bildes befindet sich an einer Position, die einen vordefinierten Versatz zur Position des aktuellen Blocks aufweist. Ein Filmmaduserkenner, der im Bewegungsschätzer enthalten ist, bestimmt, ob die Bilddaten des aktuellen Blocks aus einem Bewegungsbildtyp stammen. Eine Versatzanpassungseinheit des Bewegungsschätzers legt die Größe des Versatzes in Abhängigkeit von dem Erfassungsergebnis des Filmmodusdetektors fest.
Es ist der besondere Ansatz der vorliegenden Erfindung, den Versatz anzupassen, wenn ein zeitlicher Vorhersagevektor für die Bestimmung des Bewegungsvektors ausgewählt wird, in dem der Bilddatentyp berücksichtigt wird. Wenn es sich herausstellt, dass die Bilddaten, für die ein Bewegungsvektor bestimmt werden soll, von einem Bewegtbild stammt, sind größere Verschiebungen der Objektränder zwischen den aufeinander folgenden Bildern der unterschiedlichen Bewegungsphasen zu erwarten. In der Folge wird der räumliche Versatz zwischen der zeitlichen Vorhersage erhöht. Auf diese Weise berücksichtigt die zeitliche Vorhersage der Bewegungsvektoren die Eigenschaften bestimmter Bildtypen, um die Bewegungsschätzqualität zu verbessern und Artefakte zu reduzieren, die in den bewegungskompensierten Bildern sichtbar sind.
Vorzugsweise wird eine Bestimmung der Bewegtbilddaten auf der Basis eines erfassten Umwandlungsmusters durchgeführt, das in der Videosequenz vorhanden ist. Das Umwandlungsmuster spiegelt das verwendete Pull-down-Schema wider, das bei der Umwandlung des Bewegtbilds in Videodaten verwendet wird.
Nach einer bevorzugten Ausführungsform wird der Bildtyp auf Bildbasis bestimmt, entweder pro Halbbild- oder pro Vollbild. Auf diese Weise wird eine zuverlässige Vorhersage ermöglicht, die nur einen geringen Berechnungsaufwand erfordert.
Nach einer alternativen bevorzugten Ausführungsform wird der Bildtyp, insbesondere im Filmmodus, auf einer Blockbasis bestimmt. Dementsprechend ist eine exaktere Bestimmung des vorliegenden Bildtyps möglich und die vorliegende Erfindung kann vorteilhafterweise auf Sequenzen gemischter Bildtypen angewandt werden. Solche Sequenzen gemischter Bildtypen umfassen Bilddaten, die aus unterschiedlichen Quellen stammen, wie Bewegtbild- und Videokameradaten.
Der Versatzwert wird für Bilddaten des Bewegtbildtyps im Vergleich zu Standardvideobilddaten vorzugsweise doppelt so groß festgelegt. Dementsprechend kann die Bewegung exakt bestimmt werden, selbst wenn in jedem zweiten Bild der Bildsequenz unterschiedliche Bewegungsphasen vorhanden sind. Die Versatzwerte für Standardtypbilder werden vorzugsweise auf eine Blocklänge zwischen 1 und 4 festgelegt, während die Versatzwerte für Bilder des Bewegtbildtyps auf eine Blocklänge zwischen 2 und 8 festgelegt werden. Am besten wird der Versatzwert für Standardbildtypen auf eine Blocklänge von 2 eingestellt und der Versatzwert für Bilder des Bewegtbildtyps wird auf eine Blocklänge von 4 eingestellt.
Vorzugsweise wird der Versatz in horizontaler und vertikaler Richtung unterschiedlich festgelegt. Auf diese Weise können unterschiedliche Bewegungsrichtungen korrekt berücksichtig werden.
Am besten wird der Versatzwert für entweder die horizontale oder vertikale Richtung auf Null eingestellt. Dementsprechend wird der räumliche Versatz für die zeitliche Vorhersage entweder horizontal oder vertikal festgelegt.
Nach einer bevorzugten Ausführungsform wird die Bewegungsschätzung auf der Basis einer Mehrzahl von Vektorkandidaten durchgeführt. Die Mehrzahl der Vektorkandidaten umfassen den Bewegungsvektor eines Blocks in einem vorhergehenden Bild an einer Position, die von der Position des aktuellen Blocks versetzt ist, um den am besten passenden Bewegungsvektor zu bestimmen. Basierend auf einer begrenzten Menge von Bewegungsvektorkandidaten, von denen jeder eine individuelle Bewegungsschätzung für den aktuellen Block bietet, kann eine Bestimmung eines Bewegungsvektors mit zuverlässigen Ergebnissen mit nur minimalem Hardware-Aufwand und einer minimalen Zahl erforderlicher Berechnungen durchgeführt werden.
Um auf zuverlässige Weise eine mögliche Bewegung zu erfassen, werden unterschiedliche zeitliche Vorhersagen erfasst. Insbesondere beziehen sich die zeitlichen Vorhersagen auf dasselbe vorhergehende Bild, weisen aber unterschiedliche Versatzwerte auf, vorzugsweise entweder einen vertikalen oder horizontalen Versatz.
Im Unterschied zu einem Vollsuchansatz zur Bestimmung des Bewegungsvektors basiert eine Bewegungsschätzung vorzugsweise auf Vektorkandidaten, einschließlich mindestens einem aus einem Null-Bewegungsvektor, der auf dieselben Blockposition im aktuellen Block zeigt, einen Bewegungsvektor, der für einen benachbarten Block des aktuellen Bildes bestimmt wird, wobei die Länge des Vektors durch einen Aktualisierungsvektor variiert wird, und einen Bewegungsvektor aus einem vorhergehenden Bild, wobei die Position entsprechend einem Versatzwert verschoben wurde. Solch eine begrenzte Menge an Bewegungsvektoren ermöglicht eine schnelle und zuverlässige Bestimmung des Bewegungsvektors.
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden in den Unteransprüchen definiert.
Weitere Ausführungsformen und Vorteile der vorliegenden Erfindung werden in der folgenden Beschreibung der bevorzugten Ausführungsformen deutlich, in denen gilt:
1 stellt eine Unterteilung eines Videobildes in eine Mehrzahl von Blöcken einheitlicher Größe zum Zwecke der Bewegungsschätzung und -kompensation dar,
2 zeigt einen aktuellen Block B(x, y) und mögliche räumliche Vorhersagepositionen,
3 zeigt einen aktuellen Block B(x, y) und mögliche räumliche und zeitliche Vorhersagepositionen,
4 zeigt eine Gestaltung eines Bildraten-Umwandlers,
5 stellt ein Bewegungsobjekt und zeitliche Vorhersagepositionen für die Schätzung eines Bewegungsvektors basierend auf kleinen im Blockraster markierten Versatzwerten dar,
6 stellt ein Bewegungsobjekt und zeitliche Vorhersagepositionen für die Schätzung eines Bewegungsvektors basierend auf größeren im Blockraster markierten Versatzwerten dar,
7 zeigt unterschiedliche Bewegungsphasen in einer Videosequenz, die aus einer Videokamera stammen,
8 stellt verschiedene Bewegungsphasen desselben Bewegungsobjekts von 7 in einer Bewegtbildsequenz dar,
9 zeigt unterschiedliche Bewegungsphasen in einer Videosequenz, die aus der Bewegungsbildsequenz von 8 stammen, die in eine Videosequenz umgewandelt wurde, und
10 zeigt eine Gestaltung eines Videocodierers, der einen Bewegungsschätzer nach der vorliegenden Erfindung enthält.
Die vorliegende Erfindung bezieht sich auf eine digitale Signalverarbeitung, insbesondere auf die Signalverarbeitung in modernen Fernsehgeräten. Moderne Fernsehgeräte nutzen Aufwärts-Umwandlungs-Algorithmen, um die Qualität der wiedergegebenen Bilder zu erhöhen. Zu diesem Zweck sollen Zwischenbilder aus zwei aufeinander folgenden Bildern generiert werden. Um ein Zwischenbild zu generieren, muss die Bewegung der Bewegungsobjekte berücksichtigt werden, um die Objektposition angemessen an den Zeitpunkt anzupassen, der durch das interpolierte Bild widergespiegelt wird.
Die Bewegungsschätzung erfolgt auf einer Blockbasis. Zu diesem Zweck wird jedes empfangene Bild, wie beispielsweise in 1 dargestellt, in eine Mehrzahl von Blöcken unterteilt. Jeder aktuelle Block wird einzeln einer Bewegungsschätzung unterzogen, indem der am besten passende Block in dem vorhergehenden Bild bestimmt wird.
Um eine zeitraubende Vollsuche in einem vordefinierten Suchbereich zu vermeiden, wird nur eine begrenzte Menge von Kandidatenvektor dem Bewegungsschätzer bereitgestellt. Aus diesen Kandidatenvektoren wählt der Bewegungsschätzer den Vektor, der den aktuellen Block aus dem entsprechenden Block des vorhergehenden Bildes mit einem minimalen Abweichungsbetrag vorhersagen kann.
1 zeigt die Unterteilung eines jeden Videobildes in einer Vielzahl von Blöcken B(x, y). Jeder Block verfügt über eine Breite X und eine Höhe Y, wobei X und Y jeweils die Anzahl der Pixel in Zeilen- und Spaltenrichtung darstellen. Die Anzahl der Blöcke pro Zeile oder Spalte kann mit folgenden Formeln berechnet werden: Xmax = Pixel pro Zeile/X ymax = Pixel pro Spalte/Y
Für jeden dieser Blöcke wird ein Bewegungsvektor aus einer Mehrzahl verschiedener Vektorkandidaten berechnet. Herkömmlicherweise enthält die Menge der Vektorkandidaten zum Beispiel die folgenden Bewegungsvektoren: C1 = (0;0) C2 = ν →[(× – 1; y), n] C3 = ν →[(×; y – 1), n] C4 = ν →[(× – 1; y), n]+u → C5 = ν →[(×; y – 1), n]+u → C6 = ν →[(× + 2 ; y), n – 1] C7 = ν →[(×; y + 2), n – 1]Wobei n das aktuelle Halbbild, n-1 das vorhergehende Halbbild und u → den Aktualisierungsvektor angibt.
Wie aus den obigen Gleichungen ersichtlich, können die Vektorkandidaten einen Null-Bewegungsvektor (C₁) umfassen, Bewegungsvektoren der angrenzenden Blöcke für eine räumliche Vorhersage (C₂, C₃), und/oder Bewegungsvektoren des vorhergehenden Bildes für eine zeitliche Vorhersage (C₆, C₇).
Die räumliche Vorhersage kann verbessert werden, indem Aktualisierungsvektoren verwendet werden, die in den Vektoren für die räumliche Vorhersage C₂, C₃ kumuliert sind. Um kleinere Änderungen der Objektbewegung im Vergleich zu einem ausgewählten Vektorkandidaten zu berücksichtigen, wird ein Aktualisierungsvektor auf einem Bewegungsvektor angewendet, um neue Vektorkandidaten C₄, C₅ zu erstellen. Obwohl in der obigen Liste der Kandidatenvektoren der Aktualisierungsvektor u → nur auf die Vektorkandidaten C₂ und C₃ angewendet wird, kann er auf dieselbe Weise auf jeden anderen Vektorkandidaten angewendet werden, zum Beispiel auf die Vektorkandidaten C₆, C₇.
Obwohl die zeitlichen Vorhersagevektoren C₆ und C₇ der obigen Liste die Verwendung von Vektorkandidaten definieren, die einen Versatz von zwei Blöcken aufweisen, kann ein beliebiger anderer Versatz stattdessen anstelle von zwei verwendet werden, wie null, einer, drei usw.
Während die zeitlichen Vorhersagevektoren bezüglich eines aktuellen und eines vorhergehenden Bildes beschrieben wurden, kann sich der Begriff "Bild" entweder auf die Halbbilder einer Zeilensprung-Videosequenz oder auf Vollbilder einer progressiven Videosequenz beziehen. Dementsprechend können die generierten Zwischenbilder Halbbilder oder Vollbilder abhängig vom Typ der Videosequenz sein.
Weiterhin ist die obige Liste der Vektorkandidaten weder vollständig noch müssen alle der oben erwähnten Kandidatenvektoren aufgenommen werden. Jede andere Menge an Vektorkandidaten kann verwendet werden, was zur Bestimmung eines am besten passenden Bewegungsvektors für den aktuellen Block führt.
Für jeden Vektorkandidat wird ein Vorhersagefehler berechnet und ausgewertet, um den am besten passenden Bewegungsvektor zu bestimmen. Als Maß für den Vorhersagefehler kann die Summe der absoluten Differenzen (SAD) bestimmt werden. Der Kandidatenvektor wird ausgewählt und erachtet, die Bewegung des Blockes, der die kleinste SAD hat, am besten darzustellen.
Da einige der Bewegungsvektorkandidaten C₁ bis C₇ gegenüber anderen Kandidatenvektoren bevorzugt sein können, kann ein programmierbarer "Strafabzug" zur bestimmten SAD für einzelne Kandidaten hinzugefügt werden. Auf diese Weise kann die Auswahl bestimmter Kandidaten priorisiert werden. Vorzugsweise ist der Strafabzugswert proportional zur Länge des Aktualisierungsvektors u → für Bewegungsvektorkandidaten C₄, C₅.
Zusätzlich zu der obigen Liste von Vektorkandidaten kann ein globaler Bewegungsvektor weiterhin berücksichtigt werden. Ein globaler Bewegungsvektor stellt die Bewegung dar, die auf alle Blöcke des Videobilds anwendbar ist. Solche Bewegungsvektoren gelten entsprechend für einen Kameraschwenk.
Die oben aufgeführten Vektorkandidaten C₁ bis C₇ enthalten bereits berechnete Bewegungsvektoren aus der räumlichen Nachbarschaft, wie in 2 dargestellt. Diese Vektorkandidaten umfassen die bereits verarbeiteten Blöcke B(x-1, y) und B(x, y-1) aus benachbarten Positionen zur Position des aktuellen Blocks B(x, y) als Vektorkandidaten C₂ und C₃.
Die Vektorkandidaten C₆ und C₇ stellen zeitliche Vorhersagevektoren dar, die bereits berechnete Bewegungsvektoren des vorhergehenden Halbbildes n-1 darstellen. Ein Beispiel für zeitliche Bewegungsvorhersagevektoren ist in 3 dargestellt, wobei die Blöcke B'(x+2, y) und B'(x, y+2) als Vorhersagevektoren markiert sind.
Die zeitlichen Vorhersagevektoren liefern eine homogene Geschwindigkeit eines Bewegungsobjekts, wenn die Bewegung einer Szene über mehrere Halbbilder nahezu konstant ist. Basierend auf Vektorinformationen, die durch den Bewegungsschätzungsalgorithmus generiert wurden, wird ein Zwischenhalbbild mit Hilfe von Bewegungskompensationstechniken interpoliert.
Eine Beispielgestaltung eines bekannten Halbbildraten-Umwandlers wird in 4 dargestellt. Die Bewegungsschätzungsschaltung ME berechnet ein Bewegungsvektor-Halbbild und übergibt das Bewegungsvektor-Halbbild an die bewegungskompensierte Interpolationsschaltung MCl. Das bewegungskompensierte Ausgabebild wird auf einem angeschlossenen Anzeigegerät ausgegeben.
Aufwärts-Umwandlungs-Algorithmen, die in Fernsehgeräten der oberen Leistungsklasse verwendet werden, leiden unter einer schlechten Bildqualität, wenn das Quellmaterial von Bewegtbildern abstammt. Im Falle einer schnellen Bewegung können Randlinien von Bewegungsobjekten während der Interpolation nicht rekonstruiert werden. Dieser Nachteil resultiert aus zeitlichen Vorhersageblockpositionen in dem vorhergehenden Halbbild, die sich in der Nähe des aktuellen Blocks befinden. Solche zeitlichen Vorhersagepositionen befinden sich außerhalb des aktuellen Bewegungsobjekts im vorhergehenden Halbbild. Dieses Problem wird im Detail in 5 dargestellt.
5 stellt ein graues Bewegungsobjekt im aktuellen Halbbild n und im vorhergehenden Halbbild n-1 dar. Die grau markierten Blöcke stellen ein Objekt dar, das sich mit hoher Geschwindigkeit nach links bewegt. Der aktuelle Block B(x, y) befindet sich am linken Rand des Bewegungsobjekts. Die entsprechend verwendeten zeitlichen Vorhersagevektorpositionen TP1 und TP2 im vorhergehenden Halbbild n-1 befinden sich außerhalb des Bewegungsobjekts. In der Folge können die zeitlichen Vorhersagevektoren TP1 und TP2 keinen Bewegungsvektor liefern, der die Bewegung des aktuellen Objekts widerspiegelt.
Die Bewegungsphasen in den Halbbildern n und n-1, die in 5 dargestellt werden, stammen von Videodaten, die aus Bewegtbildern umgewandelt wurden. Aufgrund der Halbbildrate von 24 Hz von Bewegtbildern unterscheiden sich die Objektpositionen erheblich zwischen den angrenzenden Bildern im Vergleich zu Videodaten, die aus einem Kameraquellmaterial mit einer Halbbildrate von 50 Hz oder 60 Hz stammen. Daher könnte ein zeitlicher Vorhersagevektor, der auf dieselbe Weise bestimmt wird, aber aus einem Kameraquellmaterial stammt, einen Bewegungsvektor bestimmen, der die korrekte Bewegung des aktuellen Bildhalbbildobjekts aus denselben zeitlichen Vorhersagepositionen TP1 und TP2 im vorhergehenden Halbbild widerspiegelt.
Die unterschiedlichen Bewegungsphasen, die entweder durch eine Kamera oder eine Filmkamera aufgezeichnet und von Filmkamera-Bewegtbilddaten in Videokameradaten umgewandelt wurden, werden in 7, 8 und 9 dargestellt.
7 zeigt die Bewegungsphasen, die durch eine elektronische Kamera mit einem Zeilensprung-Aufnahmeformat in einer 50 Hz- oder 60 Hz-Halbbildrate aufgezeichnet wurden. Im Unterschied dazu wird dieselbe von einer Filmkamera aufgezeichnete Szene in 8 dargestellt. Dementsprechend spiegeln die Bewegtbilddaten nur die Phasen mit geringerer Bewegung wider, im Vergleich zu den Videodaten nach Fernsehstandards wie PAL, SECAM oder NTSC.
Bei der Umwandlung von Bewegtbilddaten, wie in 8 dargestellt, in einen Fernsehstandard wie das Videoformat, werden die Bewegungsphasen aus den Bewegtbildern wiederholt in eine Mehrzahl von Halbbildern umgewandelt. Wie aus 9 ersichtlich, wird jede Bewegungsphase aus Bewegtbildern in zwei Halbbilder einer Halbbildsequenz nach einer zwei-zwei Pull-down-Umwandlung umgewandelt.
Beim Vergleich der Objektpositionen der verschiedenen Bewegungsphasen, die in den Videosequenzen von 7 und 9 dargestellt werden, ist eine zeitliche Vorhersage basierend auf den Bewegungsphasen von 9 ziemlich fehleranfällig. Da nur weniger Bilder der Videosequenz in 9 die unterschiedlichen Bewegungsphasen widerspiegeln, muss eine zeitliche Bewegungsvektorvorhersage größere Verschiebungen des Bewegungsobjekts zwischen den Bewegungsphasen behandeln können.
Die auf Videosequenzen angewendete Bewegungsschätzung kann nicht exakt beide Arten von Bilddaten berücksichtigen, d.h. Videomodusdaten und Filmmodusdaten. In der Folge misslingt die zeitliche Vorhersage des Bewegungsvektors im Allgemeinen für schnelle Bewegungsobjekte, die aus einem Bewegtbild stammen. Somit sind starke Artefakte in einer bewegungskompensierten Halbbildsequenz für schnelle Bewegungsobjekten sichtbar, insbesondere an den Randlinien der Bewegungsobjekte.
Die vorliegende Erfindung löst dieses Problem durch die Anpassung des Versatzes der zeitlichen Vorhersagevektoren abhängig vom Typ der Bilddaten. Im Videomodus sind die Blockpositionen im vorhergehenden Halbbild näher an der aktuellen Blockposition eingestellt, während im Filmmodus die zeitlichen Vorhersagepositionen weiter von der aktuellen Blockposition entfernt eingestellt sind. Diese verschiedenen Vorhersagemodi für den Videomodus und den Filmmodus werden in 5 und 6 dargestellt. Während 5 die Versatzwerte zweier Blöcke in horizontaler (TP1) und vertikaler (TP2) Richtung darstellt, zeigt 6, wie die Vorhersageversatzwerte größer eingestellt werden. Der horizontale und vertikale Versatz ist in vier Blöcken festgelegt.
Im Allgemeinen werden die zeitlichen Vorhersagevektoren als Vektorkandidaten wie folgt eingestellt: • C6 = ν →[(× + tpx1; y + tPy1),n-1] • C7 = ν →[(× + tpx2; y + tpy2),n-1]
Die Variablen (tpx1, tpy1l), (tpx2, tpy2) stellen die zeitlichen Vorhersageversatzpositionen dar. Die zeitlichen Vorhersageversatzpositionen hängen von dem erfassten Quellmodus für das aktuelle Bild oder den aktuellen Block ab. Beim Filmmodus müssen die Werte der zeitlichen Vorhersageversatzpositionen (tpx1, tpy1), (tpx2, tpy2) größer gesetzt werden als für den Videomodus. Die Erfassung des Filmmodus oder Videomodus kann auf Blockbasis, auf Bildbasis oder sogar auf einer Sequenz von Bildern basierend durchgeführt werden.
In einer bevorzugten Ausführungsform werden die zeitlichen Vorhersageversatzpositionen auf Blockbasis entsprechend den Gleichungen (1) bis (4) bestimmt:
Der Parameter block mode = 0 gibt an, dass für den aktuellen Block der Videomodus erfasst wurde.
Um die Qualität der Bewegungsschätzung für größere Objekte zu verbessern, die sich mit nahezu konstanter Geschwindigkeit bewegen, werden die Vektorkandidaten C₆ und C₇ (zeitliche Vorhersagevektoren) in die Menge der Vektorkandidaten aufgenommen. Im Falle der Objektbewegung, die nahezu identisch ist mit der Objektbewegung im vorhergehenden Halbbild, spiegelt der zeitliche Vorhersagekandidat die Bewegung des aktuellen Objekts perfekt wider. In der Folge weist der berechnete Fehlerwert, vorzugsweise die Summe der absoluten Differenzen (SAD), den kleinsten Wert dergestalt auf, dass die zeitlichen Vorhersagevektoren C₆ oder C₇ als der beste Bewegungsvektor für den aktuellen Block ausgewählt werden.
Während die vorliegende Erfindung vor allem im Kontext der Interpolation von Zwischenbildern beschrieben wurde, kann insbesondere für die Vollbildraster-Umwandlung in modernen Fernsehgeräten die verbesserte Bewegungsschätzung der vorliegenden Erfindung in entsprechender Weise auf die Videodatenkompression angewendet werden.
Die Kompression von Videodaten verwendet in der Regel mehrere Hauptstufen. Jedes Einzelbild wird in Pixel-Blöcke unterteilt, um jedes Bild auf Blockebene einer Datenkompression zu unterziehen. Solch eine Blockunterteilung kann der Unterteilung in 1 entsprechen. Räumliche Redundanzen in einem Bild werden dadurch reduziert, dass jeder Block auf eine Transformationseinheit angewendet wird, um die Pixel eines jeden Blocks vom räumlichen Bereich in den Frequenzbereich zu transformieren. Die resultierenden Transformationskoeffizienten werden quantisiert und die quantisierten Transformationskoeffizienten werden einer Entropiecodierung unterzogen.
Weiterhin werden die zeitlichen Abhängigkeiten zwischen Blöcken aufeinander folgender Bilder genutzt, um nur die Differenzen zwischen den aufeinander folgenden Bildern zu übertragen. Dies wird durch die Verwendung einer Bewegungsschätzungs-/Kompensationstechnik erreicht. Die Nutzung zeitlicher Abhängigkeiten wird durch so genannte hybride Codierungstechniken durchgeführt, die zeitliche und räumliche Kompressionstechniken mit der statistischen Codierung vereinen.
In 10 wird ein Beispiel eines hybriden Videocodierers dargestellt. Der Videocodierer, der allgemein durch die Referenzkennung 1 bezeichnet ist, umfasst einen Subtraktor 10 zum Bestimmen der Differenzen zwischen einem aktuellen Videobild und einem Vorhersagesignal des aktuellen Bildes, das auf einem bewegungskompensierten, bereits codierten Bild basiert. Eine Transformations- und Quantisierungseinheit 20 transformiert den Vorhersagefehler aus dem räumlichen Bereich in den Frequenzbereich und quantisiert die erhaltenen Transformationskoeffizienten. Eine Entropiecodierungseinheit 90 codiert die quantisierten Transformationskoeffizienten auf entrope Weise.
Codierer 1 verwendet eine Differential Pulse Code Modulation (DPCM), die nur die Differenzen zwischen den aufeinander folgenden Bildern einer Eingangsvideosequenz überträgt. Diese Differenzen werden durch den Subtraktor 10 bestimmt, der die zu codierenden Videobilder und ein Vorhersagesignal empfängt, das hiervon subtrahiert wird.
Das Vorhersagesignal basiert auf dem Dekodierergebnis der zuvor codierten Bilder auf der Codiererseite. Dies wird durch eine Decodiereinheit erreicht, die in den Videocodierer integriert ist. Die Decodiereinheit führt die Codierschritte in umgekehrter Weise durch. Die Einheit zur inversen Quantisierung und inversen Transformation 30 dequantisiert die quantisierten Koeffizienten und wendet eine inverse Transformation auf die dequantisierten Koeffizienten an. Der Addierer 35 kumuliert die decodierten Differenzen und das Vorhersagesignal.
Das Vorhersagesignal stammt aus einer Schätzung der Bewegung zwischen dem aktuellen und vorhergehenden Halbbildern oder Vollbildern. Die Bewegungsschätzung wird durch einen Bewegungsschätzer 70 durchgeführt, der das aktuelle Eingangssignal und die lokal decodierten Bilder empfängt. Die Bewegungsschätzung wird vorzugsweise in Übereinstimmung mit der vorliegenden Erfindung durchgeführt. Basierend auf den Ergebnissen der Bewegungsschätzung wird die Bewegungskompensation durch den Bewegungskompensator 60 durchgeführt.
Zusammengefasst bietet die vorliegende Erfindung ein verbessertes Verfahren für die Bewegungsschätzung und im Besonderen für eine bewegungskompensierte Interpolation. Indem die Quelle der Videodaten berücksichtigt wird, wird ein räumlicher Versatz für die Auswahl eines zeitlichen Vorhersagevektors in Übereinstimmung mit dem erfassten Quellmodus festgelegt. Durch die Auswahl eines entsprechenden Versatzes aus der aktuellen Blockposition in einem vorhergehenden Halbbild, kann die Genauigkeit der vorhergesagten Bewegung und in der Folge die Bildqualität der bewegungskompensierten Bilder erheblich verbessert werden.

Claims

Verfahren zur Bestimmung eines Bewegungsvektors für einen Block eines aktuellen Bildes in einer Sequenz von Videobildern, wobei jedes Videobild in eine Mehrzahl von Blöcke unterteilt ist, das Verfahren bestimmt einen Bewegungsvektor eines aktuellen Blockes basierend auf einem Bewegungsvektor, der für einen Block eines vorhergehenden Bildes geschätzt wurde, wobei sich der Block des vorhergehenden Bildes an einer Position mit einem vordefinierten Versatz zu der Position des aktuellen Blocks befindet, gekennzeichnet durch den Schritt Einstellen der Größe des Versatzes in Abhängigkeit davon, ob die Bilddaten des aktuellen Blocks von einem Bild eines Bewegtbildtyps stammen.
Verfahren nach Anspruch 1, wobei eine Bestimmung, dass Bilddaten von einem Bildtyp eines Bewegtbilds stammen, auf der Detektion eines Umwandlungsmusters eines Bewegtbilds in Videodaten in der Videobildsequenz basieren.
Verfahren nach Anspruch 2, wobei das Umwandlungsmuster ein 2:2 oder 3:2 Umwandlungsmuster ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei eine Bestimmung, dass Bilddaten von einem Bild eines Bewegtbildstyp stammen, auf Basis eines Bildes bestimmt wird, im besonderen pro Halbbild oder Vollbild.
Verfahren nach einem der Ansprüche 1 bis 3, wobei eine Bestimmung, dass Bilddaten von einem Bild eines Bewegtbildtyps stammen, auf Blockbasis bestimmt wird.
Verfahren nach einem der Ansprüche 1 bis 5, wobei der Versatz größer eingestellt wird, wenn die Bilddaten von einem Bewegtbild stammen.
Verfahren nach Anspruch 6, wobei im Fall von Bilddaten von Bewegtbilder der Versatz notwendigerweise zweimal so groß eingestellt wird, wie ein Versatz für Bilddaten eines Nicht-Bewegtbildtyps,
Verfahren nach Anspruch 6 oder 7, wobei der Versatz im Falle von Bilddaten eines Nicht-Bewegtbildtyps auf Werte zwischen 1 und 4 Blocklängen eingestellt wird, und im Falle von Bilddaten die auf Bewegtbilder basieren auf Werte zwischen 2 und 8 Blocklängen eingestellt wird.
Verfahren nach einem der Ansprüche 6 bis 8, wobei der Versatz im Falle von Bilddaten eines Nicht-Bewegtbildtyps auf einen Wert von 2 Blocklängen eingestellt wird, und im Falle von Bilddaten, die auf Bewegtbilder basieren auf einen Wert von 4 Blocklängen eingestellt wird.
Verfahren nach einem der Ansprüche 1 bis 9, wobei der Versatz in horizontale und vertikale Richtung unterschiedlich eingestellt wird.
Verfahren nach Anspruch 10, wobei der Versatz entweder in horizontale oder vertikale Richtung auf Null eingestellt wird.
Verfahren nach einem der Ansprüche 1 bis 11, das weiter die Schritte umfasst: Auswählen eines Bewegungsvektors für den aktuellen Block aus einer Mehrzahl von Bewegungsvektorkandidaten (C₁-C₇), die den Bewegungsvektor enthalten, der für einen Block eines vorhergehenden Bildes an einer von der Position des aktuellen Blockes versetzten Positionen geschätzt wurde, und Zuordnen des ausgewählten Bewegungsvektors zu dem aktuellen Block.
Verfahren nach Anspruch 12, wobei der Auswahlschritt die Schritte umfasst: Berechnen eines Fehlerwerts für jeden Bewegungsvektorkandidaten (C₁-C₇), und Auswählen des Bewegungsvektors, der den kleinsten Fehlerwert hat.
Verfahren nach Anspruch 12 oder 13, wobei der Vektorkandidat (C₁-C₇) mindestens einen der folgenden Vektoren enthält: einen Null-Bewegungsvektor (C₁), der auf die identische Blockposition des aktuellen Blockes zeigt, einen Bewegungsvektor (C₂, C₃), der für einen Nachbarblock des aktuellen Bildes bestimmt wird, einen Bewegungsvektor (C₄, C₅), der für einen Nachbarblock in dem aktuellen Bild bestimmt wird, wobei die Vektorlänge durch Addition eines Aktualisierungsvektors (u) variiert wird.
Verfahren zur Kodierung einer Sequenz von Videobildern, das Bewegungskompensation enthält, wobei ein Verfahren zu Bewegungsschätzung gemäß einem der Ansprüche aus 1 bis 14 angewendet wird.
Verfahren zur Interpolation einer Sequenz von Videobilder das Bewegungskompensation enthält, wobei ein Verfahren zu Bewegungsschätzung gemäß einem der Ansprüche aus 1 bis 14 angewendet wird.
Verfahren zur Umwandlung einer Halbbild- oder Vollbild-Rate einer Videosequenz durch die Anwendung von Bewegungskompensation gemäß Anspruch 16.
Bewegungsschätzer zur Bestimmung eines Bewegungsvektor für einen Block eines aktuellen Bildes in einer Sequenz von Videobildern, wobei jedes Videobild in eine Mehrzahl von Blöcke unterteilt ist, der Bewegungsschätzer bestimmt den Bewegungsvektor für einen aktuellen Block basierend auf einem Bewegungsvektor, der für einen Block eines vorhergehenden Bildes bestimmt wurde, wobei sich der Block des vorhergehenden Bildes an einer Position mit einem vordefinierten Versatz zu der Position des aktuellen Blocks befindet, gekennzeichnet durch einen Filmmodusdetektor, der bestimmt, ob die Bilddaten des aktuellen Blockes von einem Bild eines Bewegtbildtyps stammen, und eine Versatzanpassungseinheit zum Einstellen der Größe des Versatzes abhängig von den Detektionsergebnis des Filmmodusdetektors.
Bewegungsschätzer nach Anspruch 18, wobei der Filmmodusdetektor so angepasst ist, dass er basierend auf der Detektion eines Umwandlungsmusters eines Bewegt bilds in Videodaten in einer Sequenz von Videobildern bestimmt, dass Bilddaten von einem Bild eines Bewegtbildtyps stammen.
Bewegungsschätzer nach Anspruch 19, wobei das Umwandlungsmuster ein 2:2 oder 3:2 Umwandlungsmuster ist.
Bewegungsschätzer nach einem der Ansprüche 18 bis 20, wobei der Filmmodusdetektor so angepasst ist, dass er auf Bildbasis, im besonderen je Halbbild oder Vollbild, bestimmt, dass Bilddaten von einem Bild eines Bewegtbildtyps stammen.
Bewegungsschätzer nach einem der Ansprüche 18 bis 20, wobei der Filmmodusdetektor so angepasst ist, dass er auf Blockbasis bestimmt, dass Bilddaten von einem Bild eines Bewegtbildtyps stammen.
Bewegungsschätzer nach einem der Ansprüche 18 bis 22, wobei die Versatzanpassungseinheit so angepasst ist, dass sie den Versatz größer eingestellt, wenn die Bilddaten von einem Bewegtbild stammen
Bewegungsschätzer nach Anspruch 23, wobei die Versatzanpassungseinheit so angepasst ist, dass im Falle von Bewegtbilddaten den Versatz auf die zweifache Größe des Versatzwertes für Bilddaten für Nicht-Bewegtbildtypen einstellt.
Bewegungsschätzer nach Anspruch 23 oder 24, wobei die Versatzanpassungseinheit so angepasst ist, dass sie im Fall von Bilddaten von Nicht-Bewegtbildtypen den Versatz auf Werte zwischen 1 und 4 Blocklängen eingestellt, und im Fall von Bilddaten, die auf Bewegtbildern basieren, einen Wert zwischen 2 und 8 Blocklängen einstellt.
Bewegungsschätzer nach einem der Ansprüche 23 bis 25, wobei die Versatzanpassungseinheit so angepasst ist, dass sie im Fall von Bilddaten von Nicht-Bewegtbildtypen den Versatz auf 2 Blocklängen eingestellt, und im Fall von Bilddaten, die auf Bewegtbildern basieren, einen Wert von 4 Blocklängen einstellt.
Bewegungsschätzer nach einem der Ansprüche 18 bis 26, wobei die Versatzanpassungseinheit so angepasst ist, dass sie den Versatz in horizontale und vertikale Richtung unterschiedlich einstellt.
Bewegungsschätzer nach Anspruch 27, wobei die Versatzanpassungseinheit so angepasst ist, dass der Versatz entweder in horizontale oder vertikalen Richtung Null ist.
Bewegungsschätzer nach einem der Ansprüche 18 bis 28, der ferner eine Auswahleinheit enthält, zur Auswahl eines Bewegungsvektors für den aktuellen Block aus einer Mehrzahl von Bewegungsvektorkandidaten (C₁-C₇), die den Bewegungsvektor enthalten, der für den Block eines vorherigen Bildes an einer Position, die von der Position des aktuellen Blocks versetzt ist, geschätzt wurde, und Zuordnen des ausgewählten Bewegungsvektors zu dem aktuellen Block.
Die Bewegungsschätzer nach Anspruch 29, wobei die Auswahleinheit umfasst: eine Verarbeitungseinheit zur Berechnung eines Fehlerwert für jeden Bewegungsvektorkandidaten (C₁-C₇), und eine Vergleichseinheit zur Auswahl des Bewegungsvektors, der den kleinsten Fehlerwert hat.
Bewegungsschätzer nach Anspruch 29 oder 30, wobei die Vektorkandidaten (C₁-C₇) mindestens einen der folgenden Vektoren enthalten: einen Null-Bewegungsvektor (C₁), der auf die identische Blockposition des aktuellen Blockes zeigt, einen Bewegungsvektor (C₂, C₃), der für einen Nachbarblock des aktuellen Bildes bestimmt wird, einen Bewegungsvektor (C₄, C₅), der für einen Bachbarblock in dem aktuellen Bild bestimmt wird, wobei die Vektorlänge durch Addition eines Aktualisierungsvektors (u) variiert wird.
Ein Videokodierer zu Kodierung einer Sequenz von Videobilder, wobei der Videokodierer einen Bewegungskompensator enthält, der einen Bewegungsschätzer gemäß einem der Ansprüche 18 bis 31 verwendet.
Ein Interpolator zur Interpolation einer Sequenz von Videobilder, wobei der Interpolator eine Bewegungskompensator enthält, der einen Bewegungsschätzer gemäß einem der Ansprüche 18 bis 31 verwendet.