DE69908562T2

DE69908562T2 - Bewegungsvektorenextrapolation zur transkodierung von videosequenzen

Info

Publication number: DE69908562T2
Application number: DE69908562T
Authority: DE
Inventors: Jay Stuart GOLIN
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 1998-02-20
Filing date: 1999-02-02
Publication date: 2004-04-29
Anticipated expiration: 2019-02-03
Also published as: CN1293872A; WO1999043162A1; US6058143A; BR9908063A; EP1057341B1; CN1245029C; AU2578799A; EP1057341A1; DE69908562D1; RU2251820C2; KR100515199B1; JP4514081B2; KR20010041095A; JP2002504789A

Description

LIZENZRECHTE DER REGIERUNG
Die Regierung der Vereinigten Staaten von Amerika hat an dieser Erfindung eine bereits vollständig bezahlte Lizenz erworben und unter bestimmten Umständen das Recht, vom Patentinhaber zu verlangen, Dritte zu angemessenen Bedingungen zu lizensieren, wie sie durch die Bedingungen des Vertrags mit der Nummer 70NANB5H1171 bestimmt sind, der durch das National Institute of Standards and Technology vorgelegt wurde.
GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein die Bewegungsschätzung in der Transcodierung einer Videofolge und insbesondere eine Lösung für die Transcodierung einer empfangenen Videofolge durch Anwendung extrapolierter Bewegungsinformationen aus der empfangenen Videofolge, um dadurch eine Bewegungsschätzung aus dem Transcodiervorgang zu minimieren oder zu beseitigen.
HINTERGRUND DER ERFINDUNG
Lösungen mit einer Datenkomprimierung machen es möglich, dass große Mengen von Daten über relativ kleine Bandbreiten übertragen werden können. Die in einem Komprimiersystem benutzen Algorithmen sind abhängig von der verfügbaren Bandbreite und der Speicherkapazität, der durch die Anwendung geforderten Merkmale und der Leistungsfähigkeit der Hardware, die für die Durchführung des Komprimieralgorithmus benötigt wird (Coder sowie Decoder). Die sogenannte "moving pictures expert group-type 2 ("MPEG-2") – Komprimiernorm, die hiermit als Entgegenhaltung eingeführt wird, ist eine hinreichend bekannte Lösung für die Komprimierung von Videodaten. Die Bewegungsschätzung, die den Vorgang bildet, den die Videocoder für die Berechnung der Bewegungsvektoren benutzen, wird im Allgemeinen als der kostenintensivste Teil des Codiervorgangs ange-sehen. Auf ähnliche Weise ist die Bewegungsschätzung wahrscheinlich der kostenintensivste Teil eines Transcodiervorgangs, in dem eine Videofolge de-codiert und dann mit neuen Parametern neucodiert wird. Mit der Einführung des hochauf-lösenden Fernsehens ("HDTV") ist dies ein wichtiges Anliegen, da Fernsehstudios gezwungen sein werden, MPEG-2-Bitströme von Bilddaten von einem Format in ein anderes Format zu transcodieren. Z. B. müssen Fernsehstudios für die HDTV-Norm in der Lage sein, einen MPEG-2-Bitstrom von einer Struktur von Gruppen von Bildern ("GOP" = group of pictures) in eine andere, von einer Bildgröße in eine andere und/oder von einer Bitrate in eine andere zu transcodieren. Es kann Fälle geben, wo diese Studios MPEG-2- Bilder von Halbbildern in Vollbilder oder von Vollbildern in Halbbilder transcodieren müssen. Es kann auch Fälle geben, wo die Studios Bilder aus einer verschachtelten Folge in eine progressive Folge oder von einer progressiven Folge in eine verschachtelto Folge transcodieren müssen. Die Transcodierung kann auch dazu dienen, eine "Zuschneide" (cropping)-Funktion durchzuführen, in der ein Eingang ein Hauptbild und der transcodierte Ausgang ein Unterbild in dem Hauptbild darstellt. Die EP-A-0 637 893 zeigt ein Transcodier-gerät.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Lösung für die Transcodierung einer Videofolge zu schaffen, die Bewegungsschätzungen minimiert oder beseitigt, wie sie in den Ansprüchen 1 und 16 angegeben ist.
Es ist eine weitere Aufgabe, eine Lösung für die Transcodierung einer Videofolge zu schaffen, in der Bewegungsinformationen aus einem Eingangsbitstrom zur Erzeugung von Bewegungsvektoren für einen transcodierten Ausgangsbitstrom benutzt werden.
Es ist eine weitere Aufgabe, eine Lösung für eine Bewegungsschätzung für den Transcodiervorgang zu schaffen, die für alle MPEG-2-Vorraussagemodi geeignet ist.
Diese und andere Aufgaben können gemäß Prinzipien der vorliegenden Erfindung mit einem Transcodierverfahren gelöst werden, das durch den Empfang eines ersten Bitstroms mit komprimierten Bilddaten mit identifizierbaren Codierparametern erfolgt. Diese Parameter können die GOP-Struktur von Bildern, die in dem ersten Bitstrom dargestellt werden, die Größe der in dem ersten Bitstrom dargestellten Bilder betreffen, ob die in dem ersten Bitstrom dargestellten Bilder Halbbilder oder Vollbilder sind, und/oder ob die in dem ersten Bitstrom dargestellten Bilder eine progressive oder verschachtelte Folge bilden. Zunächst werden Bewegungsinformationen aus dem ersten Bitstrom gewonnen und diesen zur Extrapolierung der zweiten Bewegungsinformationen für einen zweiten Bitstrom von komprimierten Bilddaten. Der zweite Bitstrom, der ein oder mehrere Parameter enthält, die von den Parametern des ersten Bitstroms abweichen, wird als ein transcodierter Ausgang geliefert.
KURZBESCHREIBUNG DER ZEICHNUNG
Eine vollständigere Würdigung dieser Erfindung und viele ihrer Vorteile ergeben sich und werden besser verständlich durch die folgende detaillierte Beschreibung im Zusammenhang mit der beigefügten Zeichnung:
1 zeigt die Grundprinzipien der Extrapolation der Bewegungsvektoren,
2 zeigt ein Transcodiersystem, das gemäß den Prinzipien der vorliegenden Erfindung aufgebaut ist,
3 zeigt den Vorgang der Bildtranscodierung von einer GOP-Struktur in eine andere gemäß den Prinzipien der vorliegenden Erfindung, und
4 zeigt den allgemeinen Fall der Extrapolation von Bewegungsvektoren und kann für ein besseres Verständnis der Extrapolation der Bewegungsvektoren dienen, wie sie bei der Transcodierung angewendet wird.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
In 1 der Zeichnung sind die Grundprinzipien der Extrapolation der Bewegungsvektoren dargestellt. Im Allgemeinen ist eine Bewegungsvektor-Extrapolation eine Lösung zur Bewegungsschätzung für ein Bild in einer Videofolge, wenn die Bewegung irgendwo in der Folge bekannt ist. In 1 das fett gezeichnete Quadrat im Bild B einen individuellen Block von Pixeln (a.k.a., pels) in einem Videobild. Es wird angenommen, dass jeder Block in dem Bild eine feste Lage hat. In MPEG-2 werden diese Blöcke mit "Makroblöcken" bezeichnet, und jeder von ihnen besteht aus einem Block mit 16 × 16 Pixeln. Der stark ausgezogene Pfeil in 1 bezeichnet die bekannte Bewegung des stark gezeichneten Blocks, wenn sich der Block von dem Bild A zu dem Bild B bewegt. Tatsächlich ist es der Bildanteil (imagery) in dem Block, der sich bewegt, und nicht der Block selbst, der sich in einer festen Lage befindet. Die bekannte Bewegung, definiert durch einen Bewegungsvektor, dient zur Extrapolation der Bewegung des Blocks, wenn er sich von dem Bild B zu dem Bild C bewegt. Der gestrichelte Pfeil in 1 bezeichnet den extrapolierten Bewegungsvektor. Die Pfeile in 1 zeigen tatsächlich in einer zu der Bewegung entgegengesetzten Richtung, da 1 (sowie die anderen beigefügten Figuren) die allgemeinere Codierkonventionen benutzen, in der der Vektor für einen Block auf die "Quelle" des Blocks in dem Referenzbild zeigt. In der Praxis wird ein bestimmter Bewegungsvektor als ein Satz von x und y-Koordinaten dargestellt, der jeweils die horizontale und die vertikale Bewegung eines Blocks zwischen zwei Bildern anzeigt. Im Allgemeinen geht die Extrapolation davon aus, dass die Bewegung in der Zeit gleichmäßig und räumlich "weich" (smooth) ist. Daher wird erwartet, dass der Block im Bild B sich zu der in Bild C gezeigten Lage verschiebt und alle Blöcke, die er überlappt, im Wesentlichen dieselbe Bewegung durchführen.
In 2 ist ein Transcodiersystem gezeigt, das gemäß den Prinzipien der vorliegenden Erfindung aufgebaut ist. In 2 empfängt das Transcodiersystem 200 einen Eingangs-Bitstrom 201 aus MPEG-2-komprimierten Bilddaten. Der Eingangbitstrom 201, der eine bestimmte Bitrate aufweist, stellt Bilder einer bestimmten Größe und GOP-Struktur dar. Die Bilddaten des Eingangsbitstroms 201 können aus Halb bild- oder Vollbild-Bildern bestehen und können eine progressive oder eine verschachtelte Folge darstellen. Ein MPEG-2-Decoder 202, der im Stand der Technik bekannt ist, empfängt den Eingangsbitstrom 201 und decodiert denselben zur Erzeugung eines Ausgangs von dekomprimierten, digitalen Bilddaten 203. Der Decoder 202 liefert außerdem die Bewegungsinformationen (d. h. Bewegungsvektoren) von dem Eingangsbitstrom 201 als einen getrennten Ausgang 204. Die digitalen Bilddaten 203 werden in eine Zwischenverarbeitungseinheit 205 eingegeben, die im Pixelbereich arbeitet und in der Lage ist, die durch die digitalen Bilddaten 203 dargestellten Bilder in bekannter Weise in der Größe zu ändern. Zusätzlich zu der Größenänderung des Bildes kann die Zwischenverarbeitungseinheit 205 die bekannte Zuschneide- oder Zuricht (cropping)-Funktion durch Isolierung eines Unterbilds in den durch die digitalen Bilddaten 203 dargestellten Hauptbild durchführen und einen Ausgang von das Unterbild darstellenden Daten liefern. Die Zwischenverarbeitungseinheit 205 ist außerdem in der Lage, bekannte Verschachtelungs- und Entschachtelungsvorgänge durchzuführen, die bei der Transcodierung einer progressiven Folge von Bildern in eine verschachtelte Folge von Bildern und bei der Transcodierung einer verschachtelten Folge von Bildern in eine progressive Folge von Bildern notwendig sind. Die Zwischenverarbeitungseinheit 205 führt ihre Vorgänge aufgrund eines externen Eingangs 206 durch, der anzeigt, welcher (wenn überhaupt) der Verarbeitungsvorgänge erfolgen muss, und außerdem die bei einer derartigen Verarbeitung anzuwendenden Parameter anzeigt. Da die Vorgänge der Zwischenverarbeitungseinheit 205 optional sind, wenn die Größenänderung des Bildes, das Zurichten, die Verschachtelung und die Entschachtelung nicht für eine bestimmte Transcodieranwendung erfolgen, arbeitet die Zwischenverarbeitungseinheit 205 einfach als eine Durchlaufeinheit und liefert den Ausgang der digitalen der digitalen Bilddaten 207 ohne eine Verarbeitung im Pixelbereich. In diesem Fall sind die digitalen Bilddaten 207 und die digitalen Bilddaten 203 offensichtlich nicht dieselben.
Alternativ bewirkt die Zwischenverarbeitungseinheit 205, wenn eine oder mehrere dieser Verarbeitungsvorgänge für eine bestimmte Transcodieranwendung erfol-gen müssen, den Verarbeitungsvorgang oder die Verarbeitungsvorgänge im Pixelbereich und liefert einen Ausgang der resultierenden, verarbeiteten, digitalen Bilddaten 207. Die digitalen Bilddaten 207, ob sie durch die Zwischenverabeitungseinheit 205 verarbeitet werden oder nicht, werden in einen MPEG-2-Coder 208 eingegeben, der die empfangenen Bilddaten 207 mit neuen Parametern neu codiert, die durch einen externen Eingang 209 angezeigt werden. Z. B. kann der Coder 208 die digitalen Bilddaten 207 codieren, um Bilder einer GOP-Struktur darzustellen, die abweicht von der GOP-Struktur der durch den Eingangsbitstrom 201 dargestellten Bilder, und/oder kann die Bitrate einstellen. Der Coder 208 kann außerdem die digitalen Bilddaten 207 als Halbbild- oder Vollbild-Bilder codieren. Zur Durchführung des Codiervorgangs benutzt der Coder 208 die Bewegungsinformationen in dem Ausgang 204 von dem Decoder 202, um die Bewegungsvektoren für die neu-codierten Bilder zu extrapolieren. Danach werden die neu-codierten Bilder von dem Transcodiersystem 200 als ein Ausgangsbitstrom 210 von komprimierten, digitalen MPEG-2-Bilddaten geliefert.
Wie oben gezeigt, kann dieser Ausgangsbitstrom 210 eine Bildgröße und eine GOP-Struktur darstellen, die abweichen von der Größe und der GOP-Struktur des Eingangsbitstroms 201, und die Bitrate des Ausgangsbitstroms 210 kann so gesteuert werden, dass sie abweicht von der Bitrate des Eingangsbitstroms 201. Außerdem kann der Ausgangsbitstrom 210 Halbbild-Bilder darstellen, während der Eingangbitstrom 201 Vollbild-Bilder darstellt, oder der Ausgangsbitstrom 210 kann Vollbild-Bilder darstellen, während der Eingangsbitstrom 201 Halbbild-Bilder darstellt. Auf ähnliche Weise kann der Ausgangsbitstrom 210 eine verschachtelte Folge darstellen, während der Eingangsbitstrom 201 eine progressive Folge darstellt, oder der Ausgangsbitstrom 210 kann eine progressive Folge darstellen, während der Eingangsbitstrom 201 eine verschachtelte Folge darstellt. Ebenso kann der Ausgangsbitstrom 210 eine "zugerichtete" (cropped)-Version des Eingangsbitstroms 201 darstellen. Im Wesentlichen empfängt das Transcodiersystem 200 den Eingangsbitstrom 201 mit bestimmten Parametern und transcodiert den Eingangsbitstrom 201 zur Erzeugung des Ausgangbitstroms 210 mit einem oder mehreren Parametern, die von den Parametern des Eingangsbitstroms 201 abweichen. Das Transcodiersystem 200 ist insofern einmalig, als es Bewegungsinformationen aus dem Eingangsbitstrom 201 benutzt, um die Bewegungsinformationen für den Ausgangsbitstrom 210 zu extrapolieren.
In 3 ist der Vorgang der Transcodierung der Bilder von einer GOP-Struktur in eine andere gemäß den Prinzipien der vorliegenden Erfindung dargestellt. In 3 stellt ein Eingangsbitstrom Bilder mit einer GOP-Struktur dar: ein intra-codiertes Bild ("I-Bild"), ein bidirektional-vorausgesagtes codiertes Bild ("B-Bild"), ein B-Bild und ein voraussage-codiertes Bild ("P-Bild"). D. h., der Eingangsbitstrom stellt eine "IBBP"-GOP-Struktur dar. Wie in 3 gezeigt, sind die beiden aufeinanderfolgenden B-Bilder des Eingangsbitstroms zur Klarheit mit B1 und B2 bezeichnet. Dieser Eingangsbitstrom ist analog zu dem Eingangsbitstrom 201 in 2. Während des Transcodiervorgangs wird der Eingangsbitstrom mit einer "IBBP"- GOP- Struktur in einen Ausgangsbitstrom mit einer "IPPP"- GOP- Struktur umgesetzt. Wie 3 zeigt, sind die drei aufeinanderfolgenden P-Bilder des Ausgangsbitstroms zur Klarheit mit P1, P2 und P3 bezeichnet. Dieser Ausgangsbitstrom ist analog zu dem Ausgangsbitstrom 210 in 2. Zur Vereinfachung der Figur sind die Makroblöcke, die die einzelnen Bilder ausmachen, in 3 nicht dargestellt. Zur Durchführung des Transcodiervorgangs dienen die I-P und P-B2 Bewegungsvektoren aus dem Eingangsbitstrom zur Extrapolation der Bewegungsvektoren für den Ausgangsbitstrom. Z. B. kann, wie 3 zeigt, der I-P-Bewegungsvektor aus dem Eingangbitstrom zur Schätzung eines P1-P2-Bewegungsvektors für den Ausgangsbitstrom benutzt werden. Auf ähnliche Weise kann der P-B2-Bewegungsvektor aus dem Eingangsbitstrom zur Schätzung eines P2-P3-Bewegungsvektors für den Ausgangsbitstrom benutzt werden.
Eine detailliertere Erläuterung des Extrapoliervorgangs für den Bewegungsvektor der vorliegenden Erfindung erfolgt nunmehr anhand der 4, die vier Bilder in einer Videofolge zeigt. Begrifflich existieren diese vier Bilder in dem Ausgangsbitstrom sowie in dem Eingangsbitstrom, und das ist im allgemeinen tatsächlich der Fall. In jedem Fall ist das Bild T in 4 das "Ziel"-Bild (target picture), dessen Bewegung relativ zu dem Bild R ermittelt werden muss. Beide dieser Bilder existieren in dem Ausgangsbitstrom. Die Bilder KR und KT sind Bilder, deren Relativbewegung aus dem Eingangsbitstrom bekannt ist. Gemäß Prinzipien der vorliegenden Erfindung kann die bekannte Bewegung zwischen den Bildern KR und KT zur Extrapolation der Bewegungsvektoren für den Ausgangsbitstrom benutzt werden. Die Bilder KR und KT werden als "Grundpaar" (base pair) bezeichnet, und die Bilder R und T werden als "laufendes Paar" (current pair) bezeichnet. Mehrere Grundpaare können nützlich sein zur Schätzung der Bewegung für ein laufendes Paar. Im Allgemeinen wird jedes Grundpaar, das zeitlich in der Nähe des laufenden Paares liegt, potentiell für diesen Zweck benutzt.
Während des Transcodiervorgangs kann es Fälle geben, wo einige Blöcke in dem Bild T keine Bewegungs-Expolierinformationen empfangen. D. h., es kann Fälle geben, wo einige Blöcke in dem Bild T nicht durch die Bewegung einiger Blöcke in nahegelegenen Grundpaaren überlappt werden. Derartige Blöcke in dem Bild T können einfach intra-codiert werden, oder ihre Bewegung kann in einer konventionellen Weise berechnet werden. Alternativ kann die Bewegung derartiger Blöcke aus nahegelegenen Blöcken gefolgert oder interpoliert werden. In den meisten Fällen, jedoch, überlappen mehrere Blöcke in den Grundpaaren die meisten der Blöcke in dem Bild T, und die Aufgabe besteht dann darin, den besten Bewegungsvektor aus mehreren Hilfs-Bewegungsvektoren auszuwählen. Jeder überlappende Block von einem Grundpaar liefert einen einzigen Hilfs-Bewegungsvektor. Bei der Auswahl aus mehreren Hilfs-Bewegungsvektoren ist es nützlich, jedem Bewegungsvektor ein Gewicht zuzuordnen und den Bewegungsvektor mit dem größten Gewicht zu wählen. Unter Anwendung der Bilder von 4 als ein Beispiel wird das Gewicht für jeden Hilfs-Bewegungsvektor MV folgendermaßen berechnet:
Gesamtgewicht (MV) = (Überlappungsgewicht) * (Bildgewicht) * (1)
(Rundungsgewicht)
wobei, Überlappungsgewicht = (die Anzahl der Pixel in einem Bildblock KT, der (2)
Pixel in den entsprechenden Bildblock T überlappt
Bildgewicht = 1/[1 + abs (Zeitliches Gewicht)] (3)
wobei,
Zeitliches Gewicht = (tKT – tKR) * [(tKr + tKT) – (tT + tR)] (4)
und,
Rundungswicht = [1 – (horizontaler Rundungsfehler)] * (5)
[1 – (vertikaler Rundungsfehler )]
In den obigen Gleichungen (1) bis (5) bezeichnen tKR, tKT, tR und tT die Wiedergabezeiten der Bilder KR, KT, R beziehungsweise T. Die Ausdrücke * und abs bezeichnen den Multiplikationsoperator beziehungsweise die Absolutwertbezeichnung. Die horizontalen und vertikalen Rundungsfehler treten auf, wenn der extrapolierte Vektor auf das nächstgelegene halbe Pixel gerundet wird, jeder nimmt einen Wert von null (0) bis einhalb (1/2) an. Wenngleich die Gleichungen (1) bis (5) als für die Bilder von 4 angewendet dargestellt sind, sollte es intuitiv sein, dass diese allgemeinen Gleichungen auf andere Bildkonfigurationen angewendet werden können.
Zusätzlich zu der Lösung der einfachen Wahl des Hilfs-Bewegungsvektors mit dem größten Gewicht betrifft die vorliegende Erfindung andere Möglichkeiten zur Gewinnung des besten Bewegungsvektors oder der besten Bewegungsvektoren für einen bestimmten Block. Gemäß einer alternativen Ausführungsform kann man den gewichteten Mittelwert berechnen, wo die Gewichte unter Anwendung der obigen Gleichungen (1) bis (5) berechnet werden. Unter Anwendung dieser Gewichte kann dann der beste Bewegungsvektor auf einer Komponentenbasis durch Multiplikation der Gewichte mit den x oder y Komponenten der entsprechenden Bewegungsvektoren berechnet werden, um die gewichteten Komponenten zu erzeugen, durch Summie rung der gewichteten Komponenten und Teilung der Summe der gewichteten Komponenten durch eine Summe der Gewichte.
Die obige Lösung mit der gewichteten Mittelung kann auch auf einer "Gruppen" oder "Bündel" (cluster) Basis erfolgen. D. h., wenn eine x-y-Darstellung der Hilfs-Bewegungsvektoren mehr als eine Gruppe (cluster) (d. h. enge Gruppierung) von Bewegungsvektoren zeigt, kann ein bester Bewegungsvektor für jede Gruppe (cluster) berechnet werden. Das ist der Schwerpunkt oder "Mittelpunkt der Masse" (center of mass) der Gruppe. Ein endgültiger bester Bewegungsvektor kann dann aus den besten Bewegungsvektoren der einzelnen Gruppen (cluster) ausgewählt werden.
Es sollte bemerkt werden, dass ein bester Bewegungsvektor auch aus mehreren Hilfs-Bewegungsvektoren ausgewählt werden kann, ohne überhaupt Gewichte zu benutzen. Z, B. können Quadratmittelwert (MSE = mean-square error) oder Mittel-Absolutdifferenz (MAD = mean-absolute-difference)-Berechnungen durchgeführt werden, die Pixeldifferenzen zwischen den Blöcken darstellen, um den besten Bewegungsvektor zu identifizieren. Die Anwendung von MSE- und MAD-Berechnungen ist natürlich dem Fachmann auf diesem Gebiet hinreichend bekannt.
Der in Tabelle 1 dargestellte folgende Algorithmus zeigt die Schritte der Auffindung des besten Bewegungsvektors für jeden möglichen Voraussagemodus eines Zielbilds (z. B. Bild T in 4). Diese Schritte, die durch den Pseudo-Code dargestellt sind, können in einer beliebigen, dem Fachmann auf diesem Gebiet bekannten Programmiersprache, programmiert werden.
Tabelle 1: Pseudo-Code zur Auffindung des besten Bewegungsvektors

– für jeden Voraussagemodus, der für das Zielbild (laufendes Paar) erwogen wird
– für jedes Halbbild oder Vollbild des anwendbaren Modus (oberes Halbbild, unteres Halbbild, Vollbild)
– Initialisierung einer Tabelle, die durch Blöcke in dem Zielbild indexiert ist
– für jedes Grundpaar das als nützlich für ein laufendes Paar angesehen wird (z. B. ein Grundpaar wird im allgemeinen als "nützlich" angesehen, wenn es zeitlich annähernd in einem vorgegebenen Bereich liegt)
– für jeden Bewegungsvektor jedes inter-codierten Blocks in dem Ziel (target) des Grundpaars
– Ermittlung, wo der Vektor den Block in dem Zielbild bewegt
– Berechnung des Vektorgewichts oder Auswertung seiner Übereinstimmung (z. B. MSE, MAD)
– Speicherung von Informationen in Tabelleneingaben von relevanten Zielbild-Blöcken
– für jeden Block in dem Zielbild
– Ermittlung des besten Bewegungsvektors für ein Halbbild oder Vollbild
– für jeden Block in dem Zielbild
– Ermittlung des besten Voraussagemodus und des entsprechenden Bewegungsvektors oder der Bewegungsvektoren

Es sei bemerkt, dass mehrere Bewegungsvektoren zu einem bestimmten Block in manchen Voraussagemodi gehören wie eine Halbbildvoraussage für Vollbild-Bilder und einen so genannten "dual prime" für P-Bilder. Ebenso muß für B-Bilder der Coder für jeden Block entscheiden, ob eine Vorwärtsvoraussage, eine Rückwärtsvoraussage oder beides angewendet werden sollen. In manchen Fällen ergibt kein Voraussagemodus akzeptable Ergebnisse. Das tritt auf, wenn es keine Hilfs-Bewegungsvektoren gibt oder wenn der beste Bewegungsvektor gemäß einer der vorangehenden Lösungen ermittelte Bewegungsvektor für die bestimmte Anwendung nicht gut genug ist. Zusätzlich gibt es Fälle, wo der Coder einfach die Bewegungsvektoren (unverändert) aus der Eingangsfolge für die Ausgangsfolge benutzt werden kann.
In 4 wird eine Situation angenommen, wo eine Vollbildvoraussage ohne Größenänderung für die Vollbild-Bilder benutzt wird. Wenn ein Block in dem Bild KT einen zugehörigen Vektor, vK, aufweist, dann haben ein oder mehrere Blöcke in dem Bild T einen zugehörigen Vektor, v, der folgendermaßen definiert ist: v = Tv * vK (6)wobei, Tv = (tT – tR)/(tKT – tKR) (7)
Hier ist Tv der zeitliche Skalierfaktor für Vektoren, und tKR, tKT, tR und tT bezeichnen die Wiedergabezeiten der Bilder KR, KT, R bzw. T. Es besteht eine Mehrdeutigkeit in den Wiedergabezeiten für Vollbild-Bilder, deren Halbbilder zu verschiedenen Zeiten wiedergegeben werden. In derartigen Fällen sollten die Zeiten die Mittelwerte der jeweiligen Halbbilder sein. Um die Bewegung eines Blocks vom Bild KT an das Bild T anzupassen betrachten wir einen Punkt an der oberen linken Ecke des bestimmten Blocks. Im Zusammenhang mit 4 ist dieser Punkt als Punkt qK in dem Bild KT und als Punkt q in dem Bild T dargestellt. Die Bewegung des Punktes q ist gegeben durch: q = qK – (Tb * vK) (8) wobei, Tb = (tT – tKT) / (tKT – tKR) (9)
In einem Transcodiervorgang für die in der Größe geänderten Bilder haben die Bilder KR und KT nicht dieselbe Größe wie die Bilder R und T. Die Größenänderung wird folgendermaßen angepasst. Rx und Ry bezeichnen die horizontale bzw. die vertikale Vergrößerung der Bilder. D. h.:
Rx = (Breite des Bilds T) / (Breite des Bilds KT) (10) und,
Ry = (Höhe des Bilds T) / (Höhe des Bilds KT) (11)
Die Größenänderung der Bilder erfordert die folgende Änderung der Gleichungen (6) und (8):
v = R (Tv * vK) (12)und, q = R (qK – (Tb * vK)) (13)
Die vorangehenden Gleichungen haben die Bedeutung: R(V) = (Vx * Rx, VY * RY) (14)
Dabei ist V ein Zwei-Komponenten-Punkt (Pixel) oder Vektor. Es sei bemerkt, dass sich R auf unterschiedliche Bildgrößen, nicht auf unterschiedliche Blockgrößen bezieht.
Die Größenänderung wird nicht nur für die in der Größe geänderten Bilder angewandt, sondern auch auf die jeweiligen Halbbild- und Vollbild-Bilder und auf die Halbbild- und Vollbild-Voraussage. Zur Anpassung der Halbbild-Voraussage (von Halbbild- und Vollbild-Bildern} sei bemerkt, dass die unteren Halbbilder um 0,5 Pixel niedriger liegen als ihre Koordinaten anzeigen würden. Der Verschiebevektor dX eines Halbbild- oder Vollbild- Bilds ist folgendermaßen definiert:
dX = (0,0), wenn X ein oberes Halbbild oder ein Vollbild ist (15) und,
dX = (0,05), wenn X ein unteres Halbbild ist (16)
Wenn man dieses auf die Gleichungen (12) und (13) anwendet, werden die neuen Gleichungen für v und q: v = R (Tv * (vK + dKR – dKT)) + dT – dR (17)und, q = R(qK + dKT – [Tb * (vK + dKR – dKT)])– dT (18)
Somit sind die endgültigen Gleichungen, die in der Praxis der vorliegenden Erfindung benutzt werden, die Gleichungen (7), (9) und (14) bis (18).
Schließlich wird angenommen, dass die Zwischenverarbeitungseinheit 205 von 2 die Bilder beschneidet (crops). Die obigen Gleichungen können folgendermaßen angewendet werden. Wir nehmen an, dass die Bilder R und T dieselbe Größe haben wie das Original mit den in sie eingebetteten Ausgangsbildern bei der geeigneten Lage. Diese Lage definiert den Bereich von Interesse. Nur Blöcke, die den Interessenbereich überlappen, werden bei der Extrapolation benutzt. Dann werden die 1 bis 4 sowie die daraus abgeleiteten Gleichungen auf diesen Fall angewendet.
Die vorangehende Beschreibung kann eine Homogenität annehmen. D. h., wenn das Bild T ein Vollbild mit einer Halbbild-Voraussage ist, dann ist das Bild KT ebenfalls ein Vollbild mit Anwendung einer Halbbild-Voraussage. Jedoch sind die oben diskutierten Formeln allgemeiner, wie die folgenden Beispiele zeigen: Es wird angenommen, dass das Bild T eine Vollbild-Voraussage und das Bild KT eine Halbbild-Voraussage benutzt. Bei der vorliegenden Erfindung macht es nichts aus, ob das Bild KT ein Halbbild oder ein Vollbild ist. In jedem Fall beruhen die Bewegungsvektoren der Bilder KT's auf Halbbildern, so dass Ry = 2 und Rx = 1 ist. Wenn das Bild KT ein Vollbild ist, betragen seine Blöcke 16 × 8. Das ist jedoch transparent für die obigen Formeln. Wenn ein Block eine Voraussage 16 × 8 benutzt, sollten seine beiden Hälften als zwei getrennte Blöcke behandelt werden.
Als nächstes wird angenommen, dass das Bild T und das Bild KT auf einer Halbbild-Voraussage beruhen. Hier wird, da die Vektoren in beiden Bildern sich auf Bilder mit derselben Größe beziehen, eine Größenänderung nicht benötigt und Rx = Ry = 1. D. h., in der Praxis der vorliegenden Endung ist es irrelevant für die Gleichungen, ob es sich um eine Mischung von Halbbildern und Vollbildern oder um eine Halbbild- und Vollbild-Voraussage handelt.
Wie durch die obige Beschreibung angedeutet, werden, wenn ein Block im Bild KT eine duale Primzahl benutzt, seine beiden Vektoren getrennt angewendet, vielleicht mit unterschiedlichen Gewichten. Ebenso ist die Auswertung des Bilds T für eine duale Primärzahl wesentlich gleicher der Auswertung derselben für eine bidirektionale Interpolation. D. h., jeder Vektor wird getrennt ausgewertet, und dann wird die Kombination ausgewertet. Daher umfasst die vorliegende Erfindung alle MPEG-2-Voraussagemodi: Vollbild, Halbbild und duale erstmalige Voraussage für Vollbilder und Halbbild, duale erstmalige und 16 × 8 Voraussage von Halbbildern.
Es sei bemerkt, dass die hier angegebenen Gleichungen allgemein auf Situationen mit einer linearen Bewegung gerichtet sind, und nicht auf eine nichtlineare Bewegung. Eine nichtlineare Bewegung kann z. B. aus einem Kamera-Jitter oder aus einer ungleichmäßigen Beschleunigung von Objekten in den Bildern resultieren. Derartige Fälle einer nichtlinearen Bewegung können folgendermaßen behandelt werden. Für eine nichtlineare Bewegung bei einem Kamera-Jitter kann es erwünscht sein, die Gesamtbewegung vor dem Vergleich der Blockbewegung auszuklammern. Die bekannten MSE- und MAD-Berechnungen können für diesen Zweck anwendet werden. Für eine nichtlineare Bewegung bei der ungleichmäßigen Beschleunigung von Objekten kann erwünscht sein, diese Bewegung durch Anwendung von drei Bildern und nicht von zwei zu extrapolieren.
Wenngleich hier gezeigt und beschrieben wurde, was als die bevorzugten Ausführungsformen der vorliegenden Erfindung angesehen wird, wird der Fachmann auf diesem Gebiet verstehen, dass verschiedene Änderungen und Modifikationen erfol gen und Äquivalente für die Bauteile ersetzt werden können, ohne von dem wahren Schutzumfang der vorliegenden Erfindung abzuweichen. Zusätzlich können viele Modifikationen erfolgen, ohne von dem zentralen Schutzumfang abzuweichen. Die vorliegende Erfindung soll daher nicht auf die besondere Ausführungsform beschränkt sein, die als die beste Möglichkeit zur Durchführung der Erfindung beschrieben wird. Vielmehr soll die vorliegende Erfindung alle Ausführungsformen einschließen, die in den Schutzumfang der beigefügten Ansprüche fallen.

Claims

Transcodierverfahren mit folgenden Schritten: Empfang eines Eingangsbitstroms von komprimierten Bilddaten mit einer Struktur einer ersten Gruppe von Bildern (GOP), Gewinnung eines ersten Satzes von Bewegungsinformationen aus dem Eingangsbitstrom, Erzeugung eines Ausgangsbitstroms von komprimierten Bilddaten aufgrund der Eingangsbilddaten, gekennzeichnet durch: Gewinnung eines zweiten Satzes von Bewegungsinformationen aus dem Eingangsbitstrom, Anwendung von Wichtungsfunktionen auf die ersten und zweiten Bewegungsinformationen, die eine Auswahl der besten Bewegungsinformationen aus dem ersten und dem zweiten Satz von Bewegungsinformationen ermöglichen, und Anwendung der besten der ersten und zweiten Bewegungsinformationen zur Extrapolation dritter Bewegungsinformationen für den Ausgangsbitstrom der komprimierten Daten, gemäß denen die ersten und die zweiten gewichteten Bewegungsinformationen die andere überwiegen, wobei der Ausgangsbitstrom eine Struktur einer zweiten Gruppe von Bildern (GOP) aufweist, die von der Struktur der ersten Gruppe von Bildern (GOP) abweicht.
Verfahren nach Anspruch 1 mit dem Schritt der Steuerung einer Bitrate des Ausgangsbitstroms derart, dass eine Bitrate des Eingangsbitstroms von der Bitrate des Ausgangbitstroms abweicht.
Verfahren nach Anspruch 1 mit dem Schritt der Einstellung einer Größe der durch den ersten Bitstrom dargestellten Bilder derart, dass durch den Ausgangsbitstrom dargestellte Bilder eine Größe aufweisen, die von der Größe der durch den Eingangsbitstrom dargestellten Bilder abweicht.
Verfahren nach Anspruch 2 mit einem Schritt zur Einstellung einer Größe der durch den Eingangsbitstrom dargestellten Bilder, so dass durch den Ausgangsbitstrom dargestellte Bilder eine Größe aufweisen, die von der Größe der durch den Eingangsbitstrom dargestellten Bilder abweicht.
Verfahren nach Anspruch 4 mit einem Schritt zur Codierung der durch den Ausgangsbitstrom dargestellten Bilder als Halbbilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als Vollbilder codiert sind.
Verfahren nach Anspruch 4 mit einem Schritt der Codierung der durch den Ausgangsbitstrom dargestellten Bilder als Vollbilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als Halbbilder codiert sind.
Verfahren nach Anspruch 4 mit einem Schritt der Verschachtelung der durch den Eingangsbitstrom dargestellten Bilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als eine progressive Folge empfangen werden, so dass die durch den Ausgangbitstrom dargestellten Bilder als eine verschachtelte Folge ausgegeben werden.
Verfahren nach Anspruch 4 mit einem Schritt der Entschachtelung der durch den Eingangsbitstrom dargestellten Bilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als eine verschachtelte Folge empfangen werden, so dass die durch den Ausgangsbitstrom dargestellten Bilder als eine progressive Folge ausgegeben werden.
Verfahren nach Anspruch 1 mit einem Schritt der Codierung der durch den Ausgangsbitstrom dargestellten Bilder als Halbbilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als Vollbilder codiert sind.
Verfahren nach Anspruch 1 mit einem Schritt der Codierung der durch den Ausgangsbitstrom dargestellten Bilder als Vollbilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als Halbbilder codiert sind.
Verfahren nach Anspruch 1 mit einem Schritt der Verschachtelung der durch den Eingangsbitstrom dargestellten Bilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als eine progressive Folge empfangen werden, so dass durch den Ausgangsbitstrom dargestellte Bilder als eine verschachtelte Folge ausgegeben werden.
Verfahren nach Anspruch 1 mit einem Schritt der Entschachtelung der durch den Eingangsbitstrom dargestellten Bilder, wenn die durch den Eingangsbitstrom dargestellten Bilder als eine verschachtelte Folge empfangen werden, so dass durch den Ausgangsbitstrom dargestellte Bilder als eine progressive Folge ausgegeben werden.
Transcodierverfahren nach Anspruch 1, wobei: der Eingangsbitstrom der komprimierten Bilddaten ein Hauptbild darstellt, der Ausgangsbitstrom einen Teil des Hauptbilds darstellt.
Transcodierverfahren nach Anspruch 1, wobei der Schritt der Gewinnung der ersten und zweiten Bewegungsinformationen folgende Schritte enthält: Ermittlung, ob geprüfte Bewegungsinformationen innerhalb eines vorbestimmten zeitlichen Bereichs liegen, und Gewinnung der geprüften Bewegungsinformationen, wenn ermittelt wird, dass die geprüften Bewegungsinformationen innerhalb des vorbestimmten zeitlichen Bereichs liegen.
Transcodierverfahren nach Anspruch 1, wobei der Schritt der Wichtung der ersten und zweiten Bewegungsinformationen folgende Schritte enthält: Berechnung eines Überlappungsgewichtes, eines zeitlichen Gewichtes und eines Rundungsgewichtes für gewählte Bewegungsinformationen und Ableitung eines Wichtungswertes für die gewählten Bewegungsinformationen aufgrund wenigstens eines der berechneten Gewichte.
Transcodierverfahren mit folgenden Schritten: Empfang eines Eingangsbitstroms von komprimierten Bilddaten mit einem Eingangs-Codierparameter, Gewinnung eines ersten Satzes von Bewegungsvektoren aus dem Eingangsbitstrom, Erzeugung eines Ausgangsbitstroms von komprimierten Bilddaten aufgrund der Eingangsbilddaten, gekennzeichnet durch: Gewinnung eines zweiten Satzes von Bewegungsvektoren aus dem Eingangsbitstrom, Anwendung der Wichtungsfunktionen auf den ersten und den zweiten Satz von Bewegungsvektoren, die die Wahl besten Bewegungsvektoren aus dem ersten und dem zweiten Satz von Bewegungsvektoren ermöglichen, Benutzung des besten des ersten und zweiten Satzes von Bewegungsvektoren zur Extrapolation dritter Bewegungsvektoren für den Ausgangsbitstrom von komprimierten Bilddaten, gemäß denen der erste und der zweite gewichtete Bewegungsvektor den anderen überwiegt, wobei der Ausgangsbitstrom einen Ausgangs-Codierparameter aufweist, der von dem Eingangscodierparameter des Eingangsbitstroms abweicht.
Transcodierverfahren nach Anspruch 16, wobei der Schritt der Gewinnung des ersten und des zweiten Bewegungsvektors folgende Schritte enthält: Ermittlung, ob ein geprüfter Bewegungsvektor innerhalb eines vorbestimmten zeitlichen Bereichs liegt, und Gewinnung des geprüften Bewegungsvektors, wenn ermittelt wird, dass der geprüfte Bewegungsvektor innerhalb des vorbestimmten zeitlichen Bereichs liegt.
Transcodierverfahren nach Anspruch 16, wobei der Schritt der Wichtung des ersten und des zweiten Bewegungsvektors folgende Schritte enthält: Berechnung wenigstens eines Überlappungsgewichts, eines zeitlichen Gewichts und eines Rundungsgewichts für einen gewählten Bewegungsvektor und Ableitung eines Wichtungswertes für den gewählten Bewegungsvektor aufgrund wenigstens eines der berechneten Gewichte.
Transcodierverfahren nach Anspruch 16, wobei der Schritt der Wichtung des ersten und des zweiten Bewegungsvektors folgende Schritte enthält: Berechnung wenigstens eines Überlappungsgewichts, eines zeitlichen Gewichts und eines Rundungsgewichts für einen gewählten Bewegungsvektor und Ableitung von Wichtungswerten für Komponenten x und y des gewählten Bewegungsvektors aufgrund wenigstens eines der berechneten Gewichte.
Transcodierverfahren nach Anspruch 16, wobei der Eingangs-Codierparameter wenigstens einer einer Gruppe ist, die aus einer Bild (GOP)- Struktur, einer Bildgröße, einer Bitrate, einem Vollbildformat, einem Halbbildformat, einen progressiven Folge und einer verschachtelten Folge besteht.
Transcodierverfahren nach Anspruch 16, wobei der Ausgangs-Codierparameter wenigstens einer einer Gruppe ist, die eine Bild (GOP)-Struktur, eine Bildgröße, eine Bitrate, ein Vollbildformat, ein Halbbildformat, eine progressive Folge und eine verschachtelte Folge enthält.
Transcodierverfahren nach Anspruch 16, wobei der erste und der zweite Bewegungsvektor erste und zweite Bewegungsvektor-Gruppen sind.