DE69924102T2

DE69924102T2 - Skalierung komprimierter bilder

Info

Publication number: DE69924102T2
Application number: DE69924102T
Authority: DE
Inventors: Shipeng Li; Keren Hu
Original assignee: Sarnoff Corp; Motorola Inc
Current assignee: Sarnoff Corp; Motorola Solutions Inc
Priority date: 1998-05-07
Filing date: 1999-05-07
Publication date: 2006-05-04
Anticipated expiration: 2019-05-08
Also published as: KR100545146B1; DE69924102D1; WO1999057684A1; BR9910264A; EP1076884A1; KR20010043396A; CN1302419A; US6222944B1; JP4319352B2; JP2002514022A; EP1076884B1

Description

Die Erfindung bezieht sich allgemein auf Kommunikationssysteme. Insbesondere bezieht sich die Erfindung auf ein Verfahren und eine Vorrichtung, mit der wenigstens die Bildinformation in einem Informationsstromdekoder wie beispielsweise einem MPEG-artigen Videodecoder, in der Größe neu eingestellt bzw. skaliert werden kann.
Hintergrund
In verschiedenen Kommunikationssystemen werden zu übertragende Daten komprimiert, sodass die verfügbare Bandbreite effizienter genutzt wird. Zum Beispiel hat die "Moving Pictures Experts Group" (MPEG) verschiedene Standards veröffentlicht, welche sich auf digitale Datenliefersysteme beziehen. Der erste, bekannt als MPEG-1, bezieht sich auf die ISO/IEC-Standards 11172, und auf ihn wird ausdrücklich Bezug genommen. Der zweite, bekannt als MPEG-2, bezieht sich auf die ISO/IEC-Standards 13818, und auf ihn wird ausdrücklich Bezug genommen. Ein komprimiertes digitales Videosystem wird umschrieben in dem digitalen Fernsehstandarddokument A/53 des "Advanced Television Systems Committee" (ATSC).
Die oben beschriebenen Standards beschreiben Datenverarbeitungs- und -manipulationstechniken die für die Komprimierung und Bereitstellung von Video-, Audio- und sonstigen Informationen unter Verwendung von Codes fester oder variabler Länge in digitalen Kommunikationssystemen. Insbesondere komprimieren die oben beschriebenen Standards und andere "MPEG-artige"-Standards und -Techniken, Videoinformationen unter Benutzung von Intrabild-Kodierungstechniken (wie Lauflängenkodierung, Huffman-Kodierung und dergleichen) und Bild-zu-Bild-Kodierungstechniken (wie Vorwärts- und Rückwärts-Prädiktionskodierung, Bewegungskompensation und dergleichen). Speziell im Fall von Videoverarbeitungssystemen sind MPEG- und MPEG-artige Videoverarbeitungssysteme durch eine prädiktionsbasierte Kompressionskodierung von Videoeinzelbildern mit oder ohne Intrabild- und/oder Bild-zu-Bild-Bewegungskompensationskodierung charakterisiert.
Es ist bekannt, die Bitrate eines MPEG-codierten Bitstroms durch Requantisierung der DCT-Koeffizienten zu ändern (Nakajima Y. et. al.: „Rate Conversion of MPEG coded Video by Requantization Process", Proceedings of the International Conference on Image Proceedings, ICIP 1995, Oct. 23–26, 1995, IEEE Computer Society Press, USA, vol. 3, pp. 408–411).
Es ist weiterhin ebenso bekannt, Bildinformationen zu komprimieren (d.h. zu reduzieren bzw. eine neue Größe einzustellen), um Speichererfordernisse des Dekoders für die Verankerung von Einzelbildern zu reduzieren oder um Verarbeitungsressourcen des Dekoders in z.B. Fernsehsystemen unter Benutzung von Anzeigevorrichtungen relativ geringer Auflösung zu reduzieren. Solch eine Anwendung liegt vor im Fall eines hochauflösenden Fernseh- (HDTV-) Empfängers, welchem eine Anzeige nach der Standardfernsehdefinition (SDTV) zugeordnet ist, oder bei der Bereitstellung von Videoinformationen für einen konventionellen NTSC-, PAL-, oder SECAM-Fernseher.
Eine erste bekannte Technik umfasst die Dekodierung bei der vollen HDTV-Auflösung, das Speichern der resultierenden Bilder mit voller Auflösung und die Durchführung einer Filterung sowie einer Dezimierung von Abtastwerten bei den Bildern voller Auflösung vor ihrer Anzeige. Obwohl dieser Ansatz in Bezug auf unterstützte Auflösungen sehr flexibel ist, sind die Kosten unerschwinglich, da der Speicherplatz für das Ablegen der Einzelbilder die Bilder mit voller Auflösung aufnehmen muss. Selbst wenn das Filtern und die Dezimierung der Abtastwerte vor der Verankerung der Einzelbildspeichers durchgeführt wird, ist der Rechenaufwand derselbe wie für die Dekodierung bei voller Auflösung.
Eine zweite bekannte Technik umfasst z.B. im Fall von 8 × 8-Blöcken von DCT-Koeffizienten, die von einem MPEG-artigen Dekoder empfangen werden, nur die Verarbeitung des den unteren (in Bezug auf die horizontale und vertikale Auflösung) 4 × 4-Blocks von DCT-Koeffizienten (d.h. die 4 × 4-Blöcke höherer Ordnung zu kappen). Eine inverse DCT-Operation, durchgeführt mit dem unteren 4 × 4-DCT-Koeffizientenblock, liefert nur einen 4 × 4-Pixelblock. Sowohl der IDCT-Rechenaufwand als auch die Speichererfordernisse für die Einzelbildspeicherung werden in diesem Fall herabgesetzt.
Eine dritte Technik wird in dem von Bao et. al. veröffentlichten Artikel (J. Bao, H. Sun und T. Poon: "HDTV Down-Conversion Decoder", IEEE Transactions on Consumer Electronics, Band 42, Nr. 3, August 1996) beschrieben. Speziell verarbeitet die Bao-Technik unter Einsatz einer Frequenzsynthesetechnik vier benachbarte 8 × 8-DCT-Koeffizientenblöcke um einen neuen 8 × 8-DCT-Koeffizientenblock zu erzeugen, welcher dann einer inversen DCT-Verarbeitung unterworfen wird um einen 8 × 8-Pixelblock zu erzeugen. Auf diese Weise wird sowohl der IDCT-Rechenaufwand, als auch die Speichererfordernisse für die Einzelbildspeicherung herabgesetzt, und zwar mit weniger sichtbaren Artefakten als wenn die zweite oben beschriebene Technik eingesetzt worden wäre.
Leider benutzen alle drei oben beschriebenen, die Abtastwerte dezimierenden Dekoder beträchtliche Rechenressourcen, um die inverse DCT-Funktion zu implementieren. Daher ist es wünschenswert, einen die Abtastwerte dezimierenden Videobilddekoder bereitzustellen, der wenigstens erheblich reduzierte inverse DCT-Ressourcen gewährleistet.
Zusammenfassung der Erfindung
Die Erfindung umfasst ein Verfahren und eine Vorrichtung für das Dekodieren z.B. eines MPEG-artigen Videoinformationsstroms, umfassend quantisierte diskrete Kosinustransformations- (DCT-) Koeffizienten, die eine Bildinformation mit relativ hoher Auflösung darstellen, um hierzu korrespondierende Pixelblöcke mit relativ niedriger Bildauflösung zu erzeugen. Das Dekodieren der DCT-Koeffizientenblöcke wird in einer Weise bewirkt, die eine inverse DCT-Verarbeitung vermeidet, wo durch der Rechenaufwand für die Zurückgewinnung der in ihren Abtastwerten dezimierten Bildinformation von einem MPEG-artigen Videoinformationsstroms reduziert wird. Die Erfindung benutzt eine modifizierte Quantisierungsmatrix, um die DCT-Koeffizienten in einer Weise zu dequantisieren, die eine reduzierte Komplexität bei der Transformation der dequantisierten DCT-Koeffizienten in gesubsampelten Bilddomäneninformationen mit sich bringt.
Die Erfindung wird durch die beigefügten Ansprüche definiert.
Kurze Beschreibung der Figuren
Die Lehren der vorliegenden Erfindung können leicht verstanden werden durch Betrachten der nachfolgenden detaillierten Beschreibung in Verbindung mit den begleitenden Zeichnungen, in denen
1 ein Blockdiagramm einer Ausführungsform eines MPEG-artigen Dekoders auf hoher Ebene darstellt,
2 ein Blockdiagramm eines Moduls zum Dezimieren der Abtastwerte und zum Filtern, geeignet zur Benutzung im MPEG-artigen Dekoder der 1, darstellt,
3 ein Flussdiagramm eines Verfahrens zum Verarbeiten von DCT-Koeffizienten, geeignet zur Benutzung im MPEG-artigen Dekoder der 1 und dem Modul zum Dezimieren der Abtastwerte und zum Filtern, darstellt.
Um das Verständnis zu erleichtern, wurden identische Bezugszeichen verwendet, soweit möglich, um identische Elemente, die in den Figuren gleich sind, zu bezeichnen.
Detaillierte Beschreibung
Nach dem Erfassen der folgenden Beschreibung wird der Fachmann klar erkennen, dass die Lehren meiner Erfindung sofort in jedem System angewendet werden können, das einen komprimierten Informationsstrom einschließlich eines Informationssubstroms dekodiert, um eine in den Abtastwerten dezimierte und gefilterte Version des Informations-Substroms zurückzugewinnen. Obwohl die Erfindung primär in Bezug auf einen MPEG-artigen Bildstromdekoder beschrieben wird, der in ihren Abtastwerten dezimierte (d.h. reduzierte Auflösung) Bildinformationen zurückgewinnt, wird der Fachmann die vielen verschiedenen Anwendungen der Erfindung rasch erkennen.
1 stellt eine Ausführungsform eines MPEG-artigen Dekoders 100 dar. Konkret empfängt und dekodiert der Dekoder 100 von 1 einen komprimierten Videoinformationsstrom EINGANG um einen Videoausgangsstrom AUSGANG zu erzeugen. Der Videoausgangsstrom AUSGANG ist für die Kopplung an einen Anzeigetreiberschaltkreis innerhalb einer Darstellungsvorrichtung (nicht gezeigt) geeignet.
Der MPEG-artige Dekoder 100 umfasst ein Eingangspufferspeichermodul 111, ein Dekodermodul variabler Länge (VLD), ein Modul 200 zum Dezimieren von Abtastwerten und zum Filtern, einen Summierer 115, ein Bewegungskompensationsmodul 116, ein Ausgabepuffermodul 118, ein Ankereinzelbildspeichermodul 117 und einen Bewegungsvektor- (MV-) Prozessor 130.
Das Eingangspufferspeichermodul 111 empfängt den komprimierten Videostrom EINGANG, konkret einen kodierten Bitstrom variabler Länge, der z.B. ein hochauflösendes Fernsehsignal (HDTV) oder ein Fernsehsignal nach Standarddefinition (SDTV) repräsentiert, welches von einem Transport-Demultiplexer/Dekodierschaltkreis (nicht dargestellt) ausgegeben wird. Das Eingangspufferspeichermodul 111 wird benutzt, um den empfangenen komprimierten Videostrom EINGANG vorübergehend zu speichern bis das Dekodermodul 112 variabler Länge bereit ist, die Videodaten für eine Verarbeitung entgegenzunehmen. Das VLD 112 hat einen Ausgang, welcher an den Datenausgang des Eingangspufferspeichermoduls 111 gekoppelt ist, um z.B. die abgespeicherten und kodierten Videodaten variabler Länge als einen Datenstrom EINGANG abzurufen.
Das VLD 112 dekodiert die abgerufenen Daten, um einen Bitstrom konstanter Länge zu erzeugen, der quantisierte Prädiktionsfehler-DCT-Koeffizienten, einen Bewegungsvektorstrom MV und einen Blockinformationsstrom DATEN umfasst.
Es ist wichtig anzumerken, dass in einem typischen MPEG-artigen Dekoder einem Dekoder variabler Länge (wie bspw. ein VLD 112) ein inverses Quantisierungsmodul und ein inverses DCT-Modul nachgeordnet ist. In solch einem Dekoder würde das IQ-Modul normalerweise eine inverse Quantisierungsoperation unter Einsatz einer Standardquantisierungsmatrix auf den Bitstrom S2 konstanter Länge ausführen, um einen Bitstrom zu erzeugen, der dequantisierte Prädiktionsfehlerkoeffizienten in Standardform umfasst. Das IDCT-Modul würde dann eine inverse diskrete Kosinustransformationsoperation auf die dequantisierten Prädiktionsfehlerkoeffizienten anwenden, um einen Bitstrom S4 zu erzeugen, der Pixel-zu-Pixel-Prädiktionsfehler umfasst. Der MPEG-artige Dekoder 100 von 1 funktioniert nicht auf diese Weise.
Das Modul 200 zum Dezimieren der Abtastwerte (Downsampling) und zum Filtern des MPEG-artigen Dekoders 100 von 1 empfängt die quantisierten Prädiktionsfehler-DCT-Koeffizienten innerhalb des Bitstroms S2 konstanter Länge, und erzeugt in Antwort darauf einen Bitstrom S4 mit Pixel-zu-Pixel-Prädiktionsfehlern mit dezimierten Abtastwerten. Konkret empfängt das Modul 200 zum Dezimieren der Abtastwerte und zum Filtern quantisierte DCT-Koeffizientenblöcke, welche Bildinformationen repräsentieren, die mit einem ersten Format (z.B. HDTV) verknüpft sind, und erzeugt in Antwort darauf Pixelblöcke, die Bildinformationen repräsentieren, die mit einem zweiten Format (z.B. SDTV) verknüpft sind, wobei das zweite Format eine geringere Auflösung hat als das erste Format. Zum Beispiel werden in einer Ausführungsform der Erfindung 8 × 8-DCT-Koeffizientenblöcke, die normalerweise verarbeitet würden um 8 × 8-Pixelblöcke zu erzeugen, stattdessen verarbeitet, um 4 × 4-Pixelblöcke zu erzeugen. Diese Verarbeitung erfolgt in der Frequenzdomäne und ohne die Durchführung einer vollen, inversen und diskreten Kosinustransformation. Die Betriebsweise des Moduls 200 zum Dezimieren der Abtastwerte und Filtern wird ausführlicher mit Bezug auf die 2 und 3 erläutert.
Der Summierer 115 addiert den in seinen Abtastwerten dezimierten Pixel-zu-Pixel-Prädiktionsfehlerstrom S4 mit einem bewegungskompensierten Prädiktionspixelwertstrom S6, der durch das Bewegungskompensationsmodul 116 erzeugt wird. Daher ist der Ausgang des Summierer 115 in der veranschaulichten Ausführungsform ein Videostrom S5 geminderter Auflösung mit rekonstruierten Pixelwerten. Der vom Summierer 115 erzeugte Videostrom S5 mit reduzierter Auflösung ist mit dem Ausgangspuffermodul 118 und dem Ankereinzelbildspeichermodul 117 verbunden.
Das Ankereinzelbildspeichermodul 117 empfängt und speichert Ankereinzelbildinformationen innerhalb des Videostroms S5 mit reduzierter Auflösung. Es ist vorteilhaft, wenn die Größe des Ankereinzelbildspeichermoduls 117 um einen Betrag reduziert werden kann, welcher im wesentlichen mit der Reduktion der Auflösung konsistent ist (d.h. Skalierung oder Komprimierung), die das Modul 200 zum Dezimieren der Abtastwerte und Filtern den Videoinformationen innerhalb des empfangenen Videoeingangsinformationsstroms EINGANG auferlegt.
Der Bewegungsvektorreduzierer 130 empfängt den Bewegungsvektorstrom MV und den Blockinformationsstrom DATEN vom VLD 112. Der Bewegungsvektorstrom MV umfasst Bewegungsvektorinformationen, die vom Bewegungskompensationsmodul 116 benutzt werden, um individuelle Makroblöcke vorherzusagen, die auf im Ankereinzelbildspeichermodul gespeicherte Bildinformationen basieren. Da jedoch die im Ankereinzelbildspeichermodul 117 gespeicherte Bildinformation durch das Modul 200 zum Dezimieren der Abtastwerte und zum Filtern, wie oben beschrieben, skaliert wurde, ist es auch notwendig, die Bewegungsvektordaten zu skalieren, um Makroblöcke unter Benutzung der skalierten Pixelinformation zu skalieren. Daher werden die vom VLD-Modul 112 empfangenen Bewegungsvektoren MV skaliert, und werden an das Bewegungskompensationsmodul 116 als skalierte Bewegungsvektoren 116' angekoppelt.
Das Bewegungskompensationsmodul 116 greift auf die komprimierten (d.h. skalierten), im Ankereinzelbildspeichermodul 117 gespeicherten Bildinformationen über den Signalpfad S7 und den oder die skalierten Bewegungsvektoren) MV' vom Bewegungsvektorreduzierer 130 zu, um einen skalierten Prädiktionsmakroblock zu erzeugen. Dies bedeutet, dass das Bewegungskompensationsmodul 116 ein oder mehrere gespeicherte Ankereinzelbilder (d.h. die in ihrer Auflösung reduzierten Pixelblöcke, die mit Bezug auf das neueste I-Einzelbild oder P-Einzelbild des Videosignals, welches am Ausgang des Summierers 115 anliegt, erzeugt wurden), und den oder die vom Bewegungsvektorreduzierer 130 empfangenen Bewegungsvektoren) MV benutzt, um die Werte von jeden einer Viel zahl von skalierten Prädiktionsmakroblöcken zu berechnen, welche am Eingang des Addierers 115 als bewegungskompensierter Prädiktionspixelwertstrom S6 anliegen.
Das Modul 200 zum Dezimieren der Abtastwerte und zum Filtern des Dekoders 100 von 1 legt den quantisierten Prädiktionsfehler-DCT-Koeffizienten, welche die empfangenen restlichen Videoinformationen innerhalb des Bitstroms S2 konstanter Länge bilden, eine vorbestimmte Skalierung oder einen Kompressionsfaktor auf. Entsprechend legt der Bewegungsvektorreduzierer 130 den Bewegungsvektoren, die den empfangenen restlichen Videoinformationen innerhalb des Bitstroms S2 konstanter Länge zugeordnet sind, im wesentlichen denselben Skalierungs- oder Kompressionsfaktor auf. Auf diese Weise erzeugt der Dekoder 100 am Ausgang einen skalierten bzw. in der Auflösung reduzierten Bildinformationsstrom AUSGANG zur Anzeige auf z.B. einer Anzeigevorrichtung reduzierter Auflösung.
2 zeigt ein Blockdiagramm eines Moduls zum Dezimieren der Abtastwerte und zum Filtern, das in dem MPEG-artigen Dekoder der 1 eingesetzt werden kann. Speziell stellt 2 ein Modul 200 zum Dezimieren der Abtastwerte und zum Filtern dar, der einen Dequantisierer 210 und ein C-Transformationsmodul 220 umfasst. Der Dequantisierer 210 und das C-Transformationsmodul 220 sprechen optional auf ein Kontrollsignal CONTROL an, das von einem Controller (nicht dargestellt) erzeugt wird.
Der Dequantisierer 210 empfängt den Bitstrom S2 konstanter Länge, der quantisierte Prädiktionsfehler-DCT-Koeffizienten umfasst, und dequantisiert als Antwort darauf jeden DCT-Koeffizientenblock mit einer modifizierten Quantisierungsmatrix. Dies bedeutet, dass DCT-Koeffizientenblöcke innerhalb des Bitstroms S2 konstanter Länge auf bekannte Weise während eines MPEG-artigen Kodierungsprozesses mit z.B. den MPEG-Parametern quantizer_scale und quantizer_matrix quantisiert wurden. Der Dequantisierer 210 benutzt eine modifizierte (d.h. nicht standardmäßige) Quantisierungsmatrix anstelle von derjenigen Quantisierungsmatrix, die normalerweise mit dem empfangenen DCT-Koeffizientenblock (d.h. die durch syntaktische Normen bestimmte Quantisierungsmatrix) verknüpft ist. Die modifizierten dequantisierten DCT-Koeffizientenblöcke koppeln als Strom S3 an das C-Transformationsmodul 220.
Das C-Transformationsmodul 220 empfängt die modifizierten dequantisierten DCT-Koeffizientenblöcke und verarbeitet daraufhin diese Blöcke in der Frequenzdomäne um entsprechend gefilterte und in den Abtastwerten dezimierte Pixelblöcke in der Bilddomäne zu erzeugen. Das C-Transformationsmodul 220 ist kein inverses DCT-Modul. Vielmehr umfasst das C-Transformationsmodul ein Frequenzdomänenverarbeitungsmodul, das dazu ausgebildet ist, mit den dequantisierten DCT-Koeffizientenblöcken in einer Weise zu funktionieren, die komplementär zu der vom Dequantisierer 210 durchgeführten modifizierten Dequantisierung ist.
Die komplementäre Natur der Dequantisierungs- und C-Transformationsoperationen wird nun mit Hilfe mehrerer Beispiele ausführlicher erläutert.
Während eines bekannten MPEG-artigen Kodierungsprozesses erzeugt jeder (anschaulich) 8 × 8-Block von Pixelwerten ein 8 × 8-Feld von DCT-Koeffizienten. Die jedem der 64 DCT-Koeffizienten zugewiesene relative Genauigkeit wird gemäß seiner relativen Bedeutung bei der visuellen Wahrnehmung durch den Menschen ausgewählt. Die relative Koeffizientenpräzisionsinformation wird von einer Quantisierungsmatrix repräsentiert, die ein 8-mal-8-Feld von Werten ist. Jeder Wert in der Dequantisierungsmatrix repräsentiert die Rauheit der Quantisierung in Bezug auf den zugehörigen DCT-Koeffizienten.
Das Modul 200 zum Dezimieren der Abtastwerte und zum Filtern des Dekoders 200 von 1 benutzt einen Filter zum Dezimieren der Abtastwerte in Form der unten aufgeführten Gleichung 1, unter der Annahme, dass 8 × 8-DCT-Koeffizientenblöcke in 4 × 4-Blöcke konvertiert werden:
Eine IDCT-Transformierte T, die für das Verarbeiten von DCT-Koeffizientenblöcken in Pixelblöcke geeignet ist, wird mit Gleichung 2 wie folgt angegeben: T = {tij}8 × 8 (Gleichung 2)
Durch eine Multiplikation der Filtermatrix F mit der IDCT-Transformierten T kann eine neue Frequenztransformierte S gewonnen werden, wie es unten mit Bezug auf die Gleichungen 3–6 gezeigt wird:

S = FT = C·m (Gleichung 6)
Jeder der vom Standarddequantisierungsprozess erzeugten dequantisierten DCT-Koeffizientenblöcke A kann durch die nachfolgende Gleichung 7 beschrieben werden, bei der

A_ij: anschaulich, eine dequantisierte 8 × 8-DCT-Matrix repräsentiert
Q_ij: die Standardquantisierungsmatrix darstellt,
q: der Standardquantisierungsskalierungswert ist,
Z_ij: anschaulich, ein empfangener 8 × 8-DCT-Koeffizientenblock oder -matrix ist,

Aij = q·Qij·Zij (Gleichung 7)

Daher können die verkleinerten 4 × 4-Pixelblöcke B_ij der Bilddomäne bzw. des Bildraums durch Gleichung 8 wie folgt definiert werden: B = FT·A(FT)' = C·MA·M'·C' = CYC' (Gleichung 8) bei der C' und M' die Inverse von C bzw. M sind.
Es wird darauf hingewiesen, dass Standarddekoder eine unten in Gleichung 9 angegebene Quantisierungsfunktion benutzen, bei der

A_ij: anschaulich eine dequantisierte 8 × 8-DCT-Matrix repräsentiert,
Q_ij: die Standardquantisierungsmatrix darstellt,
q: der Standardquantisierungsskalierungswert ist,
Z_ij: anschaulich ein empfangener 8 × 8-DCT-Koeffizientenblock oder -matrix ist,

A = qQij·Zij (Gleichung 9)

Dekoder der vorliegenden Erfindung benutzen jedoch einen Dequantisierer wie er nachfolgend mit Gleichung 10 angegeben wird, bei der
Y_ij, anschaulich eine dequantisierte 8 × 8-DCT-Matrix repräsentiert,
Q_ij die Standardquantisierungsmatrix darstellt,
q der Standardquantisierungsskalierungswert ist,
Z_ij, anschaulich ein empfangener 8 × 8-DCT-Koeffizientenblock oder -matrix ist, und
m_i und m_j Faktoren sind, die für jede Zeile und Spalte der Matrix (FT) gleich sind, sodass
C·m = F·T, wobei C eine Form hat die mit einem geringeren Rechenaufwand verbunden ist. Yij = q(Qijmimj)·Zij (Gleichung 10)
Es wird angemerkt, dass der Term Q_ijm_im_j vorberechnet und als Term Q_ij definiert werden kann, wodurch die Zahl der zur Durchführung des Dequantisierungsprozesses nötigen Rechenschritte verkleinert werden kann.
Nachfolgend werden mehrere Beispiele zur Durchführung der Erfindung beschrieben. Ein eindimensionales Beispiel wird als erstes kurz beschrieben, um ein vereinfachtes Schema für die Erläuterung zweier nachfolgender zweidimensionaler Beispiele (Non-Interlaced-Video-DCT-Koeffizienten und Interlaced-Video-DCT-Koeffizienten) zu haben.
A. Eindimensionales Beispiel
Alle linearen Transformationen und Filterungen können in der Form von Matrixmultiplikationen angegeben werden. Der Einfachheit halber wird ein eindimensionaler Fall zuerst betrachtet. Es wird angenommen, dass ein 1 × 8-Bilddomänenvektor x = [x0, ..., x7] eine DCT-Transformierte X = {X0, ..., X7} hat. Die IDCT-Transformierte ist eine als T bezeichnete 8 × 8-Matrix, und der gewünschte, die Abtastwerte dezimierende Filter eine als F bezeichnete 4 × 8-Matrix. Daher kann die gewünschte Filterung in der Bilddomäne durch die nachfolgende Funktion 11 angegeben werden: yT = F·xT = F·T·XT = S·XT (Gleichung 11)wobei y = [y0, ..., y7) die Bilddomänenpixel mit dezimierten Abtastwerten sind. Eine neue Transformierte, umfassend eine 4 × 8-Matrix, wird benutzt, um die Bilddomänenpixel direkt zu erhalten, und wird durch Gleichung 12 angegeben: S = F·T (Gleichung 12)
B. Beispiel für eine Non-Interlaced-Einzelbildkodierung
Ein Ausführungsbeispiel der vorliegenden Erfindung zur Benutzung in einem MPEG-artigen Dekoder, der Non-Interlaced- bzw. nicht für das Zeilensprungverfahren angelegte Bildinformationen in 8 × 8 einzelbildbasierte DCT-Koeffizienten kodiert um 4 × 4-Pixelblöcke zu erzeugen, wird nun näher erläutert. Für diese Ausführungsform wird ein Filter F benutzt, der die Zahl der Abtastwerte 2:1 dezimiert, wobei der stückweise mittelnde, die Abtastwerte dezimierende Filter von Gleichung 13 benutzt wird.
Daher ist die Reduzierungstransformierte S in dieser Ausführungsform durch die Gleichung 14 wie folgt gegeben:
Wird die 8 × 8-DCT-Matrix mit A bezeichnet wird, dann kann die Filterung und Dezimierung der Ab tastwerte in einen 4 × 4-Bilddomänenpixelblock als B bezeichnet und durch Gleichung 15 angegeben werden: B = SAST = C(M ⊗ A)CT (Gleichung 15)wobei gilt: ⊗ repräsentiert eine elementweise Multiplikation der zwei Matrizen, die Matrix C wird durch die unten aufgeführte Gleichung 16 beschrieben, c ist die Quadratwurzel aus 2 minus 1 (d.h. 0.4142), M ist das Produkt aus m^T und m (d.h. M = mT·m), und m = [0.3536 0.4531 0.3266 0.3841 0 0.2566 0.1353 0.0900].
Aus Gleichung 16 lässt sich ablesen, dass nur die Spalten 2, 4, 6 und 8 der Matrix (d.h. die Spalten die „c" enthalten), während der Verarbeitung eine Multiplikationsoperation erfordern, und die anderen Spalten nur Additionsoperationen unterzogen werden. Auf diese Weise können beträchtliche Einsparungen bei der Rechenlast erzielt werden.
Bezeichnet man mit Z die quantisierte 8 × 8-DCT-Koeffizientenmatrix, mit Q die Quantisierungsmatrix, und mit q den Quantisierungsskalierungsfaktor, dann ist die dequantisierte DCT-Koeffizientenmatrix A durch nachfolgende Gleichung 17 gegeben: A = q·Q ⊗ Z (Gleichung 17)
Wendet man S sowohl auf die horizontalen als auch auf die vertikalen Richtungen von A an um eine in den Abtastwerten dezimierte 4 × 4-Bilddomäne zu erhalten, so erfolgt dies unter Benutzung von Gleichung 18 wie folgt: B = C·(q·(M ⊗ Q) ⊗ Z)·CT = C·(q·P·Z)·CT (Gleichung 18)
Es wird angemerkt, dass P = (M ⊗ Q) nicht von den quantisierten Koeffizienten abhängt. Wird daher P von der Vorrichtung gemäß 1 vorberechnet, um Q als Quantisierungsmatrix zu ersetzen, so spart dies vorteilhafterweise Rechenzeit und Ressourcen, wenn S direkt auf die DCT-Koeffizienten angewendet wird.
C. Ausführungsform mit Interlaced-Einzelbildmoduskodierung
Eine Ausführungsform der Erfindung, die in einem MPEG-artigen Dekoder benutzt werden kann der Interlaced- bzw. für das Zeilensprungverfahren angelegte Bildinformationen in 8 × 8 einzelbildbasierte DCT-Koeffizienten kodiert, um 4 × 4-Pixelblöcke zu erzeugen, wird nun näher erläutert. Für diese Ausführungsform wird ein Filter F benutzt, der die Zahl der Abtastwerte 2:1 dezimiert, wobei der stückweise mittelnde, die Abtastwerte dezimierende Filter von Gleichung 19 benutzt wird. Die oben diskutierten Lehren bezüglich der Ausführungsform mit Non-Interlaced-Einzelbildkodierung finden bei dieser Ausführungsform Anwendung, soweit dies nicht anderweitig angegeben ist.
Daher ist die Reduzierungstranformierte S in dieser Ausführungsform durch die Gleichung 20, und C durch die Gleichung 21 wie folgt gegeben:
wobei c = 0.1989, c₁ = 0.6682, und m gegeben ist durch m = 0.3536 0.3841 0.1351 0.1877 0 0.1877 0.3266 0.3841.
Im Falle eines 1920 × 1080-Bildes mit Einzelbildmoduskodierung ermöglicht der Filter F 8 zu 3 eine Dezimierung der Abtastwerte, wie es durch Gleichung 22 angegeben ist:
Daher ist die Reduzierungstranformierte S in dieser Ausführungsform durch die Gleichung 23, und C durch die Gleichung 24 wie folgt gegeben:
wobei m = [0.3536 0.4092 0.3943 0.0033 0.1768 0.0553 0.0280 0.0363]ist.
3 zeigt ein Flussdiagramm eines Verfahrens zum Verarbeiten von DCT-Koeffizienten das im MPEG-artigen Dekoder der 1 verwendet werden kann, und das Modul zum Dezimieren der Abtastwerte und zum Filtern. Das Verfahren 300 der 3 ist geeignet DCT-Koeffizienten zu verarbeiten, die Bildinformationen relativ hoher Auflösung repräsentieren, um Bilddomänenpixelblöcke relativ niedriger Auflösung zu erzeugen.
Das Verfahren 300 beginnt bei Schritt 305 und fährt mit Schritt 310 fort, wo ein 8 × 8-DCT-Koeffizientenblock empfangen wird, z.B. durch einen Dequantisierer 210 des Moduls 200 zum Dezimieren der Abtastwerte und zum Filtern der 2. Das Verfahren fährt dann mit Schritt 315 fort.
Bei Schritt 315 wird der empfangene DCT-Koeffizientenblock Z_ij dequantisiert, um entsprechend einen dequantisierten DCT-Koeffizientenblock Y_ij unter Verwendung der modifizierten Quantisierungsmatrix Q'_ij erzeugen, so wie es oben mit Bezug auf Gleichung 10 erläutert wurde, nämlich: Y_ij = q(Q_ijm_im_j)·Z_ij, wobei Y_ij für eine dequantisierte DCT-Matrix steht, die unter Benutzung der modifizierten Quantisierungsmatrix erzeugt wurde. Q_ij repräsentiert eine Standardquantisierungsmatrix, q einen Standardquantisierungsskalierungsfaktor, und Z_ij einen empfangenen DCT-Koeffizientenblock. m_i und m_j sind Faktoren, die für jede Zeile und Spalte der Matrix (FT) gleich sind, sodass C·m = F·T ist.
F repräsentiert einen die Abtastwerte dezimierenden Filter bzw. einen Downsampling-Filter, der derart angepasst ist, dass er eine Bildinformation mit dem ersten Format in eine Bildinformation mit dem zweiten Format reduziert, wobei die erste Bildinformation mit dem ersten Format verknüpft ist, wobei die Pixelblöcke die Bildinformation darstellen, die mit einem zweiten Format verknüpft ist, und T eine inverse diskrete Kosinustransformationsfunktion darstellt.
Bei Schritt 320 wird jede der dequantisierten DCT-Koeffizientenblöcke Y einer C-Transformierten unterworfen, so wie es oben mit Bezug auf 8 erläutert wurde, nämlich B = CYC', wobei B ein verkleinerter Bilddomänenpixelblock bzw. Bilddomainpixelblock ist. C ist eine neue Transformierte, Y stellt eine dequantisierte DCT-Matrix dar, die unter Benutzung der modifizierten Quantisierungsmatrix erzeugt wurde, und C' repräsentiert die Inverse von C. Das Verfahren 300 fährt dann mit Schritt 325 fort.
Bei Schritt 325 wird angefragt, ob mehr DCT-Koeffizienten verarbeitet werden müssen. Wenn dies bejaht wird schreitet das Verfahren 300 mit Schritt 310 fort, wo der nächste Koeffizientenblock empfangen wird. Ist die Antwort nein, so fahrt das Verfahren 300 bis zum Schritt 330 fort, wo es beendet wird.
Es wird vom Fachmann erkannt werden, dass die Lehren der obigen Beispiele kombiniert werden können und entweder für DCT horizontaler Dimension oder für DCT vertikaler Dimension angepasst werden können. Zum Beispiel können die Lehren des Beispiels B (Beispiel für eine Non-Interlaced-Einzelbildkodierung) mit Vorteil für die Dekodierung von Interlaced-Bildinformationen in der vertikalen Richtung angewendet werden.
D. Reduzierung der Berechnungskomplexität
Die folgenden Beispiele einer ein- und zweidimensionalen Berechnungsbelastung eines Prozessors wird die Minderung der Berechnungserfordernisse veranschaulichen, welche durch die Erfindung bewirkt werden. Die Benutzung einer C-Transformierten wie diejenige, die oben mit Bezug auf Gleichung 16 entwickelt und beschrieben wurde (nachfolgend erneut wiedergegeben), setzt voraus, dass ein eindimensionaler IDCT-Vektor Y = [y0 y1 y2 y3 y4 y5 y6 y7]^T verarbeitet werden muss, um einen eindimensionalen Domänenvektor B = [b0 b1 b2 b3 b4 b5 b6 b7] zu erzeugen.
Eine Folge mathematischer Manipulationen wird durch einen Prozessor durchgeführt, mit welchen der eindimensionale Bilddomänenvektor gemäß der Gleichung B = C·Y wie folgt berechnet wird:
x0 = y1 – y7; (Schritt 1)
x1 = y3 – y5; (Schritt 2)
x2 = y2 – y6; (Schritt 3)
z0 = c·x0; (Schritt 4)
z1 = c·x1; (Schritt 5)
z3 = y0 + x2; (Schritt 6)
z4 = y0 – x2; (Schritt 7)
z5 = x0 + z1; (Schritt 8)
z6 = z0 – x1; (Schritt 9)
b0 = z3 + z5; (Schritt 10)
b1 = z4 + z6; (Schritt 11)
b2 = z4 – z6; und (Schritt 12)
b3 = z3 – z5; (Schritt 13)
Die obigen 13 Schritte führen im wesentlichen zu einem kombinierten 8-Punkt-IDCT und einer Operation zum Dezimieren der Abtastwerte, die 11 Additionsoperationen und zwei Multiplikationsoperationen benötigt, um den Pixeldomänenvektor B unter Einsatz des erfindungsgemäßen Verfahrens zu berechnen. Im Gegensatz dazu benötigt eine standardmäßige Durchführung eines 8-Punkt-IDCT 11 Multiplikationen und 29 Additionen, wobei eine standardmäßige Pixeldomänenfilterung eine Mittelung umfasst die vier Additionen erfordert. Daher stellt die Erfindung einen erheblichen Vorteil in Bezug auf die Benutzung von Verarbeitungs- und Speicherplatzressourcen (11 Additionen und 2 Multiplikationen gegenüber 33 Additionen und 11 Multiplikationen) dar.
Man nehme entsprechend an, dass ein 8 × 8-DCT-Koeffizientenblock gemäß der Erfindung verarbeitet wird, um einen 4 × 4-Pixelblock zu erzeugen. In diesem Beispiel wird der 8 × 8-DCT-Koeffizientenblock dequantisiert und die Matrix gefiltert, um eine 8 × 4-Zwischenmatrix zu erzeugen. Das bedeutet, dass die modifizierte Quantisierungsmatrix, die benutzt wird, um den 8 × 8-DCT-Koeffizientenblock zu dequantisieren, einen dequantisierten und matrixgefilterten 8 × 4-DCT-Koeffizientenblock erzeugt. Diese Zwischenmatrix wird weiter gefiltert, um z.B. die 4 × 4-Bilddomäne oder -Pixelblock zu erzeugen. Jeder der acht Spalten und vier Zeilen der Zwischenmatrix wird mit einer eindimensionalen Filteroperation verarbeitet, so wie die 13 oben beschriebenen Verarbeitungsschritte in Bezug auf das eindimensionale Beispiel. Das heißt, im zweidimensionalen Beispiel (8 × 8-DCT-Domäne bis 4 × 4-Bilddomäne) umfasst die Gesamtzahl der Operationen 24 Multiplikationen (2 × 12) und 132 Additionen (11 × 12) gegenüber der konventionellen Verarbeitungslast von 132 Multiplikationen (11 × 12) und 396 Additionen (33 × 12). Die Erfindung stellt damit eine erhebliche Re duktion in Verarbeitungsoperationen gegenüber konventionellen Verfahren im Fall des Dekodierens von DCT-Koeffizienten relativ hoher Auflösung bereit, um Bildinformationen mit einer relativ niedrigen Auflösung zu erzeugen.
Obwohl verschiedene Ausführungsformen, die die Lehren der vorliegenden Erfindung beinhalten, gezeigt und hier im Detail beschrieben wurden, ist der Schutzbereich nur durch die beigefügten Ansprüche beschränkt.

Claims

Verfahren (300), das derart angepaßt ist, daß es einen MPEG-artigen Decoder (100) in die Lage versetzt, DCT-Koeffizientenblöcke (S2) zu verarbeiten, um entsprechende Pixelblöcke (S4) zu erzeugen, wobei die DCT-Koeffizientenblöcke eine Bildinformation darstellen, die mit einem ersten Format verknüpft ist, wobei die Pixelblöcke eine Bildinformation darstellen, die mit einem zweiten Format verknüpft ist, wobei das zweite Format eine geringere Ortsauflösung hat als das erste Format, wobei das Verfahren die Schritte aufweist: Dequantisieren (315) der DCT-Koeffizientenblöcke unter Verwendung einer modifizierten Quantisierungsmatrix, die sich von der Quantisierungsmatrix unterscheidet, die durch die syntaktischen Normen angezeigt wird, die die Quantisierung, die während der Codierung verwendet wurde, reflektieren, um entsprechende dequantisierte DCT-Koeffizientenblöcke zu erzeugen, und Transformieren (320) der dequantisierten Koeffizientenblöcke unter Verwendung einer Downsampling-Transformation in einer Art und Weise, die komplementär zu der modifizierten Dequantisierung ist, um die entsprechenden Pixelblöcke zu erzeugen.
Verfahren nach Anspruch 1, in dem der Schritt der Dequantisierung der DCT-Koeffizienten in Übereinstimmung mit der Gleichung durchgeführt wird: Yij = q(Qijmimj)·Zij wobei Y_ij eine dequantisierte DCT-Matrix darstellt, Q_ij eine Standardquantisierungsmatrix darstellt, u einen Standardquantisierungsskalierungswert darstellt, Z_ij einen empfangenen DCT-Koeffizientenblock darstellt und m_i und m_j gemeinsame Faktoren für jede Reihe und Zeile der Matrix (FT) gemäß folgender Gleichung sind: C·m = F·Twobei F einen Downsampling-Filter darstellt, der derart angepaßt ist, daß er Bildinformation mit dem ersten Format in Bildinformation mit dem zweiten Format reduziert, wobei die erste Bildinformation mit dem ersten Format verknüpft ist, wobei die Pixelblöcke die Bildinformation darstellen, die mit einem zweiten Format verknüpft ist, und D eine inverse diskrete Kosinustransformationsfunktion darstellt.
Verfahren nach Anspruch 1, in dem der Schritt des Übertragens des dequantisierten Koeffizientenblocks in Übereinstimmung mit der Gleichung durchgeführt wird: B = CYC' wobei B ein in der Größe verkleinerter Bilddomainpixelblock ist, C eine C-Transformationsmatrix darstellt, Y eine dequantisierte DCT-Matrix darstellt und C' die Inverse von C darstellt.
Verfahren nach Anspruch 3, bei dem die DCT-Koeffizientenblöcke 8 × 8-DCT-Koeffizientenblöcke aufweisen, die 8 × 8 nicht verzahnte Framemodus-codierte ursprüngliche Pixelblöcke darstellen, die produzierten Pixelblöcke 4 × 4 Pixelblöcke aufweisen und die Verkleinerungstransformation in Übereinstimmung mit der Gleichung bewirkt wird:
Verfahren nach Anspruch 4, bei dem F, C und m in Übereinstimmung mit den Gleichungen festgelegt werden: und m = [0,3536 0,4531 0,3266 0,3841 0 0,2566 0,1353 0,0900].
Verfahren nach Anspruch 1, bei dem die Quantisierungsmatrix durch einen Faktor m modifiziert wird, wobei der Faktor m mit der Transformationsmatrix in Bezug steht über die Gleichung: S = F·T = C·mwobei F eine Downsamplingfiltermatrix aufweist für das Konvertieren der Bildinformation mit der relativ hohen Auflösung in Bildinformation mit relativ niedriger Auflösung und T eine inverse diskrete Kosinustransformation (IDCT) ist.
Eine MPEG-artige Decodervorrichtung für die Verarbeitung von DCT-Koeffizientenblöcken (S2), um entsprechende Pixelblöcke (S4) zu erzeugen, wobei die DCT-Koeffizientenblöcke eine Bildinformation darstellen, die mit einem ersten Format verknüpft ist, wobei die Pixelblöcke eine Bildinformation darstellen, die mit einem zweiten Format verknüpft ist, wobei das zweite Format eine geringere räumliche Auflösung als das erste Format hat, wobei die Decodervorrichtung aufweist: einen Dequantisierer (210) für das Dequantisieren der DCT-Koeffizientenblöcke unter Verwendung einer modifizierten Quantisierungsmatrix, die sich von der Quantisierungsmatrix unterscheidet, die durch die syntaktischen Normen, die die Quantisierung, die während der Codierung verwendet wurde, reflektieren, angezeigt wird, um entsprechende dequantisierte DCT-Koeffizientenblöcke zu erzeugen, und ein Transformationsmodul (220) für das Transformieren der dequantisierten Koeffizientenblöcke unter Verwendung einer Downsamplingtransformation in einer Art und Weise komplementär zu der modifizierten Dequantisierung, um die entsprechenden Pixelblöcke zu erzeugen.
Vorrichtung nach Anspruch 7, in der der Dequantisierer die DCT-Koeffizienten in Übereinstimmung mit der Gleichung dequantisiert: Yij = q(Qijmimj)·Zij wobei Y_ij eine dequantisierte DCT-Matrix darstellt, Q_ij eine Standardquantisierungsmatrix darstellt, q einen Standardquantisierungsskalierungswert darstellt, Z_ij einen empfangenen DCT-Koeffizientenblock darstellt und m_i und m_j gemeinsame Faktoren für jede Reihe und Zeile der Matrix (FT) gemäß der Gleichung sind: C·m = F·Twobei F einen Downsamplingfilter darstellt, der derart angepaßt ist, daß er Bildinformation mit dem ersten Format in Bildinformation mit dem zweiten Format reduziert, wobei die erste Bildinformation mit dem ersten Format verknüpft ist, die Pixelblöcke einer Bildinformation darstellen, die mit einem zweiten Format verknüpft ist, und T eine inverse diskrete Kosinustransformationsfunktion darstellt.
Vorrichtung nach Anspruch 8, in der das Transformationsmodul in Übereinstimmung mit der Gleichung arbeitet: B = CYC'wobei B einen in der Größe verkleinerten Bilddomainpixelblock darstellt, C eine C-Transformationsmatrix darstellt, Y eine dequantisierte DCT-Matrix darstellt und C' die Inverse von C darstellt.
Vorrichtung nach Anspruch 9, bei der: die DCT-Koeffizientenblöcke 8 × 8-DCT-Koeffizientenblöcke aufweisen, die 8 × 8 nicht verzahnte Einzelbildmodus-codierte ursprüngliche Pixelblöcke darstellen, wobei die produzierten Pixelblöcke 4 × 4-Pixelblöcke aufweisen und das Transformationsmodul eine Downsamplingtransformation in Übereinstimmung mit der Gleichung bewirkt: