EP1413142A2 - Optimale snr-skalierbare videocodierung - Google Patents
Optimale snr-skalierbare videocodierungInfo
- Publication number
- EP1413142A2 EP1413142A2 EP01984734A EP01984734A EP1413142A2 EP 1413142 A2 EP1413142 A2 EP 1413142A2 EP 01984734 A EP01984734 A EP 01984734A EP 01984734 A EP01984734 A EP 01984734A EP 1413142 A2 EP1413142 A2 EP 1413142A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- prediction error
- video
- video coding
- error signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/36—Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Definitions
- the information that a subscriber is a mobile subscriber is not necessarily known to the transmitter / initiator. From a technical point of view, a rapid adaptation of the generated or transmitted bit rate to very different transmission bandwidths must be possible in such a scenario (e.g. transmission in the fixed network as opposed to wireless transmission).
- An increasingly important scenario is represented by so-called streaming applications, both in
- a service provider (which can also be a private individual) provides video material for retrieval.
- the client requests the compressed video data while the decoded image material is being displayed.
- the provider has to take very different customer requirements into account.
- SNR short term evolution
- local and temporal scalability common to all methods is that by varying certain coding parameters, the same picture sequence is coded at different bit rates.
- SNR scaling different quality levels and bit rates are achieved by varying the quantization.
- Local scalability describes methods that code the image sequence with different spatial resolutions (image sizes).
- image sequences with different image frequencies are scalable over time. It should be noted that any combination of the three types is possible.
- Claim 1 defines a method for SNR-scalable video coding, in which an input signal with video image information is fed to a plurality of codecs, the codecs quantize the video signal at different resolution levels with different quality, wherein motion compensation can be carried out in each codec on the basis of motion vectors , which are determined by a motion estimation, and. the codecs each output an output signal with video signals quantized at the different resolution levels.
- the invention is characterized in that the motion estimation takes place only at the highest quality level and for
- Motion compensation can use the same estimated motion vectors at all levels of resolution.
- only a single motion compensation is carried out at the highest quality level, which is used by the codecs of the lower resolution levels.
- the method is characterized by the fact that it is based on the hybrid coder concept and is therefore fundamentally compatible with existing standards for video coding. The objection often made that new processes are not compatible with existing processes does not apply here.
- the basic principle of the hybrid encoder concept is the coding of a prediction error signal, which results from the difference between the input signal and (quantized) motion-compensated reconstruction of the previous image.
- the prediction error is often encoded after execution of a Transformation to decorrelation (taking advantage of local statistical dependencies).
- the intensities of the prediction error signal are quantized directly in the spatial region or else the transformation coefficients are quantized and then compressed losslessly via entropy coding and mapped onto a binary signal.
- the prediction errors of the coarser quantizing codecs must be contained in the prediction error of the highest quality level. In other words, by successively quantizing the prediction error of the highest quality level, the prediction errors of the lower quality levels are obtained identically. Such a connection cannot generally be guaranteed, since motion compensation and the choice of quantization result in a deviation between the quantized prediction error signal of a lower quality level and the correspondingly quantized prediction error signal of the highest quality level. If the transmitter uses a different signal than the one that the receiver can reconstruct for prediction, the reconstructed images between the transmitter and receiver deviate, which is generally referred to as drift.
- the most coarsely quantized prediction error signal is first coded in order to implement scalability and a difference signal between the two resolution levels is coded for coding the next better resolution level.
- the quantization levels of the individual resolution levels are advantageously selected such that embedded quantization is produced.
- the proposed method achieves optimal performance.
- an INTER coding according to FIG. 2 or 5 even if the condition that the prediction error of the next lower resolution level should be equal to the quantized prediction error of the next higher resolution level, but the difference signals to be transmitted are embedded, achieves a performance that is close to the optimum.
- the method can be used not only in the local area (with several or only one MC unit), but in principle also in the spectral area. It will be described in detail below.
- Input signal undergoes a linear transformation and the prediction error signal is quantized and encoded in the spectral range.
- the method according to the invention is compatible with application-specific video standards, such as MPEG-2, MPEG-4 or H.263 (quantization and coding of the DCT coefficients of the prediction error signal) or else to the video standard H.26L (quantization and coding of the ICT coefficients) (Integer-Cosine-Transform) of the prediction error signal).
- application-specific video standards such as MPEG-2, MPEG-4 or H.263 (quantization and coding of the DCT coefficients of the prediction error signal) or else to the video standard H.26L (quantization and coding of the ICT coefficients) (Integer-Cosine-Transform) of the prediction error signal).
- the essence of the invention is that in a hybrid coding method the quantization of the prediction error is identical to the difference between the quantized input signal and the quantized prediction signal (the mathematical proof of this can be provided by the inventors). This proof is successful under assumptions that only marginally restrict the general case.
- Fig. 1 is a structural flow diagram of a simulcast encoder.
- FIG. 2 shows a structure and flow diagram of an optimally SNR-scalable video encoder which is based on the hybrid coder concept.
- 3A, 3B and 3C show the structures of the corresponding video decoders for the individual levels.
- Fig. 4 shows the structure of the corresponding complete video decoder, which can decode and output all resolutions simultaneously.
- Fig. 5 shows the structure of an optimally SNR scalable
- FIG. 6 shows an SNR-scalable encoder system that can be used in the spectral range, including one
- codec a “codec”, also referred to in the literature as a coder / decoder or as a compression and decompression algorithm, coded (synonymously compressed) and decoded (synonymously decompressed) different types of data, such encoding / decoding is particularly necessary in connection with data that otherwise requires a lot of memory or
- codecs are those which convert digital or digitized analog video signals into compressed video files (e.g. MPEG) or digitized analog or digital sound signals into digital sound (e.g. MP3, RealAudio). Basically, codecs can be used in real time (streaming files or conferencing) or based on storage files.
- the Simulcast encoder is briefly discussed here. Basically, these are N (three are shown in FIG. 1) completely independently operating codecs. The input signal is fed to all N codecs and coded. The main difference is the different strength
- the quantized signal is fed to the entropy coding (VLC- variable length coding) for lossless coding after each quantization block.
- VLC- variable length coding VLC- variable length coding
- an SNR-scalable video codec (FIG. 2) can be constructed which, in the case of INTRA coding, has an optimal performance and in the case of INTER coding has a performance which is close to the optimum among the following Requirements fulfilled:
- the prediction error signal is not transformed. A similarly good coding efficiency can be achieved by using clever context-based entropy coding methods. • The quantization levels of the individual resolution levels must be selected so that a so-called embedded quantization is created.
- the most coarsely quantized prediction error signal is first coded. To code the next better resolution level, it is now sufficient to code the difference signal between the two resolution levels.
- the prediction error signal is successively reconstructed from the decoded error signals of lower resolution. It should be noted that a complete reconstruction of the image of the lower resolution levels is not necessary. The decoding of the motion vectors is also only required once.
- Optimality is given by the fact that the prediction error signal of a given resolution level is identical to the prediction error signal which is obtained when the prediction error signal of the next higher resolution level is quantized with the quantizer of the given resolution levels.
- 3A shows the structure of the corresponding video decoder for the coarse resolution level.
- 3B shows the structure of the corresponding video decoder for the next higher, medium resolution level.
- Fig. 3C all three levels of resolution are involved.
- Figure 4 shows the structure of the corresponding full video decoder for all resolutions.
- the previous method can be simplified in such a way that only one motion compensation at the highest
- the resulting structure is the SNR-scalable codec shown in FIG Quantitation in the local area and only one MC unit. The optimality remains.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Die Erfindung betrifft eine optimale SNR-skalierbare Videocodierung. Das neuartige Codierschema zeichnet sich aus durch nahtlose SNR Skalierbarkeit ohne dadurch eine Abweichung zwischen Rekonstruktion im Sender und im Empfänger einzuführen. Die Leistungsfähigkeit des erfindungsgemäßen Systems überbietet dabei sogar das sogenannte Simulcast. Durch die neuen Codecs in den verschiedenen Auflösungsebenen und die entsprechende Verbindung der Codecs ist es sogar möglich jederzeit zwischen den Auflösungsebenen umzuschalten, ohne dabei auf eine erneuerte Synchronisation warten zu müssen.
Description
Beschreibung
Optimale SNR-S alierbare Videocodierung
In immer mehr Anwendungen ist es erforderlich codierte
Videosequenzen so aufzubereiten, daß diese mit Geräten sehr unterschiedlicher Leistungsfähigkeit decodiert werden können. Anwendungsszenarien sind im Besonderen mobile Endgeräte, auf denen Bildsequenzen, die eigentlich für Desktop-Applikationen codiert wurden, wiedergebbar sein sollen. Auch
Videokonferenzen zwischen Teilnehmern mit Desktop und mobilen Endgeräten erfordern eine geschickte Anpassung. Hierbei ist die Information, daß ein Teilnehmer ein mobiler Teilnehmer ist, dem Sender / Initiator nicht notwendigerweise bekannt. Aus technischer Sicht muß in einem solchen Szenario eine schnelle Adaption der generierten bzw. übertragenen Bitrate an sehr unterschiedliche Übertragungsbandbreiten möglich sein (z.B. Übertragung im Festnetz im Gegensatz zu drahtloser Übertragung) . Ein zunehmend wichtiger werdendes Szenario stellen sogenannte Streaming-Applikationen, sowohl im
Festnetz als auch im drahtlosen Netz, dar. Hierbei stellt ein Service-Provider (der auch eine private Einzelperson sein kann) Videomaterial zum Abruf bereit. Der Client fordert die komprimierten Videodaten an, während gleichzeitig das decodierte Bildmaterial dargestellt wird. Auch hierbei muß der Provider sehr unterschiedlichen Kundenanforderungen Rechnung tragen.
Prinzipiell erfordern solche Problemstellungen skalierbare Codierverfahren. Senderseitig (serverseitig) wird nur ein einziger Bitstrom generiert, aus dem aber Bildsequenzen geringerer Qualität und / oder Auflösung decodiert werden können. Damit kann der Client (Empfänger) für Streaming- Applikationen entscheiden, welche Auflösungsqualität er empfangen möchte. Im Fall variierender Terminaleigenschaften decodiert der Client nur den relevanten Teil, der darstellbar ist. Im Bereich mobiler Applikationen mit zeitlich stark schwankenden Kanaleigenschaften ergibt sich die Möglichkeit
einer sehr schnellen Adaption des Senders, bzw. eine elegante Schnittstelle für UEP (unequal error protection) .
Grundsätzlich kann zwischen SNR, örtlicher und zeitlicher Skalierbar eit unterschieden werden. Allen Verfahren gemeinsam ist, daß durch Variation bestimmter Codierparameter die gleiche Bildsequenz bei verschiedenen Bitraten codiert wird. Im Fall der SNR-Skalierung werden durch Variation der Quantisierung unterschiedliche Qualitätsstufen und Bitraten erzielt. Örtliche Skalierbarkeit beschreibt Verfahren, die die Bildsequenz mit unterschiedlichen Ortsauflösungen (Bildgrößen) codieren. Eine zeitliche Skalierbarkeit schließlich stellt die Bildsequenzen mit unterschiedlichen Bildfrequenzen zur Verfügung. Es sei darauf hingewiesen, daß durchaus beliebige Kombinationen der drei Arten möglich sind.
Skalierbare Videocodierverfahren wurden in der . wissenschaftlichen Literatur bereits vielfach untersucht, allerdings häufig mit einer Ausrichtung auf bestehende oder in der Entwicklung befindliche Standards (MPEG-2, MPEG-4, H.263, H.26L). Auch wenn die Verfahren Eingang in die Standards gefunden haben, so finden diese Verfahren bislang keine breite Anwendung, da deren Performance (erzielbares peak signal to noise ratio (PSNR) bei gegebener Bitrate) sehr unbefriedigend ist. Eine sogenannte Simulcast-Codierung, bei der die gewünschten Bitströme mit unterschiedlich parametrisierten parallelen und unabhängig voneinander arbeitenden Codecs generiert werden, erreichen eine bessere Qualität bei gleicher Bitrate. Dies ist um so bemerkenswerter, als daß im Fall der Simulcast-Codierung eine nicht unerhebliche Redundanz zwischen den einzelnen Bitströmen erhalten bleibt.
Es ist Aufgabe dieser Erfindung ein Verfahren, entsprechende Programme und entsprechende Datenträger vorzuschlagen, die eine SNR-Skalierung erlauben und dennoch prinzipiell die gleiche Performance eines Unicast-Codecs erreichen.
Diese Aufgaben werden durch die in den Ansprüchen angegebenen Merkmale gelöst. Dabei definiert Anspruch 1 ein Verfahren zur SNR-skalierbaren Videocodierung, bei dem ein Eingangssignal mit Videobildinformation je einer Mehrzahl von Codecs zugeführt wird, die Codecs das Videosignal auf unterschiedlichen Auflösungsebenen mit unterschiedlicher Qualität quantisieren, wobei in jedem Codec eine Bewegungskompensation durchgeführt werden kann aufgrund von Bewegungsvektoren, die durch eine Bewegungsschätzung ermittelt werden, und. die Codecs je ein Ausgangssignal mit auf den unterschiedlichen Auflösungsebenen quantisierten Videosignalen ausgeben. Die Erfindung ist dadurch gekennzeichnet, dass die Bewegungsschätzung nur auf der höchsten Qualitätsstufe stattfindet und zur
Bewegungskompensation auf allen Auflösungsebenen dieselben geschätzten Bewegungsvektoren verwendet werden.
In einer bevorzugten Ausführung wird nur eine einzige Bewegungskompensation auf der höchsten Qualitätsstufe ausgeführt, die von den Codecs der niedrigeren Auflösungstufen mitverwendet wird.
Das Verfahren zeichnet sich dadurch aus, daß es auf dem hybriden Coderkonzept aufbaut, und damit grundsätzlich kompatibel zu existierenden Standards zur Videocodierung ist. Der oft gemachte Einwurf, daß neue Verfahren nicht kompatibel zu existierenden Verfahren sind, trifft hier nicht zu.
Das Grundprinzip des hybriden Coderkonzepts besteht in der Codierung eines Prädiktionsfehlersignals, welches sich aus der Differenz zwischen Eingangssignal und (quantisierter) bewegungskompensierter Rekonstruktion des vorherigen Bildes ergibt. Im Bezug auf die Berechnung der Prädiktion gibt es sehr viele Varianten, denen allen die zeitliche Prädiktion gemeinsam ist. Darüberhinaus erfolgt die Codierung des Prädiktionsfehlers vielfach nach Ausführung einer
Transformation zur Dekorrelation (Ausnutzen örtlicher statistischer Abhängigkeiten) . Um die für eine Videoübertragung erforderlichen Kompressionsraten zu erzielen, werden entweder die Intensitäten des Prädiktionsfehlersignals direkt im Ortsbereich oder aber die Transformationskoeffizienten quantisiert und anschließend über eine Entropiecodierung verlustlos komprimiert, sowie auf ein binäres Signal abgebildet.
Um eine optimale Codiereffizienz des skalierbaren Codecs im Vergleich zum Simulcast-Coder zu erzielen, müssen die Prädiktionsfehler der gröber quantisierenden Codecs im Prädiktionsfehler der höchsten Qualitätsstufe enthalten sein. Oder mit anderen Worten, durch sukzessive Quantisierung des Prädiktionsfehlers der höchsten Qualitätsstufe erhält man identisch die Prädiktionsfehler der niedrigeren Qualitätsstufen. Ein solcher Zusammenhang kann im Allgemeinen nicht garantiert werden, da durch Bewegungskompensation und Wahl der Quantisierung eine Abweichung zwischen dem quantisierten Prädiktionsfehlersignal einer geringeren Qualitätsstufe und dem korrespondierend quantisierten Prädiktionsfehlersignal der höchsten Qualitätsstufe entsteht. Verwendet der Sender zur Prädiktion ein anderes Signal als das, das der Empfänger rekonstruieren kann, so kommt es zu einer Abweichung der rekonstruierten Bilder zwischen Sender und Empfänger, die im allgemeinen als Drift bezeichnet wird.
Nach einer Weiterentwicklung wird zur Realisierung der Skalierbarkeit zunächst das am gröbsten quantisierte Prädiktionsfehlersignal codiert und zur Codierung der nächst besseren Auflösungsstufe ein Differenzsignal zwischen beiden Auflösungsstufen codiert. Vorteilhafterweise werden die Quantisierungsstufen der einzelnen Auflösungsebenen so gewählt, dass eine embedded quantization ensteht. Im Fall einer INTRA-Codierung, bei der keine zeitliche Prädiktion erfolgt, erreicht das vorgeschlagene Verfahren eine optimale Performance. Im Falle einer INTER-Codierung gemäß Fig. 2 bzw.
5 wird selbst dann, wenn die Bedingung, daß der Prädiktionsfehler der nächstniedrigeren Auflösungsebene gleich dem quantisierten Prädiktionsfehler der nächsthöheren Auflösungsebene sein soll, die zu übertragenen Differenzsignale aber embedded sind, eine nahe am Optimum liegende Performance erzielt.
Das Verfahren kann nicht nur im Ortsbereich (mit mehreren oder nur einer einzigen MC-Einheit) , sondern prinzipiell auch im Spektralbereich verwendet werden. Dabei wird das
Eingangssignal einer linearen Transformation unterzogen und das Prädiktionsfehlersignal im Spektralbereich quantisiert und codiert.
Das erfindungsgemäße Verfahren ist kompatibel mit anwendungsspezifischen Videostandards, wie zum Beispiel MPEG- 2, MPEG-4 oder H.263 (Quantisierung und Codierung der DCT- Koeffizienten des Prädiktionsfehlersignals ) oder aber auf den Videostandard H.26L (Quantisierung und Codierung der ICT- Koeffizienten (Integer-Cosine-Transform) des Prädiktionsfehlersignals ) .
Kernpunkt der Erfindung ist, daß in einem hybriden Codierverfahren die Quantisierung des Prädiktionsfehlers identisch ist zur Differenz aus quantisiertem Eingangssignal und quantisiertem Prädiktionssignal (der mathematische Nachweis dafür kann von den Erfindern geliefert werden) . Dieser Nachweis gelingt unter Annahmen, die den allgemeinen Fall nur geringfügig einschränken.
Dieses Prinzip läßt sich auf verschiedene Art und Weise in fundamental neuartige Realisierungen SNR-skalierbarer Videocodierverfahren umsetzen:
• Quantisierung im Ortsbereich mit mehreren ME/MC - Einheiten;
• Quanitisierung im Ortsbereich mit nur einer ME/MC - Einheit; (ME-MC auf einer beliebigen Auflösungsebene)
• Quantisierung im Bildbereich einer linearen Transformation;
• Quantisierung im Bildbereich einer linearen Transformation einschließlich Bewegungskompensation im Ortsbereich.
Die Besonderheit dieses Ansatzes besteht darin, daß jede Form der Realisierung für sich optimal (INTRA vollständig, INTER nahe am Optimum) in dem Sinne ist, daß sie die gleiche
Perfomance wie die eines üblichen Unicast-Coders aufweist, darüberhinaus aber zusätzlich noch die Funktionalität der SNR-Skalierbarkeit bietet.
Der mathematische Nachweis gelang bislang für die ersten drei Verfahren. Details finden sich im folgenden Text.
Zuerst sollen die bislang identifizierten Realisierungen im Detail beschrieben werden. Dabei wird Bezug genommen auf die beiliegenden Zeichnungsfiguren.
Dabei zeigen
Fig. 1 ein strukturelles Ablaufdiagram eines Simulcast Coders.
Fig. 2 ein Struktur- und Ablaufdiagram eines optimal SNR- skalierbaren Video-Encoders der auf dem hybriden Coderkonzept basiert.
Fig. 3A, 3B und 3C zeigen die Strukturen der korrespondierenden Videodecoders für die einzelnen Ebenen.
Fig. 4 zeigt die Struktur des korrespondierenden vollständigen Videodecoders, der alle Auflösungen simultan decodieren und ausgeben kann.
Fig. 5 zeigt die Struktur eines optimal SNR-skalierbaren
Codecs mit Quanitisierung im Ortsbereich und nur einer MC-Einheit.
Fig. 6 zeigt ein im Spektralbereich anwendbares SNR- skalierbares Codersystem inklusive einer
Bewegungsschätzung und -ko pensation im Ortsbereich.
Bevor auf die Ausführungsbeispiele eingegangen wird, sei hier noch kurz erwähnt, was unter dem Ausdruck Codec zu verstehen ist: Ein „Codec", in der Literatur auch als Coder/Decoder oder als Kompressions- und Dekompressionsalgorithmus bezeichnet, codiert (synonym komprimiert) und decodiert (synonym dekomprimiert) verschiedene Arten von Daten. Solche Codierung/Decodierung ist besonders im Zusammenhang mit Daten notwendig, die ansonsten sehr viel Speicherplatz oder
Transmissionsbandbreite beanspruchen würden, wie zum Beispiel Video- und Sounddateien. Allgemein gebräuchliche Codecs sind solche die digitale oder digitalisierte analoge Videosignale in komprimierte Videodateien (z.B. MPEG) oder digitalisierte analoge oder digitale Soundsignale in Digitalsound (z.B. MP3, RealAudio) umwandeln. Grundsätzlich können Codecs in Echtzeit (Streaming files oder Conferencing) oder auf Grundlage von Speicherdateien verwendet werden.
Zum besseren Verständnis und der Vollständigkeit halber sei hier kurz auf den Simulcast-Coder eingegangen. Grundsätzlich handelt es sich hierbei um N (drei sind in Fig. 1 dargestellt) vollkommen unabhängig operierende Codecs. Das Eingangssignal wird allen N Codecs zugeführt und codiert. Der wesentliche Unterschied ist die unterschiedlich starke
Quanitiserung der Transformationskoeffizienten innerhalb der einzelnen Codecs.
Die Schätzung der Bewegungsvektoren selbst ist für die Parameterisierung der Codecs unter dem hier interessierenden Aspekt nicht von Bedeutung. Es sei nur darauf hingewiesen, daß innerhalb eines jeder Codecs eine unabhängige Schätzung durchgeführt wird, und damit die zur Kompensation eingesetzten Bewegungsvektorfelder unterschiedlich sein werden.
Das quantisierte Signal wird nach jedem Quantisierungsblock der Entropiecodierung (VLC- variable length coding) zur verlustlosen Codierung zugeführt. Der Unterschied zwischen den drei dargestellten VLC Signalen liegt in ihren jeweiligen Auflösungsdetails .
Unter Verwendung der eingangs erwähnten gefundenen mathematischen Zusammenhänge, "läßt sich ein SNR-skalierbarer Videocodec (Fig. 2) aufbauen, der im Falle einer INTRA- Codierung eine optimale Performance und im Falle der INTER- Codierung eine nahe am Optimum liegende Performance unter den folgenden Voraussetzungen erzielt:
• Das Eingangssignal wird vor der Berechnung des Prädiktionsfehlers quantisiert.
• Die Bewegungsschätzung findet ausschließlich auf der höchsten Qualitätsstufe statt. Zur Bewegungskompensation werden auf allen Auflösungsebenen dieselben geschätzten Bewegungsvektoren verwendet. Durch diese Einschränkung entsteht in der Regel kein signifikanter Qualitätsverlust der niedrigeren Auflösungsstufen.
• Auf eine Transformation des Prädiktionsfehlersignals wird verzichtet. Durch Einsatz geschickter kontext-basierter Entropiecoderverfahren kann eine ähnlich gute Codiereffizient erreicht werden.
• Die Quantisierungsstufen der einzelnen Auflösungsebenen müssen so gewählt werden, daß eine sogenannte embedded quantiza tion ensteht.
Zur Realisierung der Skalierbarkeit wird zunächst das am gröbsten quantisierte Prädiktionsfehlersignal codiert. Zur Codierung der nächst besseren Auflösungsstufe genügt es nun das Differenzsignal zwischen beiden Auflösungsstufen zu codieren.
Decoderseitig folgt daraus, daß das Prädiktionsfehlersignal sukzessive aus den decodierten Fehlersignalen geringerer Auflösung rekonstruiert wird. Anzumerken ist, daß eine vollständige Rekonstruktion des Bildes der niedrigeren Auflösungsstufen nicht erforderlich ist. Auch die Decodierung der Bewegungsvektoren ist nur einmal erforderlich.
Optimalität ist dadurch gegeben, daß das Prädiktionsfehlersignal einer gegebenen Auflösungsebene identisch ist zum Prädiktionsfehlersignal, das man erhält, wenn man das Prädiktionsfehlersignal der nächsthöheren Auflösungsebene mit dem Quantisierer der gegebenen Auflösungsebenen quantisiert.
In Fig. 3A wird die Struktur des korrespondierenden Videodecoders für die grobe Auflösungsebene gezeigt. In Fig. 3B wird die Struktur des korrespondierenden Videodecoders für die nächsthöhere, medium Auflösungsebene gezeigt. In Fig. 3C werden alle drei Auflösungsebenen involviert.
Fig. 4 zeigt die Struktur des korrespondierenden vollständigen Videodecoders für alle Auflösungen.
Das vorherige Verfahren kann derart vereinfacht werden, daß nur noch eine Bewegungskompensation auf der höchsten
Qualitätsstufe erforderlich ist. Die resultierende Struktur ist der in Fig. 5 dargestellte SNR-skalierbare Codec mit
Quanitisierung im Ortsbereich und nur einer MC-Einheit. Die Optimalität bleibt dabei erhalten.
Die obigen Ausführungsbeispiele beziehen sich auf Konzepte, in denen Prädiktionsfehler im Ortsbereich codiert werden. Das Grundprinzip bleibt aber auch im Spektralbereich unter Verwendung einer beliebigen linearen Transformation gültig. Bleibt die Bewegungskompensation zunächst unberücksichtigt, ergibt sich das in Fig. 6 dargestellte optimale SNR- skalierbare Codersystem. Durch Simulationen durch die
Erfinder konnte inzwischen nachgewiesen werden, daß das Verfahren grundsätzlich auch bei gleichzeitiger Anwendung der IGT und der Bewegungskompensation funktioniert.
Abkürzungsglossar
SNR signal to noise ratio
PSNR peak signal to noise ratio
UEP unequal error protection
VLC variable length code
MPEG moving picture experts group
ME motion estimation unit
MC motion compensation
DCT diskrete Cosinus-Transformation
ITC InterfaceCodingTable
Claims
1. Verfahren zur SNR-skalierbaren Videocodierung bei dem ein Eingangssignal mit Videobildinformation je einer Mehrzahl (N) von Codecs zugeführt wird, die Codecs das Videosignal auf unterschiedlichen Auflösungsebenen (0,1,2, ..., N-l) mit unterschiedlicher Qualität quantisieren, wobei in jedem Codec eine Bewegungskompensation durchgeführt werden kann aufgrund von Bewegungsvektoren die durch eine Bewegungsschätzung ermittelt werden, und die Codecs je ein Ausgangssigrialmit auf den unterschiedlichen Auflösungsebenen quantisierten Videosignalen ausgeben,
d a d u r c h g e k e n n z e i c h n e t
dass die Bewegungsschätzung auf der höchsten Qualitätsstufe stattfindet und zur Bewegungskompensation auf allen
Auflösungsebenen dieselben geschätzten Bewegungsvektoren verwendet werden.
2. Verfahren zur Videocodierung nach Anspruch 1, bei dem die Bewegungskompensation für alle Codecs gemeinsam nur auf der höchsten Qualitätsstufe durchgeführt wird.
3. Verfahren zur Videocodierung nach einem der Ansprüche 1 und 2, bei dem ein Prädiktionsfehlersignal errechnet wird und das Eingangssignal (g) mit dem Prädiktionsfehlersignal verknüpft wird.
4. Verfahren zur Videocodierung nach Anspruch 3, wobei auf eine Transformation des Prädiktionsfehlersignals verzichtet wird.
5. Verfahren zur Videocodierung nach Anspruch 3, wobei zur Realisierung der Skalierbarkeit zunächst das am gröbsten quantisierte Prädiktionsfehlersignal codiert wird und zur Codierung der nächstbesseren Auflösungsstufe ein Differenzsignal zwischen beiden Auflösungsstufen codiert wird.
6. Verfahren zur Videocodierung nach einem der vorhergehenden Ansprüche, wobei die Quantisierungsstufen der einzelnen Auflösungsebenen so gewählt werden, dass eine embedded quantiza tion ensteht.
7. Verfahren zur Videocodierung nach einem der vorhergehenden Ansprüche, wobei das Eingangssignal einer linearen Transformation unterzogen wird und das Prädiktionsfehlersignal im Spektralbereich quantisiert und codiert wird.
8. Codec zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wobei das Prädiktionsfehlersignal mit Bezug auf den Videostandard MPEG-2, MPEG-4 oder H.263 mit diskreter Cosinus-Transformation berechnet wird.
9. Codec zur Durchführung des Verfahrens nach einem der
Ansprüche 1 - 7, wobei das Prädiktionsfehlersignal mit Bezug auf den Videostandard H.26L durch einer Integer Cosine Transform (ICT) bestimmt wird.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10100434 | 2001-01-08 | ||
DE10100434 | 2001-01-08 | ||
DE10121259 | 2001-04-30 | ||
DE10121259A DE10121259C2 (de) | 2001-01-08 | 2001-04-30 | Optimale SNR-skalierbare Videocodierung |
PCT/DE2001/004940 WO2002054774A2 (de) | 2001-01-08 | 2001-12-28 | Optimale snr-skalierbare videocodierung |
Publications (1)
Publication Number | Publication Date |
---|---|
EP1413142A2 true EP1413142A2 (de) | 2004-04-28 |
Family
ID=26008180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01984734A Withdrawn EP1413142A2 (de) | 2001-01-08 | 2001-12-28 | Optimale snr-skalierbare videocodierung |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP1413142A2 (de) |
WO (1) | WO2002054774A2 (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0513242A (pt) | 2004-07-13 | 2008-04-29 | Koninkl Philips Electronics Nv | métodos de compressão de imagem escalonável espacial e snr e de decodificar dados de imagem codificados escalonáveis espaciais e snr, uso de dados de imagem codificados, dispositivos de compressão e de descompressão de imagem escalonável espacial e snr, receptor de dados de imagem, dispositivo de exibição de imagem, e, produto de programa de computação |
FR2927758B1 (fr) * | 2008-02-15 | 2011-08-26 | Ateme Sa | Procede et dispositif de codage-decodage d'images video successives selon un flux video principal en pleine resolution et selon un flux video secondaire en qualite reduite |
US8311115B2 (en) * | 2009-01-29 | 2012-11-13 | Microsoft Corporation | Video encoding using previously calculated motion information |
US8705616B2 (en) | 2010-06-11 | 2014-04-22 | Microsoft Corporation | Parallel multiple bitrate video encoding to reduce latency and dependences between groups of pictures |
US9591318B2 (en) | 2011-09-16 | 2017-03-07 | Microsoft Technology Licensing, Llc | Multi-layer encoding and decoding |
US11089343B2 (en) | 2012-01-11 | 2021-08-10 | Microsoft Technology Licensing, Llc | Capability advertisement, configuration and control for video coding and decoding |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4723161A (en) * | 1985-03-20 | 1988-02-02 | Nec Corporation | Method and arrangement of coding digital image signals utilizing interframe correlation |
JPH04177992A (ja) * | 1990-11-09 | 1992-06-25 | Victor Co Of Japan Ltd | 階層性を有する画像符号化装置 |
FR2697393A1 (fr) * | 1992-10-28 | 1994-04-29 | Philips Electronique Lab | Dispositif de codage de signaux numériques représentatifs d'images, et dispositif de décodage correspondant. |
US7042944B2 (en) * | 2000-09-22 | 2006-05-09 | Koninklijke Philips Electronics N.V. | Single-loop motion-compensation fine granular scalability |
CN1254115C (zh) * | 2000-09-22 | 2006-04-26 | 皇家菲利浦电子有限公司 | 双回路移动补偿精细颗粒的可标度性 |
US20020037046A1 (en) * | 2000-09-22 | 2002-03-28 | Philips Electronics North America Corporation | Totally embedded FGS video coding with motion compensation |
US6940905B2 (en) * | 2000-09-22 | 2005-09-06 | Koninklijke Philips Electronics N.V. | Double-loop motion-compensation fine granular scalability |
-
2001
- 2001-12-28 WO PCT/DE2001/004940 patent/WO2002054774A2/de not_active Application Discontinuation
- 2001-12-28 EP EP01984734A patent/EP1413142A2/de not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
See references of WO02054774A3 * |
Also Published As
Publication number | Publication date |
---|---|
WO2002054774A2 (de) | 2002-07-11 |
WO2002054774A3 (de) | 2004-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60031230T2 (de) | Skalierbares videokodierungssystem und verfahren | |
DE69535228T2 (de) | Bildumsetzungsvorrichtung | |
DE60109423T2 (de) | Videokodierung mit prädiktiver bitebenenkodierung und progressiver fein-granularitätsskalierung (pfgs) | |
DE60305325T2 (de) | System und verfahren zur ratenverzerrungsoptimierten datenpartitionierung zur videocodierung unter verwendung von rückwärtsadaption | |
US6920177B2 (en) | Method and apparatus for accomplishing multiple description coding for video | |
WO2006056531A1 (de) | Verfahren zur transcodierung sowie transcodiervorrichtung | |
WO2006024584A1 (de) | Verfahren und vorrichtung zum codieren und decodieren | |
DE10204617B4 (de) | Verfahren und Vorrichtungen zur Kompression und Dekompression eines Videodatenstroms | |
DE112015001531T5 (de) | Datenkodierung und Dekodierung | |
WO2002054774A2 (de) | Optimale snr-skalierbare videocodierung | |
DE10121259C2 (de) | Optimale SNR-skalierbare Videocodierung | |
EP1800488A1 (de) | Vorrichtung und verfahren zum erzeugen einer codierten videosequenz und zum decodieren einer codierten videosequenz unter verwendung einer zwischen-schicht-restwerte-praediktion | |
WO2011157399A1 (de) | Verfahren und vorrichtung zum mischen von videoströmen auf der makroblock-ebene | |
DE10200901B4 (de) | Effiziente Codierung von Videosignalen für skalierbare Simul-cast-Speicherung und -Übertragung sowie zugehöriger Codec | |
EP1285537B1 (de) | Verfahren und eine anordnung zur codierung bzw. decodierung einer folge von bildern | |
EP1815689A1 (de) | Codierverfahren und decodierverfahren, sowie codiervorrichtung und decodiervorrichtung | |
WO2003026310A2 (de) | Effiziente videocodierung für skalierbare simul-cast-speicherung und -übertragung | |
WO2006108780A1 (de) | Verfahren und vorrichtung zur reduktion eines quantisierungsfehlers | |
DE10243568A1 (de) | Verfahren zur skalierbaren Videocodierung eines Videobildsignals sowie ein zugehöriger Codec | |
DE102004011421B4 (de) | Vorrichtung und Verfahren zum Erzeugen eines skalierten Datenstroms | |
DE102004011422B4 (de) | Vorrichtung und Verfahren zum Verarbeiten einer Gruppe von Bildern und Vorrichtung und Verfahren zum Verarbeiten eines Basisbildes und eines oder mehrerer Erweiterungsbilder | |
DE102004063902B4 (de) | Computerprogramm mit einem Verfahren zum Verarbeiten einer Gruppe von Bildern und mit einem Verfahren zum Verarbeiten eines Basisbildes und eines oder mehrerer Erweiterungsbilder | |
WO2004002161A1 (de) | Verfahren und vorrichtung zur vorbereitung der ubertragung von bildfolgen über einen zeitlich änderlichen kanal | |
EP1913780B1 (de) | Verfahren zum korrigieren eines quantisierten datenwerts sowie eine dazugehörige vorrichtung | |
DE102007022955A1 (de) | Qualitätsskalierbares Videosignal, Verfahren zu dessen Erzeugung, Codierer und Decodierer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20030605 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE FR GB IT LI |
|
17Q | First examination report despatched |
Effective date: 20050228 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20050913 |