DE602004013031T2

DE602004013031T2 - Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms

Info

Publication number: DE602004013031T2
Application number: DE602004013031T
Authority: DE
Inventors: Rongshan Yu; Xiao Lin; Susanto Rahardja
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2003-10-10
Filing date: 2004-10-06
Publication date: 2009-05-14
Anticipated expiration: 2024-10-07
Also published as: DE602004013031D1; ATE391988T1; JP2007509362A; US8446947B2; WO2005036528A1; JP4849466B2; EP1673764A4; KR101141247B1; KR20060115385A; CN1890711A; TWI347755B; US20070274383A1; EP1939863A2; TW200520400A; EP1673764B1; EP1673764A1; MY137785A; CN1890711B; ES2305852T3; EP1939863A3

Description

Hintergrund der Erfindung
In letzter Zeit wird mit den Verbesserungen bei Computern, beim Betrieb von Netzwerken und in der Kommunikationstechnik das Strömen (Streaming) von Audioinhalten über Netzwerke, wie beispielsweise das Internet, drahtlose lokale Netzwerke, Heimnetzwerke und kommerzielle Mobiltelefonsysteme, zu einem Hauptinstrument der Versorgung mit Audiodiensten. Man glaubt, dass mit der Entwicklung der Breitband-Netzwerk-Infrastrukturen, einschließlich xDSL, Lichtleittechnik und drahtlosem Breitbandzugang, Bitraten für diese Kanäle schnell an die Bitraten zum Übermitteln verlustloser Audiosignale hoher Abtastrate und Amplitudenauflösung (zum Beispiel 96 kHz, 24 Bit/Abtastwert) herankommen. Andererseits gibt es immer noch Anwendungsbereiche, wo hochkomprimierte digitale Audioformate, wie beispielsweise MPEG-4 AAC (beschrieben in [1]) benötigt werden. Infolgedessen werden interoperable Lösungen, welche die derzeitigen Kanäle und die schnell aufkommenden Breitbandkanäle zusammenführen, stark nachgefragt. Daneben ist, sogar wenn Breitbandkanäle weit verbreitet verfügbar sind und die Bandbreitenbeschränkung endgültig aufgehoben ist, ein bitratenskalierbares Kodiersystem, welches in der Lage ist, einen hierarchischen Bitstrom zu erzeugen, dessen Bitraten während der Übertragung dynamisch verändert werden können, immer noch stark zu bevorzugen. Beispielweise können für Anwendungen, wo aufgrund von Störungen oder Ressourcenverteilungs-Anforderungen gelegentlich Paketverlust auftritt, die derzeitigen Breitband-Wellenform-Repräsentationen, wie beispielsweise PCM (Pulse Code Modulation, Pulsweitenmodulation) und verlustlose Kodierformate in einer Strömungs-Situation ernsthafte Verzerrungen erleiden. Allerdings kann dieses Problem gelöst werden, wenn man in dem Fall, dass sich Netzwerkressourcen dynamisch verändern, Paketprioritäten einstellen könnte. Schließlich stellt ein bitratenskalierbares Kodiersystem auch den für Audio-Strömungs-Dienste vorteilhaften Server bereit, wobei eine kontrollierter QoS-Rückgang erreicht werden könnte, wenn eine übermäßige Anzahl von Anforderungen von Kundenseiten eintreffen.
In der Vergangenheit sind viele verlustlose Audio-Kodieralgorithmen vorgeschlagen worden (siehe [2]–[8]). Die meisten Ansätze beruhen auf einem Vorhersagefilter, so dass die Redundanz der originalen Audiosignale beseitigt wird, während die Residuen entropiekodiert werden (wie in [5]–[12] beschrieben). Wegen der Existenz der Vorhersagefilter sind die durch diese vorhersagebasierten Ansätze erzeugten Bitströme schwierig und ineffizient (siehe [5], [6]), wenn nicht gar unmöglich, zu skalieren, um Bitratenskalierbarkeit zu erreichen. Andere, beispielsweise in [3] beschriebene, Ansätze bilden den verlustlosen Audiokodierer durch einen Zweischicht-Ansatz, wobei die originalen Audiosignale als erstes mit einem verlustbehafteten Kodierer kodiert werden und ihr Residuum dann mit einem Rest-Kodierer verlustlos kodiert wird. Obwohl dieser Zweischicht-Aufbau eine Art von Bitratenskalierbarkeit bereitstellt, ist seine Auflösung zu grob, um von Audio-Strömungs-Anwendungen geschätzt zu werden. Audio-Kodierer-Dekodierer, welche die feinkörnige Skalierbarkeit nach Bitrate zur Verfügung stellen, wurden vorher in [4] und [18] vorgeschlagen, allerdings stellen diese Kodierer-Dekodierer im Unterschied zu dem hier diskutierten System keine Rückwärts-Kompatibilität zur Verfügung, insofern als dass die von beiden Kodierer-Dekodierern erstellten verlustbehafteten Bitströme inkompatibel zu irgendeinem existierenden Audio-Kodierer-Dekodierer sind.
In [21], [22], [23] werden Wahrnehmungsmodelle beschrieben.
Der Video-Kodierer-Dekodierer gemäß [25] stellt feinkörnige Skalierbarkeit, genauso wie Rückwärts-Kompatibilität, zur Verfügung, wobei ein Kodieren der Restsignale auf signalunabhängigen Betrachtungen basiert.
Die Aufgabe der Erfindung ist das Bereitstellen eines Verfahrens zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom, wobei Rückwärts-Kompatibilität bewahrt werden kann und Wahrnehmungsqualität verbessert wird.
Zusammenfassung der Erfindung
Ein Verfahren zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom wird bereitgestellt, aufweisend: Quantisieren des digitalen Signals und Kodieren des quantisierten Signals, so dass ein Kernschicht-Bitstrom gebildet wird; Durchführen eines Fehler-Abbildens basierend auf dem digitalen Signal und dem Kernschicht-Bitstrom, so dass Information entfernt wird, die in den Kernschicht-Bitstrom kodiert worden ist, resultierend in einem Fehlersignal; Bitebene-Kodieren des Fehlersignals basierend auf Wahrnehmungsinformation des digitalen Signals, resultierend in einem Verbesserungsschicht-Bitstrom, wobei die Wahrnehmungsinformation des digitalen Signals unter Verwendung eines Wahrnehmungsmodells bestimmt wird; und Multiplexen des Kernschicht-Bitstroms und des Verbesserungsschicht-Bitstroms, wobei der skalierbare Bitstrom erzeugt wird.
Ferner werden ein Kodierer zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom, ein computerlesbares Medium, ein Computerprogramm-Element, ein Verfahren zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal, ein Dekodierer zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal, ein weiteres computerlesbares Medium und ein weiteres Computerprogramm-Element gemäß dem oben beschriebenen Verfahren bereitgestellt.
In einer Ausführungsform wird ein verlustloser Audio-Kodierer-Dekodierer mit den folgenden Charakteristika vorgestellt, welcher feinkörnige Bitratenskalierbarkeit (FGBS, Fine Grain Bit-Rate Scalability) erreicht:

– Rückwärts-Kompatibilität: ein hochkomprimierter Kernschicht-Bitstrom, wie beispielsweise ein MPEG-4-AAC-Bitstrom, wird in den verlustlosen Bitstrom eingebettet.
– Eingebetteter verlustloser Wahrnehmung-Bitstrom: der verlustlose Bitstrom kann auf irgendwelche verlustbehaftete Raten beschränkt werden, ohne einen Verlust in der perzeptuellen Optimalität im rekonstruierten Audiosignal.
– Niedrige Komplexität: Der Kodierer-Dekodierer fügt dem AAC (binärer arithmetischer Kodierer-Dekodierer) nur einen sehr begrenzten Berechnungsaufwand hinzu, genauso wie einen sehr begrenzten Speicherplatzbedarf.

Die von dem vorgestellten Audio-Kodierer-Dekodierer bereitgestellte reichhaltige Funktionalität deutet auf seine Fähigkeit hin, als ein "universelles" Audioformat zu dienen, so dass die verschiedenen Rate-/Qualitäts-Anforderungen für verschiedene Audio-Strömungs- oder Audio-Speicher-Anwendungen erfüllt werden. Beispielsweise kann ein MPEG-4-AAC-konformer Bitstrom, welcher als der Kernschicht-Bitstrom verwendet wird, leicht aus dem Bitstrom extrahiert werden, der unter Verwendung des Kodierer-Dekodierers für herkömmliche MPEG-4-AAC-Audiodienste erzeugt wird. Andererseits wird von dem Kodierer-Dekodierer außerdem eine verlustlose Komprimierung zur Audio-Bearbeitung oder für Speicher-Anwendungen mit der Anforderung einer verlustlosen Rekonstruktion bereitgestellt. In Audio-Strömungs-Anwendungen, wo die FGBS benötigt wird, kann der verlustlose Bitstrom des Kodierer-Dekodierers ferner auf niedrigere Bitraten am Kodierer/Dekodierer oder im Kommunikationskanal beschränkt werden, für irgendwelche Raten-/Wiedergabetreue-/Komplexitäts-Beschränkungen, die in praktischen Systemen auftreten können.
In einer Ausführungsform wird ein Verfahren zum Kodieren eines digitalen Signals, so dass ein skalierbarer Bitstrom gebildet wird, bereitgestellt, wobei der skalierbare Bitstrom an irgendeinem Punkt beschränkt werden kann, so dass beim Dekodieren durch einen Dekodierer ein Signal mit niedrigerer Qualität (verlustbehaftetes Signal) erzeugt wird. Das Verfahren kann zum Kodieren beliebiger Typen eines digitalen Signals verwendet werden, wie beispielsweise Audio-, Bild- oder Video-Signale. Das mit einem physikalisch gemessenen Signal korrespondierende digitale Signal kann durch Abtasten zumindest eines charakteristischen Merkmals eines korrespondierenden analogen Signals (beispielsweise die Helligkeits- und Farbwerte eines Videosignals, die Amplitude eines analogen Klangsignals oder das analoge Sensorsignal von einem Sensor) erzeugt werden. Beispielsweise kann ein Mikrofon verwendet werden, so dass ein analoges Audiosignal aufgenommen wird, welches dann durch Abtasten und Quantisieren des aufgenommenen analogen Audiosignals in ein digitales Audiosignal umgewandelt wird. Eine Videokamera kann verwendet werden, so dass ein analoges Videosignal aufgenommen wird, welches dann unter Verwendung eines geeigneten Analog-zu-Digital-Wandlers in ein digitales Videosignal umgewandelt wird. Alternativ kann eine Digitalkamera verwendet werden, so dass ein Bild- oder ein Videosignal direkt auf einem Bildsensor (CMOS oder CCD) als digitale Signale aufgenommen werden.
Das digitale Signal wird quantisiert und kodiert, so dass ein Kernschicht-Bitstrom gebildet wird. Der Kernschicht-Bitstrom bildet die minimale Bitrate/Qualität des skalierbaren Bitstroms.
Ein Verbesserungsschicht-Bitstrom wird verwendet, so dass eine zusätzliche Bitrate/Qualität des skalierbaren Bitstroms bereitgestellt wird. Der Verbesserungsschicht-Bitstrom wird gemäß der Erfindung durch Durchführen eines Fehler-Abbildens basierend auf dem umgewandelten Signal und dem Verbesserungsschicht-Bitstrom gebildet, so dass ein Fehlersignal erzeugt wird. Der Zweck des Durchführens des Fehler-Abbildens ist das Entfernen der Information, welche schon in den Kernschicht-Bitstrom kodiert worden ist.
Das Fehlersignal wird Bitebene-kodiert, so dass der Verbesserungsschicht-Bitstrom gebildet wird. Das Bitebene-Kodieren des Fehlersignals wird basierend auf einer Wahrnehmungsinformation, das heißt, der wahrgenommenen oder perzeptuellen Bedeutung des digitalen Signals, durchgeführt. Der in dieser Erfindung verwendete Begriff der Wahrnehmungsinformation bezieht sich auf Information, welche zum menschlichen Sensorsystem gehört, zum Beispiel zu dem menschlichen visuellen System (das heißt, dem menschlichen Auge) und dem menschlichen Hörsystem (das heißt, dem menschlichen Ohr). Solche Wahrnehmungsinformation für das digitale Signal (Video oder Audio) wird unter Verwendung eines Wahrnehmungsmodells gewonnen, beispielsweise des psychoakustischen Modells I oder II in dem MPEG-1-Audio (beschrieben in [21]) für Audiosignale und des Modells des menschlichen visuellen Systems für ein Bild (beschrieben in [22]) und des räumlich-zeitlichen Modells, das bei Video verwendet wird (beschrieben in [23]).
Das psychoakustische Modell basiert auf dem Effekt, dass das menschliche Ohr nur in der Lage ist, Geräusche innerhalb eines bestimmten Frequenzbandes aufzunehmen, in Abhängigkeit von verschiedenen Umweltbedingungen. In ähnlicher Weise basiert das HVM (Human Visual Model, menschliches visuelles Modell) auf dem Effekt, dass das menschliche Auge bestimmte Bewegung, Farben und Kontrast aufmerksamer wahrnimmt.
Der Kernschicht-Bitstrom und der Verbesserungsschicht-Bitstrom werden gemultiplext, so dass der skalierbare Bitstrom gebildet wird.
Der skalierbare Bitstrom kann so dekodiert werden, dass das digitale Signal verlustlos rekonstruiert wird. Wie oben erwähnt, ist der Kernschicht-Bitstrom ein eingebetteter Bitstrom, welcher die minimale Bitrate/Qualität des skalierbaren Bitstroms bildet, und der Verbesserungs-Bitstrom bildet den verlustbehafteten bis verlustlosen Teil des skalierbaren Bitstroms. Weil der Verbesserungsschicht- Bitstrom perzeptuell Bitebene-kodiert ist, kann der Verbesserungsschicht-Bitstrom in einer Weise beschränkt werden, dass perzeptuell weniger bedeutsame Daten in dem Verbesserungsschicht-Bitstrom als erstes beschränkt werden, so dass eine perzeptuelle Skalierbarkeit des skalierbaren Bitstrom bereitgestellt wird. Mit anderen Worten kann der skalierbare Bitstrom durch Beschränken des Verbesserungsschicht-Bitstroms so beschränkt werden, dass der Verbesserungsschicht-Bitstrom und folglich der skalierbare Bitstrom perzeptuell optimiert werden können, sogar wenn sie auf eine niedrigere Bitrate/Qualität beschränkt werden.
Das Verfahren gemäß der Erfindung kann als ein verlustloser Kodierer für ein digitales Signal, wie beispielsweise ein Bildsignal, ein Videosignal oder ein Audiosignal, in Systemen hoher Bandbreite oder hoher Wiedergabetreue verwendet werden. Wenn die Bandbreite-Anforderung sich verändert, kann die Bitrate des von dem Kodierer erzeugten Bitstroms entsprechend geändert werden, so dass die Änderung der Bandbreite-Anforderung bewältigt wird. Solch ein Verfahren kann in viele Anwendungen und Systeme, wie beispielsweise MPEG-Audio, Bild- und Videokomprimierung von JPEG 2000, implementiert werden.
Gemäß einer Ausführungsform der Erfindung wird das digitale Signal in einen geeigneten Bereich transformiert, bevor es quantisiert wird, so dass das quantisierte Signal gebildet wird. Das digitale Signal kann innerhalb des gleichen Bereichs transformiert werden, oder von einem Bereich in einen anderen Bereich, um das digitale Signal besser zu repräsentieren und dabei ein einfaches und effizientes Quantisieren und Kodieren des digitalen Signals zu erlauben, so dass der Kernschicht-Bitstrom gebildet wird. Solch ein Bereich kann, ohne darauf beschränkt zu sein, den Zeitbereich, den Frequenzbereich und eine Kombination der Zeit- und Frequenzbereiche aufweisen. Die Transformation des digitalen Signals kann sogar durch eine Einheitsmatrix I ausgeführt werden.
In einer Ausführungsform wird das digitale Signal unter Verwendung einer ganzzahligen modifizierten diskreten Kosinustransformation (intMDCT, integer Modified Discrete Cosine Transform) in ein transformiertes Signal transformiert. Die intMDCT ist eine reversible Annäherung an die modifizierte-diskrete-Kosinustransformation(MDCT, Modified Discrete Cosine Transform)-Filterbank, welche üblicherweise in einem MPEG-4-AAC-Kodierer verwendet wird. Andere Transformationen zum Transformieren des digitalen Signals in einen geeigneten Bereich zur weiteren Verarbeitung können ebenfalls verwendet werden, aufweisend, ohne darauf beschränkt zu sein, diskrete Kosinustransformation, diskrete Sinustransformation, schnelle Fourier-Transformation und diskrete Wavelet-Transformation.
Wenn zum Transformieren des digitalen Signals in das transformierte Signal intMDCT verwendet wird, wird das transformierte Signal (insbesondere die intMDCT-Koeffizienten, welche das transformierte Signal beschreiben) vorzugsweise normiert oder skaliert, so dass die Ausgabe einer MDCT-Filterbank angenähert wird. Das Normieren des intMDCT-transformierten Signals kann in dem Fall nützlich sein, wenn ein Quantisierer zum Quantisieren des transformierten Signals, zum Beispiel ein AAC-Quantisierer, eine MDCT-Filterbank mit einer globalen Verstärkung aufweist, die verschieden von der globalen Verstärkung der intMDCT-Filterbank ist. Solch ein Normierungsprozess nähert das intMDCT-transformierte Signal an die MDCT-Filterbank an, so dass es zum direkten Quantisieren und Kodieren durch den Quantisierer geeignet ist, so dass der Kernschicht-Bitstrom gebildet wird.
Zum Kodieren eines digitalen Audiosignals wird das digitale/transformierte Signal vorzugsweise gemäß der MPEG-AAC-Spezifikation quantisiert und kodiert, so dass der Kernschicht-Bitstrom erzeugt wird. Das liegt daran, dass AAC einer der effektivsten perzeptuellen Audio-Kodieralgorithmen zum Erzeugen eines Audio-Bitstroms niedriger Bitrate aber hoher Qualität ist. Deshalb hat der unter Verwendung von AAC erzeugte Kernschicht-Bitstrom (bezeichnet als AAC-Bitstrom) eine niedrige Bitrate, und, sogar wenn der skalierbare Bitstrom auf den Kernschicht-Bitstrom beschränkt wird, ist die Wahrnehmungsqualität des beschränkten Bitstroms immer noch hoch. Es ist zu bemerken, dass auch andere Quantisier- und Kodier-Algorithmen/Verfahren, zum Beispiel MPEG-1-Audioschicht-3 (MP3) oder andere proprietäre Kodier/Quantisier-Verfahren, zum Erzeugen des Kernschicht-Bitstroms verwendet werden können.
Das Fehler-Abbilden, welches Information entfernt, welche schon in den Kernschicht-Bitstrom kodiert worden ist, und welches ein Restsignal (oder Fehlersignal) erzeugt, wird durch Subtrahieren der niedrigeren Quantisierungsschwelle (näher an Null) jedes quantisierten Werts des quantisierten Signals von dem transformierten Signal durchgeführt. Solch eine auf einer Quantisierungsschwelle basierende Fehler-Abbildungsprozedur hat den Vorteil, dass die Werte des Restsignals immer positiv sind und die Amplitude des Restsignals unabhängig von der Quantisierungsschwelle ist. Dies erlaubt, ein wenig komplexes und effizientes eingebettetes Kodierschema zu implementieren. Es ist allerdings auch möglich, ein rekonstruiertes transformiertes Signal von dem transformierten Signal zu subtrahieren, so dass das Restsignal erzeugt wird.
Zum Bestimmen der Wahrnehmungsinformation des digitalen Signals zum Bitebene-Kodieren des Fehlersignals kann ein psychoakustisches Modell als das Wahrnehmungsmodell verwendet werden. Das psychoakustische Modell kann auf dem psychoakustischen Modell I oder II, das in MPEG-1-Audio (wie in [21] beschrieben) verwendet wird, oder dem psychoakustischen Modell in MPEG-4-Audio (wie in [19] beschrieben) basieren. Wenn ein perzeptueller Quantisierer, wie beispielsweise der gemäß AAC verwendete, zum Quantisieren und Kodieren des digitalen/transformierten Signals benutzt wird, kann das in dem perzeptuellen Quantisierer verwendete Wahrnehmungsmodell auch zum Bestimmen der Wahrnehmungsinformation zum Bitebene-Kodieren des Fehlersignals verwendet werden. Mit anderen Worten wird in diesem Fall kein separates Wahrnehmungsmodell benötigt, so dass die Wahrnehmungsinformation zum Bitebene-Kodieren des Fehlersignals bereitgestellt wird.
Die Wahrnehmungsinformation zum Bitebene-Kodieren des Fehlersignals wird vorzugsweise auch mit dem Kernschicht-Bitstrom und dem Verbesserungsschicht-Bitstrom gemultiplext, so dass der skalierbare Bitstrom als Nebeninformation gebildet wird. Die Nebeninformation kann zum Rekonstruieren des Fehlersignals durch einen Dekodierer verwendet werden.
Das Fehlersignal wird in einer Mehrzahl von Bitebenen angeordnet, wobei jede Bitebene eine Mehrzahl von Bitebene-Symbolen aufweist.
In einem Ausführungsbeispiel der Erfindung wird die Anordnung oder Reihenfolge der Bitebenen des Fehlersignals verändert oder verschoben und die Bitebenen werden nacheinander in einer aufeinanderfolgenden sequenziellen Art abgetastet und kodiert. Die Bitebenen werden in einer solchen Weise verschoben, dass, wenn das Bitebene-Kodieren auf den verschobenen Bitebenen durchgeführt wird, Bitebenen, welche die perzeptuell bedeutsameren Bitebene-Symbole aufweisen, als erstes abgetastet und kodiert werden. In diesem Ausführungsbeispiel werden alle Bitebene-Symbole in einer Bitebene vor dem Kodieren der Bitebene-Symbole einer nachfolgenden benachbarten Bitebene kodiert.
In einem anderen Ausführungsbeispiel der Erfindung werden die Bitebene-Symbole der Bitebenen in einer Reihenfolge, die auf der Wahrnehmungsinformation basiert, abgetastet und kodiert. Mit anderen Worten werden nicht alle Bitebene-Symbole in einer Bitebene vor dem Kodieren der Bitebene-Symbole von einer anderen Bitebene kodiert. Die Abtast- und Kodiersequenz der Bitebene-Symbole aus der Mehrzahl von Bitebenen wird basierend auf der Wahrnehmungsinformation so bestimmt, dass Bitebene-Symbole, welche perzeptuell bedeutsamer sind, als erstes kodiert werden.
Die durch das Wahrnehmungsmodell bestimmte Wahrnehmungsinformation des digitalen Signals kann die erste (oder maximale) Bitebene M(s) (das heißt, eine Nummer (Index), welche die erste Bitebene spezifiziert) der Mehrzahl von Bitebenen für das Bitebene-Kodieren des Fehlersignals und/oder das JND(Just Noticeable Distortion, gerade noch wahrnehmbare Verzerrung)-Niveau des digitalen Signals aufweisen. Es ist zu bemerken, dass die Wahrnehmungsinformation für alle unterschiedlichen Bereichscharakteristika (zum Beispiel Frequenz, Zeit, Signalamplitude, etc.) oder eine Reihe von Bereichscharakteristika dem digitalen Signal entspricht. Wenn zum Beispiel das digitale Signal in den Frequenzbereich transformiert wird, kann die Wahrnehmungsinformation des digitalen Signals bei jeder Frequenz oder in einem Band von Frequenzwerten (Frequenzband s, oder, allgemeiner Bereichsband s) unterschiedlich sein, womit angezeigt wird, dass das Signal bei bestimmten Frequenzen perzeptuell bedeutsamer sein kann.
In einer Ausführungsform der Erfindung wird die perzeptuelle Signifikanz Ps(s) des digitalen Signals, die mit jedem Frequenzband s korrespondiert, als die Wahrnehmungsinformation bestimmt. In dieser Ausführungsform wird das JND-Niveau τ(s) des mit der Bitebene des Fehlersignals korrespondierenden digitalen Signals bestimmt. Die mit dem JND-Niveau τ(s) korrespondierende Bitebene wird dann von dem Index der ersten Bitebene der Mehrzahl von Bitebenen für das Bitebene-Kodieren des Fehlersignals M(s) subtrahiert, so dass die perzeptuelle Signifikanz Ps(s) resultiert. Die perzeptuelle Signifikanz Ps(s) kann zum Steuern des Verschiebens der Bitebenen verwendet werden, so dass Bitebenen, welche die perzeptuell bedeutsameren Bitebene-Symbole aufweisen, als erstes abgetastet und kodiert werden. Noch vorteilhafter kann die perzeptuelle Signifikanz Ps(s) zum Steuern der Abtast- und Kodiersequenz der Bitebene-Symbole der Mehrzahl von Bitebenen verwendet werden, so dass perzeptuell bedeutsamere Bitebene-Symbole als erstes kodiert werden.
In einer weiteren Ausführungsform der Erfindung wird die perzeptuelle Signifikanz Ps(s) normiert, so dass eine normierte perzeptuelle Signifikanz Ps'(s) gebildet wird. In diesem Ausführungsbeispiel wird eine allgemeine perzeptuelle Signifikanz Ps_common des digitalen Signals basierend auf einer Funktion der perzeptuellen Signifikanz Ps(s) definiert. Beispiele einer solchen Funktion der perzeptuellen Signifikanz Ps(s) weisen den Durchschnittswert, den Maximalwert, den Minimalwert oder einen normierten Wert der perzeptuellen Signifikanz Ps(s) auf. Die allgemeine perzeptuelle Signifikanz Ps_common wird von der perzeptuellen Signifikanz Ps(s) subtrahiert, so dass sie in der normierten perzeptuellen Signifikanz Ps'(s) für jedes Frequenzband s resultiert. Wenn das Frequenzband s zumindest ein nicht-Nullwert-quantisiertes-Signal aufweist, ist das Frequenzband s ein signifikantes Band. Anderenfalls ist das Frequenzband s ein insignifikantes Band s. Für ein signifikantes Band wird der Wert der korrespondierenden perzeptuellen Signifikanz Ps(s) auf den Wert der allgemeinen perzeptuellen Signifikanz Ps_common eingestellt. Für ein insignifikantes Band wird die korrespondierende normierte perzeptuelle Signifikanz Ps'(s) mit dem Kernschicht-Bitstrom und dem Verbesserungsschicht-Bitstrom zum Erzeugen des skalierbaren Bitstroms zur Übertragung gemultiplext. Diese normierte perzeptuelle Signifikanz Ps'(s) wird in dem skalierbaren Bitstrom als Nebeninformation zum Dekodieren des skalierbaren Bitstroms in einen Dekodierer übertragen.
Das Normieren der perzeptuellen Signifikanz Ps(s) durch Definieren einer allgemeinen perzeptuellen Signifikanz Ps_common hat den Vorteil des Reduzierens der Menge von Wahrnehmungsinformation, die in dem skalierbaren Bitstrom übertragen werden soll, durch Verwenden von Information, die beim Quantisieren des digitalen/transformierten Signals gewonnen wurde, um den Kernschicht-Bitstrom zu erzeugen. Deshalb wird Wahrnehmungsinformation, insbesondere die normierte perzeptuellen Signifikanz Ps'(s), für ein insignifikantes Band nur zum Übertragen an die Dekodiererseite benötigt, da eine solche Wahrnehmungsinformation für ein signifikantes Band durch den Dekodierer leicht regeneriert werden kann.
Der Index der ersten (oder maximalen) Bitebene der Mehrzahl von Bitebenen für das Bitebene-Kodieren des Fehlersignals M(s), welcher ein Teil der Wahrnehmungsinformation des digitalen Signals ist, kann aus dem maximalen Quantisierungsintervall bestimmt werden, das zum Quantisieren des digitalen/transformierten Signals verwendet wird. Für ein signifikantes Band wird das maximale Quantisierungsintervall (die Differenz zwischen der höheren und der niedrigeren Quantisierungsschwelle, die mit jedem quantisierten Wert des quantisierten Signals korrespondiert) bestimmt und die genannte erste Bitebene (spezifiziert durch M(s)) wird dementsprechend bestimmt. Ein solches maximales Quantisierungsintervall kann auch auf der Dekodiererseite bestimmt werden und folglich braucht die genannte erste Bitebene (spezifiziert durch M(s)) in diesem Fall nicht als Teil des skalierbaren Bitstroms übertragen werden (für ein signifikantes Band).
Obwohl das Kodieren eines digitalen Signals in einen skalierbaren Bitstrom beschrieben wird, ist außerdem zu bemerken, dass die Erfindung auch das Dekodieren des skalierbaren Bitstroms in ein dekodiertes Signal durch das Umkehren des oben beschriebenen Verfahrens aufweist.
In einem Ausführungsbeispiel der Erfindung wird ein Verfahren zum Dekodieren des skalierbaren Bitstroms in das digitale Signal bereitgestellt, welches aufweist ein Demultiplexen des skalierbaren Bitstroms in einen Kernschicht-Bitstrom und einen Verbesserungsschicht-Bitstrom, ein Dekodieren und Dequantisieren des Kernschicht-Bitstroms zum Erzeugen eines Kernschichtsignals, ein Bitebene-Dekodieren der Verbesserungsschicht basierend auf einer Wahrnehmungsinformation des digitalen Signals, ein Durchführen eines Fehler-Abbildens basierend auf dem Bitebene-dekodierten Verbesserungsschicht-Signal und dem dequantisierten Kernschicht-Signal, so dass ein rekonstruiertes Signal erzeugt wird, wobei das rekonstruierte transformierte Signal das digitale Signal ist. Es ist zu bemerken, dass das Verfahren zum Dekodieren des skalierbaren Bitstroms in Kombination mit dem oben beschriebenen Verfahren zum Kodieren eines digitalen Signals in den skalierbaren Bitstrom, aber auch separat, verwendet werden kann.
Das rekonstruierte transformierte Signal kann transformiert werden, so dass das digitale Signal erzeugt wird, wenn das digitale Signal sich in einem Bereich verschieden von dem rekonstruierten transformierten Signal befindet. Die genaue Implementierung des Dekodierens des skalierbaren Bitstroms, so dass das digitale Signal erzeugt wird, hängt davon ab, wie der skalierbare Bitstrom durch den Kodierer kodiert wird. In einem Ausführungsbeispiel kann das rekonstruierte transformierte Signal unter Verwendung von intMDCT rekonstruiert werden, so dass das digitale Signal erzeugt wird. Der Kernschicht-Bitstrom kann gemäß der MPEG-AAC-Spezifikation dekodiert und dequantisiert werden. Das Fehler-Abbilden wird durch Hinzufügen der niedrigeren Quantisierungsschwelle, die zum Dequantisieren des transformierten Signals verwendet wird, und des Bitebene-dekodierten Verbesserungsschicht-Bitstroms durchgeführt, so dass das rekonstruierte transformierte Signal erzeugt wird. Die Vorteile und andere Implementierungen des Dekodierers sind ähnlich dem Kodierer, welcher oben schon beschrieben wurde.
Die Wahrnehmungsinformation des digitalen Signals kann durch Demultiplexen des skalierbaren Bitstroms gewonnen werden, wenn die Wahrnehmungsinformation in den skalierbaren Bitstrom als Nebeninformation gemultiplext worden ist. Alternativ kann, wenn der Kernschicht-Bitstrom perzeptuell kodiert wurde, die durch Dekodieren und Dequantisieren des Kernschicht-Bitstroms gewonnene Wahrnehmungsinformation zum Bitebene-Dekodieren des Verbesserungsschicht-Bitstroms genutzt werden.
In einer Ausführungsform der Erfindung wird der Verbesserungsschicht-Bitstrom in einer aufeinanderfolgenden Sequenz Bitebene-dekodiert, so dass eine Mehrzahl von Bitebenen erzeugt wird, die eine Mehrzahl von Bitebene-Symbolen aufweisen, und die Bitebenen werden basierend auf der Wahrnehmungsinformation des digitalen Signals verschoben, so dass der Bitebene-dekodierte Verbesserungsschicht-Bitstrom erzeugt wird.
In einer anderen Ausführungsform der Erfindung wird der Verbesserungsschicht-Bitstrom in einer auf der Wahrnehmungsinformation des digitalen Signals basierenden Sequenz Bitebene-dekodiert, so dass eine Mehrzahl von Bitebenen erzeugt werden, die eine Mehrzahl von Bitebene-Symbolen aufweisen, wobei der Bitebene-dekodierte Verbesserungsschicht-Bitstrom erzeugt wird.
Die Wahrnehmungsinformation des digitalen Signals kann zumindest eine der folgenden sein:

– die Bitebene, welche mit dem Verbesserungsschicht-Bitstrom korrespondiert, wenn das Bitebene-Dekodieren des Verbesserungsschicht-Bitstroms startet M(s), und
– das JND(Just Noticeable Distortion, gerade noch wahrnehmbare Verzerrung)-Niveau des digitalen Signals, wobei s mit einem Frequenzband des digitalen Signals korrespondiert.

Die Bitebene, welche mit dem Verbesserungsschicht-Bitstrom korrespondiert, wenn das Bitebene-Dekodieren des Verbesserungsschicht-Bitstroms startet M(s), wird aus dem maximalen Quantisierungsintervall bestimmt, dass zum Dequantisieren des Kernschicht-Bitstroms verwendet wird.
Der zweite Aspekt der Erfindung betrifft nicht nur ein Verfahren zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal, sondern weist auch ein Computerprogramm, ein computerlesbares Medium und eine Einheit zum Implementieren des genannten Verfahrens auf.
Detaillierte Beschreibung der Erfindung
Verschiedene Ausführungsformen und Implementierungen der Erfindungen sollen nun im Detail unter Bezugnahme auf die Figuren beschrieben werden, wobei:
1 zeigt einen Kodierer gemäß einer Ausführungsform der Erfindung.
2 zeigt einen Dekodierer gemäß einer Ausführungsform der Erfindung.
3 stellt eine Struktur eines Bitebene-Kodierungsprozesses dar.
4 zeigt einen Kodierer gemäß einer Ausführungsform der Erfindung.
5 zeigt einen Dekodierer gemäß einer Ausführungsform der Erfindung.
6 zeigt einen Kodierer gemäß einer Ausführungsform der Erfindung.
7 zeigt einen Dekodierer gemäß einer Ausführungsform der Erfindung.
1 zeigt einen Kodierer 100 gemäß einer Ausführungsform der Erfindung.
Der Kodierer 100 dient zum Erzeugen eines skalierbaren Bitstroms und weist zwei verschiedene Schichten, nämlich eine Kernschicht, welche den Kernschicht-Bitstrom erzeugt, und eine verlustlose Verbesserungs-LLE(Lossless Enhancement, verlustlose Verbesserung)-Schicht, welche den Verbesserungsschicht-Bitstrom erzeugt, auf.
Der Kodierer weist einen Bereichs-Transformierer 101, einen Quantisierer 102, eine Fehler-Abbildungseinheit 103, einen perzeptuellen Bitebene-Kodierer 104 und einen Multiplexer 105 auf.
In dem Kodierer 100 wird das digitale Signal zunächst durch den Bereichs-Transformierer 101 in einen geeigneten Bereich, wie beispielsweise den Frequenzbereich, transformiert, resultierend in einem transformierten Signal. Die Koeffizienten des transformierten Signals werden durch den Quantisierer 102 quantisiert und kodiert, so dass der Kernschicht-Bitstrom erzeugt wird. Ein Fehler-Abbilden wird durch die Fehler-Abbildungseinheit 103 durchgeführt, welche mit der LLE-Schicht korrespondiert, so dass die in der Kernschicht benutzte oder kodierte Information von den Koeffizienten des transformierten Signals entfernt wird, so dass der Kernschicht-Bitstrom gebildet wird. Das resultierende Rest- oder Fehlersignal, insbesondere Fehlerkoeffizienten, werden durch den Bitebene-Kodierer 104 kodiert, so dass der eingebettete LLE-Bitstrom erzeugt wird. Dieser eingebettete Bitstrom kann ferner auf niedrigere Bitraten an dem Kodierer 100 oder an einem korrespondierenden Dekodierer (wie dem in 2 gezeigten und unten beschriebenen Dekodierer 200) oder in dem Kommunikationskanal beschränkt werden, so dass die Rate-/Wiedergabetreue-Anforderungen erfüllt werden. Ein Wahrnehmungsmodell 106 wird zum Steuern des Bitebene-Kodierens der Fehlerkoeffizienten verwendet, so dass die Bits der Fehlerkoeffizienten, welche perzeptuell signifikanter sind, als erstes kodiert werden.
Schließlich wird der resultierende LLE-Schicht-Bitstrom durch den Multiplexer 105 mit dem Kernschicht-Bitstrom gemultiplext, so dass der skalierbare Bitstrom erzeugt wird. Zusätzlich kann Wahrnehmungsinformation zum Steuern des Bitebene-Kodierens der Fehlerkoeffizienten ebenfalls als eine Nebeninformation übertragen werden, so dass ein korrespondierender Bitebene-Dekodierer in der Lage ist, die Fehlerkoeffizienten in einer korrekten Reihenfolge zu rekonstruieren.
Wenn der LLE-Bitstrom auf niedrigere Raten beschränkt wird, würde das dekodierte Signal eine verlustbehaftete Version des originalen Eingangssignals sein.
2 zeigt einen Dekodierer 200 gemäß einer Ausführungsform der Erfindung.
Der Dekodierer 200 dekodiert einen skalierbaren Bitstrom, der durch den Kodierer 100 erzeugt wurde, so dass das digitale Signal, welches durch den Kodierer 100 kodiert wurde, rekonstruiert wird.
Der Dekodierer 200 weist einen Bereichs-Transformierer 201, einen Dequantisierer 202, eine Fehler-Abbildungseinheit 203, einen perzeptuellen Bitebene-Dekodierer 204 und einen Demultiplexer 205 auf.
Der Demultiplexer 205 empfängt den skalierbaren Bitstrom als Eingangssignal und teilt den skalierbaren Bitstrom in den Kernschicht-Bitstrom und den Verbesserungsschicht-Bitstrom auf, wie diese von dem Kodierer 100 erzeugt wurden. Der Kernschicht-Bitstrom wird durch den Dequantisierer 202 dekodiert und dequantisiert, so dass das Kernschicht-Signal gebildet wird. Der Verbesserungsschicht-Bitstrom wird durch den perzeptuellen Bitebene-Dekodierer 204 basierend auf der durch ein Wahrnehmungsmodell 206 gegebenen Wahrnehmungsinformation perzeptuell Bitebene-dekodiert und wird anschließend durch die Fehler-Abbildungseinheit 203 mit dem Kernschicht-Signal Fehler-abgebildet, so dass ein Verbesserungsschicht-Signal erzeugt wird. Das Verbesserungsschicht-Signal wird schließlich durch den Bereichs-Transformierer 201 zurück in den Bereich des digitalen Signals transformiert, resultierend in einem Verbesserungsschicht-transformierten-Signal, welches das rekonstruierte digitale Signal ist.
Die durch den Kodierer 100 und den Dekodierer 200 ausgeführte Verarbeitung wird im Folgenden detailliert erläutert.
Das Eingangssignal wird normalerweise durch den Bereichs-Transformierer 101 in den Frequenzbereich transformiert, bevor es durch den Quantisierer 102 (welcher Teil des Kernschicht-Kodierers ist) quantisiert wird, so dass der Kernschicht-Bitstrom erzeugt wird. Verschiedene Transformationsfunktionen können zum Transformieren des Eingangssignals in den Frequenzbereich verwendet werden, wie beispielsweise diskrete Kosinustransformation (DCT, Discrete Cosine Transform), modifizierte diskrete Kosinustransformation (MDCT, Modified Discrete Cosine Transform), ganzzahlige MDCT (IntMDCT, integer MDCT) oder schnelle Fourier-Transformation (FFT, Fast Fourier Transform).
Wenn ein MPEG-4-AAC-Kodierer als der Kernschicht-Kodierer (für ein Audiosignal) verwendet wird, wird im Allgemeinen MDCT zum Transformieren des Eingangs-Audiosignals in den Frequenzbereich eingesetzt, wie in [1] beschrieben. In [13] wird ganzzahlige MDCT (IntMDCT) als eine umkehrbare Annäherung an die MDCT(Modified Discrete Cosine Transform, modifizierte diskrete Kosinustransformation)-Filterbank vorgeschlagen, die bei dem MPEG-4-AAC-Kodierer verwendet wird. Ein allgemein genutzter Weg zum Implementieren der IntMDCT ist das Faktorisieren der MDCT-Filterbank in eine Kaskade von Givens-Rotationen in der Form von:
welche ferner in drei Anhebungsschritte faktorisiert wird
Jeder Anhebungsschritt kann durch ein reversible Ganzzahl-auf-Ganzzahl-Abbilden mit der Runden-auf-die-nächste-Ganzzahl-Operation r: R → Z angenähert werden. Zum Beispiel wird der letzte Anhebungsschritt angenähert durch:
was verlustlos umgekehrt werden kann durch:
IntMDCT wird so durch Implementieren aller Givens-Rotationen mit dem umkehrbaren Ganzzahl-Abbilden gewonnen, wie oben beschrieben.
In dem Dekodierer kann intMDCT durch den Bereichs-Transformierer 201 wieder verwendet werden, so dass das Verbesserungsschicht-Signal in das (rekonstruierte) digitale Signal transformiert wird.
In der Kernschicht werden die Koeffizienten c(k) des transformierten Signals, wobei k = 1, ..., 1024 die Länge eines Rahmens des Kernschicht-Bitstroms ist, durch den Quantisierer 102 quantisiert und in den Kernschicht-Bitstrom kodiert. In dem Kontext eines Eingangs-Audiosignals können die transformierten Signalkoeffizienten gemäß den Quantisierungswerten eines MPEG-4-AAC-Kodierers, eines MPEG-1-Schicht-3-Audio(MP3)-Kodierers oder irgendeines proprietären Audiokodierers quantisiert werden.
Wenn der MPEG-4-AAC-Kodierer in Verbindung mit der IntMDCT verwendet wird, werden die transformierten Signalkoeffizienten (auch bekannt als die IntMDCT-Koeffizienten) c(k), als erstes als c'(k) = α·c(k) normiert, so dass die normierten Ausgaben an die Ausgaben der MDCT-Filterbank angenähert werden. Die normierten IntMDCT-Koeffizienten c'(k), werden dann quantisiert und kodiert, zum Beispiel gemäß einem AAC-Quantisierer (siehe [19]), welcher wie folgt gegeben ist:
Hier bezeichnet ⌊·⌋ die Abrundungsoperation, welche einen Gleitkommaoperanden auf eine ganze Zahl beschränkt, i(k) ist der AAC-quantisierte Koeffizient und der scale_factor(s) ist ein Skalenfaktor eines Skalenfaktorbands s, in welches der Koeffizient c(k) gehört. Die Skalenfaktoren können durch eine Rauschformungsprozedur adaptiv eingestellt werden, so dass das Quantisierungsrauschen durch die Maskierungsschwelle des menschlichen Gehörsystems gut maskiert wird. Ein weit verbreitet angewandter Ansatz für diese Rauschformungsprozedur ist der verschachtelte Quantisierungs- und Kodierzyklus, wie detailliert in [1] beschrieben.
Die quantisierten Koeffizienten i(k) werden rauschfrei kodiert (in diesem Beispiel durch den Quantisierer 102), zum Beispiel unter Verwendung von Huffmann-Code oder arithmetischem Bitscheibencode (BSAC, Bit-Sliced Arithmetic Code), wie in [17] beschrieben. BSAC wird bevorzugt, wenn eine Bitratenskalierbarkeit in dem Kernschicht-Bitstrom weiterhin benötigt wird. Die Skalenfaktoren sind differenziell kodiert, zum Beispiel durch den in [1] beschrieben DPCM-Kodierprozess oder unter Verwendung von Huffmann-Code. Der Kernschicht-Bitstrom kann dann durch Multiplexen aller kodierten Information gemäß der AAC-Bitstrom-Syntax erzeugt werden.
Eine umfassendere Beschreibung von MPEG-AAC kann in [1] oder in dem internationalen Standarddokument über MPEG-AAC [19] gefunden werden.
Es ist zu bemerken, dass, obwohl der Mechanismus des Einbettens des MPEG-4-AAC-kompatiblen Bitstroms beschrieben wird, es auch möglich ist, Bitströme zu verwenden, welche mit anderen Kodierern, wie beispielsweise MPEG-1/2-Schicht-I,II,III(MP3)-Kodierern, Dolby-AC3-Kodierern oder SONY's proprietären ATRAC-Kodierern, wie in [20] beschrieben, kompatibel sind.
Wenn der Quantisierer 102 gemäß dem MPEG-AAC-Kodierer arbeitet, arbeitet der Dequantisierer 202 gemäß einem MPEG-AAC-Dekodierer zum Dekodieren und Dequantisieren des Kernschicht-Bitstroms in dem Dekodierer 200. Insbesondere wird der Dequantisierer 202 zum Erzeugen des Kernschicht-Signals verwendet, welches anschließend zum Fehler-Abbilden durch die Fehler-Abbildungseinheit 203 in dem Dekodierer 200 benutzt wird, so dass das Verbesserungsschicht-Signal erzeugt wird, wie unten beschrieben wird.
Allerdings ist zu bemerken, dass Dequantisierer gemäß anderer Spezifikationen, wie beispielsweise MP3 oder anderen proprietären Dekodierern, in dem Dekodierer 200 verwendet werden können.
In der LLE-Schicht wird eine Fehler-Abbildungsprozedur zum Entfernen der Information eingesetzt, die bereits in den Kernschicht-Bitstrom kodiert worden ist. Ein möglicher Ansatz zum Bilden solch einer Fehler-Abbildungsprozedur ist das Subtrahieren der niedrigeren (näher an Null) Quantisierungsschwelle jedes quantisierten Koeffizienten von dem korrespondierenden transformierten Eingangssignal-Koeffizienten.
Die kann dargestellt werden als: e(k) = c(k) – thr(k),wobei thr(k) die niedrigere (näher an Null) Quantisierungsschwelle für c(k) ist und e(k) der Fehlerkoeffizient ist, welcher das Fehlersignal repräsentiert.
Wenn der MPEG-4-AAC-Kodierer als der Quantisierer benutzt wird:
In praktischen Anwendungen kann ein Abbilden von einer ganzen Zahl i(k) auf die ganze Zahl thr(k) unter Verwendung einer Wertetabelle durchgeführt werden, um eine stabile Rekonstruktion sicherzustellen. Wie aus der obigen Formel klar ersichtlich ist, werden insgesamt vier Tabellen für verschiedene Werte von scale_factors benötigt (da die gleiche Tabelle von verschiedenen Werten von scale_factors gemeinsam genutzt werden kann, wenn diese einen Teilungswert 4 durch Bitverschiebung haben), wobei jede Tabelle das Abbilden zwischen allen möglichen Werten von i(k) und korrespondierenden thr(k) für irgendeinen scale_factor aus der Gruppe derer mit Teilungsrest 4 enthält.
Es ist außerdem möglich, die Fehler-Abbildungsprozedur durch Subtrahieren eines rekonstruierten Koeffizienten des transformierten Eingangssignal-Koeffizienten von dem transformierten Signalkoeffizienten durchzuführen, wie in [3] beschrieben, was dargestellt werden kann als: e(k) = c(k) – c ^(k),wobei c ^(k) der rekonstruierte transformierte Signalkoeffizient ist.
Allgemein ist es auch möglich, die Fehler-Abbildprozedur durchzuführen basierend auf der Verwendung von: e(k) = c(k) – f(k),wobei f(k) irgendeine Funktion ist, welche mit c(k) korrespondiert, wie beispielsweise f(k) =12 (thr(k + 1) – thr(k)).
Offensichtlich kann für ein c(k), welches schon in der Kernschicht signifikant gewesen ist (thr(k) ≠ 0), das Zeichen des IntMDCT-Residuums e(k) aus der Kernschicht-Rekonstruktion bestimmt werden und folglich braucht nur seine Amplitude in die LLE-Schicht kodiert zu werden. Weiterhin ist gut bekannt, dass für die meisten Audiosignale c(k) durch Laplace-Zufallsvariablen mit der Wahrscheinlichkeits-Dichtefunktion (pdf, probability density function) angenähert werden kann:
wobei σ die Varianz von c(k) ist. Aus der "gedächtnislosen" Eigenschaft einer Laplace-pdf ist es leicht, nachzuweisen, dass die Amplitude von e(k) geometrisch verteilt ist als f(|e(k)|) = β·θ(k)|e(k)|,wobei der Verteilungsparameter θ(k) durch die Varianz von c(k) und die Schrittgröße des Kernschicht-Quantisierers bestimmt wird. Diese Eigenschaft ermöglicht ein sehr effizientes Bitebenen-Kodierschema, wie beispielsweise den Bitebenen-Golomb-Code (BPGC) 0 zum Kodieren des anzuwendenden Fehlersignals.
In dem Dekodierer 200 können die Koeffizienten des transformierten Signals durch die Fehler-Abbildungsprozedur rekonstruiert werden, die durch die Fehler-Abbildungseinheit 203 gemäß der folgenden Gleichung ausgeführt wird: c(k) = e'(k) + thr(k),wobei e'(k) die dekodierten Fehlerkoeffizienten sind, welche den Bitebenen-dekodierten Verbesserungsschicht-Bitstrom beschreiben, welcher mit den Fehlerkoeffizienten e(k) in dem Kodierer 100 korrespondiert. Folglich ist zu sehen, dass Koeffizienten c(k) mit dem transformierten Signal aus den dekodierten Fehlerkoeffizienten e'(k) regeneriert werden können (möglicherweise wird eine verlustbehaftete Version des LLE-Bitstroms auf niedrigere Raten beschränkt) und die Quantisierungsschwelle thr(k) in der gleichen Weise in dem Kodierer mit dem Quantisierungsindex i(k) erzeugt werden kann, der in dem eingebetteten Kernschicht-(AAC)-Bitstrom enthalten ist.
Ähnlich wie bei dem Kodierer 100 können die transformierten Signalkoeffizienten c(k) in dem Dekodierer 200 auch unter Verwendung (Hinzufügen) der dekodierten Fehlerkoeffizienten e'(k) und der rekonstruierten Koeffizienten des Kernschicht-Bitstroms erzeugt werden. Außerdem können die transformierten Signalkoeffizienten c(k) unter Verwendung (Hinzufügen) der dekodierten Fehlerkoeffizienten e'(k) und einer Funktion von c(k) erzeugt werden.
Zum Erzeugen des skalierbaren bis verlustfreien Anteils des endgültigen eingebetteten verlustlosen Bitstroms wird das Rest- oder Fehlersignal ferner durch den perzeptuellen Bitebenen-Kodierer 104 unter Verwendung von Bitebene-Kodieren, einer eingebetteten Kodiertechnologie, die weit verbreitet im Audiokodieren [3] oder Bildkodieren [5] angewandt wird, in der LLE-Schicht kodiert.
Eine Beschreibung einer allgemeinen Bitebene-Kodierungsprozedur ist in [4] und [15] zu finden. Man stelle sich einen n-dimensionalen Eingangsdatenvektor x _n = {x₁, ..., x_n} vor, wobei x_i aus irgendwelchen Zufallsquellen irgendeines Alphabets
extrahiert wird. Offensichtlich kann x_i repräsentiert werden in einem binären Format
durch Kaskadieren von binären Bitebene-Symbolen, wobei das binäre Format aufweist ein Zeichensymbol
und Amplitudensymbole b_i,j ∊ {0, 1}. In der Praxis könnte das Bitebene-Kodieren von der maximalen Bitebene M des Vektors x _n gestartet werden, wobei M eine ganze Zahl ist, die 2M-1 ≤ max {|xi|} < 2M, i = 1, ..., kerfüllt, und auf Bitebene 0 gestoppt werden, wenn x _n ein ganzzahliger Vektor ist.
Der Bitebene-Kodier-und-Dekodier-Prozess gemäß einer Ausführungsform der Erfindung und zum Beispiel durch den perzeptuellen Bitebene-Kodierer 104 und den perzeptuellen Bitebene-Dekodierer 204 ausgeführt, wird im Folgenden bezugnehmend auf 3 erklärt.
3 stellt eine Struktur des obigen Bitebene-Kodier(BPC, Bit Plane Coding)-Prozesses dar, wobei jeder Eingangsvektor als erstes in das binäre Zeichen und Amplitudensymbole zerlegt wird, welche dann in einer gewünschten Reihenfolge durch eine Bitebene-Abtasteinheit 301 abgetastet und durch einen Entropiekodierer 302 kodiert werden (zum Beispiel als arithmetischer Code, als Huffmann-Code oder als Lauflängencode). Zusätzlich wird ein statistisches Modell 303, zum Beispiel basierend auf einer Laplace-Verteilung des Eingangssignals, üblicherweise verwendet, so dass die Wahrscheinlichkeits-Zuordnung für jedes zu kodierende binäre Symbol bestimmt wird. In dem korrespondierenden Dekodierer wird der Datenfluss umgekehrt, das heißt die Ausgabe des Entropiekodierers 302 wird durch einen Entropiedekodierer 303 unter Verwendung eines korrespondierenden statistischen Modells 304 dekodiert und das Resultat wird von einer Bitebene-Rekonstruktionseinheit 302 verwendet, so dass die Bitebene erneuert wird, wobei die Zeichen- und Amplitudensymbole, welche zum Erneuern der Bitebene des Datenvektors dekodiert wurden, in dem Kodierer der gleichen Abtastreihenfolge folgen.
Der wichtigste Vorteil des Besitzes eines Bitebene-Kodiersystems wie oben besteht darin, dass der resultierende Komprimierungs-Bitstrom leicht auf irgendwelche gewünschten Raten beschränkt werden kann, wobei ein Reproduktionsdatenvektor x ^ immer noch durch partiell rekonstruierte Bitebenen, die aus diesem beschränkten Bitstrom dekodiert werden, gewonnen werden kann. Für die beste Kodierleistung wird üblicherweise ein eingebettetes Prinzip (siehe [24]) in einem BPC angewandt, gemäß welchem die Bitebene-Symbole in der Reihenfolge eines abfallenden Rate-Verzerrungs-Anstiegs kodiert werden, so dass Symbole mit dem signifikantesten Beitrag zu der endgültigen Verzerrung pro Einheitsrate immer als erstes kodiert werden.
Die Wahl der Reihenfolge des Bitebene-Abtastens hängt von dem gewünschten Verzerrungsmaß ab. Wenn der mittlere quadratische Fehler (MSE, Mean Square Error) oder die Erwartung an die Quadratfehlerfunktion als die Verzerrungsmaße verwendet werden, wie gezeigt:
wobei
der Verzerrungswert ist, ist x_n der originale Datenvektor und
ist der rekonstruierte Vektor von x_n an dem Dekodierer. Resultate aus [24] zeigen, dass das Einbettungsprinzip durch eine sequenzielle Bitebene-Abtast-und-Kodier-Prozedur für die meisten Quellen gut erfüllt ist, ausgenommen diejenigen mit sehr asymmetrischen Bitebene-Symbole-Verteilung.
Ein Beispiel einer einfachen sequenziellen Bitebene-Abtast-und-Kodier-Prozedur weist die folgenden Schritte auf:

1. Starten von der signifikantesten Bitebene j = M – 1;
2. Kodieren nur von b_i,j, mit b_i,M-1 = b_i,M-2 = ... = b_i,j+1 = 0. Wenn in der Signifikanz-Abtastung b_i,j = 1 gilt, kodiere s_i (Signifikanzdurchgang);
3. Kodiere die b_i,j, welche nicht in dem Signifikanz-Durchgang kodiert wurden (Verfeinerungsdurchgang);
4. Fortsetzen bis Bitebene j – 1.

Aufstellung 1. Bitebene-Abtast-und-Kodier-Prozedur
Die obige Prozedur wird wiederholt, bis ein bestimmtes Abbruchkriterium, welches üblicherweise eine vordefinierte Rate-/Verzerrungs-Beschränkung ist, erreicht wird. Zusätzlich kann ein weiteres Einstellen der Kodiersequenz in einem Signifikanz-Durchlauf benötigt werden, wenn herausgefunden wird, dass Bitebene-Symbole ungleiche Verteilungen aufweisen.

Ein Beispiel der obigen sequenziellen Kodier-Prozedur wird durch Betrachten eines Datenvektors x mit einer Dimension 4 dargestellt, etwa {9, –7, 14, 2}. So wird der Datenvektor x von seiner signifikantesten Bitebene 4 Bitebene-kodiert. Der Signifikanzdurchgang wird begonnen, da alle Elemente noch insignifikant sind. (X bezeichnet die Bypass-Symbole). Das Vorzeichen wird wie folgt kodiert: positiv wird als 1 kodiert und negativ wird als Null kodiert.

Datenvektor	9	–7	14	1
1. Signifikanzdurchgang (Vorzeichen)	1 (Vorzeichen:1)	0	1 (Vorzeichen:1)	0
1. Verfeinerungsdurchgang	X	X	X	x
2. Signifikanzdurchgang (Vorzeichen)	X	1 (Vorzeichen:0)	X	0
2. Verfeinerungsdurchgang	0	X	1	x
3. Signifikanzdurchgang	X	X	X	0
3. Verfeinerungsdurchgang	0	1	1	x
4. Signifikanzdurchgang	X	X	X	1 (Vorzeichen:1)
4. Verfeinerungsdurchgang	1	1	0	x

Dadurch ist der binäre Ausgangsstrom 11011010001001111110, welcher dann entropiekodiert wird und an den Dekodierer gesandt wird. In dem Dekodierer wird die Bitebene-Struktur des originalen Datenvektors rekonstruiert. Wenn der gesamte binäre Strom von dem Dekodierer empfangen wird, kann die Bitebene des originalen Datenvektors wieder hergestellt werden und dadurch wird eine verlustlose Rekonstruktion des originalen Datenvektors erhalten. Wenn nur eine Teilmenge (signifikantester Teil) des binären Stroms empfangen wird, ist der Dekodierer immer noch in der Lage, eine partielle Bitebene des originalen Datenvektors wiederherzustellen, so dass eine grobe Rekonstruktions(quantisiert)-Version des originalen Datenvektors erhalten wird.
Das Obige ist nur ein einfaches Beispiel einer Bitebene-Abtast-und-Kodier-Prozedur. In der Praxis kann der Signifikanzdurchlauf weiter zerteilt werden, so dass die statistische Korrelation von Elementen in dem Datenvektor untersucht wird, wie beispielsweise der Bitebene-Kodier-Prozess in JPEG2000, oder der in dem eingebetteten Audiokodierer (EAC, Embedded Audio Coder), beschrieben in [4].
Die obige sequenzielle Bitebene-Abtast-und-Kodier-Prozedur ist lediglich bestrebt, die MSE-Leistung zu optimieren. Auf dem Gebiet von Audio-, Bild- oder Video-Kodierung ist das Minimieren der Wahrnehmungsverzerrung anstelle eines MSE normalerweise ein effizienteres Kodierverfahren zum Erhalten einer optimalen Wahrnehmungsqualität in einem rekonstruierten Audio-, Bild- oder Videosignal. Deshalb ist das sequenzielle Bitebene-Kodieren des Fehlersignals definitiv eine suboptimale Option.
In dem Kodierer 100 werden die Fehlerkoeffizienten vorzugsweise in Frequenzbänder gruppiert, so dass jedes Frequenzband s eine Anzahl von Fehlerkoeffizienten in aufeinanderfolgender Reihenfolge aufweist. (Das Skalenfaktorband-Gruppieren kann auf dem Band-Gruppieren basieren, das in dem Quantisierer 102 angewandt wird, wenn ein perzeptueller Kodierer als der Quantisierer 102 verwendet wird. Allerdings ist auch ein anderes Band-Gruppieren möglich.)
Ein Frequenzband s wird signifikant genannt, wenn es einen solchen Fehlerkoeffizienten in dem Frequenzband s gibt, dass der quantisierte Koeffizient thr(k) von dem Quantisierer nicht Null ist. Mit anderen Worten, wenn e(k) ein Fehlerkoeffizient im Frequenzband s ist: e(k) = c(k) – thr(k), ist das Frequenzband s signifikant, wenn thr(k) ≠ 0(thr(k) = 0, wenn i(k) = 0), und folglich e(k) = c(k), andernfalls wird das Frequenzband s als insignifikant betrachtet.
Die perzeptuelle Signifikanz von Bits der Fehlerkoeffizienten kann durch das Niveau von gerade noch wahrnehmbarer Verzerrung (JND) an einer Frequenzposition i bestimmt werden. Dieses Niveau von JND, T_i kann aus einem Wahrnehmungsmodell, wie beispielsweise einem psychoakustischen Modell (I der II) oder irgendeinem proprietären Wahrnehmungsmodell bestimmt werden. Wenn ein perzeptueller Quantisierer zum Bilden des Kernschicht-Bitstroms verwendet wird, kann das Wahrnehmungsmodell, welches in dem Quantisierer verwendet wird, auch zum Erzeugen der JND für perzeptuelles Bitebene-Kodieren der Fehlerkoeffizienten verwendet werden.
Zur Vereinfachung kann die perzeptuelle Signifikanz von Bits der Fehlerkoeffizienten in einem gleichen Frequenzband s auf den gleichen Wert festgelegt werden.
Im Folgenden wird eine mögliche Implementierung von perzeptuellem Bitebene-Kodieren unter Bezugnahme auf 4 erklärt.
4 zeigt einen Kodierer 400 gemäß einer Ausführungsform der Erfindung.
Analog zu dem Kodierer 100 weist der Kodierer 400 einen Bereichs-Transformierer 401, einen Quantisierer 402, eine Fehler-Abbildungseinheit 403, einen perzeptuellen Bitebene-Kodierer 404 (der ein Wahrnehmungsmodell 406 verwendet) und einen Multiplexer 405 auf.
Der perzeptuelle BPC-Block, das heißt der perzeptuelle Bitebene-Kodierer 404 weist einen Bitebene-Verschiebeblock 407 und einen herkömmlichen BPC-Block 408 auf.
In dem Bitebene-Verschiebeblock 407 werden die Bitebenen perzeptuell verschoben und die perzeptuell verschobenen Bitebenen werden in dem BPC-Block 408 in einer herkömmlichen sequenziellen Art des Abtastens und Kodierens kodiert.
Man betrachte die folgende (modifizierte) perzeptuell gewichtete Verzerrungsmessung.
In dem Kontext perzeptuellen Audiokodierens wird das Audiosignal üblicherweise in dem Frequenzbereich quantisiert und kodiert, so dass der Datenvektor x_n das transformierte Audiosignal ist und die Gewichtungsfunktion w_i(x_i) die Bedeutung von xi an verschiedenen Frequenzpositionen i ist, das heißt
Die obige wahrnehmungsgewichtete Verzerrungsfunktion kann wie folgt umgeschrieben werden:
wobei
Folglich wird die Wichtungs-Fehlerquadratfunktion nun zu einer Fehlerquadratfunktion auf dem skalierten Vektor x'_n = {x'₁, ..., x'_n}. Deshalb kann das perzeptuell optimierte Kodieren von x _n durch einfaches Durchführen eines sequenziellen Bitebene-Kodierens auf x'_n erreicht werden. In dem korrespondierenden Dekodierer kann jedes Element des Bitebene-dekodierten Datenvektors
zurück skaliert werden, so dass ein rekonstruierter Datenvektor
wie folgt erhalten wird.
Offensichtlich werden die Wichtungen T_i vorzugsweise als Nebeninformation zu dem Dekodierer übertragen, wenn sie in dem Dekodierer unbekannt sind.
w_i wird ferner zu einer geraden ganzzahligen Potenz von 2 quantisiert, so dass
wobei τi = 12 log2Ti und der skalierte Datenvektor kann so durch Bitverschieben jedes Elements in dem originalen Datenvektor wie folgt erhalten werden
welches leicht durch Ausführen einer Nach-Rechts-Verschiebeoperation auf x_i durch τ_i erhalten wird. Wenn beispielsweise x_i = 00010011 und τ_i = –2, dann ist das skalierte Datenvektorelement x'_i 01001100; wenn τ_i = 2, wird es zu 00000100.11.
Auf diese Weise werden die Bitebenen der Fehlerkoeffizienten perzeptuell in solch einer Weise verschoben, dass, wenn ein sequenzielles Bitebene-Kodieren auf der verschobenen Bitebene durchgeführt wird, Bits, welche perzeptuell signifikanter sind (anstatt den höchsten MSE zu haben) als erstes kodiert werden können.
Offensichtlich kann, wenn jedes Element in dem originalen Datenvektor ganzzahlig mit begrenzter Wortlänge ist, zum Beispiel, wenn jedes Element in x eine maximale Bitebene von L hat, ein verlustloses Kodieren von x erreicht werden, wenn jedes x'_i in dem skalierten Vektor von Bitebene –τ_i ^~ L – τ_i Bitebene-kodiert wird.
Wie bereits erwähnt, kann Information über die perzeptuelle Signifikanz, wie beispielsweise das Niveau von JND an den Bitebene-Verschiebeblock, von einem Wahrnehmungsmodell bereitgestellt werden.
In dem Bitebene-Kodierprozess kann eine maximale Bitebene M(s) verwendet werden, so dass die Start-Bitebene, bei welcher das Bitebene-Abtasten und Kodieren starten soll, spezifiziert wird. Die maximale Bitebene M(s) und τ_i sollten vorzugsweise als Nebeninformation in dem skalierbaren Bitstrom zu dem korrespondierenden Dekodierer übertragen werden, damit der Dekodierer in der Lage ist, den Bitstrom korrekt zu dekodieren. Zum Reduzieren der Menge an Nebeninformation können M(s) und τ_i auf den gleichen Wert für das gleichen Skalenfaktorband s in dem Kodierer beschränkt werden.
Der Wert der maximalen Bitebene M(s) in jedem Frequenzband s kann aus den Fehlerkoeffizienten e(k) unter Verwendung des folgenden Ausdrucks bestimmt werden: 2M(s)-1 < max(|e(k)|) < 2M(s), k ∊ s.
Ferner wird der maximale Absolutwert der Fehlerkoeffizienten max(|e(k)|) in jedem signifikanten Frequenzband s durch das Quantisierer-Intervall des perzeptuellen Quantisierers beschränkt: max(|e(k)|) < thr(i(k) + 1) – thr(i(k)).
Deshalb resultiert dies darin, dass die maximale Bitebene M(s) für jedes signifikante Frequenzband s aus dem folgenden Ausdruck bestimmt wird: 2M(s)-1 < max(|thr(i(k) + 1) – |thr(i(k))||) < 2M(s), k ∊ s.
Da die quantisierten Koeffizienten des perzeptuellen Quantisierers i(k) dem Dekodierer bekannt sind, ist es nicht notwendig, dass die maximale Bitebene M(s) als Nebeninformation zu dem Dekodierer für das signifikante Frequenzband s übertragen wird.
Der Wert der maximalen Bitebene M(s) kann auch in dem Kodierer und dem Dekodierer festgelegt werden und braucht folglich nicht als die Nebeninformation übertragen zu werden.
5 zeigt einen Dekodierer 500 gemäß einer Ausführungsform der Erfindung.
Der Dekodierer 500 wendet einen perzeptuellen Bitebene-Dekodierer an, welcher Bitebene-Verschieben und herkömmliches (sequenzielles) Bitebene-Kodieren aufweist.
Analog zu dem Dekodierer 200 weist der Dekodierer 500 einen Bereichs-Transformierer 501, einen Dequantisierer 502, eine Fehler-Abbildungseinheit 503, einen perzeptuellen Bitebene-Dekodierer 504 (der ein Wahrnehmungsmodell 506 verwendet) und einen Demultiplexer 505 auf.
Ähnlich wie der perzeptuelle Bitebene-Kodierer 404 weist der perzeptuelle Bitebene-Kodierer 504 einen Bitebene- Verschiebeblock 507 und einen herkömmlichen BPC-Block 508 auf.
Der durch den Kodierer 400 erzeugte Verbesserungsschicht-Bitstrom wird durch den Dekodierer 500 in der aufeinanderfolgenden sequenziellen Weise Bitebene-dekodiert (gleiche sequenzielle Bitebene-Abtastprozedur wie der Kodierer 400), so dass die Bitebenen rekonstruiert werden. Die rekonstruierten Bitebenen werden in der umgekehrten Weise des Kodierers 400 verschoben, basierend auf dem empfangenen oder regenerierten Wert τ_i, so dass die dekodierten Fehlerkoeffizienten e'(k) erzeugt werden, welche den Bitebene-dekodierten Verbesserungsschicht-Bitstrom beschreiben.
6 zeigt einen Kodierer 600 gemäß einer Ausführungsform der Erfindung.
Der Kodierer 600 verwendet perzeptuelles Bitebene-Kodieren.
Der Kodierer 600 weist einen Bereichs-Transformierer (intMDCT) 601, einen Quantisierer (AAC-Quantisierer und -Kodierer) 602, eine Fehler-Abbildungseinheit 603, eine perzeptuelle Signifikanz-Berechnungseinheit 604 (die ein psychoakustischen Modells 605 verwendet), eine perzeptuelle Bitebene-Kodiereinheit 606 und einen Multiplexer 607 auf.
In dieser Implementierung braucht die Abtastreihenfolge der Bitebenen und der Bitebene-Symbole nicht sequenziell zu sein, aber basierend auf der perzeptuellen Bedeutung der Bitebene-Symbole, die mit verschiedenen Frequenzbändern korrespondieren. Die perzeptuelle Bedeutung der Bitebene-Symbole wird durch Berechnungsparameter bestimmt, die sich auf die Wahrnehmungsinformation beziehen, wie beispielsweise perzeptuelle Signifikanz und erste (maximale) Bitebene zum Bitebene-Dekodieren. Die Berechnung der Wahrnehmungsinformations-Parameter wird als der perzeptuelle Signifikanz-Berechnungsblock 604 repräsentiert, der mit der perzeptuellen Bitebene-Kodiereinheit 606 verbunden ist.
Es gibt zahlreiche Wege zum Bestimmen der perzeptuellen Bedeutung oder Insbesondere der perzeptuellen Signifikanz der Bitebene-Symbole, die mit verschiedenen Frequenzbändern korrespondieren. Ein weit verbreitet angewandter Weg ist durch Verwenden des psychoakustischen Modells, beispielsweise des psychoakustischen Modells 2, beschrieben in [19], des digitalen Eingangsignals. Das JND(just noticeable distortion, gerade noch wahrnehmbare Verzerrung)-Niveau T(s) für jedes Frequenzband, das unter Verwendung des psychoakustischen Modells bestimmt wurde, kann wie folgt zu dem Element des Bitebene-Niveaus τ(s) umgewandelt werden: τ(s) = 12 log2(T(s)).
Allerdings beschränkt sich diese Erfindung nicht auf das Verfahren, wie T(s) oder τ(s) erhalten werden können.
Nun soll Ps(s) die perzeptuelle Signifikanz des Frequenzbands s repräsentieren, welche durch den Abstand von M(s) zu τ(s) bestimmt werden kann als Ps(s) = M(s) – τ(s).
Es ist weiterhin zu bemerken, dass das Rauschniveau oder das Niveau der IntMDCT-Fehlerkoeffizienten e(k) dazu tendieren würde, flach zu sein bezüglich des JND-Niveaus für signifikante Bänder (als ein Resultat des Rauschformungsmechanismus in dem Kernkodierer). Mit anderen Worten würde der Wert von Ps(s) für signifikante Frequenzbänder sehr ähnlich sein, wenn nicht sogar identisch. Diese Tatsache kann in dem Verfahren gemäß der Erfindung durch gemeinsames Nutzen eines allgemeinen Faktors Ps_common für alle signifikanten Bänder untersucht werden. Mögliche Auswahlen von Ps_common können der Durchschnittswert, der Maximalwert, der Minimalwert oder irgendeine andere sinnvolle Funktion von Ps(s) für alle s, die signifikant sind, sein. Die Ps(s) kann dann wie folgt normiert werden: Ps'(s) = Ps(s) – Ps_common,da bekannt ist, dass für das signifikante Band s Ps'(s) Null sein würde und deshalb nicht zu dem Dekodierer übertragen werden braucht. Andererseits sollte für ein insignifikantes Band s Ps'(s) vorzugsweise zu dem korrespondierenden Dekodierer als Nebeninformation übertragen werden.
In einigen anderen Beispielen kann Ps_common Null gesetzt werden, wenn es kein signifikantes Band gibt.
Es ist auch möglich, die Rauschformungsprozedur in dem Kernkodierer zu verwenden, um der Notwendigkeit perzeptuellen Kodierens gerecht zu werden. Folglich gibt es keine Notwendigkeit zum weiteren Implementieren irgendeiner Rauschformung oder einer perzeptuell signifikanten Identifikation in der Verbesserungsschicht. In solchen Fällen kann Ps'(s) = 0 gesetzt werden für alle s. Üblicherweise brauchen sie nicht zu dem Dekodierer übertragen werden, wenn dem Dekodierer bekannt ist, dass sie alle Null sind.
Eine mögliche Implementierung des perzeptuellen Bitebene-Kodiermechanismus kann unter Verwendung des folgenden Pseudocodes beschrieben werden. Hier wird die Gesamtzahl der Frequenzbänder als s_total bezeichnet.

1. Finde das Frequenzband s mit der größten Ps'(s)
2. Kodiere Bitebene-Symbole von Bitebene M(s) für e(k) im Band s
3. M(s) = M(s) – 1; Ps'(s) = Ps'(s) – 1
4. Wenn ein Band s existiert, für welches M(s) ≥ 0, gehe zu 1.

Ein Verfahren zum Gewinnen der maximalen Bitebene M(s) wird hier beschrieben.
Für ein Signifikanzband kann M(s) aus dem maximalen Quantisierungsintervall des Quantisierers bestimmt werden, wenn ein perzeptueller Quantisierer, wie beispielsweise ein AAC-Quantisierer, verwendet wird. Insbesondere ist M(s) eine ganze Zahl, welche erfüllt: 2M(s)-1 ≤ max(|thr(i(k) + 1) – |thr(i(k))||) < 2M(s), k ∊ s.
In diesem Fall braucht M(s) nicht zu dem Dekodierer übertragen werden, da i(k) dem Dekodierer bekannt sein würde.
Für insignifikante Bänder kann M(s) aus e(k) wie folgt berechnet werden: 2M(s)-1 ≤ max(|e|(k)|) < 2M(s), k ∊ s,und für diese Bänder sollte M(s) vorzugsweise als Nebeninformation zu dem Dekodierer gesendet werden, da solch eine Information nicht in dem Kernschicht-Bitstrom enthalten ist.
Der Wert der maximalen Bitebene M(s) kann auch in dem Kodierer 600 und dem korrespondierenden Dekodierer festgelegt werden und braucht folglich nicht als die Nebeninformation übertragen zu werden.
Andere alternative Ansätze zum Untersuchen des Parameters P(s) in einem Bitebene-Kodier-Ansatz in Richtung auf einige erwünschte Rauschformungs-Ziele, sind ebenfalls möglich. Allgemein kann Ps(s) auch durch beliebige Funktionen von M(s) und τ(s) erhalten werden, zum Beispiel die folgende: Ps(s) = M(s) – 2τ(s), oder Ps(s) = M(s)-τ(s)2 .
7 zeigt einen Dekodierer 700 gemäß einer Ausführungsform der Erfindung.
Der Dekodierer 700 ist der korrespondierende Dekodierer des Kodierers 600, wobei das perzeptuelle Bitebene-Dekodieren unter Verwendung der perzeptuellen Bitebene-Abtastprozedur, wie oben beschrieben, implementiert ist.
Der Dekodierer 700 weist dementsprechend einen Bereichs-Transformierer (umgekehrte intMDCT) 701, einen Dequantisierer (AAC-Dequantisierer und -Dekodierer) 702, eine Fehler-Abbildungseinheit 703, eine perzeptuelle Signifikanz-Berechnungseinheit 704, eine perzeptuelle Bitebene-Kodiereinheit 706 und einen Demultiplexer 707 auf.
In dem Dekodierer 700 wird Ps'(s) für ein signifikantes Band 0 gesetzt und M(s) kann aus dem AAC-Quantisierungsindex i(k) in der gleichen Weise in dem Kodierer berechnet werden, das heißt: 2M(s)-1 ≤ max(|thr(i(k) + 1) – |thr(i(k))||) < 2M(s), k ∊ s.
Für ein insignifikantes Band können Ps(s) und M(s) einfach aus der übertragenen Nebeninformation zurückgewonnen werden. Sobald Ps(s) und M(s) für alle Frequenzbänder zurückgewonnen wurden, können die IntMDCT-Fehlerkoeffizienten e ^(k) leicht durch Dekodieren des empfangenen Bitstroms und Rekonstruieren seiner Bitebene-Symbole in einer Reihenfolge rekonstruiert werden, die genau die gleiche ist, wie die in dem Kodierer. Zum Beispiel würde der Dekodierprozess für das oben gegebene Kodierbeispiel sein:

1. Finde das Frequenzband s mit der größten Ps'(s)
2. Dekodiere Bitebene-Symbole von Bitebene M(s) für e ^(k) in einem Band
3. M(s) = M(s) – 1; Ps'(s) = Ps'(s) – 1
4. Wenn ein Band s existiert, für welches M(s) ≥ 0, gehe zu 1.

Bestimmen der maximalen Bitebene für Bitebene-Kodieren von Fehlerkoeffizienten.
Für ein signifikantres Band s, das heißt der Fehlerkoeffizient e(k) ≠ c(k) oder ∃k ∊ s, i(k) ≠ 0), wird der maximale Absolutwert von e(k) durch das Quantisierer-Intervall in dem AAC-Quantisierer beschränkt als: max(|e(k)|) ≤ thr(i(k) + 1) – thr(i(k)).
Deshalb kann die maximale Bitebene M(k) bestimmt werden unter Verwendung von: 2M(k)-1 ≤ max(|thr(i(k) + 1) – |thr(i(k))||) < 2M(k), k ∊ s.
Da i(k) dem Dekodierer bereits bekannt ist, braucht M(k) nicht zu dem Dekodierer übertragen werden, da der Dekodierer in der Lage ist, thr(k) und folglich M(k) aus i(k) für das signifikante Band s zu regenerieren.
Für ein insignifikantes Band kann M(k) aus e(k) wie folgt berechnet werden: 2M(s)-1 ≤ max(|e(k)|) < 2M(s), k ∊ s,und dann wird das berechnete M(s) vorzugsweise mit dem Verbesserungsschicht-Bitstrom als Nebeninformation übertragen, so dass der Verbesserungsschicht-Bitstrom korrekt Bitebene-dekodiert wird.
Zum Reduzieren der Menge an Nebeninformation kann M(k) ferner so beschränkt werden, dass es die gleichen Werte für k für das gleiche Skalenfaktorband s in dem Kernschicht- Quantisierer aufweist. Deshalb kann M(k) auch als M(s) bezeichnet werden.
In dem Dekodierer 700 können die zu dem Fehlersignal korrespondierenden Fehlerkoeffizienten durch Bitebene-Dekodieren des Verbesserungsschicht-Bitstroms unter Verwendung der gleichen Bitebene-Abtastprozedur, wie der auf M(s) basierende Kodierer, rekonstruiert werden. Für ein signifikantes Band kann M(s) unter Verwendung des Folgenden regeneriert werden: 2M(k)-1 ≤ max(|thr(i(k) + 1) – |thr(i(k))||) < 2M(k), k ∊ s.
Für ein insignifikantes Band verwendet der Dekodierer das M(s), welches von dem Kodierer als Nebeninformation übertragen wird.
Quellenangaben

[1] M. Bosi u. a., "ISO/IEC Mpeg-2 Advanced Audio Coding", J. Audio Eng. Soc, Vol. 45, Wo. 10, S. 789–814, Okt. 1997.
[2] Jr. Stuart u. a., "MLP lossless compression," AES 9^th Regional Convention Tokyo.
[3] R. Geiger, J. Herre, J. Koller, and K. Brandenburg, "INTMDCT – A link between perceptual and lossless audio coding," IEEE Proc. ICASSP 2002.
[4] J. Li, "Embedded audio coding (EAC) with implicit auditory masking", ACM Multimedia 2002, Nice, France, Dez. 2002
[5] T. Moriya, N. Iwakami, T. Mori, and A. Jin, "A design of lossy and lossless scalable audio coding," IEEE Proc. ICASSP 2000.
[6] T. Moriya u. a., "Lossless Scalable Audio Coder and Quality Enhancement," Proceeding of ICASSP 2002.
[7] M. Hans and R-W. Schafer, "Lossless Compression of Digital Audio," IEEE Signal processing magazine. Vol. 18 Nr. 4, S. 21–32, 2001.
[8] Lin Xiao, Li Gang, Li Zhengguo, Chia Thien King, Yoh Ai Ling, "A Novel Prediction Scheme for Lossless Compression of Audio Waveform", Proc. IEEE ICME, Aug. 2001, Japan.
[9] Shorten: http://www.softsound.com/Shorten.html
[10] WaveZip: http://www.gadgetlabs.com/wavezip.html
[11] LPAC: http://www-ft.ee.tu-berlin.de/~liebchen/
[12] Wave Archiver: www.ecf.utoronto.ca/~denlee/wavarc.html
[13] R. Geiger, T. Sporer, J. Koller, and K. Brandenburg, "Audio Coding based on Integer Transforms," 111^th AES Convention, Sep. 2001.
[14] J. Johnston, "Estimation of Perceptual Entropy," Proc. ICASSP 1988.
[15] R. Yu, C. C. Ko, X. Lin and S. Rahardja, "Bit-plane Golomb code for sources with Laplacian distributions," proceeding of ICASSP 2003.
[16] Monkey's Audio, http://www.monkeysaudio.com
[17] S. H. Park u. a., "Multi-Lager Bit-Sliced Bit Rate Scalable MPEG-4 Audio Coder", presented at the 103^th Convention of the AES, New York, Sep. 1997 (preprint 4520)
[18] Ralf Geiger u. a., "FINE GRAIN SCALABLE PERCEPTUAL AND LOSSLESS AUDIO CODING BASED ON INTMDCT," Proceeding of ICASSP 2003.
[19] ISO/IEC 14496-3 Subpart 4, Information Technology – Coding of Audiovisual Objects, Part 3. Audio, Subpart 4 Time/Frequency Coding, ISO/JTC 1/SC 29/WG11, 1998
[20] T. Painter, A. Spanias, "Perceptual Coding of Digital Audio", IEEE Proceedings, Vol. 88, Nr. 4, Apr. 2000.
[21] ISO/IEC 11172-3, "CODING OF MOVING PICTURES AND ASSOCIATED AUDIO FOR DIGITAL STORAGE MEDIA AT UP TO ABOUT 1.5 MBIT/s, Part 3 AUDIO
[22] Westen, S. J. P., R. L. Lagendijk, and J. Biemond, "Optimization of JPEG color image coding using a human visual system model", SPIE conference an Human Vision and Electronic Imaging
[23] Westen, S. J. P., R. L. Lagendijk, and J. Biemond, "Spatio-Temporal Model of Human Vision For Digital Video Compression," SPIE Proceeding of Electronic Imaging 97.
[24] J. Li and S. Lie, "An embedded still image coder with rate-distortion optimization," IEEE Trans. On Image Processing, Vol. 8, Nr. 7, S. 913–924, Juli 1999
[25] W. Li, "Overview of Fine Granularity Scalability in MPEG-4 Video Standard", IEEE Trans. an Circuits and Systems for Video Technology, Vol. 11, Nr. 3, S. 301–317, März 2001

Claims

Verfahren zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom, wobei das Verfahren aufweist: Quantisieren (102) des digitalen Signals und Kodieren des quantisierten Signals, so dass ein Kern-Schicht-Bitstrom gebildet wird; Durchführen eines Fehler-Abbildens (103) basierend auf dem digitalen Signal und dem Kern-Schicht-Bitstrom, so dass Information entfernt wird, die in den Kern-Schicht-Bitstrom kodiert worden ist, resultierend in einem Fehlersignal; Bitebene-Kodieren (104) des Fehlersignals basierend auf Wahrnehmungsinformation des digitalen Signals, resultierend in einem Verbesserung-Schicht-Bitstrom, wobei die Wahrnehmungsinformation des digitalen Signals unter Verwendung eines Wahrnehmungsmodells bestimmt wird; und Multiplexen (105) des Kern-Schicht-Bitstroms und des Verbesserung-Schicht-Bitstroms, wobei der skalierbare Bitstrom erzeugt wird.
Verfahren gemäß Anspruch 1, welches ferner aufweist: Transformieren (101) des digitalen Signals in eine geeignete Domäne; wobei das transformierte Signal quantisiert wird, so dass das quantisierte Signal gebildet wird, bevor das quantisierte Signal kodiert wird.
Verfahren gemäß Anspruch 1 oder 2, wobei die Wahrnehmungsinformation des digitalen Signals ferner mit dem Kern-Schicht-Bitstrom und dem Verbesserung-Schicht-Bitstrom gemultiplext wird (105), so dass der skalierbare Bitstrom gebildet wird.
Verfahren gemäß Anspruch 2, wobei das digitale Signal unter Verwendung einer ganzzahligen modifizierten diskreten Cosinustransformation in ein transformiertes digitales Signal transformiert wird (101).
Verfahren gemäß Anspruch 4, wobei das transformierte Signal normiert wird, so dass der Ausgabewert einer MDCT-Filterbank angeglichen wird.
Verfahren gemäß einem der Ansprüche 1 bis 5, wobei das digitale Signal oder das transformierte digitale Signal gemäß der MPEG(Moving Pictures Expert Group)-AAC(Advanced Audio Coding)-Spezifikation quantisiert (102) und kodiert wird.
Verfahren gemäß einem der Ansprüche 1 bis 6, wobei das Fehler-Abbilden (103) mittels Subtrahierens der unteren Quantisierungsschwelle, gemäß jedem quantisierten Wert des quantisierten Signals, von dem digitalen Signal oder dem transformierten digitalen Signal durchgeführt wird, wobei das Fehlersignal erzeugt wird.
Verfahren gemäß einem der Ansprüche 1 bis 7, wobei ein psychoakustisches Modell als das Wahrnehmungsmodell (106) zum Bestimmen der Wahrnehmungsinformation des digitalen Signals verwendet wird.
Verfahren gemäß einem der Ansprüche 1 bis 8, wobei das Fehlersignal in Bitebenen repräsentiert wird, die eine Mehrzahl von Bitebene-Symbolen aufweisen, und wobei die Bitebenen basierend auf der Wahrnehmungsinformation des digitalen Signals verschoben werden, so dass Bitebenen, welche in der Wahrnehmung bedeutsamer sind, zuerst kodiert werden, wenn die Bitebenen des Fehlersignals in einer aufeinanderfolgenden Reihenfolge während des Bitebene-Kodierens (104) gescannt und kodiert werden.
Verfahren gemäß einem der Ansprüche 1 bis 8, wobei das Fehlersignal in Bitebenen repräsentiert wird, die eine Vielzahl von Bitebene-Symbolen aufweisen, und wobei die Bitebenen und die Bitebene-Symbole während des Bitebene-Kodierens (104) des Fehlersignals in einer Reihenfolge gescannt und kodiert werden, die auf der Wahrnehmungsinformation des digitalen Signals basiert, so dass Bitebene-Symbole der Bitebenen, welche in der Wahrnehmung wichtiger sind, zuerst kodiert werden.
Verfahren gemäß Anspruch 9 oder 10, wobei zumindest eine der folgenden Informationen als die Wahrnehmungsinformation des digitalen Signals von dem Wahrnehmungsmodell (106) bestimmt wird: die Bitebene des Fehlersignals, welches das Bitebene-Kodieren des Fehlersignals startet M(s); und das JND(Just Noticeable Distortion)-Niveau des digitalen Signals, wobei s einem Frequenzband das digitalen Signals oder des transformierten digitalen Signals entspricht.
Verfahren gemäß Anspruch 11, wobei die Wahrnehmungssignifikanz Ps(s) des digitalen Signals ferner als die Wahrnehmungsinformation bestimmt wird, wobei die Wahrnehmungssignifikanz bestimmt wird mittels: Bestimmens der Bitebene des Fehlersignals entsprechend dem JND-Niveau τ(s) des digitalen Signals; Subtrahierens der Bitebene des Fehlersignals, gemäß dem JND-Niveau τ(s) des digitalen Signals, von der Bitebene des Fehlersignals, welches das Bitebene-Kodieren des Fehlersignals startet M(s), wobei die Wahrnehmungssignifikanz Ps(s) bestimmt wird, wobei die Wahrnehmungssignifikanz Ps(s) verwendet wird, so dass die Scan- und Kodierreihenfolge von zumindest den Bitebenen oder den Bitebene-Symbolen der Bitebenen gesteuert wird.
Verfahren gemäß Anspruch 12, wobei die Wahrnehmungssignifikanz P(s) normiert wird mittels: Definierens einer gemeinsamen Wahrnehmungssignifikanz Ps(s)_common basierend auf einer Funktion der Wahrnehmungssignifikanz Ps(s); und Subtrahieren der gemeinsamen Wahrnehmungssignifikanz Ps(s)_common von der Wahrnehmungssignifikanz Ps(s), wobei die normierte Wahrnehmungssignifikanz Ps'(s) erzeugt wird, wobei für das Frequenzband s, für welches die quantisierten Werte nicht alle Null sind, der Wert der Wahrnehmungssignifikanz Ps(s) auf den Wert der gemeinsamen Wahrnehmungssignifikanz Ps(s)_common eingestellt wird, und wobei für das Frequenzband s, für welches die quantisierten Werte alle Null sind, die normierte Wahrnehmungssignifikanz Ps'(s) mit dem Kern-Schicht-Bitstrom und dem Verbesserung-Schicht-Bitstrom gemultiplext wird, so dass der skalierbare Bitstrom erzeugt wird.
Verfahren gemäß Anspruch 11, wobei die Bitebene des Fehlersignals, welches das Bitebene-Kodieren des Fehlersignals startet, aus dem Maximal-Quantisierungsintervall bestimmt wird, welches in dem Frequenzband s zum Quantisieren des digitalen Signals oder des transformierten Signals verwendet wird.
Kodierer zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom, wobei der Kodierer aufweist: eine Quantisier-Einheit (102) zum Quantisieren des digitalen Signals und Kodieren des quantisierten Signals, so dass ein Kern-Schicht-Bitstrom gebildet wird; eine Fehler-Abbildungs-Einheit (103) zum Durchführen eines Fehler-Abbildens basierend auf dem digitalen Signal und dem Kern-Schicht-Bitstrom, so dass Information entfernt wird, die in den Kern-Schicht-Bitstrom kodiert worden ist, resultierend in einem Fehlersignal; eine Wahrnehmungs-Bitebene-Kodiereinheit (104) zum Bitebene-Kodieren des Fehlersignals, basierend auf Wahrnehmungsinformation des digitalen Signals, resultierend in einem Verbesserung-Schicht-Bitstrom, wobei die Wahrnehmungsinformation des digitalen Signals unter Verwendung eines Wahrnehmungsmodells (106) bestimmt wird; und eine Multiplex-Einheit (105) zum Multiplexen des Kern-Schicht-Bitstroms und des Verbesserung-Schicht-Bitstroms, wobei der skalierbare Bitstrom erzeugt wird.
Computerlesbares Medium, welches ein darauf abgespeichertes Programm aufweist, wobei das Programm beim Ausführen durch einen Computer den Computer eine Prozedur zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom ausführen lässt, wobei die Prozedur aufweist: Quantisieren (102) des digitalen Signals und Kodieren des quantisierten Signals, so dass ein Kern-Schicht-Bitstrom gebildet wird; Durchführen eines Fehler-Abbildens (103) basierend auf dem digitalen Signal und dem Kern-Schicht-Bitstrom, so dass Information entfernt wird, die in den Kern-Schicht-Bitstrom kodiert worden ist, resultierend in einem Fehlersignal; Bitebene-Kodieren (104) des Fehlersignals basierend auf Wahrnehmungsinformation des digitalen Signals, resultierend in einem Verbesserung-Schicht-Bitstrom, wobei die Wahrnehmungsinformation des digitalen Signals unter Verwendung eines Wahrnehmungsmodells bestimmt wird; und Multiplexen (105) des Kern-Schicht-Bitstroms und des Verbesserung-Schicht-Bitstroms, wobei der skalierbare Bitstrom erzeugt wird.
Computerprogramm-Element, welches beim Ausführen durch einen Computer den Computer eine Prozedur zum Kodieren eines digitalen Signals in einen skalierbaren Bitstrom ausführen lässt, wobei die Prozedur aufweist: Quantisieren (102) des digitalen Signals und Kodieren des quantisierten Signals, so dass ein Kern-Schicht-Bitstrom gebildet wird; Durchführen eines Fehler-Abbildens (103) basierend auf dem digitalen Signal und dem Kern-Schicht-Bitstrom, so dass Information entfernt wird, die in den Kern-Schicht-Bitstrom kodiert worden ist, resultierend in einem Fehlersignal; Bitebene-Kodieren (104) des Fehlersignals basierend auf Wahrnehmungsinformation des digitalen Signals, resultierend in einem Verbesserung-Schicht-Bitstrom, wobei die Wahrnehmungsinformation des digitalen Signals unter Verwendung eines Wahrnehmungsmodells (106) bestimmt wird; und Multiplexen (105) des Kern-Schicht-Bitstroms und des Verbesserung-Schicht-Bitstroms, wobei der skalierbare Bitstrom erzeugt wird.
Verfahren zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal, wobei das Verfahren aufweist: Demultiplexen (205) des skalierbaren Bitstroms in einen Kern-Schicht-Bitstrom und einen Verbesserung-Schicht-Bitstrom; Dekodieren (204) und Dequantisieren (202) des Kern-Schicht-Bitstroms, so dass ein Kern-Schicht-Signal erzeugt wird; Bitebene-Dekodieren des Verbesserung-Schicht-Bitstroms basierend auf Wahrnehmungsinformation des digitalen Signals; und Durchführen eines Fehler-Abbildens (203) basierend auf dem Bitebene-dekodierten Verbesserung-Schicht-Bitstrom und dem dequantisierten Kern-Schicht-Signal, resultierend in einem rekonstruierten transformierten Signal, wobei das rekonstruierte transformierte Signal das digitale Signal ist.
Verfahren gemäß Anspruch 18, welches ferner aufweist: Transformieren (201) des rekonstruierten transformierten Signals in ein rekonstruiertes Signal, wobei das rekonstruierte Signal das digitale Signal ist.
Verfahren gemäß Anspruch 18 oder 19, wobei die Wahrnehmungsinformation des digitalen Signals von dem Demultiplexen (205) des skalierbaren Bitstroms erlangt wird.
Verfahren gemäß Anspruch 19 oder 20, wobei das Kern-Schicht-Signal und das Verbesserung-Schicht-Signal unter Verwendung einer ganzzahligen modifizierten diskreten Cosinustransformation (MDCT, Modified Discrete Cosine Transformation) transformiert werden.
Verfahren gemäß einem der Ansprüche 18 bis 21, wobei der Kern-Schicht-Bitstrom gemäß der MPEG(Moving Pictures Expert Group)-AAC(Advanced Audio Coding)-Spezifikation dekodiert (204) und dequantisiert (202) wird.
Verfahren gemäß einem der Ansprüche 18 bis 22, wobei das Fehler-Abbilden (203) mittels Addierens der unteren Quantisierungsschwelle durchgeführt wird, die zum Dequantisieren (202) des transformierten Signals und des Bitebene-dekodierten Verbesserung-Schicht-Bitstroms verwendet wird, wobei das Verbesserung-Schicht-Signal erzeugt wird.
Verfahren gemäß einem der Ansprüche 18 bis 23, wobei der Verbesserung-Schicht-Bitstrom Bitebene-dekodiert wird, so dass eine Mehrzahl von Bitebenen, die eine Mehrzahl von Bitebene-Symbolen aufweisen, in einer aufeinanderfolgenden Reihenfolge erzeugt wird, und die Bitebenen basierend auf der Wahrnehmungsinformation des digitalen Signals verschoben werden, so dass der Bitebene-dekodierte Verbesserung-Schicht-Bitstrom erzeugt wird.
Verfahren gemäß einem der Ansprüche 18 bis 23, wobei der Verbesserung-Schicht-Bitstrom Bitebene-dekodiert wird, so dass eine Mehrzahl von Bitebenen, die eine Mehrzahl von Bitebene-Symbolen aufweisen, in einer Reihenfolge erzeugt wird, die auf der Wahrnehmungsinformation des digitalen Signals basiert, wobei der Bitebene-dekodierte Verbesserung-Schicht-Bitstrom erzeugt wird.
Verfahren gemäß Anspruch 24 oder 25, wobei zumindest eine der folgenden Informationen als die Wahrnehmungsinformation des digitalen Signals erfasst wird: die Bitebene, welche dem Verbesserung-Schicht-Bitstrom beim Starten des Bitebene-Dekodierens des Verbesserung- Schicht-Bitstroms entspricht, wobei die Bitebene durch eine Zahl M(s) spezifiziert ist; und das JND(Just Noticeable Distortion)-Niveau des digitalen Signals, wobei s einem Frequenzband des digitalen Signals entspricht.
Verfahren gemäß Anspruch 26, wobei die Bitebene, welche dem Verbesserung-Schicht-Bitstrom beim Starten des Bitebene-Dekodierens des Verbesserung-Schicht-Bitstroms entspricht M(s), aus dem Maximal-Quantisierungs-Intervall ermittelt wird, das in dem Frequenzband s zum Dequantisieren (202) des Kern-Schicht-Bitstroms verwendet wird.
Dekoder zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal, wobei der Dekoder aufweist: eine Demultiplex-Einheit (205) zum Demultiplexen des skalierbaren Bitstroms in einen Kern-Schicht-Bitstrom und einen Verbesserung-Schicht-Bitstrom; eine Dequantisier-Einheit (202) zum Dekodieren und Dequantisieren des Kern-Schicht-Bitstroms, so dass ein Kern-Schicht-Signal erzeugt wird; eine Bitebene-Dekodier-Einheit (204) zum Bitebene-Dekodieren des Verbesserung-Schicht-Bitstroms basierend auf Wahrnehmungsinformation des digitalen Signals; und eine Fehler-Abbildungs-Einheit (203) zum Durchführen eines Fehler-Abbildens basierend auf dem Bitebene-dekodierten Verbesserung-Schicht-Bitstrom und dem dequantisierten Kern-Schicht-Signal, resultierend in einem rekonstruierten transformierten Signal, wobei das rekonstruierte transformierte Signal das digitale Signal ist.
Computerlesbares Medium, welches ein darauf abgespeichertes Programm aufweist, wobei das Programm beim Ausführen durch einen Computer den Computer eine Prozedur zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal ausführen lässt, wobei die Prozedur aufweist: Demultiplexen (205) des skalierbaren Bitstroms in einen Kern-Schicht-Bitstrom und einen Verbesserung-Schicht-Bitstrom; Dekodieren und Dequantisieren des Kern-Schicht-Bitstroms, so dass ein Kern-Schicht-Signal erzeugt wird; Bitebene-Dekodieren (204) des Verbesserung-Schicht-Bitstroms basierend auf einer Wahrnehmungsinformation des digitalen Signals; und Durchführen eines Fehler-Abbildens basierend auf dem Bitebene-dekodierten Verbesserung-Schicht-Bitstrom und dem dequantisierten Kern-Schicht-Signal, resultierend in einem rekonstruierten transformierten Signal, wobei das rekonstruierte transformierte Signal das digitale Signal ist.
Computerprogramm-Element, welches beim Ausführen durch einen Computer den Computer eine Prozedur zum Dekodieren eines skalierbaren Bitstroms in ein digitales Signal ausführen lässt, wobei die Prozedur aufweist: Demultiplexen (205) des skalierbaren Bitstroms in einen Kern-Schicht-Bitstrom und einen Verbesserung-Schicht-Bitstrom; Dekodieren und Dequantisieren (202) des Kern-Schicht-Bitstroms, so dass ein Kern-Schicht-Signal erzeugt wird; Bitebene-Dekodieren (204) des Verbesserung-Schicht-Bitstroms basierend auf einer Wahrnehmungsinformation des digitalen Signals; und Durchführen eines Fehler-Abbildens (203) basierend auf dem Bitebene-dekodierten Verbesserung-Schicht-Bitstrom und dem dequantisierten Kern-Schicht-Signal, resultierend in einem rekonstruierten transformierten Signal, wobei das rekonstruierte transformierte Signal das digitale Signal ist.