DE60316099T2 - Verfahren und Vorrichtung zur Codierung/Dekodierung von Audiodaten mit Skalierbarkeit - Google Patents

Verfahren und Vorrichtung zur Codierung/Dekodierung von Audiodaten mit Skalierbarkeit Download PDF

Info

Publication number
DE60316099T2
DE60316099T2 DE60316099T DE60316099T DE60316099T2 DE 60316099 T2 DE60316099 T2 DE 60316099T2 DE 60316099 T DE60316099 T DE 60316099T DE 60316099 T DE60316099 T DE 60316099T DE 60316099 T2 DE60316099 T2 DE 60316099T2
Authority
DE
Germany
Prior art keywords
coding
bits
layer
bit
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60316099T
Other languages
English (en)
Other versions
DE60316099D1 (de
Inventor
Jung-hoe Gangseo-gu Kim
Sang-wook Seocho-gu Kim
Eun-mi Seocho-gu Oh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Application granted granted Critical
Publication of DE60316099D1 publication Critical patent/DE60316099D1/de
Publication of DE60316099T2 publication Critical patent/DE60316099T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft Kodierung und Dekodierung von Audiodaten und insbesondere ein Verfahren und eine Vorrichtung zur Kodierung von Audiodaten, so dass ein kodierter Audiobitstrom eine skalierbare Bitrate aufweist, und ein Verfahren und eine Vorrichtung zur Dekodierung der Audiodaten.
  • Bedingt durch jüngste Entwicklungen in der digitalen Signalverarbeitungstechnologie werden Audiosignale allgemein in den meisten Fällen als digitale Daten gespeichert und reproduziert. Digitale Audiospeicher/-wiederherstellungsgeräte transformieren Audiosignale durch Abtasten und Quantisieren in Pulskodemodulations(PCM)-Audiodaten, d. h. digitale Signale. Auf diese Weise speichert die digitale Audiospeicher/-wiedergabeeinrichtung die PCM-Audiodaten in einem Informatonsspeichermedium, wie einer Compact Disk (CD) und einer Digital Versstile Disk (DVD) und gibt das gespeicherte Signal in Reaktion auf einen Benutzerbefehl wieder, so dass der Benutzer die Audiodaten anhören kann. Das digitale Verfahren zur Speicherung/Wiedergabe verbessert die Audioqualität im Vergleich zu analogen Verfahren, wie einer Langspielplatte (LP) oder einem Magnetband, in starkem Maße und reduziert durch eine lange Lagerzeit bedingte Störungen dramatisch. Das digitale Verfahren zeigt jedoch aufgrund der großen Menge an digitalen Daten ein Problem bei Speicherung und Übertragung.
  • Zur Lösung dieses Problems, werden eine Reihe von Kompressionsverfahren verwendet, um digitale Audiosignale zu komprimieren.
  • Bei Moving Pictures Expert Group (MPEG)/Audio standardisiert von der Internationalen Standardorganisation (ISO) oder AC-2/AC-3 entwickelt von Dolby wird die Datenmenge unter Verwendung psychoakustischer Modelle reduziert. Als Folge davon kann die Datenmenge ungeachtet der Charakteristiken eines Signals effizient reduziert werden. Das heißt, der MPEG/Audio-Standard oder das AC-2-/AC-3-Verfahren können bei einer Bitrate von nur 64~382 Kbps fast die selbe Audioqualität erreichen wie eine CD, was 1/6 bis 1/8 der des früheren digitalen Kodierverfahrens ist.
  • Bei diesen Verfahren wird jedoch ein optimaler Zustand gesucht, der für eine feste Bitrate geeignet ist, und dann werden Quantisierung und Kodierung durchgeführt. Dementsprechend können, wenn die Übertragungsbandbreite aufgrund schlechter Netzwerkbedingungen beim Übertragen von Bitströmen durch das Netzwerk vermindert ist, Unterbrechungen auftreten und dem Benutzer können keine geeigneten Dienste mehr erbracht werden. Außerdem sollte, wenn der Bitstrom in Bitströme eines kleineren Umfangs umgewandelt werden soll, die für ein Mobilgerät mit einer begrenzten Speicherkapazität besser geeignet sind, ein Rekodierprozess durchgeführt werden, um den Umfang eines Bitstroms zu reduzieren, und der erforderliche Rechenaufwand steigt.
  • Zur Lösung dieses Problems hat der Anmelder der vorliegenden Erfindung am 19. November 1997 die koreanische Patentanmeldung Nr. 97-61298 mit dem Titel "Bitrate Scalable Audio Encoding/Decoding Method and Apparatus Using Bit-Sliced Arithmetic Coding (BSAC)" angemeldet, auf die am 17. April 2000 das koreanische Patent Nr. 261253 erteilt wurde. Gemäß der BASC-Technik kann ein mit einer hohen Bitrate kodierter Bitstrom in einen Bitstrom mit einer niedrigen Bitrate überführt werden und es ist Wiederherstellung mit nur einem Teil des Bitstroms möglich. Dementsprechend kann, wenn das Netzwerk überlastet ist, oder die Leistung eines Dekoders schwach ist, oder ein Benutzer eine niedrige Bitrate fordert, dem Benutzer Dienste in einem Audioqualitätsgrad geliefert werden, indem nur ein Teil des Bitstroms verwendet wird, obwohl in Proportion zur Verminderung der Bitrate, die Qualität unweigerlich abnimmt.
  • Da jedoch die BSAC-Technik arithmetische Kodierung einsetzt, ist die Komplexität hoch und wenn die BSAC-Technik in eine Vorrichtung implementiert wird, steigen die Kosten. Da außerdem die BSAC-Technik eine modifizierte diskrete Cosinustransformation (MDCT) für die Transformation eines Audiosignals verwendet, kann die Audioqualität in einer tieferen Schicht stark beeinträchtigt werden.
  • Sung-Hee Park et al. beschreiben in "Multi-Lager Bit-Sliced Bit-Rate Scalable Audio Coding", Preprints of the AES Covention, Oktober 1997, Band 103, Seiten 1 bis 16, ein Kodierverfahren. Es wird ein Bitslicingverfahren für jede einer Mehrzahl von Schichten angewendet. Das Kodierverfahren verwendet rauschfreie arithmetische Kodierung an Symbolen, die mit Bits gebildet sind, die von signifikantesten Bits bis zu am wenigsten signifikanten Bits geordnet sind.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Kodieren von Audiodaten nach Anspruch 1 zur Verfügung gestellt.
  • Vor dem Kodieren zusätzlicher Information kann es ferner beinhalten: Ermitteln eines Bitbereichs, der in jeder der Mehrzahl von Schichten zulässig ist, wobei beim Kodieren der ermittelten Mehrzahl von quantisierten Abtastungen, die Anzahl an kodierten Bites gezählt wird, und wenn die Anzahl an gezählten Bits einen den Bits entsprechenden Bitbereich übersteigt, wird die Kodierung gestoppt, und wenn die Anzahl an gezählten Bits kleiner ist als der den Bits entsprechende Bitbereich, selbst nachdem quantisierte Abtastungen alle kodiert sind, werden unkodiert verbleibende Bits, nachdem Kodierung in einer tieferen Schicht abgeschlossen ist, in dem Umfang kodiert, den der Bitbereich erlaubt.
  • Das Slicing von Audiodaten umfasst bevorzugt: Durchführen einer Wavelet-Transformation von Audiodaten und Slicing der wavelet-transfor mierten Daten durch Bezug auf eine Cutoff-Frequenz, so dass die geslicten Daten der Mehrzahl von Schichten entsprechen.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum Dekodieren von Audiodaten nach Anspruch 4 zur Verfügung gestellt.
  • Beim Dekodieren von Audiodaten wird bevorzugt eine aus dekodierten Symbolen gebildete 4*K-Bitebene ermittelt und beim Ermitteln quantisierter Abtastungen werden K quantisierte Abtastungen aus der 4*K-Bitebene ermittelt, wobei K eine ganze Zahl ist.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Dekodieren von Audiodaten nach Anspruch 5 zur Verfügung gestellt.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Kodieren von Audiodaten nach Anspruch 6 zur Verfügung gestellt.
  • Die Verpackungseinheit kann die Anzahl an kodierten Bits zählen und wenn die Anzahl an kodierten Bits einen den Bits entsprechenden Bitbereich übersteigt, stoppt die Kodierung, und wenn die Anzahl an gezählten Bits kleiner ist als der den Bits entsprechende Bitbereich, selbst nachdem die quantisierten Bits alle kodiert sind, kodiert sie nach Abschluss des Kodierens in einer tieferen Schicht unkodiert verbleibende Bits in einem Umfang, den der Bitbereich erlaubt.
  • Die Verpackungseinheit kann die MDCT-transformierten Daten mit Bezug zu einer Cutoff-Frequenz slicen, so dass die geslicten Daten der Mehrzahl an Schichten entsprechen.
  • Die vorliegende Erfindung stellt damit ein Verfahren und eine Vorrichtung zum Kodieren/Dekodieren von Audiodaten mit Skalierbarkeit zur Verfügung, wodurch eine feinkörnige Skalierbarkeit (FGS) mit geringerer Komplexität erreicht wird.
  • Die obigen Vorteile der vorliegenden Erfindung werden besser ersichtlich durch eine ausführliche Beschreibung bevorzugter Ausführungsformen mit Bezug zu den begleitenden Zeichnungen, in denen:
  • 1 ein Blockdiagramm einer Kodiervorrichtung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 2 ein Blockdiagramm einer Dekodiervorrichtung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 3 ein Schaubild der Struktur eines Rahmens ist, der einen in einer Schichtstruktur kodierten Bitstrom bildet, so dass die Bitrate gesteuert werden kann;
  • 4 ein detailliertes Schaubild der Struktur mit zusätzlicher Information ist;
  • 5 ein Referenzschaubild zur schematischen Erläuterung eines Kodierverfahrens gemäß der vorliegenden Erfindung ist;
  • 6 ein Referenzschaubild zur spezifischeren Erläuterung eines Kodierverfahrens gemäß der vorliegenden Erfindung ist;
  • 7 ein Flussbild zur Erläuterung eines Kodierverfahrens gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 8 ein Flussbild zur Erläuterung eines Dekodierverfahrens gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist;
  • 9 ein Flussbild zur Erläuterung eines Dekodierverfahrens gemäß einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung ist.
  • Mit Bezug zu 1 kodiert eine Kodiervorrichtung gemäß der vorliegenden Erfindung Audiodaten in einer Schichtstruktur, so dass die Bitrate des kodierten Bitstroms gesteuert werden kann, und umfasst eine Transformationseinheit 11, eine psychoakustische Einheit 12, eine Quantisierungseinheit 13 und eine Bitverpackungseinheit 14.
  • Die Transformationseinheit 11 empfängt Pulskodemodulations(PCM)-Audiodaten, die ein Zeitdomänenaudiosignal sind, und transformiert das Signal in ein Frequenzdomänensignal, wobei auf Information in einem psychoakustischen Modell Bezug genommen wird, die von der psychoakustischen Einheit 12 bereitgestellt wird. Während die Unterschiede zwischen den Charakteristiken von Audiosignalen, die ein Mensch wahrnehmen kann, in einer Zeitdomäne nicht so groß sind, gibt es bei den Frequenzdomänenaudiosignalen, die durch Transformation erhalten sind, einen großen Unterschied zwischen den Charakteristiken eines Signals, das von einem Menschen wahrgenommen werden kann und einem Signal, das von einem Menschen nicht wahrgenommen werden kann. Dementsprechend kann durch Differenzieren der Anzahlen an Bits, die jeweiligen Frequenzbändern zugewiesen sind, die Kompressionseffizienz erhöht werden. Bei der vorliegenden Ausführungsform führt die Transformationseinheit 11 eine modifizierte diskrete Cosinustransformation (MDCT) durch.
  • Die psychoakustische Einheit 12 stellt der Transformationseinheit 11 Information zu einem psychoakustischen Modell bereit, wie Angriffserfassungsinformation, und gruppiert die von der Transformationseinheit 11 transformierten Audiosignale in Signale geeigneter Unterbänder. Ebenso berechnet die psychoakustische Einheit 12 eine Maskierungsschwelle in jedem Unterband unter Verwendung eines Maskierungseffekts, der durch Wechselwirkungen zwischen jeweiligen Signalen bedingt ist, und gibt Schwellenwerte an die Quantisierungseinheit 13. Die Maskierungsschwelle ist der Maximalwert eines Signals, das von einem Menschen aufgrund der Wechselwirkung zwischen Audiosignalen nicht wahrgenommen werden kann. Bei der vorliegenden Ausführungsform berechnet die psychoakustische Einheit 12 Maskierungsschwellen von Stereokomponenten unter Verwendung von binauraler Maskierungswertdepression (BMLD).
  • Die Quantisierungseinheit 13 führt basierend auf Skalenfaktorinformation, die dem Audisignal entspricht, Skalarquantisierung eines Audiosignals in jedem Band durch, so dass der Umfang eines Quantisierungsrauschens im Band geringer ist als die von der psychoakustischen Einheit 12 bereitgestellte Maskierungsschwelle, so dass ein Mensch das Rauschen nicht wahrnehmen kann. Dann gibt die Quantisierungseinheit 13 die quantisierten Abtastungen aus. Das heißt, unter Verwendung der von der psychoakustischen Einheit 12 berechneten Maskierungsschwelle und einem Rausch-Masken-Verhältnis (NMR), das den Faktor eines in jedem Band erzeugten Rauschens darstellt, führt die Quantisierungseinheit 13 eine Quantisierung so durch, dass NMR-Werte in allen Bändern 0 dB oder weniger betragen. Die NMR-Werte von 0 dB oder weniger bedeuten, dass ein Mensch das Quantisierungsrauschen nicht wahrnehmen kann.
  • Die Bitverpackungseinheit 14 kodiert quantisierte Abtastungen, die zu jeder Schicht gehören und zusätzliche Information und verpackt das kodierte Signal in einer Schichtstruktur. Die zusätzliche Information beinhaltet Skalenbandinformation, Kodierbandinformation, ihre Skalenfaktorinformation und Kodiermodellinformation in jeder Schicht. Die Skalenbandinformation und Kodierbandinformation können als Headerinformation verpackt und dann an eine Dekodiereinrichtung übertragen werden. Ansonsten können die Skalenbandinformation und Kodierbandinformation als zusätzliche Information für jede Schicht kodiert und verpackt und dann zu einer Dekodiereinrichtung übertragen werden. Die Skalenbandinformation und Kodierbandinformation können in einigen Fällen nicht zu einer Dekodiereinrichtung übertragen werden, weil sie in der Dekodiereinrichtung vorgespeichert sind.
  • Insbesondere während zusätzliche Information kodiert wird, die Skalenfaktorinformation und Kodiermodellinformation enthält, die einer ersten Schicht entspricht, führt die Bitverpackungseinheit 14 eine Kodierung der Abtastungen und Information in Symboleinheiten, in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits (MSBs) gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits (LSBs) gebildet ist, mit Bezug zur Kodiermodellinformation, die der ersten Schicht entspricht, durch. Dann wird in der zweiten Schicht der gleiche Prozess wiederholt durchgeführt. Das heißt, bis die Kodierung einer Mehrzahl von vorgegebenen Schichten beendet ist, wird eine Kodierung mit zunehmender Anzahl an Schichten durchgeführt. Bei der vorliegenden Ausführungsform differential-kodiert die Bitverpackungseinheit 14 die Skalenfaktorinformation und die Kodiermodellinformation und Huffman-kodiert die quantisierten Abtastungen. Die Schichtstruktur der gemäß der vorliegenden Erfindung kodierten Bitströme wird später erläutert.
  • Skalenbandinformation betrifft Information zum genaueren Durchführen einer Quantisierung gemäß den Frequenzcharakteristiken eines Audiosignals. Wenn ein Frequenzbereich in eine Mehrzahl von Bändern unterteilt wird und jedem Band ein geeigneter Skalenfaktor zugewiesen wird, gibt die Skalenbandinformation ein Skalenband an, das jeder Schicht entspricht. Auf diese Weise gehört jede Schicht zu mindestens einem Skalenband. Jedes Skalenband weist einen zugewiesenen Skalenfaktor auf. Ebenso betrifft Kodierbandinformation Information zum genaueren Durchführen einer Kodierung gemäß den Frequenzcharakteristiken eines Audiosignals. Wenn ein Frequenzbereich in eine Mehrzahl von Bändern unterteilt wird und jedem Band ein geeignetes Kodiermodell zugeordnet wird, gibt die Kodierbandinformation ein Kodierband an, das jeder Schicht entspricht. Die Skalenbänder und Kodierbänder sind empirisch unterteilt und diesen entsprechende Skalenfaktoren und Kodiermodelle werden jeweils auf Basis derselben bestimmt.
  • 2 ist ein Blockdiagramm einer Dekodiereinrichtung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Mit Bezug zu 2 dekodiert die Dekodiereinrichtung Bitströme zu einer Zielschicht, die durch den Zustand eines Netzwerks, die Leistung der Dekodiereinrichtung und eine Auswahl des Benutzers bestimmt ist, derart, dass die Bitrate eines Bitstroms gesteuert werden kann. Die Dekodiereinrichtung umfasst eine Entpackungseinheit 21, eine inverse Quantisierungseinheit 22 und eine inverse Transformationseinheit 23.
  • Die Entpackungseinheit 21 entpackt Bitströme zu einer Zielschicht und dekodiert Bitströme in jeder Schicht. Das heißt, zusätzliche Information, die Skalenfaktorinformation und Kodiermodellinformation enthält, die jeder Schicht entspricht, wird dekodiert und dann werden basierend auf der ermittelten Kodiermodellinformation zu der Schicht gehörende kodierte quantisierte Abtastungen dekodiert und die quantisierten Abtastungen erneut gespeichert. Bei der vorliegenden Ausführungsform differential-dekodiert die Entpackungseinheit 21 Skalenfaktorinformation und Kodiermodelinformation und Huffman-dekodiert die kodierten quantisierten Abtastungen.
  • Hierbei werden die Skalenbandinformation und Kodierbandinformation von der Headerinformation eines Bitstroms oder durch Dekodieren zusätzlicher Information in jeder Schicht erhalten. Alternativ kann die Dekodiereinrichtung die Skalenbandinformation und Kodierbandinformation im voraus speichern. Die inverse Quantisierungseinheit 22 führt inverse Quantisierung durch und speichert die quantisierten Abtastungen in jeder Schicht gemäß der den Abtastungen entsprechenden Skalenfaktorinformation. Die inverse Transformationseinheit 23 führt Frequenz-/Zeit-Abbildung der gespeicherten Abtastungen durch, um die Abtastungen in PCM-Audiodaten einer Zeitdomäne zu transformieren, und gibt diese aus. In der vorliegenden Ausführungsform führt die inverse Transformationseinheit 23 MDCT-basierte inverse Transformation durch.
  • 3 ist ein Schaubild der Struktur eines Rahmens, der einen in einer Schichtstruktur kodierten Bitstrom bildet, so dass die Bitrate gesteuert werden kann.
  • Mit Bezug zu 3 wird der Rahmen eines Bitstroms gemäß der vorliegenden Erfindung durch Abbilden quantisierter Abtastungen und zusätzlicher Information einer Schichtstruktur kodiert, um feinkörnige Skalierbarkeit (FGS) zu erreichen. Mit anderen Worten, ein Bitstrom einer tieferen Schicht wird in einem Verstärkungsschichtbitstrom in der Schichtstruktur aufgenommen. In jeder Schicht benötigte zusätzliche Information wird jeder Schicht zugewiesen und dann kodiert.
  • Ein Headerbereich zum Speichern von Headerinformation ist vor einem Bistrom platziert, dann wird Information zu Schicht 0 nach dem Headerbereich verpackt und dann wird Information, die zu den Schichten 1 bis N gehört, die Verstärkungsschichten sind, in einer Reihenfolge verpackt. Eine Schicht vom Headerbereich zur Schicht-0-Information wird als Basisschicht bezeichnet, eine Schicht vom Headerbereich zur Schicht-1-Information wird als Schicht 1 bezeichnet und eine Schicht vom Headerbereich zur Schicht-2-Information wird als Schicht 2 bezeichnet. Gleichermaßen gibt die oberste Schicht eine Schicht vom Headerbereich zur Schicht-N-Information an, das heißt, von der Basisschicht zur Schicht N, die die Verstärkungsschicht ist. Zusätzliche Information und kodierte Audiodaten werden jeweils als Schichtinformation gespeichert. Zum Beispiel werden zusätzliche Information 2 und kodierte quantisierte Abtastungen als Schicht-2-Information gespeichert. Hier ist N eine ganze Zahl größer oder gleich 1.
  • 4 ist ein detailliertes Schaubild der Struktur mit zusätzlicher Information.
  • Mit Bezug zu 4 werden zusätzliche Information und kodierte quantisierte Abtastungen als arbiträre zusätzliche Information gespeichert, und bei der vorliegenden Ausführungsform beinhaltet zusätzliche Information Huffman-Kodiermodellinformation, Quantisierungsfaktorinformation, zusätzliche Information zu Kanälen und weitere zusätzliche Information. Die Huffman-Kodiermodellinformation ist Indexinformation zu einem Huffman-Kodiermodell, das zum Kodieren oder Dekodieren quantisierter Abtastungen verwendet werden sollte, die zu einer Schicht gehören, die der Information entspricht. Quantisierungsfaktorinformation gibt einen Quantisierungsschrittumfang zum Quantisieren oder invers Quantisieren von Audiodaten an, die zu einer Schicht gehören, die der Information entspricht. Zusätzliche Information zu Kanälen ist Information zu einem Kanal wie M/S-Stereo. Weitere zusätzliche Information ist Markierungsinformation dazu, ob M/S-Stereo eingesetzt ist oder nicht.
  • Bei der vorliegenden Ausführungsform führt die Bitverpackungseinheit 14 Differential-Kodieren von Huffman-Kodiermodellinformation und Quantisierungsfaktorinformation durch. Bei der Differential-Kodierung wird der Differentialwert eines Werts eines unmittelbar vorausgehenden Bands kodiert. Zusätzliche Information zu Kanälen wird Huffman-kodiert.
  • 5 ist ein Referenzschaubild zur genaueren Erläuterung eines Kodierverfahrens gemäß der vorliegenden Erfindung.
  • Mit Bezug zu 5 weisen zu kodierende quantisierte Abtastungen eine 3-schichtige Struktur auf. Ein schräg schraffiertes Rechteck gibt eine Spektrallinie an, die aus quantisierten Abtastungen gebildet ist, durchgezogene Linien geben Skalenbänder an und unterbrochene Linien geben Kodierbänder an. Skalenbänder (1), (2), (3), (4) und (5) und Kodier bänder (1), (2), (3), (4) und (5) gehören zu Schicht 0. Skalenbänder (5) und (6) und Kodierbänder (6), (7), (8), (9) und (10) gehören zu Schicht 1. Skalenbänder (6) und (7) und Kodierbänder (11), (12), (13), (14) und (15) gehören zu Schicht 2. Hierbei ist Schicht 0 so definiert, dass Kodierung bis zu einem Frequenzband (a) durchgeführt wird, Schicht 1 ist so definiert, dass Kodierung bis zu einem Frequenzband (b) durchgeführt wird und Schicht 2 ist so definiert, dass Kodierung bis zu einem Frequenzband (c) durchgeführt wird.
  • Zunächst werden quantisierte Abtastungen, die zu Schicht 0 gehören, mit einem Bitbereich von 100 unter Verwendung des entsprechenden Kodiermodells kodiert. Ebenso werden als zusätzliche Information von Schicht 0 die Skalenbänder (1), (2), (3), (4) und (5) und Kodierbänder (1), (2), (3), (4) und (5) kodiert, die zu Schicht 0 gehören. Während die quantisierten Abtastungen in Symboleinheiten kodiert werden, wird die Anzahl an Bits gezählt. Wenn die Anzahl an gezählten Bits den zulässigen Bitbereich übersteigt, wird die Kodierung der Schicht 0 gestoppt und Schicht 1 arithmetisch kodiert. Unter den quantisierten Abtastungen, die zu Schicht 0 gehören, werden unkodierte quantisierte Abtastungen als nächstes kodiert, wenn bei der Anzahl zulässiger Bits in den Schichten 0 und 1 noch Platz ist.
  • Danach werden quantisierte Abtastungen, die zu Schicht 1 gehören, unter Verwendung eines Kodiermodells von einem der zu Schicht 1 gehörenden Kodierbänder kodiert, das heißt den Kodierbändern (6), (7), (8), (9) und (10), denen die zu kodierenden quantisierten Abtastungen angehören. Ebenso werden als zusätzliche Information von Schicht 1 die Skalenbänder (5) und (6) und Kodierbänder (6), (7), (8), (9) und (10) kodiert, die zu Schicht 1 gehören. Wenn es selbst nach Kodieren aller der Schicht 1 entsprechenden Abtastungen im zulässigen Bitbereich, das heißt 100 Bits, noch Platz gibt, werden in Schicht 0 unkodiert verbliebene Bits kodiert, bis die zulässigen Bits, das heißt 100 Bits, gezählt sind. Wenn die Anzahl an gezählten Bits zum Kodieren den zulässigen Bitbereich übersteigt, wird die Kodierung von Schicht 1 gestoppt und die Kodierung von Schicht 2 begonnen.
  • Schließlich werden quantisierte Abtastungen, die zu Schicht 2 gehören, unter Verwendung eines Kodiermodells von einem der zu Schicht 2 gehörenden Kodierbänder kodiert, das heißt, den Kodierbändern (11), (12), (13), (14) und (15), denen die zu kodierenden quantisierten Abtastungen angehören. Ebenso werden als zusätzliche Information von Schicht 2 die Skalenbänder (6) und (7) und Kodierbänder (11), (12), (13), (14) und (15) kodiert, die zu Schicht 2 gehören. Wenn es selbst nach Kodieren aller der Schicht 2 entsprechenden Abtastungen im zulässigen Bitbereich, das heißt 100 Bits, noch Platz gibt, werden in Schicht 0 unkodiert verbliebene Bits kodiert, bis die zulässigen Bits, das heißt 100 Bits, gezählt sind.
  • Wenn alle quantisierten Abtastungen ohne Berücksichtigung eines zulässigen Bitbereichs für Schicht 0 kodiert sind, das heißt, wenn alle quantisierten Abtastungen kodiert sind, selbst nachdem die Anzahl an kodierten Bits den zulässigen Bitbereich, das heißt 100, übersteigt, was bedeutet, dass einige der Bits in einem zulässigen Bitbereich für die nächste Schicht, das heißt Schicht 1, zum Kodieren der aktuellen Schicht verwendet werden, ist es oft der Fall, dass quantisierte Abtastungen, die zu Schicht 1 gehören, nicht kodiert werden können. Daher können im Falle skalierbarer Dekodierung, wenn Dekodierung an Schichten im Bereich bis zu Schicht 1 durchgeführt wird, da alle quantisierten Abtastungen im Bereich bis zu einem vorgegebenen Frequenzband (b) entsprechend Schicht 1 nicht kodiert sind, dekodierte quantisierte Abtastungen bei Frequenzen unter (b) fluktuieren, was zu einem "Flattereffekt" führen kann, bei dem die Audioqualität beeinträchtigt sein kann.
  • Beim Bestimmen einer Mehrzahl von Schichten (Zielschichten) wird ein Bitbereich unter Berücksichtigung des Gesamtumfangs aller zu dekodierenden Audiodaten zugeordnet. Daher gibt es keine Möglichkeit, dass aufgrund eines Mangels im Bitbereich, in dem zu kodierende Bits angeordnet sind, keine Kodierung vorgenommen wird.
  • Während eine Dekodierung in umgekehrter Weise wie der Kodierprozess durchgeführt wird, wird die Anzahl an Bits gemäß dem zulässigen Bitbereich gezählt. Daher kann ein Punkt zum Dekodierungszeitpunkt einer bestimmten Schicht identifiziert werden.
  • 6 ist ein Referenzschaubild zur genaueren Erläuterung eines Kodierverfahrens gemäß der vorliegenden Erfindung.
  • Gemäß der vorliegenden Erfindung führt die Bitverpackungseinheit 14 Kodierung bei quantisierten Abtastungen, die jeder Schicht entsprechen, durch Bitebenenkodierung und Huffman-Kodierung durch. Eine Mehrzahl von quantisierten Abtastungen werden auf einer Bitebene abgebildet, so dass sie dann in binärer Form dargestellt werden, und in einem zulässigen Bitbereich für jede Schicht in einer Abfolge von einem mit MSBs gebildeten Symbol zu einem mit LSBs gebildeten Symbol kodiert. Wichtige Information auf einer Bitebene wird zuerst kodiert und relativ weniger wichtige Information wird später kodiert. Auf diese Weise werden eine Bitrate und ein Frequenzband, die jeder Schicht entsprechen, beim Kodierprozess festgelegt, so dass eine als "Flattereffekt" bezeichnete Verzerrung reduziert werden kann.
  • 6 stellt ein Beispiel einer Kodierung in dem Fall dar, bei dem die Anzahl an Bits von Symbolen, die aus MSBs bestehen, 4 oder weniger beträgt. Wenn quantisierte Abtastungen 9, 2, 4 und 0 auf einer Bitebene abgebildet werden, werden sie in binärer Form dargestellt, d. h. 1001b, 0010b, 0100b bzw. 0000b. Das heißt, bei der vorliegenden Ausfüh rungsform beträgt der Umfang eines Kodierblocks, der eine Kodiereinheit auf einer Bitebene ist, 4*4.
  • Ein mit den MSBs gebildetes Symbol, msb, ist "1000b", ein mit den nächsten MSBs gebildetes Symbol, msb-1, ist "0010b", ein mit den nächsten MSBs gebildetes Symbol, msb-2, ist "0100b" und ein mit den LSBs gebildetes Symbol, msb-3, ist "1000b".
  • Huffman-Modellinformation zur Huffman-Kodierung, das heißt ein Kodebuchindex, ist wie in Tabelle 1 dargestellt: Tabelle 1
    Zusätzliche Information Signifikanz Huffman-Modell
    0 0 0
    1 1 1
    2 1 2
    3 2 3
    4
    4 2 5
    6
    5 3 7
    8
    9
    6 3 10
    11
    12
    7 4 13
    14
    15
    16
    8 4 17
    18
    19
    20
    9 5 *
    10 6 *
    11 7 *
    12 8 *
    13 9 *
    14 10 *
    15 11 *
    16 12 *
    17 13 *
    18 14 *
    * * *
  • Gemäß Tabelle 1 gibt es selbst bei einer identischen Signifikanzstufe (msb bei der vorliegenden Ausführungsform) zwei Modelle. Dies liegt daran, dass zwei Modelle für quantisierte Abtastungen erzeugt werden, die unterschiedliche Verteilungen zeigen.
  • Ein Prozess zum Kodieren des Beispiels von 6 gemäß Tabelle 1 wird nun ausführlicher beschrieben.
  • In dem Fall, bei dem die Anzahl an Bits eines Symbols 4 oder weniger beträgt, ist Huffman-Kodierung gemäß der vorliegenden Erfindung wie in Gleichung 1 gezeigt: Huffman-Kodewert = Huffman-Kodebuch [Kodebuchindex][höhere Bitebene][Symbol] (1)
  • Das heißt, Huffman-Kodierung verwendet 3 Eingangsvariablen, darunter einen Kodebuchindex, eine höhere Bitebene und ein Symbol. Der Kodebuchindex gibt einen Wert an, der aus Tabelle 1 ermittelt ist, die höhere Bitebene gibt ein Symbol an, das unmittelbar über einem Symbol liegt, das derzeit auf einer Bitebene kodiert werden soll. Das Symbol gibt ein Symbol an, das derzeit kodiert werden soll.
  • Da das msb des Huffman-Modells im Beispiel von 6 4 beträgt, werden 13-16 oder 17-20 ausgewählt.
  • Wenn zu kodierende zusätzliche Information 8 ist,
    beträgt der Kodebuchindex eines mit msb Bits gebildeten Symbols 16,
    beträgt der Kodebuchindex eines mit msb-1 Bits gebildeten Symbols 15,
    beträgt der Kodebuchindex eines mit msb-2 Bits gebildeten Symbols 14
    und beträgt der Kodebuchindex eines mit msb-3 Bits gebildeten Symbols 13.
  • Da hierbei das mit msb Bits gebildete Symbol keine Daten einer höheren Bitebene aufweist, wird Kodierung mit einem Kode Huffman-Kodebuch [16][0b][1000b] durchgeführt, wenn der Wert der höheren Bitrate 0 ist. Da die höhere Bitebene des mit msb-1 Bits gebildeten Symbols 1000b ist, wird Kodierung mit einem Kode Huffman-Kodebuch [15][1000b][0010b] durchgeführt. Da die höhere Bitebene des mit msb-2 Bits gebildeten Symbols 0010b ist, wird Kodierung mit einem Kode Huffman-Kodebuch [14][0010b][0100b] durchgeführt. Da die höhere Bitebene des mit msb-3 Bits gebildeten Symbols 0100b ist, wird Kodierung mit einem Kode Huffman-Kodebuch [13][0100b][1000b] durchgeführt.
  • Die Bitverpackungseinheit 14 zählt die Anzahl an kodierten Bits, vergleicht die gezählte Anzahl mit der Anzahl an zur Verwendung in einer Schicht zulässigen Anzahl und, wenn die gezählte Anzahl größer ist als die zulässige Anzahl, wird die Kodierung gestoppt. Wenn in der nächsten Schicht Platz vorhanden ist, werden die verbliebenen Bits, die nicht kodiert sind, kodiert und in die nächste Schicht gesetzt. Wenn bei der Anzahl an zulässigen Bits in der Schicht noch Platz ist, nachdem quantisierte Abtastungen, die einer entsprechenden Schicht zugewiesen sind, alle kodiert sind, das heißt, wenn in der Schicht Platz ist, werden quantisierte Abtastungen kodiert, die nachdem Kodierung in der tieferen Schicht abgeschlossen ist, noch unkodiert sind.
  • Wenn hierbei die Anzahl an Bits eines mit msb gebildeten Symbols größer oder gleich 5 ist, wird unter Verwendung einer Lage auf der aktuellen Bitebene ein Huffman-Kodewert bestimmt. Mit anderen Worten, wenn die Signifikanz größer oder gleich 5 ist, gibt es wenig statistische Differenz bei Daten auf jeder Bitebene, wobei die Daten unter Verwendung des gleichen Huffman-Modells Huffman-kodiert werden. Das heißt, es gibt einen Huffman-Modus pro Bitebene.
  • Wenn die Signifikanz größer oder gleich 5 ist, das heißt, die Anzahl an Bits eines Symbols größer oder gleich 5 ist, erfüllt eine Huffman-Kodierung der vorliegenden Erfindung die Gleichung 2: Huffman-Kode = 20 + bpl 2wobei "bpl" einen Index einer Bitebene darstellt, die aktuell kodiert werden soll, und ist eine ganze Zahl größer oder gleich 1. Eine Konstante 20 ist ein Wert, der addiert wird, um anzugeben, dass ein Index bei 21 beginnt, weil der letzte Index der Huffman-Modelle, die einer zusätzlichen Anzahl 8 entspricht, 20 beträgt, wie in Tabelle 2 angegeben. Deshalb gibt zusätzliche Information für ein Kodierband einfach eine Signifikanz an. In Tabelle 2 werden Huffman-Modelle gemäß dem Index einer Bitebene bestimmt, bei der aktuell Kodierung gewünscht ist. Tabelle 2
    Zusätzliche Information Signifikanz Huffman-Modell
    9 5 21-25
    10 6 21-26
    11 7 21-27
    12 8 21-28
    13 9 21-29
    14 10 21-30
    15 11 21-31
    16 12 21-32
    17 13 21-33
    18 14 21-34
    19 15 21-35
  • Für Quantisierungsfaktorinformation und Huffman-Modellinformation in zusätzlicher Information wird eine DPCM bei einem Kodierband durchgeführt, das der Information entspricht. Wenn Quantisierungsfaktorinformation kodiert wird, wird der Anfangswert von DPCM durch 8 Bits in der Headerinformation eines Rahmens dargestellt. Der Anfangswert von DPCM für Huffman-Modellinformation ist auf 0 gesetzt.
  • Die Unterschiede zwischen dem Kodierverfahren gemäß der vorliegenden Erfindung und der BSAC-Technik aus dem Stand der Technik sind wie folgt. Erstens wird bei der BASC-Technik eine Kodierung in Biteinheiten durchgeführt, während Kodierung bei der vorliegenden Erfindung in Symboleinheiten durchgeführt wird. Zweitens wird bei der BASC-Technik arithmetisches Kodieren angewendet, während bei der vorliegenden Erfindung Huffman-Kodierung angewendet wird. Die arithmetische Kodierung ergibt einen höheren Kompressionsgewinn, erhöht aber Komplexität und Kosten. Dementsprechend werden bei der vorliegenden Erfindung Daten nicht in Biteinheiten, sondern in Symboleinheiten durch Huffman-Kodierung derart kodiert, dass Komplexität und Kosten sinken.
  • Zur Steuerung einer Bitrate, das heißt, zur Anwendung von Skalierbarkeit, wird ein einem Rahmen entsprechender Bitstrom abgeschnitten, wobei die Anzahl an Bits, die zur Verwendung in jeder Schicht zulässig sind, derart berücksichtigt wird, dass nur mit einer kleinen Datenmenge Dekodierung möglich ist. Wenn zum Beispiel nur ein Bitstrom entsprechend 48 kbps dekodiert werden soll, werden nur 1048 Bits eines Bitstroms verwendet, so dass dekodierte Audiodaten entsprechend 48 kbps erhalten werden können.
  • Die Verfahren zum Kodieren und Dekodieren gemäß der vorliegenden Erfindung basierend auf der oben beschriebenen Struktur werden nun erläutert.
  • Die Kodiereinrichtung liest PCM-Audiodaten, speichert die Daten in einem Speicher (nicht gezeigt) und ermittelt Maskierungsschwellen und zusätzliche Information aus den gespeicherten PCM-Audiodaten durch pseudoakustische Modellierung. Da die PCM-Audiodaten ein Zeitdomänensignal sind, erfahren die PCM-Audiodaten Wavelet-Transformation in ein Frequenzdomänensignal. Dann ermittelt die Kodiereinrichtung quantisierte Abtastungen durch Quantisieren des wavelet-transformierten Signals entsprechend Quantisierungsbandinformation und Quantisierungsfaktorinformation. Wie oben beschrieben, werden die quantisierten Abtastungen durch Bit-Slice-Kodierung, Kodierung auf Basis von Symboleinheiten und Huffman-Kodierung kodiert und verpackt.
  • 7 ist ein Flussbild zur Erläuterung eines Kodierverfahrens gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Mit Bezug zu 7 wird nun der Prozess erläutert, bei dem die Bitverpackungseinheit 14 der Kodiereinrichtung die quantisierten Abtastungen kodiert und verpackt.
  • Zunächst extrahiert die Bitverpackungseinheit 14 Information entsprechend jeder Schicht basierend auf einer vorgesehenen Zielbitrate und zusätzlicher Information. Dieser Prozess wird in Schritten 701 bis 703 durchgeführt. Im Detail wird in Schritt 701 eine Cutoff-Frequenz ermittelt, die eine Basis zum Cutoff in jeder Schicht ist, in Schritt 702 werden Quantisierungsbandinformation und Kodierbandinformation entsprechend jeder Schicht ermittelt und in Schritt 703 wird ein Bitbereich zugewiesen, in dem Bits, die kodiert werden sollen, in jeder Schicht kodiert werden können.
  • Dann wird in Schritt 704 ein Schichtindex als Basisschicht bestimmt und in Schritt 705 wird zusätzliche Information, die Quantisierungsbandinformation und Kodierbandinformation beinhaltet, kodiert.
  • Danach werden quantisierte Abtastungen entsprechend der Basisschicht auf einer Bitebene abgebildet und in Einheiten von 4*4 Blöcken aus dem mit msb Bits gebildeten Symbol in Schritt 706 kodiert. Die Anzahl an kodierten Bits wird in Schritt 707 gezählt und wenn die Anzahl den Bitbereich der aktuellen Schicht übersteigt, dann wird die Kodierung in der aktuellen Schicht gestoppt und die Kodierung beginnt in der nächsten Schicht. Wenn die gezählte Anzahl an Bits den Bitbereich in Schritt 707 nicht übersteigt, kehrt der Vorgang in Schritt 709 für die nächste Schicht zu Schritt 705 zurück. Da die Basisschicht keine tieferen Schichten aufweist, wird Schritt 708 nicht durchgeführt, aber Schritt 708 wird für Schichten durchgeführt, die nach der Basisschicht folgen. Durch die obigen Schritte werden alle Schichten nacheinander kodiert, bis die Zielschicht erreicht ist.
  • Schritt 706, das heißt, der Schritt zum Kodieren quantisierter Abtastungen ist wie folgt:
    • 1. Quantisierte Abtastungen entsprechend einer Schicht werden in Einheiten von N Abtastungen gruppiert und auf einer Bitebene abgebildet.
    • 2. Es wird Huffman-Kodierung von einem Symbol durchgeführt, das mit msb Bits abgebildeter binärer Daten gebildet ist. Unterschritt 2 kann detaillierter wie folgt erläutert werden:
    • 2.1 Ein skalarer Wert (curVal) entsprechend einem Symbol, dessen Kodierung gewünscht ist, wird ermittelt.
    • 2.2 Ein Huffman-Kode entsprechend einem skalaren Wert (upperVal), der einem Symbol in einer höheren Bitebene entspricht, das heißt einem Symbol, das an einer höheren Stelle im Bitstrom liegt als die Lage des Symbols, dessen Kodierung aktuell gewünscht ist, wird ermittelt.
  • Für Quantisierungsfaktorinformation und Huffman-Modellinformation in zusätzlicher Information wird eine DPCM an einem Kodierband durchgeführt, das der Information entspricht. Wenn Quantisierungsfaktorinformation kodiert wird, wird der Anfangswert der DPCM durch 8 Bits in der Headerinformation eines Rahmens dargestellt. Der Anfangswert der DPCM für Huffman-Modellinformation ist auf 0 gesetzt.
  • 8 ist ein Flussbild zur Erläuterung eines Dekodierverfahrens gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Mit Bezug zu 8 empfängt die Dekodiereinrichtung einen Bitstrom, der mit Audiodaten gebildet ist, die in einer Schichtstruktur kodiert sind, und dekodiert Headerinformation in jedem Rahmen. Dann wird in Schritt 801 zusätzliche Information, die Skalenfaktorinformation und Kodiermodellinformation entsprechend einer ersten Schicht enthält, dekodiert. Mit Bezug zur Kodiermodellinformation werden in Schritt 802 quantisierte Abtastungen durch Dekodieren des Bitstroms in Symboleinheiten in ei ner Reihenfolge von einem mit MSB Bits gebildeten Symbol zu einem mit LSB Bits gebildeten Symbol ermittelt. Die ermittelten quantisierten Abtastungen werden in Schritt 803 mit Bezug zur Skalenfaktorinformation invers quantisiert und die invers quantisierten Abtastungen werden in Schritt 804 invers transformiert. Die Schritte 801 bis 804 werden wiederholt durchgeführt, bis die Dekodierung zu einer vorgegebenen Zielschicht beendet ist, wobei die jeder Schicht hinzugezählte Ordnungszahl jedes Mal um Eins erhöht wird.
  • 9 ist ein Flussbild zur Erläuterung eines Dekodierverfahrens gemäß einer weiteren bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Mit Bezug zu 9 wird ein mit Audiodaten gebildeter Bitstrom empfangen, der in einer Schichtstruktur kodiert ist, und in Schritt 901 wird eine Cutoff-Frequenz entsprechend jeder Schicht aus Headerinformation in jedem Rahmen dekodiert. In Schritt 902 werden Quantisierungsbandinformation und Kodierbandinformation entsprechend jeder Schicht aus der Headerinformation durch Dekodieren identifiziert. In Schritt 903 wird ein zulässiger Bitbereich, der für jede Schicht zu verwenden ist, identifiziert. In Schritt 904 wird ein Schichtindex als Basisschicht gesetzt. Zusätzliche Information zur Basisschicht wird in Schritt 905 dekodiert, und quantisierte Abtastungen werden in Schritt 906 durch Dekodieren des Bitstroms in Symboleinheiten im in jeder Schicht zulässigen Bitbereich in einer Reihefolge von einem mit MSB Bits gebildeten Symbol zu einem LCB Bits gebildeten Symbol ermittelt. In Schritt 907 wird geprüft, ob die aktuelle Schicht die letzte ist. Die Schritte 905 und 906 werden an Schichten wiederholt durchgeführt, bis eine vorgegebene Zielschicht erreicht ist, wobei die Anzahl einer Schicht jeweils um eins erhöht wird. In den Schritten 901 bis 903 kann die Dekodiereinrichtung im voraus Cutoff-Frequenz, Quantisierungsbandinforamtion, Kodierbandinformation und Bitbereich aufweisen, statt diese Informationen aus in jedem Rah men des empfangenen Bitstroms gespeicherter Headerinformation zu ermitteln. In diesem Fall ermittelt die Dekodiereinrichtung die Information durch Lesen der gespeicherten Information.
  • Gemäß der vorliegenden Erfindung, wie sie oben beschrieben ist, wird durch Kodieren der Bits in Symboleinheiten nach Durchführen des Bitslicing, Skalierbarkeit, mit der eine Bitrate nach einem Top-Down-Prinzip gesteuert werden kann, derart bereitgestellt, dass der Umfang der Berechnungen der Kodiereinrichtung nicht viel höher ist als bei einer Einrichtung, die keine Skalierbarkeit vorsieht. Das heißt, gemäß der vorliegenden Erfindung werden ein Verfahren und eine Vorrichtung zum Kodieren/Dekodieren von Audiodaten mit Skalierbarkeit zur Verfügung gestellt, bei denen die Komplexität geringer ist, während FGS selbst in einer tieferen Schicht vorgesehen sein kann.
  • Außerdem reduziert die Kodier-/Dekodiereinrichtung der vorliegenden Erfindung unter Verwendung der Huffman-Kodierung im Vergleich zur MPEG-4 Audio BSAC-Technik mit arithmetischer Kodierung, den Rechenaufwand in den Prozessen zur Bitverpackung/-entpackung bis auf ein Achtel dessen der BSAC-Technik. Selbst wenn eine Bitverpackung gemäß der vorliegenden Erfindung zur Bereitstellung von FGS durchgeführt wird, ist der Aufwand so gering, dass der Kodiergewinn zu dem Fall vergleichbar ist, bei dem keine Skalierbarkeit vorgesehen ist.
  • Ebenso ist, da die Vorrichtung gemäß der vorliegenden Erfindung eine Schichtstruktur aufweist, der Prozess zum Regenerieren eines Bitstroms so, dass eine Serverseite die Bitrate sehr einfach steuern kann, und dementsprechend ist die Komplexität einer Vorrichtung zur Transformationskodierung gering.
  • Wenn ein Audiostrom durch ein Netzwerk übertragen wird, kann eine Übertragungsbitrate entsprechend der Wahl eines Benutzers oder der Netzwerkbedingungen derart gesteuert werden, dass konstante Dienste bereitgestellt werden können.
  • Wenn ferner der Audiostrom in einem Informationsspeichermedium mit einer beschränkten Kapazität gespeichert wird, kann der Umfang einer Datei beliebig gesteuert und gespeichert werden. Wenn eine Bitrate niedrig wird, wird das Band eingeschränkt. Dementsprechend nimmt die Komplexität eines Filters, der den größten Teil der Komplexität einer Kodier-/Dekodiereinrichtung ausmacht, stark ab und die tatsächliche Komplexität der Kodier-/Dekodiereinrichtung nimmt umgekehrt proportional zur Bitrate ab.

Claims (9)

  1. Kodierverfahren umfassend: Slicing von Audiodaten, so dass geslicte Audiodaten einer Mehrzahl von Schichten entsprechen; und Ermitteln (702) von Skalenbandinformation, die einen Skalenfaktor für jedes von mindestens einem Skalenfrequenzband definiert; und Kodieren jeder der Mehrzahl von Schichten, beginnend mit einer ersten Schicht und dann erhöhen der Ordnungszahl jeweils um eins, bis die Kodierung für die Mehrzahl von Schichten abgeschlossen ist, wobei das Kodieren einer Schicht umfasst: Kodieren (705) zusätzlicher Information, die Skalenfaktorinformation basierend auf der Skalenbandinformation für jedes Skalenfrequenzband der Schicht und Kodiermodellinformation entsprechend der Schicht enthält; und Ermitteln quantisierter Abtastungen durch Quantisieren von Audiodaten entsprechend der Schicht mit Bezug zur Skalenfaktorinformation; und Kodieren (706) der ermittelten Mehrzahl von quantisierten Abtastungen; gekennzeichnet durch Ermitteln von Kodierbandinformation, die die Kodiermodellinformation für eine Mehrzahl von Kodierbändern definiert, entsprechend jeder der Mehrzahl von Schichten, wobei die Kodiermodellinformation Huffman-Kodiermodellinformation ist; wobei der Schritt zum Kodieren (706) der ermittelten Mehrzahl von quantisierten Abtastungen Huffman-Kodierung der ermittelten Mehrzahl von quantisierten Abtastungen in Symboleinheiten, in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits der quantisierten Abtastungen gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, mit Bezug zur Kodiermodellinformation beinhaltet; wobei die Huffman-Kodierung der Mehrzahl von quantisierten Abtastungen umfasst: Abbilden einer Mehrzahl K von quantisierten Abtastungen auf eine Bitebene, wobei K eine ganze Zahl ist; und Kodieren (706) der Abtastungen in Symboleinheiten in einem Bitbereich, der in einer Schicht zulässig ist, entsprechend den Abtastungen in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, indem ein skalarer Wert ermittelt wird, der dem aus K-Bit Binärdaten gebildeten Symbol entspricht, und Durchführen einer Huffman-Kodierung durch Bezug auf die K-Bit Binärdaten, den ermittelten skalaren Wert und einen skalaren Wert, der einem Symbol entspricht, das aus Bits höherer Signifikanz als ein aktuelles Symbol auf der Bitebene gebildet ist.
  2. Verfahren nach Anspruch 1, ferner umfassend, vor dem Kodieren jeder der Mehrzahl von Schichten, Ermitteln (703) eines Bitbereiches, der in jeder der Mehrzahl von Schichten zulässig ist, wobei beim Kodieren der ermittelten Mehrzahl von quantisierten Abtastungen die Anzahl an kodierten Bits gezählt wird, und wenn die Anzahl an gezählten Bits einen den Bits entsprechenden Bitbereich übersteigt, Stoppen der Kodierung (707), und wenn die Anzahl an gezählten Bits kleiner ist als der den Bits entsprechende Bitbereich, selbst nachdem die quantisierten Bits alle kodiert sind, Kodieren (708) von nach Abschluss des Kodierens in einer tieferen Schicht unkodiert verbleibender Bits in einem Umfang, den der Bitbereich erlaubt.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Slicing von Audiodaten umfasst: Durchführen einer Wavelet-Transformation von Audiodaten; und Slicing der wavelet-transformierten Daten durch Bezug auf eine Cutoff-Frequenz, so dass die geslicten Daten der Mehrzahl von Schichten entsprechen.
  4. Verfahren zum Dekodieren von Audiodaten, die in einer Schichtstruktur kodiert sind, mit Skalierbarkeit, umfassend Dekodieren jeder einer bestimmten Mehrzahl von Schichten, beginnend mit einer ersten Schicht und dann Erhöhen der Ordnungszahl jeweils um eins, bis die Dekodierung für die be stimmte Mehrzahl von Schichten abgeschlossen ist, wobei das Dekodieren einer Schicht umfasst: Differential-Dekodieren (902) von zusätzlicher Information, die Skalenfaktorinformation, die einen Skalenfaktor für jedes von mindestens einem Skalenfrequenzband für jede Schicht definiert, und Huffman-Kodiermodellinformation entsprechend der Schicht enthält; Huffman-Dekodieren (906) von Audiodaten in Symboleinheiten in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, und Ermitteln quantisierter Abtastungen durch Bezug auf die Kodiermodellinformation; inverses Quantisieren der ermittelten quantisierten Abtastungen mit Bezug zur Skalenfaktorinformation; inverse modifizierte diskrete Cosinus-Transformation der invers quantisierten Abtastungen; wobei das Huffman-Dekodieren von Audiodaten umfasst: Dekodieren von Audiodaten in Symboleinheiten in einem Bitbereich, der in einer Schicht zulässig ist, die den Audiodaten entspricht, in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist; und Ermitteln quantisierter Abtastungen aus einer Bitebene, auf der dekodierte Symbole angeordnet sind; und wobei beim Dekodieren von Audiodaten eine aus dekodierten Symbolen gebildete 4*K-Bitebene ermittelt wird, und beim Ermitteln quantisierter Abtastungen K quantisierte Abtastungen aus der 4*K-Bitebene ermittelt werden, wobei K eine ganze Zahl ist.
  5. Vorrichtung zum Dekodieren von Audiodaten, die in einer Schichtstruktur kodiert sind, mit Skalierbarkeit, umfassend: eine Entpackungseinheit (21); eine inverse Quantisierungseinheit (72), die so ausgebildet ist, dass sie ermittelte quantisierte Abtastungen mit Bezug zu einer Skalenfaktorinformation invers quantisiert; und eine inverse Transformationseinheit (23), die so ausgebildet ist, dass sie die invers quantisierten Abtastungen invers transformiert; dadurch gekennzeichnet, dass die Entpackungseinheit (21) so ausgebildet ist, dass sie zusätzliche Information dekodiert, die Skalenfaktorinformation, die einen Skalenfaktor für jedes von mindestens einem Skalenfrequenzband für jede Schicht definiert, und Huffman-Kodiermodellinformation entsprechend jeder Schicht enthält, und mit Bezug zur Kodiermodellinformation Audiodaten in Symboleinheiten in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, dekodiert und die ermittelten quantisierten Abtastungen ermittelt; wobei die Entpackungseinheit (21) so ausgebildet ist, dass sie Audiodaten in Symboleinheiten in einem in einer Schicht zulässigen Bitbereich entsprechend den Audiodaten in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, dekodiert und die quantisierten Abtastungen aus einer Bitebene ermittelt, auf der dekodierte Symbole angeordnet sind; und wobei die Entpackungseinheit (21) so ausgebildet ist, dass sie eine 4*K-Bitebene ermittelt, die aus dekodierten Symbolen gebildet ist, und dann K quantisierte Abtastungen aus der 4*K-Bitebene ermittelt, wobei K eine ganze Zahl ist.
  6. Vorrichtung zum Kodieren von Audiodaten in einer Schichtstruktur, mit Skalierbarkeit, umfassend: eine Transformationseinheit (11), die so ausgebildet ist, dass sie die Audiodaten MDCT-transformiert; eine Quantisierungseinheit (13), die so ausgebildet ist, dass sie die MDCT-transformierten Audiodaten entsprechend jeder Schicht mit Bezug zu einer Skalenfaktorinformation, die einen Skalenfaktor für jedes von mindestens einem Frequenzband definiert, quantisiert und die quantisierten Abtastungen ausgibt; gekennzeichnet durch eine Verpackungseinheit (14), die so ausgebildet ist, dass sie zusätzliche Information differential-kodiert, die Skalenfaktorinformation und Huffman-Kodiermodellinformation enthält, die jeder Schicht entspricht, und die Mehrzahl von quantisierten Abtastungen von der Quantisierungseinheit in Symboleinheiten in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, mit Bezug zur Kodiermodellinformation Huffman-kodiert; wobei die Verpackungseinheit (14), so ausgebildet ist, dass sie eine Mehrzahl K von quantisierten Abtastungen auf eine Bitebene abbildet, wobei K eine ganze Zahl ist, und die Abtastungen in Symboleinheiten in einem in einer Schicht zulässigen Bitbereich entsprechend den Abtastungen in einer Reihenfolge von einem Symbol, das aus den signifikantesten Bits gebildet ist, zu einem Symbol, das aus den am wenigsten signifikanten Bits gebildet ist, kodiert, so dass ein skalarer Wert ermittelt wird, der dem aus K-Bit Binärdaten gebildeten Symbol entspricht, und dann eine Huffman-Kodierung mit Bezug zu den K-Bit Binärdaten, dem ermittelten skalaren Wert und einem skalaren Wert durchführt, der einem Symbol entspricht, das aus Bits höherer Signifikanz als ein aktuelles Symbol auf der Bitebene gebildet ist.
  7. Vorrichtung nach Anspruch 6, wobei die Verpackungseinheit (14), so ausgebildet ist, dass sie Skalenbandinformation und Kodierbandinformation entsprechend jeder der Mehrzahl von Schichten ermittelt und zusätzliche Information kodiert, die Skalenfaktorinformation und Kodiermodellinformation basierend auf Skalenbandinformation und Kodierbandinformation entsprechend jeder Schicht enthält.
  8. Vorrichtung nach Anspruch 6 oder 7, wobei die Verpackungseinheit (14), so ausgebildet ist, dass sie die Anzahl an kodierten Bits zählt, und wenn die Anzahl an gezählten Bits einen den Bits entsprechenden Bitbereich übersteigt, die Kodierung stoppt, und wenn die Anzahl an gezählten Bits kleiner ist als der den Bits entsprechende Bitbereich, selbst nachdem die quantisierten Bits alle kodiert sind, nach Abschluss des Kodierens in einer tieferen Schicht unkodiert verbleibende Bits in einem Umfang kodiert, den der Bitbereich erlaubt.
  9. Vorrichtung nach einem der Ansprüche 6 bis 8, wobei die Verpackungseinheit (14), so ausgebildet ist, dass sie die MDCT-transformierten Daten mit Bezug zu einer Cutoff-Frequenz slict, so dass die geslicten Daten der Mehrzahl an Schichten entsprechen.
DE60316099T 2002-12-16 2003-12-16 Verfahren und Vorrichtung zur Codierung/Dekodierung von Audiodaten mit Skalierbarkeit Expired - Lifetime DE60316099T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR2002080320 2002-12-16
KR1020020080320A KR100908117B1 (ko) 2002-12-16 2002-12-16 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치

Publications (2)

Publication Number Publication Date
DE60316099D1 DE60316099D1 (de) 2007-10-18
DE60316099T2 true DE60316099T2 (de) 2008-05-29

Family

ID=32388327

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60316099T Expired - Lifetime DE60316099T2 (de) 2002-12-16 2003-12-16 Verfahren und Vorrichtung zur Codierung/Dekodierung von Audiodaten mit Skalierbarkeit

Country Status (6)

Country Link
US (2) US8046234B2 (de)
EP (1) EP1431963B1 (de)
JP (1) JP4056466B2 (de)
KR (1) KR100908117B1 (de)
CN (1) CN1525436B (de)
DE (1) DE60316099T2 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
KR101015497B1 (ko) * 2003-03-22 2011-02-16 삼성전자주식회사 디지털 데이터의 부호화/복호화 방법 및 장치
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
KR20070037945A (ko) * 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
KR100793287B1 (ko) * 2006-01-26 2008-01-10 주식회사 코아로직 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법
EP1991986B1 (de) * 2006-03-07 2019-07-31 Telefonaktiebolaget LM Ericsson (publ) Verfahren und anordnungen zur audiokodierung
US8306827B2 (en) 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
KR101322392B1 (ko) * 2006-06-16 2013-10-29 삼성전자주식회사 스케일러블 코덱의 부호화 및 복호화 방법 및 장치
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US8010370B2 (en) * 2006-07-28 2011-08-30 Apple Inc. Bitrate control for perceptual coding
US20100114581A1 (en) * 2006-10-06 2010-05-06 Te Li Method for encoding, method for decoding, encoder, decoder and computer program products
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR100988010B1 (ko) * 2008-04-23 2010-10-18 (주)휴맥스 결정 비트를 이용한 부호화/복호화 방법 및 장치
KR101563555B1 (ko) * 2007-12-10 2015-10-27 오렌지 디지털 오디오 바이너리 프레임 내의 바이너리 에러들의 프로세싱
EP2237269B1 (de) * 2009-04-01 2013-02-20 Motorola Mobility LLC Vorrichtung und Verfahren zur Verarbeitung eines enkodierten Audiodatensignals
US8965545B2 (en) * 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio
WO2014005327A1 (zh) * 2012-07-06 2014-01-09 深圳广晟信源技术有限公司 对多声道数字音频编码的方法
EP2875510A4 (de) * 2012-07-19 2016-04-13 Nokia Technologies Oy Stereotonsignalcodierer
CN106409300B (zh) 2014-03-19 2019-12-24 华为技术有限公司 用于信号处理的方法和装置
EP3324407A1 (de) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Vorrichtung und verfahren zur dekomposition eines audiosignals unter verwendung eines verhältnisses als eine eigenschaftscharakteristik
EP3324406A1 (de) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Vorrichtung und verfahren zur zerlegung eines audiosignals mithilfe eines variablen schwellenwerts

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (de) * 1992-03-02 1993-11-03 AT&T Corp. Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
JP2001134294A (ja) 1999-11-10 2001-05-18 Toshiba Corp オーディオ信号のビットストリームの処理方法及び処理装置
JP3609323B2 (ja) 2000-05-08 2005-01-12 日本電信電話株式会社 楽音符号化方法および楽音復号化方法、符号生成方法およびこれらの方法を実行するプログラムを記録した記録媒体
US7395209B1 (en) * 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
JP2002156998A (ja) * 2000-11-16 2002-05-31 Toshiba Corp オーディオ信号のビットストリーム処理方法、この処理方法を記録した記録媒体、及び処理装置
AUPR192700A0 (en) * 2000-12-06 2001-01-04 Canon Kabushiki Kaisha Storing coding image data in storage of fixed memory size

Also Published As

Publication number Publication date
US20120101825A1 (en) 2012-04-26
CN1525436B (zh) 2010-05-26
US8046234B2 (en) 2011-10-25
CN1525436A (zh) 2004-09-01
US20040181394A1 (en) 2004-09-16
EP1431963B1 (de) 2007-09-05
EP1431963A1 (de) 2004-06-23
KR20040053865A (ko) 2004-06-25
JP2004199064A (ja) 2004-07-15
JP4056466B2 (ja) 2008-03-05
DE60316099D1 (de) 2007-10-18
KR100908117B1 (ko) 2009-07-16

Similar Documents

Publication Publication Date Title
DE60316099T2 (de) Verfahren und Vorrichtung zur Codierung/Dekodierung von Audiodaten mit Skalierbarkeit
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE60313332T2 (de) Audiocodierung mit niedriger bitrate
DE69732761T2 (de) Verfahren und Vorrichtung zur kalkulierbaren Audiocodierung bzw.-decodie- rung
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE69834010T2 (de) Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE69431025T2 (de) Signalkodier- oder -dekodiergerät und Aufzeichnungsmedium
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE69901273T2 (de) Verfahren zur Codierung und Quantisierung von Audiosignalen
DE69933119T2 (de) Verfahren und vorrichtung zur maskierung des quantisierungsrauschens von audiosignalen
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE69329796T2 (de) Verfahren zur kodierung, dekodierung und kompression von audiodaten
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE19959156C2 (de) Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
DE60303346T2 (de) Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu

Legal Events

Date Code Title Description
8364 No opposition during term of opposition