DE60313332T2

DE60313332T2 - Audiocodierung mit niedriger bitrate

Info

Publication number: DE60313332T2
Application number: DE60313332T
Authority: DE
Inventors: Mark Stuart San Francisco VINTON; Michael Mead San Francisco TRUMAN
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2002-07-16
Filing date: 2003-07-08
Publication date: 2008-01-03
Anticipated expiration: 2023-07-09
Also published as: KR101019678B1; CN1669072A; AU2003253854A1; TWI315944B; PL207862B1; MY137149A; HK1073916A1; DE60313332D1; AU2003253854B2; TW200406096A; EP1537562A1; JP4786903B2; CA2492647A1; IL165869A; WO2004008436A1; CN100367348C; IL165869A0; EP1537562B1; US20040015349A1; CA2492647C

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft allgemein digitale Audiocodiersysteme und -verfahren und betrifft insbesondere das Verbessern der Wahrnehmungsqualität der aus Niedrigstbitraten-Audiocodiersystemen und -verfahren gewonnenen Audiosignale.
STAND DER TECHNIK
Audiocodiersysteme werden verwendet, um ein Audiosignal in ein codiertes Signal, welches sich zur Übertragung oder Speicherung eignet, zu codieren und anschließend das codierte Signal zu empfangen oder wiederzugewinnen und es zu decodieren, um eine Version des ursprünglichen Audiosignals zur Wiedergabe zu gewinnen. Wahrnehmungsgemäße Audiocodiersysteme versuchen, ein Audiosignal in ein codiertes Signal zu codieren, welches niedrigere Anforderungen hinsichtlich des Informationsgehalts aufweist als das ursprüngliche Audiosignal, und anschließend das codierte Signal zu decodieren, um einen Ausgang zu liefern, welcher in der Wahrnehmung nicht vom ursprünglichen Audiosignal zu unterscheiden ist. Ein Beispiel eines wahrnehmungsgemäßen Audiocodierverfahrens ist in Bosi et al., "ISO/IEC MPEG-2 Advanced Audio Coding" J. AES, Vol. 45, Nr. 10, Oktober 1997, S. 789-814 beschrieben, welches als "Advanced Audio Coding" (AAC) bezeichnet wird.
Wahrnehmungsgemäße Codierverfahren wie AAC wenden eine Analyse-Filterbank auf ein Audiosignal an, um digitale Signalkomponenten zu gewinnen, welche typischerweise ein hohes Genauigkeitsniveau in der Größenordnung von 16-24 Bit haben und in Frequenz-Teilbänder eingeteilt sind. Die Teilbandbreiten variieren typischerweise und entsprechen gewöhnlich den Breiten der sogenannten kritischen Bänder des menschlichen Gehörs. Die Anforderungen hinsichtlich des Informationsgehalts des Signals werden durch Quantisieren der Teilbandsignalkomponenten auf ein viel niedrigeres Genauigkeitsniveau gesenkt. Außerdem können die quantisierten Komponenten auch durch einen Entropiecodierungsprozess wie Huffman-Codierung codiert werden. Quantisierung führt Rauschen in die quantisierten Signale ein, aber wahrnehmungsgemäße Audiocodiersysteme verwenden psychoakustische Modelle in dem Bestreben, die Amplitude des Quantisierungsrauschens zu regulieren, so dass es durch Spektralkomponenten im Signal maskiert oder unhörbar gemacht wird. Eine ungenaue Kopie der Teilbandsignal-Komponenten wird durch komplementäre Entropiedecodierung und Dequantisierung aus dem codierten Signal gewonnen.
Das Ziel bei vielen herkömmlichen wahrnehmungsgemäßen Codiersystemen ist, auf eine optimale oder so annähernd wie praktisch möglich optimale Weise die Teilbandsignal-Komponenten zu quantisieren und einen Entropiecodierungsprozess auf die quantisierten Signalkomponenten anzuwenden. Sowohl Quantisierung als auch Entropiecodierung sind gewöhnlich dafür ausgelegt, mit so viel mathematischer Effizienz wie möglich zu arbeiten.
Die Ausführung eines optimalen oder annähernd optimalen Quantisierers hängt von statistischen Eigenschaften der zu quantisierenden Signalkomponentenwerte ab. In einem wahrnehmungsgemäßen Codiersystem, welches eine Transformation verwendet, um die Analyse-Filterbank zu implementieren, werden die Signalkomponentenwerte aus in Frequenz-Teilbänder eingeordneten Frequenzbereichs-Transformationskoeffizienten abgeleitet und dann bezüglich der Komponente mit der größten Größe in jedem Teilband normalisiert oder skaliert. Ein Beispiel einer Skalierung ist ein als Blockkompandieren bekannter Prozess. Die Anzahl der Koeffizienten, welche in jedes Teilband eingeordnet werden, nimmt typischerweise mit der Teilbandfrequenz zu, so dass die Teilbandbreiten den kritischen Bandbreiten des menschlichen Gehörs nahekommen. Psychoakustische Modelle und Bitzuteilungsprozesse bestimmen das Maß an Skalierung für jedes Teilbandsignal. Einordnen und Skalieren verändern die statistischen Eigenschaften der zu quantisierenden Signalkomponentenwerte; deshalb wird die Quantisierungseffizienz im allgemeinen für die Eigenschaften der eingeordneten und skalierten Signalkomponenten optimiert.
In typischen wahrnehmungsgemäßen Codiersystemen wie dem oben erwähnten AAC-System neigen die breiteren Teilbänder dazu, wenige dominierende Teilbandsignalkomponenten mit einer relativ großen Größe und viel mehr unbedeutendere Signalkomponenten mit signifikant kleineren Größen zu haben. Ein gleichförmiger Quantisierer quantisiert eine solche Verteilung von Werten nicht mit hoher Effizienz. Die Quantisierereffizienz lässt sich durch Quantisieren der kleineren Signalkomponenten mit höherer Genauigkeit und durch Quantisieren der größeren Signalkomponenten mit geringerer Genauigkeit steigern. Dies geschieht häufig mittels eines komprimierenden Quantisierers wie eines μ-law- oder A-Iaw-Quantisierers. Ein komprimierender Quantisierer kann durch einen Kompressor, gefolgt von einem gleichförmigen Quantisierer, implementiert sein, oder er kann durch einen nicht-gleichförmigen Quantisierer, welcher dem Zwei-Schritte-Prozess gleichwertig ist, implementiert sein. Ein expandierender Dequantisierer wird verwendet, um die Effekte des komprimierenden Quantisierers umzukehren. Ein expandierender Dequantisierer bewirkt eine Expansion, welche im wesentlichen die Inverse der im komprimierenden Quantisierer bewirkten Kompression ist.
Ein komprimierender Quantisierer bewirkt im allgemeinen vorteilhafte Ergebnisse in wahrnehmungsgemäßen Audiocodiersystemen, welche alle Signalkomponenten mit einem Quantisierungsgenauigkeitsniveau darstellen, welches im wesentlichen gleich der oder größer als die durch ein psychoakustisches Modell als zum Maskieren des Quantisierungsrauschens erforderlich spezifizierte Genauigkeit ist. Kompression verbessert die Quantisierungseffizienz im allgemeinen, indem sie die Signalkomponentenwerte gleichförmiger innerhalb des Eingangsbereichs des Quantisierers umverteilt.
Niedrigstbitraten- ("Very-Low-Bit-Rate-") (VLBR-) Audiocodiersysteme können im allgemeinen nicht alle Signalkomponenten mit zum Maskieren des Quantisierungsrauschens ausreichender Quantisierungsgenauigkeit darstellen. Manche VLBR-Codiersysteme versuchen, ein Ausgangssignal mit einem hohen Niveau an wahrgenommener Qualität wiederzugeben, indem sie ein Basisbandsignal mit nur einem Teil der Bandbreite des Eingangssignals übertragen oder aufzeichnen und fehlende Teile der Signal-Bandbreite während der Wiedergabe durch Kopieren von Spektralkomponenten aus dem Basisbandsignal regenerieren. Dieses Verfahren wird manchmal als "Spektraltranslation" oder "Spektralregenerierung" bezeichnet. Die Erfinder haben beobachtet, dass komprimierende Quantisierer im allgemeinen keine vorteilhaften Ergebnisse liefern, wenn sie in VLBR-Codiersystemen wie denjenigen, welche Spektralregenerierung verwenden, zum Einsatz kommen.
Die Ausführung eines optimalen oder annähernd optimalen Codierers wie der in typischen Audiocodiersystemen verwendeten Codierer hängt von statistischen Eigenschaften der zu codierenden Werte ab. In typischen Systemen werden Gruppen von quantisierten Signalkomponenten durch einen Huffman-Codierprozess codiert, welcher ein oder mehrere Codebücher verwendet, um die quantisierten Signalkomponenten darstellende Codes variabler Länge zu erzeugen. Die kürzesten Codes werden verwendet, um diejenigen quantisierten Werte darzustellen, welche voraussichtlich am häufigsten auftreten werden. Jeder Code wird durch eine ganzzahlige Anzahl von Bits ausgedrückt.
Gute Ergebnisse liefert die Huffman-Codierung oft in Audiocodiersystemen, welche alle Signalkomponenten mit ausreichender Quantisierungsgenauigkeit darstellen können, um das Quantisierungsrauschen zu maskieren. Die Erfinder haben jedoch beobachtet, dass die Huffman-Codierung schwerwiegenden Beschränkungen unterliegt, welche sie zur Verwendung in vielen VLBR-Codiersystemen ungeeignet machen. Diese Beschränkungen werden unten erläutert.
EP 0 645 769 A2 beschreibt ein Codierverfahren, in welchem Spektralkomponenten eines Audiosignals als entweder tonal oder nicht-tonal klassifiziert werden. Die Klassifizierung jeder Spektralkomponente in einem Block von Komponenten berücksichtigt den Komponentenwert sowie den Wert benachbarter Komponenten und den Wert der maximalen Komponente in einem Block. Sie berücksichtigt außerdem die Energie benachbarter Komponenten im Vergleich zu einem voreingestellten Energieniveau. Ein zusätzlicher Prozess kann verwendet werden, um die Anzahl benachbarter Komponenten eines lokalen Maximums, welche ebenfalls als tonal klassifiziert werden, zu bestimmen. Alternativ kann eine feste Anzahl von Komponenten klassifiziert werden.
US 5,394,508 beschreibt ein Codierverfahren, bei welchem Spektralkomponenten eines Audiosignals in Frequenzbänder eingeteilt werden, die Komponente mit der größten Größe in jedem Band zur "Maßstabskomponente" ernannt wird, die Größe der Maßstabskomponente genau quantisiert wird und alle anderen Komponenten typischerweise weniger genau quantisiert werden.
DE 100 10 649 C1 offenbart die Codierung eines ursprünglichen Zeitsignals mittels Umwandlung aus dem Zeitbereich in den Frequenzbereich, um eine Vielzahl von Spektralkoeffizienten zu gewinnen. Mindestens zwei Spektralkoeffizienten oder mindestens zwei aus den Analyse-Spektralkoeffizienten durch Multiplikation eines Codierungsverstärkungsfaktors oder durch Multiplikation mit einer Kompressionsfunktion abgeleitete Spektralkoeffizienten werden eingeordnet. Dann wird, entsprechend der beim Quantisieren des Codierungsalgorithmus verwendeten Quantisierungs- Schrittweite oder einem ganzzahligen Vielfachen davon, der größte gemeinsame Teiler der Spektralkoeffizienten oder der aus den Analyse-Spektralkoeffizienten abgeleiteten Spektralkoeffizienten berechnet.
OFFENBARUNG DER ERFINDUNG
Eine Aufgabe der vorliegenden Erfindung ist, verbesserte Audiocodiersysteme und –verfahren bereitzustellen, welche die Nachteile der typischen, komprimierende Quantisierer und Entropiecodierung wie Huffman-Codierung verwendenden Audiocodierung überwinden.
Diese Aufgabe wird durch einen Audiocodierungs-Sender nach Anspruch 1, einen Audiodecodierungs-Empfänger nach Anspruch 8 und ein Medium nach den Ansprüchen 15 und 22 erfüllt.
Gemäß einem Aspekt der vorliegenden Erfindung enthält ein Audiocodierungs-Sender eine Analyse-Filterbank, welche eine Vielzahl von Frequenz-Teilbänder eines Audiosignals mit Teilbandsignalkomponenten darstellenden Teilbandsignalen erzeugt, einen mit der Analyse-Filterbank gekoppelten Quantisierer, welcher eines oder mehrere der Teilbandsignale quantisiert, um quantisierte Teilbandsignale für ein Teilbandsignal mit einer oder mehreren zweiten Teilbandsignalkomponenten, deren Größen kleiner als eine oder mehrere erste Teilbandsignalkomponenten sind, zu erzeugen, indem die zweiten Teilbandsignalkomponenten so in einen Wertebereich gedrängt werden, dass die zweiten Teilbandsignalwerte in weniger Quantisierungspegel quantisiert werden, als es ohne Drängen der Fall wäre, wodurch die Quantisierungsgenauigkeit und die Entropie der quantisierten zweiten Teilbandsignalkomponenten abnehmen, einen mit dem Quantisierer gekoppelten Codierer, welcher das eine oder die mehreren quantisierten Teilbandsignale mittels eines Entropiecodierprozesses codiert, und einen mit dem Codierer gekoppelten Formstierer, welcher codierte Teilbandsignale zu einem Ausgangssignal zusammensetzt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung enthält ein Audiodecodierungs-Empfänger einen Deformatierer, welcher ein oder mehrere codierte Teilbandsignale aus einem Eingangssignal gewinnt, einen mit dem Deformatierer gekoppelten Decodierer, welcher durch Decodieren codierter Teilbandsignale mittels eines Entropiedecodierprozesses ein oder mehrere decodierte Teilbandsignale erzeugt, einen mit dem Decodierer gekoppelten Dequantisierer, welcher Teilbandsignalkomponenten der decodierten Teilbandsignale dequantisiert, wobei der Dequantisierer komplementär zu einem Quantisierer ist, welcher für ein Teilbandsignal mit einer oder mehreren ersten Teilbandsignalkomponenten und einer oder mehreren zweiten Teilbandsignalkomponenten, deren Größen kleiner als die eine oder mehrere erste Teilbandsignalkomponenten sind, die zweiten Teilbandsignalkomponenten in einen Wertebereich drängt, um sie in weniger Quantisierungspegel zu quantisieren, als es ohne Drängen der Fall wäre, wodurch die Quantisierungsgenauigkeit und die Entropie der quantisierten zweiten Teilbandsignalkomponenten abnehmen, und eine mit dem Dequantisierer gekoppelte Synthese-Filterbank, welche in Reaktion auf das eine oder die mehreren dequantisierten Teilbandsignale ein Ausgangssignal erzeugt.
Die verschiedenen Merkmale der vorliegenden Erfindung und ihre bevorzugten Ausführungsformen werden anhand der folgenden Erörterung und der beigefügten Zeichnungen besser verständlich. Der Inhalt der folgenden Erörterung und der Zeichnungen dient nur als Beispiel und ist nicht dahingehend zu verstehen, dass er eine Begrenzung des Umfangs der vorliegenden Erfindung darstellt.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild eines Audiocodierungs-Senders.
2 ist ein Blockschaltbild eines Audiodecodierungs-Empfängers.
3 ist eine grafische Darstellung von Kompression und Expansion hypothetischer Teilbandsignalkomponenten.
4A–4Csind grafische Darstellungen der Quantisierung der in 3 gezeigten Teilbandsignalkomponenten.
5 ist eine grafische Darstellung einer komprimierenden Quantisierungsfunktion.
6 ist eine grafische Darstellung einer Kompressionsfunktion.
7 ist eine grafische Darstellung einer gleichförmigen Quantisierungsfunktion.
8 ist eine grafische Darstellung einer Expansionsfunktion.
9 ist eine grafische Darstellung einer expandierenden Quantisierungsfunktion.
10 ist eine grafische Darstellung einer expandierenden/komprimierenden Quantisierungsfunktion.
11 ist eine grafische Darstellung von arithmetischer Codierung.
12 ist ein Blockschaltbild einer Vorrichtung, welche verwendet werden kann, um verschiedene Aspekte der vorliegenden Erfindung zu implementieren.
AUSFÜHRUNGSWEISEN DER ERFINDUNG
A. Sender
1. Überblick
1 veranschaulicht eine Implementierung eines Audiocodierungs-Senders, welche verschiedene Aspekte der vorliegenden Erfindung enthalten kann. In dieser Implementierung empfängt Analyse- Filterbank 12 vom Weg 11 ein Audiosignal darstellende Audioinformationen und liefert als Reaktion digitale Informationen, welche Frequenz-Teilbänder des Audiosignals darstellen. Die digitalen Informationen in jedem der Frequenz-Teilbänder werden durch einen jeweiligen Quantisierer 14, 15, 16 quantisiert und an den Codierer 17 weitergeleitet. Der Codierer 17 erzeugt eine codierte Darstellung der quantisierten Informationen, welche an den Formstierer 18 weitergeleitet wird. In einer Implementierung werden die Quantisierungsfunktionen in den Quantisierern 14, 15, 16 in Reaktion auf von der Quantisierer-Steuereinrichtung 13, welche die Quantisierungs-Steuerinformationen in Reaktion auf die vom Weg 11 empfangenen Audioinformationen erzeugt, empfangene Quantisierungs-Steuerinformationen angepasst. Der Formstierer 18 setzt die codierte Darstellung der quantisierten Informationen und die Quantisierungs-Steuerinformationen zu einem Ausgangssignal zusammen, welches sich zur Übertragung oder Speicherung eignet, und leitet das Ausgangssignal auf Weg 19 weiter.
Der in 1 veranschaulichte Sender weist Komponenten für drei Frequenz-Teilbänder auf. In einer typischen Anwendung werden viel mehr Teilbänder verwendet, aber zur besseren Verdeutlichung sind nur drei gezeigt. Im Prinzip ist keine bestimmte Anzahl für die vorliegende Erfindung von Belang.
Die Analyse-Filterbank 12 kann auf im wesentlichen jede beliebige gewünschte Weise einschließlich einer breiten Palette von Digitalfiltertechniken, Blocktransformationen und Wavelet-Transformationen implementiert sein. Zum Beispiel kann die Analyse-Filterbank 12 durch einen oder mehrere Quadraturspiegelfilter ("Quadrature Mirror Filters") (QMF) in Kaskade, verschiedene diskrete Fourier-Transformationen wie die Diskrete Cosinustransformation (DCT) oder eine bestimmte, als "Time-Domain-Aliasing-Cancellation-" (TDAC-) Transformation bekannte modifizierte DCT, welche in Princen et al., "Subband/Transform Coding Using Filter Bank Designs Based an Time Domain Aliasing Cancellation", ICASSP 1987 Conf. Proc., Mai 1987, S. 2161-64 beschrieben ist, implementiert sein.
Analyse-Filterbänke, welche durch Blocktransformationen implementiert sind, wandeln einen Block oder ein Intervall eines Eingangssignals in einen Satz von Transformationskoeffizienten um, welche den Spektralinhalt dieses Signalintervalls darstellen. Eine Gruppe aus einem oder mehreren benachbarten Transformationskoeffizienten stellt den Spektralinhalt in einem bestimmten Frequenz-Teilband mit einer der Anzahl von Koeffizienten in der Gruppe entsprechenden Bandbreite dar.
Analyse-Filterbänke, welche durch irgendeine Art von Digitalfilter wie einen Mehrphasenfilter statt durch eine Blocktransformation implementiert sind, spalten ein Eingangssignal in einen Satz von Teilbandsignalen auf. Jedes Teilbandsignal ist eine zeitbasierte Darstellung des Spektralinhalts des Eingangssignals in einem bestimmten Frequenz-Teilband. Vorzugsweise wird das Teilbandsignal so vermindert, dass jedes Teilbandsignal eine Bandbreite hat, welche der Anzahl von Abtastwerten im Teilbandsignal für ein Einheits-Zeitintervall entspricht.
In dieser Erörterung bezieht sich der Begriff "Teilbandsignal" auf Gruppen von einem oder mehreren benachbarten Transformationskoeffizienten und bezieht sich der Begriff "Teilbandsignalkomponenten" auf die Transformationskoeffizienten. Prinzipien der vorliegenden Erfindung können auf andere Arten von Implementierungen angewendet werden, jedoch kann so der Begriff "Teilbandsignal" im allgemeinen als sich auch auf ein den Spektralinhalt eines bestimmten Frequenz-Teilbands eines Signals darstellendes zeitbasiertes Signal beziehend verstanden werden und kann der Begriff "Teilbandsignalkomponenten" im allgemeinen als sich auf Abtastwerte eines zeitbasierten Teilbandsignals beziehend verstanden werden.
Die Quantisierer 14, 15, 16 und der Codierer 17 werden unten ausführlicher erörtert.
Die Quantisierer-Steuereinrichtung 13 kann im wesentlichen jede gewünschte Art von Verarbeitung ausführen. Ein Beispiel ist ein Prozess, welcher ein psychoakustisches Modell auf Audioinformationen anwendet, um die psychoakustischen Maskierungseffekte verschiedener Spektralkomponenten im Audiosignal abzuschätzen. Zahlreiche Variationen sind möglich. Zum Beispiel kann die Quantisierer-Steuereinrichtung 13 die Quantisierungs-Steuerinformationen in Reaktion auf die am Ausgang der Analyse-Filterbank 12 verfügbaren Frequenz-Teilband-Informationen anstelle der oder zusätzlich zu den am Eingang der Filterbank verfügbaren Audioinformationen erzeugen. Als anderes Beispiel kann die Quantisierer-Steuereinrichtung 13 beseitigt sein und verwenden die Quantisierer 14, 15, 16 Quantisierungsfunktionen, welche nicht angepasst werden. Die vorliegende Erfindung erfordert keinen besonderen Prozess.
Der Formstierer 18 setzt die quantisierten und codierten Signalkomponenten zu einer Form zusammen, welche zum Weiterleiten auf Weg 19 zur Übertragung oder Speicherung geeignet ist. Das formatierte Signal kann nach Belieben Synchronisationsmuster, Fehlererkennungs-/Fehlerkorrekturinformationen und Steuerinformationen enthalten.
2. Quantisierer
a) Komprimierende Quantisierer
Die Quantisierer 14, 15, 16 in vielen typischen Audiocodiersystemen sind komprimierende Quantisierer, weil Kompression die Quantisierungseffizienz verbessert. Der Grund für diese Effizienzverbesserung wird in den folgenden Absätzen erläutert.
Kurve 31 in 3 stellt Komponentenwerte eines hypothetischen Teilbandsignals dar. Zur besseren Verdeutlichung sind benachbarte Werte durch geradlinige Segmente verbunden. Nur positive Werte sind in dieser Figur sowie in anderen Figuren veranschaulicht; jedoch gelten die hier erörterten Prinzipien für Implementierungen, welche positive und negative Komponentenwerte haben. Die Komponentenwerte werden bezüglich des Werts der größten Komponente im Teilbandsignal normalisiert oder skaliert. Acht Quantisierungspegel erstrecken sich über den normalisierten Wertebereich von Null bis Eins.
4A ist eine grafische Darstellung einer Acht-Pegel-Quantisierung der Teilbandsignalkompo nenten in Kurve 31 mittels einer gleichförmigen Quantisierungsfunktion wie der in 7 gezeigten Funktion, welche die Signalkomponentenwerte auf den nächstgelegenen Quantisierungspegel rundet. Die positiven Quantisierungspegel können durch eine 3-Bit-Binärzahl dargestellt werden. Die Komponentenwerte, welche auf Pegel unter dem Pegel "4" quantisiert werden, werden ineffizient quantisiert, weil diese Quantisierungspegel durch nur zwei Bit dargestellt werden könnten. Tatsächlich wird für jede Signalkomponente, welche unter dem Pegel "4" quantisiert wird, ein Bit verschwendet.
4B ist eine grafische Darstellung einer Acht-Pegel-Quantisierung der Teilbandsignalkomponenten in Kurve 31 mittels der in 5 gezeigten komprimierenden Quantisierungsfunktion, welche die Signalkomponentenwerte auf den nächstgelegenen Quantisierungspegel rundet. Der komprimierende Quantisierer hat eine höhere Quantisierungseffizienz als der gleichförmige Quantisierer, weil weniger Signalkomponenten unter dem Pegel "4" quantisiert werden. Ein komprimierender Quantisierer kann durch eine nichtg-leichförmige Quantisierungsfunktion wie die in 5 gezeigte implementiert sein oder er kann durch eine Kompressionsfunktion wie die in 6 gezeigte Funktion, gefolgt von einem in 7 gezeigten gleichförmigen Quantisierer, implementiert sein. Kurve 32 in 3 stellt die Signalwerte von Kurve 31 nach Kompression durch die in 6 gezeigte Funktion dar.
Die Quantisierungsgenauigkeit eines komprimierenden Quantisierers ist nicht-gleichförmig für alle Eingangswerte. Die Quantisierungsgenauigkeit für ein Intervall mit Werten kleiner Größe ist höher als die Quantisierungsgenauigkeit für ein benachbartes Intervall mit Werten größerer Größe.
Kompression ändert die statistische Verteilung der Teilbandsignal-Abtastwerte durch Verkleinern des Dynamikbereichs der Werte. Kompression in Verbindung mit Normalisierung oder Skalierung erhöht die Genauigkeit vieler kleinerer Werte, indem diese Werte in höhere Quantisierungspegel gedrängt werden, welche effektiv mehr Bits verwenden. Expansion und ein inverser Skalierungsprozess werden in einem Empfänger verwendet, um die durch Skalierung und Kompression erzeugten Effekte umzukehren.
Die in 6 gezeigte Kompressionsfunktion ist eine Potenzfunktion der Form y = c(x) = xn (1a)wobei

c(x): = die Kompressionsfunktion von x;
y: = der komprimierte Wert; und
n: = ein positiver reeller Wert kleiner Eins.

Eine komplementäre Expansionsfunktion ist in 8 gezeigt und ist von der Form x = e(y) = y1/n (1b) wobei

e(y): = die Expansionsfunktion von y.

Ein anderes Beispiel von Kompressions- und Expansionsfunktionen sind die Funktionen der Form y = c(x) = logb(x) (2a) x = e(y) = by (2b)
Viele Formen von Kompressions- und Expansionsfunktionen werden in herkömmlichen Codiersystemen verwendet, und in Codiersystemen, welche Aspekte der vorliegenden Erfindung enthalten, kann im wesentlichen jede beliebige Form verwendet werden.
b) Niedrigstbitraten-Systeme
Manche Anwendungen wie das Streamen von Ton auf öffentliche Computernetze erfordern codierte digitale Audio-Streams bei Bitraten, welche so niedrig sind, dass alle wesentlichen Signalkomponenten nicht mit ausreichender Genauigkeit quantisiert werden können, um sicherzustellen, dass das Quantisierungsrauschen maskiert wird.
Viele Versuche, Niedrigstbitraten-(VLBR-) Codiersysteme zu schaffen, waren bestrebt, gut klingenden Ton durch Codieren und Übertragen eines nur einen Teil der Bandbreite eines Eingangssignals darstellenden Basisbandsignals und Verwenden von Verfahren zur Regenerierung der fehlenden Teile der Bandbreite während der Wiedergabe zu schaffen. Typischerweise werden hochfrequente Komponenten aus dem Basisbandsignal ausgeschlossen und während der Wiedergabe regeneriert. Dieses Verfahren nimmt Bits, welche zum Codieren hochfrequenter Komponenten hätten verwendet werden können, und verwendet diese Bits, um die Quantisierungsgenauigkeit der niedrigerfrequenten Komponenten zu erhöhen.
Dieses Basisband-/Regenerierverfahren hat keine zufriedenstellenden Ergebnisse geliefert. Viele Bemühungen, die Qualität dieser Art von VLBR-Codiersystem zu verbessern, waren bestrebt, das Regenerierverfahren zu verbessern; die Erfinder haben jedoch festgestellt, dass bekannte Spektralregenerierverfahren nicht sehr gut arbeiten, weil aus mindestens zwei Gründen Bits Spektralkomponenten nicht optimal zugeordnet werden.
Der erste Grund ist, dass das Basisbandsignal zu schmal ist. Dies wirkt sich dahingehend aus, dass Bits von allen Signalkomponenten außerhalb des Basisbandsignals, einschließlich bedeutender Komponenten mit großer Größe, weggenommen werden, um die Signalkomponenten innerhalb des Basisbands, einschließlich unbedeutender Komponenten mit kleiner Größe, zu codieren. Die Erfinder haben festgestellt, dass das Basisbandsignal eine Bandbreite von etwa 5 kHz oder mehr haben sollte. Unglücklicherweise sind in vielen VLBR-Anwendungen die Begrenzungen der Bitraten so streng, dass nur etwa ein Bit für jede Spektralkomponente eines Signals mit einer Bandbreite von 5 kHz übertragen werden kann. Weil ein Bit pro Spektralkoeffizient nicht genug ist, um die Wiedergabe eines Ausgangssignals hoher Qualität zu ermöglichen, verringern bekannte Codiersysteme die Bandbreite des Basisbandsignals weit unter 5 kHz, so dass die restlichen Signalkomponenten im schmaleren Basisbandsignal mit höherer Genauigkeit quantisiert werden können.
Der zweite Grund ist, dass zu viele Bits Signalkomponenten im Basisbandsignal, welche eine kleine Größe haben, zugeteilt werden. Dies wirkt sich dahingehend aus, dass Bits von bedeutenden Komponenten großer Größe weggenommen werden, um unbedeutende Komponenten mit kleiner Größe genauer zu codieren. Dieses Problem wird durch Codiersysteme, welche skalierende und komprimierende Quantisierer verwenden, verschlimmert, weil Skalierung und Kompression wie oben erläutert kleine Komponentenwerte in größere Quantisierungspegel drängen.
Durch jeden dieser Gründe verursachte Probleme lassen sich vermindern, indem die weniger bedeutenden kleinwertigen Signalkomponenten in einen Wertebereich gedrängt werden, dessen Werte in eine kleinere Anzahl von Quantisierungspegeln quantisiert werden. Dieser Prozess vermindert die Quantisierungsgenauigkeit der kleinwertigen Komponenten, aber er senkt auch die Entropie der kleinwertigen Signalkomponenten nach Quantisierung auf ein Niveau, welches niedriger als die Entropie ohne Drängen ist. Alle Signalkomponenten werden in einen Code entropiecodiert, welcher die weniger bedeutenden kleinwertigen Signalkomponenten mit weniger Bits darstellt als ohne Drängen derselben in weniger Quantisierungspegel möglich wäre, und die restlichen Bits werden verwendet, um andere Signalkomponenten genauer zu quantisieren. Die Anzahl von Signalkomponenten, welche in weniger Quantisierungspegel gedrängt werden, kann durch Verwenden eines expandierenden Quantisierers gesteuert werden.
c) Expandierende Quantisierer
4C ist eine grafische Darstellung einer Acht-Pegel-Quantisierung der Teilbandsignalkomponenten in Kurve 31 mittels der in 9 gezeigten expandierenden Quantisierungsfunktion, welche die Signalkomponentenwerte auf den nächstgelegenen Quantisierungspegel rundet. Der expandierende Quantisierer hat eine niedrigere Quantisierungseffizienz als der gleichförmige Quantisierer, weil mehr Signalkomponenten unter dem Pegel "4" quantisiert werden. Ein expandierender Quantisierer kann durch eine nicht-gleichförmige Quantisierungsfunktion wie in 9 gezeigt implementiert sein, oder er kann durch eine Expansionsfunktion wie die in 8 gezeigte Funktion, gefolgt von einem in 7 gezeigten gleichförmigen Quantisierer, implementiert sein. Kurve 33 in 3 stellt die Signalwerte von Kurve 31 nach Expansion durch die in 8 gezeigte Funktion dar.
Die Quantisierungsgenauigkeit eines expandierenden Quantisierers ist nicht-gleichförmig für alle Eingangswerte. Die Quantisierungsgenauigkeit für ein Intervall mit Werten kleiner Größe ist niedriger als die Quantisierungsgenauigkeit für ein benachbartes Intervall mit Werten größerer Größe.
Kompression und ein inverser Skalierungsprozess werden in einem Empfänger verwendet, um die durch Skalierung und Expansion erzeugten Effekte umzukehren.
Expansion ändert die statistische Verteilung der Teilbandsignal-Abtastwerte durch Vergrößern des Dynamikbereichs der Werte. Expansion in Verbindung mit Normalisierung oder Skalierung vermindert die Genauigkeit vieler kleinerer Werte, indem diese Werte in niedrigere Quantisierungspegel gedrängt werden. Eine größere Anzahl von kleinerwertigen Signalkomponenten wird zum Beispiel in den Quantisierungspegel "0" gedrängt. Durch Erhöhen der Anzahl von Signalkomponenten, welche auf niedrige Quantisierungspegel einschließlich "Quantisiert-auf-Null-" ("Quantized-To-Zero-") (QTZ-) Signalkomponenten quantisiert werden, und durch Verwenden eines Codes, welcher diese kleineren und QTZ-Komponenten effizient darstellt, stehen mehr Bits zur Verfügung, um größerwertige Signalkomponenten genauer zu quantisieren.
Tatsächlich werden Expansion und Quantisierung verwendet, um wichtige Signalkomponenten über eine größere Bandbreite für eine genauere Codierung zu identifizieren. Dies optimiert die Zuteilung von Bits, so dass ein Signal höherer Qualität aus einem VLBR-codierten Signal regeneriert werden kann.
Die Quantisierer können Expansion für nur einen Teil des gesamten Bereichs zu quantisierender Werte vorsehen. Expansion ist wichtig für kleinere Werte. Wenn gewünscht, können die Quantisierer für einige Signalkomponenten wie diejenigen mit größeren Werten auch Kompression vorsehen. 10 veranschaulicht eine Quantisierungsfunktion 42, welche Expansion und Kompression gemäß Funktion 41 vorsieht. Expansion ist für Werte mit den kleinsten Größen vorgesehen, und Kompression ist für Werte mit den größten Größen vorgesehen. Für Werte mit Zwischengrößen ist weder Expansion noch Kompression vorgesehen.
Der Betrag einer Expansion und Kompression, wenn überhaupt einer, kann in Reaktion auf irgendwelche oder alle aus einer Vielfalt von Bedingungen einschließlich der Signaleigenschaften, der Anzahl von zum Codieren der quantisierten Signalkomponenten verfügbaren Bits und der Nähe zu dominierenden Komponenten großer Größe angepasst werden. Zum Beispiel wird für rauschähnliche Teilbandsignale mit relativ flachem Spektrum im allgemeinen mehr Expansion benötigt. Weniger Expansion wird benötigt, wenn eine relativ große Anzahl von Bits für die Codierung zur Verfügung steht. Weniger Expansion sollte für Signalkomponenten, welche in der Nähe dominierender Signalkomponenten größer Größe liegen, verwendet werden. Ein Hinweis darauf, wie Expansion und Kompression angepasst werden, sollte dem Empfänger auf irgendeine Weise mitgeteilt werden, damit er seine komplementären Prozesse anpassen kann.
Die Quantisierer 14, 15, 16 können jeweils die gleichen oder verschiedene Expansionsfunktionen und Quantisierungsfunktionen anwenden. Ferner kann der Quantisierer für ein bestimmtes Teilbandsignal auf eine davon, was in Quantisierern für andere Teilbandsignale geschieht, unabhängige oder zumindest verschiedene Weise angepasst oder variiert werden. Außerdem braucht Expansion nicht für alle Teilbandsignale vorgesehen zu werden.
3. Codierer
Der Codierer 17 wendet Entropiecodierung auf die quantisierten Signalkomponenten an, um die Anforderungen hinsichtlich des Informationsgehalts zu senken. Huffman-Codierung wird in vielen bekannten Codiersystemen verwendet, aber aus mindestens zwei Gründen eignet sie sich zur Verwendung in vielen VLBR-Systemen nicht gut.
Der erste Grund rührt von der Tatsache her, dass Huffman-Codes aus einer ganzzahligen Anzahl von Bits bestehen und der kürzeste Code ein Bit lang ist. Huffman-Codierung verwendet den kürzesten Code für das quantisierte Zeichen mit der höchsten Wahrscheinlichkeit des Auftretens. Es ist vertretbar, davon auszugehen, dass der wahrscheinlichste zu codierende quantisierte Wert Null ist, weil die vorliegende Erfindung dazu neigt, die Anzahl von QTZ-Signalkomponenten in Teilbandsignalen zu erhöhen. Die vorliegende Erfindung kann die Signalqualität in VLBR-Systemen signifikant verbessern, wenn QTZ-Komponenten durch Codes, welche weniger als ein Bit lang sind, dargestellt werden können.
Kürzere effektive Codelängen lassen sich durch Verwendung von Huffman-Codierung mit mehrdimensionalen Codebüchern erzielen. Dies ermöglicht der Huffman-Codierung, zur Darstellung vieler quantisierter Werte einen Ein-Bit-Code zu verwenden. Ein zweidimensionales Codebuch zum Beispiel ermöglicht einem Ein-Bit-Code, zwei Werte darzustellen. Leider ist mehrdimensionale Codierung für die meisten Teilbandsignale nicht sehr effizient und erfordert die Speicherung des Codebuchs eine beträchtliche Menge Speicherplatz. Huffman-Codierung kann anpassungsfähig zwischen ein- und mehrdimensionalen Codebüchern umschalten, aber im codierten Signal sind Steuerbits erforderlich, um zu identifizieren, welches Codebuch zum Codieren von Teilen des Signals verwendet wird. Diese Steuerbits machen durch Verwendung mehrdimensionaler Codebücher erreichte Vorteile wieder zunichte.
Der zweite Grund, dass Huffman-Codierung in vielen VLBR-Codiersystemen nicht geeignet ist, besteht darin, dass die Codierungseffizienz sehr empfindlich für die Statistik des zu codierenden Signals ist. Wenn ein Codebuch verwendet wird, das dafür ausgelegt ist, Werte mit von den Statistiken der tatsächlich codiert werdenden Signalwerte sehr verschiedenen Statistiken zu codieren, kann Huffman-Codierung durch Erhöhen der Anforderungen hinsichtlich des Informationsgehalts des codierten Signals eine Strafe auferlegen. Dieses Problem lässt sich durch Auswählen des besten Codebuchs aus einem Satz von Codebüchern vermindern, aber zum Identifizieren des Codebuchs, das verwendet wird, sind Steuerbits erforderlich. Diese Steuerbits machen durch Verwendung mehrerer Codebücher erreichte Vorteile wieder zunichte.
Verschiedene Codierverfahren wie Lauflängencodes können allein oder in Verbindung mit anderen Codierungsformen verwendet werden. In einer bevorzugten Implementierung wird jedoch arithmetische Codierung verwendet, weil sie automatisch an die tatsächliche Signalstatistik angepasst werden kann und weil sie in der Lage ist, kürzere Codes zu erzeugen als dies häufig mit Huffman-Codierung möglich ist.
Ein arithmetischer Codierprozess berechnet eine reelle Zahl innerhalb des halbgeschlossenen Intervalls [0, 1), um eine "Nachricht" aus einem oder mehreren "Zeichen" darzustellen. In diesem Zusammenhang ist ein Zeichen der quantisierte Wert einer Signalkomponente und ist die Nachricht ein Satz von Quantisierungspegeln für eine Vielzahl von Signalkomponenten. Ein "Alphabet" ist der Satz aller möglichen Zeichen oder quantisierten Werte, welche in einer Nachricht auftreten können. Die Anzahl von Zeichen in der Nachricht, welche durch die reelle Zahl dargestellt werden können, wird durch die Genauigkeit der reellen Zahl, welche durch den Codierer ausgedrückt werden kann, begrenzt. Die Anzahl von durch die reelle Codezahl dargestellten Zeichen wird dem Decodierer auf irgendeine Weise mitgeteilt.
Wenn M die Anzahl von Zeichen im Alphabet darstellt, lauten die Schritte in einem arithmetischen Codierprozess wie folgt:

1. Das Intervall [0,1) in M Segmente teilen, wobei jedes Segment einem bestimmten Zeichen im Alphabet entspricht. Das Segment für ein jeweiliges Zeichen hat eine Länge, welche proportional zur Wahrscheinlichkeit des Auftretens für dieses Zeichen ist.
2. Das erste Zeichen aus der Nachricht gewinnen und das entsprechende Segment wählen.
3. Das gewählte Segment auf eine Weise, welche derjenigen in Schritt (1) entspricht, in M Segmente teilen. Jedes Segment entspricht einem jeweiligen Zeichen im Alphabet und hat eine Länge, welche proportional zur Wahrscheinlichkeit des Auftretens für dieses Zeichen ist.
4. Das nächste Zeichen aus der Nachricht gewinnen und das entsprechende Segment wählen.
5. Mit den Schritten (3) und (4) fortfahren, bis die gesamte Nachricht codiert ist oder bis die Genauigkeitsgrenze erreicht ist.
6. Den kürzestmöglichen Binärbruch erzeugen, welcher eine beliebige Zahl im letzten gewählten Segment darstellt.

11 veranschaulicht diesen Prozess, wie er auf eine Nachricht aus vier Zeichen "1300" in einem Alphabet aus vier Zeichen, welche vier Quantisierungspegel 0, 1, 2 und 3 darstellen, angewendet wird. Die Wahrscheinlichkeiten des Auftretens für jedes dieser Zeichen lauten 0,55, 0,20, 0,15 beziehungsweise 0,10.
Der erste Kasten auf der linken Seite der Figur stellt Schritt (1) dar, in welchem das halbgeschlossene Intervall [0, 1) in vier Segmente für jedes Zeichen des Alphabets, deren Länge jeweils proportional zur Wahrscheinlichkeit des Auftretens für die entsprechenden Zeichen ist, geteilt wird.
In Schritt (2) wird das erste, den Quantisierungspegel "1" darstellende Zeichen aus der Teilbandsignal-Nachricht gewonnen und wird das entsprechende halbgeschlossene Segment [0,55, 0,75) gewählt.
Der zweite Kasten direkt rechts neben dem ersten Kasten stellt Schritt (3) dar, in welchem das gewählte Segment in vier Segmente für jedes Zeichen im Alphabet geteilt wird.
In Schritt (4) wird das den Quantisierungspegel "3" darstellende zweite Zeichen aus der Nachricht gewonnen und wird das entsprechende halbgeschlossene Segment [0,73, 0,75) gewählt.
Schritt (5) wiederholt die Schritte (3) und (4). Der dritte Kasten direkt rechts neben dem zweiten Kasten stellt eine Wiederholung von Schritt (3) dar, in welchem das vorher gewählte Segment in vier Segmente für jedes Zeichen im Alphabet geteilt wird.
In einer Wiederholung von Schritt (4) wird das den Quantisierungspegel "0" darstellende dritte Zeichen aus der Nachricht gewonnen und wird das entsprechende halbgeschlossene Segment [0,730, 0,741) gewählt.
Schritt (5) wiederholt erneut die Schritte (3) und (4). Der vierte Kasten direkt rechts neben dem dritten Kasten stellt eine Wiederholung von Schritt (3) dar, in welchem das vorher gewählte Segment in vier Segmente für jedes Zeichen im Alphabet geteilt wird.
In einer Wiederholung von Schritt (4) wird das den Quantisierungspegel "0" darstellende vierte und letzte Zeichen aus der Nachricht gewonnen und wird das entsprechende halbgeschlossene Segment [0,73000, 0,73605) gewählt.
Nachdem das Ende der Nachricht erreicht ist, erzeugt Schritt (6) den kürzestmöglichen Binärbruch, welcher irgendeine Zahl im letzten gewählten Segment darstellt. Ein 6-Bit-Binärbruch 0,101111₂ = 0,734375₁₀ wird erzeugt.
Der oben beschriebene Codierprozess benötigt eine Wahrscheinlichkeitsverteilung für das Zeichenalphabet, und diese Verteilung muss dem Decodierer auf irgendeine Weise mitgeteilt werden. Wenn die Wahrscheinlichkeitsverteilung sich ändert, wird der Codierprozess suboptimal. Der Codierer 17 kann aus der tatsächlichen Wahrscheinlichkeit der zum Codieren empfangenen Zeichen eine neue Verteilung berechnen. Diese Berechnung kann fortwährend bei Gewinnung jedes Zeichens aus der Nachricht erfolgen, oder sie kann weniger häufig berechnet werden. Der Decodierer 23 kann die gleichen Berechnungen ausführen und seine Verteilung mit dem Codierer 17 synchronisiert halten. Der Codierprozess kann mit jeder beliebigen gewünschten Wahrscheinlichkeitsverteilung beginnen.
Weitere Informationen über arithmetische Codierung können aus Bell, Cleary und Witten, "Text Compression", Prentice Hall, Englewood Cliffs, NJ, 1990, S. 109-120 und aus Saywood, "Introduction to Data Compression", Morgan Kaufmann Publishers, Inc., San Francisco, 1996, S. 61-96, entnommen werden.
B. Empfänger
2 veranschaulicht eine Implementierung eines Audiodecodierungs-Empfängers, welche verschiedene Aspekte der vorliegenden Erfindung enthalten kann. In dieser Implementierung empfängt ein Deformatierer 22 vom Weg 21 ein Eingangssignal, welches eine codierte Darstellung quantisierter digitaler Informationen, welche Frequenz-Teilbänder eines Audiosignals darstellen, übermittelt. Der Deformatierer 22 gewinnt die codierte Darstellung aus dem Eingangssignal und leitet sie an den Decodierer 23 weiter. Der Decodierer 23 decodiert die codierte Darstellung in Frequenz-Teilbänder quantisierter Informationen. Die quantisierten digitalen Informationen in jedem der Frequenz-Teilbänder werden durch einen jeweiligen Dequantisierer 25, 26, 27 dequantisiert und an die Synthese-Filterbank 28 weitergeleitet, welche auf Weg 29 ein Audiosignal darstellende Audioinformationen erzeugt. Die Dequantisierungsfunktionen in den Dequantisierern 25, 26, 27 werden in Reaktion auf aus der Dequantisierungs-Steuereinrichtung 24, welche die Dequantisierungs-Steuerinformationen in Reaktion auf durch den Deformatierer 22 aus dem Eingangssignal gewonnene Steuerinformationen erzeugt, empfangene Dequantisierungs-Steuerinformationen angepasst.
Der Decodierer 23 wendet einen Prozess an, welcher komplementär zu dem durch den Codierer 17 angewendeten Prozess ist. In einer bevorzugten Implementierung wird arithmetische Decodierung verwendet.
Die Dequantisierer 25, 26, 27 sehen eine Kompression vor, welche zu der in den Quantisierern 14, 15, 16 vorgesehenen Expansion komplementär ist. Ein komprimierender Dequantisierer kann durch eine nicht-gleichförmige Dequantisierungsfunktion implementiert sein, oder er kann durch eine gleichförmige Dequantisierungsfunktion, gefolgt von einer Kompressionsfunktion, implementiert sein. Nicht-gleichförmige und gleichförmige Dequantisierung können durch eine Verweistabelle implementiert sein. Gleichförmige Dequantisierung kann durch einen Prozess implementiert sein, welcher lediglich eine geeignete Anzahl von Bits an den quantisierten Wert anhängt. Die angehängten Bits können alle einen Wert Null haben oder sie können irgendeinen anderen Wert wie Abtastwerte aus einem Zittersignal oder einem pseudozufälligen Rauschsignal haben.
Kompression sollte nicht über den vollen Wertebereich vorgesehen werden, wenn die Quantisierer 14, 15, 16 nicht Expansion über den vollen Wertebereich vorsehen.
Die Dequantisierungs-Steuereinrichtung 24 kann im wesentlichen jede gewünschte Art von Verarbeitung ausführen. Ein Beispiel ist ein Prozess, welcher ein psychoakustisches Modell auf aus dem Eingangssignal gewonnene Informationen anwendet, um die psychoakustischen Maskierungseffekte verschiedener Spektralkomponenten in einem Audiosignal abzuschätzen. Als anderes Beispiel ist die Dequantisierungs-Steuereinrichtung 24 beseitigt und können die Dequantisierer 25, 26, 27 entweder Dequantisierungsfunktionen verwenden, welche nicht angepasst werden, oder können sie Dequantisierungsfunktionen verwenden, welche in Reaktion auf durch den Deformatierer 22 direkt aus dem Eingangssignal gewonnene Dequantisierungs-Steuerinformationen angepasst werden. Die vorliegende Erfindung erfordert keinen besonderen Prozess.
Der in 2 veranschaulichte Empfänger zeigt Komponenten für drei Frequenz-Teilbänder. In einer typischen Anwendung werden viel mehr Teilbänder verwendet, aber zur besseren Verdeutlichung sind nur drei gezeigt. Im Prinzip ist keine bestimmte Anzahl für die vorliegende Erfindung von Belang.
Die Synthese-Filterbank 28 kann auf im wesentlichen jede beliebige gewünschte Weise, auch auf solche Weisen, welche invers zu den oben für die Analyse-Filterbank 12 erörterten Verfahren sind, implementiert sein. Synthese-Filterbänke, welche durch Blocktransformationen implementiert sind, synthetisieren ein Ausgangssignal aus Sätzen von Transformationskoeffizienten. Synthese-Filterbänke, welche durch irgendeine Art von Digitalfilter wie einen Mehrphasenfilter statt durch eine Blocktransformation implementiert sind, synthetisieren ein Ausgangssignal aus einem Satz von Teilbandsignalen. Jedes Teilbandsignal ist eine zeitbasierte Darstellung des Spektralinhalts eines Eingangssignals in einem bestimmten Frequenz-Teilband.
C. Implementierung
Verschiedene Aspekte der vorliegenden Erfindung können auf mannigfaltige Weisen einschließlich Software in einem universalen Computersystem oder in irgendeiner anderen Vorrichtung, welche spezialisiertere Komponenten wie Digitalsignalprozessor (DSP-) Schaltungen, welche mit in einem universalen Computersystem vorhandenen Komponenten ähnlichen Komponenten gekoppelt sind, enthält, implementiert sein. 12 ist ein Blockschaltbild von Einrichtung 70, welche verwendet werden kann, um verschiedene Aspekte der vorliegenden Erfindung in einem Audiocodierungs-Sender oder einem Audiodecodierungs-Empfänger zu implementieren. DSP 72 stellt Rechenressourcen bereit. RAM 73 ist der von DSP 72 zur Signalverarbeitung verwendete System-Direktzugriffsspeicher (RAM). ROM 74 stellt irgendeine Form von dauerhafter Speicherung wie einen Festwertspeicher (ROM) zum Speichern von zum Betreiben der Einrichtung 70 benötigten Programmen dar. E/A-Steuerung 75 stellt eine Schnittstellenschaltung zum Empfangen und Senden von Signalen über Kommunikationskanäle 76, 77 dar. Analog/Digital-Wandler und Digital/Analog-Wandler können nach Belieben in E/A-Steuerung 75 enthalten sein, um analoge Audiosignale zu empfangen und/oder zu senden. Bei der gezeigten Ausführungsform sind alle bedeutenden Systemkomponenten an den Bus 71 angeschlossen, welcher mehr als einen physischen Bus darstellen kann; eine Busarchitektur ist jedoch nicht erforderlich, um die vorliegende Erfindung zu implementieren.
In in einem Allzweck-Computersystem implementierten Ausführungsformen können zusätzliche Komponenten enthalten sein, um Schnittstellen zu Einrichtungen wie einer Tastatur oder einer Maus und einer Anzeige zu bilden und um eine Speicherungseinrichtung mit einem Speichermedium wie Magnetband oder -platte oder einem optischen Medium zu steuern. Das Speichermedium kann verwendet werden, um Programme aus Anweisungen für Betriebssysteme, Dienstprogramme und Anwendungen aufzuzeichnen, und kann Ausführungsformen von Programmen enthalten, welche verschiedene Aspekte der vorliegenden Erfindung implementieren.
Die zur praktischen Ausführung der vorliegenden Erfindung erforderlichen Funktionen können auch durch Spezialkomponenten ausgeführt werden, welche auf mannigfaltige Weisen einschließlich diskreter Logikkomponenten, eines oder mehrerer ASICs und/oder programmgesteuerter Prozessoren implementiert sind. Die Art und Weise, auf welche diese Komponenten implementiert sind, ist für die vorliegende Erfindung ohne Belang.
Software-Implementierungen der vorliegenden Erfindung können durch eine Vielfalt von maschinenlesbaren Medien wie Basisband- oder modulierte Kommunikationswege im gesamten Spektrum von Ultraschall- bis zu Ultraviolettfrequenzen oder Speichermedien einschließlich solcher, welche Informationen mittels im wesentlichen jeder beliebigen magnetischen oder optischen Aufzeichnungstechnik einschließlich Magnetband, Magnetplatte und optischer Platte übermitteln, übermittelt werden. Verschiedene Aspekte können außerdem in verschiedenen Komponenten von Computersystem 70 durch Verarbeitungsschaltungen wie ASICs, universale integrierte Schaltungen, durch in verschiedenen Formen von ROM oder RAM enthaltene Programme gesteuerte Mikroprozessoren und andere Verfahren implementiert werden.

Claims

Audiocodierungs-Sender, welcher ein ein Audiosignal darstellendes Eingangssignal empfängt und ein eine codierte Darstellung des Audiosignals übermittelndes Ausgangssignal erzeugt, welcher Audiocodierungs-Sender umfasst: eine Analyse-Filterbank (12), welche in Reaktion auf das Eingangssignal eine Vielzahl von Frequenz-Teilbänder des Audiosignals darstellenden Teilbandsignalen erzeugt, wobei jedes Teilbandsignal eine oder mehrere Teilbandsignalkomponenten umfasst; einen mit der Analyse-Filterbank (12) gekoppelten Quantisierer (14, 15, 16), welcher eines oder mehrere der Teilbandsignale quantisiert, um quantisierte Teilbandsignale zu erzeugen, wobei für ein Teilbandsignal mit einer oder mehreren ersten Teilbandsignalkomponenten und einer oder mehreren zweiten Teilbandsignalkomponenten, deren Größen kleiner als die eine oder die mehreren ersten Teilbandsignalkomponenten sind, die zweiten Teilbandsignalkomponenten in einen Wertebereich gedrückt werden, dessen Werte in weniger Quantisierungspegel quantisiert werden, als es ohne Drücken der Fall wäre, wodurch die Entropie der quantisierten zweiten Teilbandsignalkomponenten gesenkt wird; einen mit dem Quantisierer (14, 15, 16) gekoppelten Codierer (17), welcher durch Codieren des einen oder der mehreren quantisierten Teilbandsignale mittels eines Entropiecodierprozesses, welcher die Anforderungen hinsichtlich des Informationsgehalts der quantisierten Teilbandsignale senkt, ein oder mehrere codierte Teilbandsignale erzeugt; und einen mit dem Codierer (17) gekoppelten Formstierer (18), welcher das eine oder die mehreren codierten Teilbandsignale zum Ausgangssignal zusammensetzt.
Audiocodierungs-Sender nach Anspruch 1, bei welchem die Analyse-Filterbank (12) durch eine oder mehrere Transformationen implementiert ist und die Teilbandsignalkomponenten Transformationskoeffizienten sind.
Audiocodierungs-Sender nach Anspruch 1 oder 2, bei welchem der Quantisierer (14, 15, 16) enthält: einen Expander mit einem mit der Analyse-Filterbank (12) gekoppelten Eingang und mit einem Ausgang; und einen gleichförmigen Quantisierer mit einem an den Ausgang des Expanders gekoppelten Eingang und mit einem mit dem Codierer (17) gekoppelten Ausgang.
Audiocodierungs-Sender nach einem der Ansprüche 1 oder 2, bei welchem der Quantisierer (14, 15, 16) ein nicht-gleichförmiger Quantisierer ist.
Audiocodierungs-Sender nach einem der Ansprüche 1 bis 4, bei welchem der Codierprozess sich an die Statistik der codiert werdenden quantisierten Teilbandsignale anpasst.
Audiocodierungs-Sender nach einem der Ansprüche 1 bis 5, bei welchem der Codierprozess aus arithmetischer Codierung besteht.
Audiocodierungs-Sender nach einem der Ansprüche 1 bis 6, welcher den Wertebereich, in welchen die zweiten Teilbandsignalkomponenten in Reaktion auf Eigenschaften der Teilbandsignalkomponentenwerte gedrückt werden, anpasst.
Audiodecodierungs-Empfänger, welcher ein eine codierte Darstellung eines Audiosignals übermittelndes Eingangssignal empfängt und ein das Audiosignal darstellendes Ausgangssignal erzeugt, welcher Audiodecodierungs-Empfänger enthält: einen Deformatierer (22), welcher ein oder mehrere codierte Teilbandsignale aus dem Eingangssignal gewinnt; einen mit dem Deformatierer (22) gekoppelten Decodierer (23), welcher durch Decodieren des einen oder der mehreren codierten Teilbandsignale mittels eines Entropiedecodierprozesses, welcher die Anforderungen hinsichtlich des Informationsgehalts der codierten Teilbandsignale erhöht, eines oder mehrere decodierte Teilbandsignale erzeugt, wobei jedes decodierte Teilbandsignal eine oder mehrere Teilbandsignalkomponenten umfasst und ein jeweiliges Frequenz-Teilband des Audiosignals darstellt; einen mit dem Decodierer (23) gekoppelten Dequantisierer (25, 26, 27), welcher durch Dequantisieren von Teilbandsignalkomponenten des einen oder der mehreren decodierten Teilbandsignale eines oder mehrere dequantisierte Teilbandsignale erzeugt, wobei der Dequantisierer (25, 26, 27) komplementär zu einem Quantisierer (14, 15, 16) ist, welcher für ein Teilbandsignal mit einer oder mehreren ersten Teilbandsignalkomponenten und einer oder mehreren zweiten Teilbandsignalkomponenten, deren Größen kleiner als die eine oder die mehreren ersten Teilbandsignalkomponenten sind, die zweiten Teilbandsignalkomponenten in einen Wertebereich drückt derart, dass sie in weniger Quantisierungspegel quantisiert werden können, als es ohne Drücken der Fall wäre, wodurch die Entropie der quantisierten zweiten Teilbandsignalkomponenten gesenkt wird; und eine Synthese-Filterbank (28), welche in Reaktion auf eine Vielzahl von Teilbandsignalen, einschließlich des einen oder der mehreren dequantisierten Teilbandsignale, das Ausgangssignal erzeugt.
Audiodecodierungs-Empfänger nach Anspruch 8, bei welchem die Synthese-Filterbank (28) durch eine oder mehrere Transformationen implementiert ist und die Teilbandsignalkomponenten Transformationskoeffizienten sind.
Audiodecodierungs-Empfänger nach Anspruch 8 oder 9, bei welchem der Dequantisierer (25, 26, 27) umfasst: einen gleichförmigen Dequantisierer mit einem an den Decodierer (23) gekoppelten Eingang und mit einem Ausgang; und einen Kompressor mit einem an den Ausgang des gleichförmigen Dequantisierers gekoppelten Eingang und mit einem mit der Synthese-Filterbank (28) gekoppelten Ausgang.
Audiodecodierungs-Empfänger nach einem der Ansprüche 8 oder 9, bei welchem der Dequantisierer (25, 26, 27) ein nicht-gleichförmiger Dequantisierer ist.
Audiodecodierungs-Empfänger nach einem der Ansprüche 8 bis 11, bei welchem der Decodierprozess sich an die Statistik der decodiert werdenden quantisierten Teilbandsignale anpasst.
Audiodecodierungs-Empfänger nach einem der Ansprüche 8 bis 12, bei welchem der Decodierprozess aus arithmetischer Decodierung besteht.
Audiodecodierungs-Empfänger nach einem der Ansprüche 8 bis 13, welcher den Dequantisierer (25, 26, 27) in Reaktion auf aus dem Eingangssignal gewonnener Steuerinformation anpasst, wobei der Dequantisierer (25, 26, 27) so angepasst wird, dass er komplementär zu einem Quantisierer (14, 15, 16) ist, welcher den Wertebereich, in welchen die zweiten Teilbandsignalkomponenten in Reaktion auf Eigenschaften der Teilbandsignalkomponentenwerte gedrückt werden, anpasst.
Medium, welches durch eine Vorrichtung lesbar ist und welches ein Programm aus durch die Vorrichtung ausführbaren Anweisungen übermittelt, um ein Audiocodierungsverfahren auszuführen, welches die folgenden Schritte umfasst: das Anwenden einer Analyse-Filterbank (12) auf das Eingangssignal, um eine Vielzahl von Frequenz-Teilbänder des Audiosignals darstellenden Teilbandsignalen zu erzeugen, wobei jedes Teilbandsignal eine oder mehrere Teilbandsignalkomponenten umfasst; das Quantisieren von Teilbandsignalkomponenten eines oder mehrerer der Teilbandsignale, um quantisierte Teilbandsignale zu erzeugen, wobei für ein Teilbandsignal mit einer oder mehreren ersten Teilbandsignalkomponenten und einer oder mehreren zweiten Teilbandsignalkomponenten, deren Größen kleiner als die eine oder die mehreren ersten Teilbandsignalkomponenten sind, die zweiten Teilbandsignalkomponenten in einen Wertebereich gedrückt werden, dessen Werte in weniger Quantisierungspegel quantisiert werden, als es ohne Drücken der Fall wäre, wodurch die Entropie der quantisierten zweiten Teilbandsignalkomponenten gesenkt wird; das Codieren des einen oder der mehreren quantisierten Teilbandsignale mittels eines Entropiecodierprozesses, welcher die Anforderungen hinsichtlich des Informationsgehalts der quantisierten Teilbandsignale senkt, um ein oder mehrere codierte Teilbandsignale zu erzeugen; und das Zusammensetzen des einen oder der mehreren codierten Teilbandsignale zum Ausgangssignal.
Medium nach Anspruch 15, bei welchem die Analyse-Filterbank (12) durch eine oder mehrere Transformationen implementiert ist und die Teilbandsignalkomponenten Transformationskoeffizienten sind.
Medium nach Anspruch 15 oder 16, bei welchem das Quantisieren das Expandieren von Teilbandsignalkomponenten und das Quantisieren der expandierten Teilbandsignalkomponenten mit einer gleichförmigen Quantisierungsfunktion umfasst.
Medium nach einem der Ansprüche 15 oder 16, bei welchem das Quantisieren gemäß einer nicht-gleichförmigen Quantisierungsfunktion erfolgt.
Medium nach einem der Ansprüche 15 bis 18, bei welchem der Entropiecodierprozess sich an die Statistik der codiert werdenden quantisierten Teilbandsignale anpasst.
Medium nach einem der Ansprüche 15 bis 19, bei welchem der Entropiecodierprozess aus arithmetischer Codierung besteht.
Medium nach einem der Ansprüche 15 bis 20, bei welchem das Verfahren den Wertebereich, in welchen die zweiten Teilbandsignalkomponenten in Reaktion auf Eigenschaften der Teilbandsignalkomponentenwerte gedrückt werden, anpasst.
Medium, welches durch eine Vorrichtung lesbar ist und welches ein Programm aus durch die Vorrichtung ausführbaren Anweisungen übermittelt, um ein Audiodecodierungsverfahren auszuführen, welches die folgenden Schritte umfasst: das Gewinnen eines oder mehrerer codierter Teilbandsignale aus dem Eingangssignal; das Decodieren des einen oder der mehreren codierten Teilbandsignale mittels eines Entropiedecodierprozesses, welcher die Anforderungen hinsichtlich des Informationsgehalts der codierten Teilbandsignale erhöht, um eines oder mehrere decodierte Teilbandsignale zu erzeugen, wobei jedes decodierte Teilbandsignal eine oder mehrere Teilbandsignalkomponenten umfasst und ein jeweiliges Frequenz-Teilband des Audiosignals darstellt; das Dequantisieren von Teilbandsignalkomponenten des einen oder der mehreren decodierten Teilbandsignale, um eines oder mehrere dequantisierte Teilbandsignale zu erzeugen, wobei das Dequantisieren komplementär zum Quantisieren ist, welches für ein Teilbandsignal mit einer oder mehreren ersten Teilbandsignalkomponenten und einer oder mehreren zweiten Teilbandsignalkomponenten, deren Größen kleiner als die eine oder die mehreren ersten Teilbandsignalkomponenten sind, die zweiten Teilbandsignalkomponenten in einen Wertebereich drückt derart, dass sie in weniger Quantisierungspegel quantisiert werden können, als es ohne Drücken der Fall wäre, wodurch die Entropie der quantisierten zweiten Teilbandsignalkomponenten gesenkt wird; und das Anwenden einer Synthese-Filterbank (28) auf eine Vielzahl von Teilbandsignalen einschließlich des einen oder der mehreren dequantisierten Teilbandsignale, um das Ausgangssignal zu erzeugen.
Medium nach Anspruch 22, bei welchem die Synthese-Filterbank (28) durch eine oder mehrere Transformationen implementiert ist und die Teilbandsignalkomponenten Transformationskoeffizienten sind.
Medium nach Anspruch 22 oder 23, bei welchem das Dequantisieren gleichförmiges Dequantisieren und Komprimieren der Teilbandsignalkomponenten umfasst.
Medium nach einem der Ansprüche 22 oder 23, bei welchem das Dequantisieren gemäß einer nicht-gleichförmigen Dequantisierungsfunktion erfolgt.
Medium nach einem der Ansprüche 22 bis 25, bei welchem der Entropiedecodierprozess sich an die Statistik der decodiert werdenden quantisierten Teilbandsignale anpasst.
Medium nach einem der Ansprüche 22 bis 26, bei welchem der Entropiedecodierprozess aus arithmetischer Decodierung besteht.
Medium nach einem der Ansprüche 22 bis 27, bei welchem das Verfahren das Dequantisieren in Reaktion auf aus dem Eingangssignal gewonnener Steuerinformation anpasst, wobei das Dequantisieren so angepasst wird, dass es komplementär zum Quantisieren ist, welches den Wertebereich, in welchen die zweiten Teilbandsignalkomponenten in Reaktion auf Eigenschaften der Teilbandsignalkomponentenwerte gedrückt werden, anpasst.