DE69320872T2

DE69320872T2 - Kompression und Dehnung von digitalen Signalen

Info

Publication number: DE69320872T2
Application number: DE69320872T
Authority: DE
Inventors: Kenzo Sony Corporation Tokyo 141 Akagiri
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-06-16
Filing date: 1993-06-11
Publication date: 1999-04-01
Anticipated expiration: 2013-06-12
Also published as: KR100295217B1; AU668164B2; TW332280B; EP0575110A2; EP0575110A3; JPH066236A; KR940006356A; DE69320872D1; AU4011393A; JP3153933B2; EP0575110B1; US5583967A; HK1013537A1

Description

Die Erfindung betrifft eine Vorrichtung zum Komprimieren eines digitalen Audioeingangssignals für die Übertragung oder Aufzeichnung mit einer wesentlich reduzierten Bitrate. Die Erfindung betrifft außerdem einen Expander zum Expandieren des von der Komprimiervorrichtung erzeugten komprimierten Signals.
Es sind verschiedene Verfahren zum Komprimieren von digitalen Audio- oder Sprachsignalen bekannt.
EP-A-0 420 745 beschreibt verschiedene Codierer zum Codieren von digitalen Audiosignalen. Einer dieser Codierer arbeitet mit Teilbandcodierung. Ein Audioeingangssignal wird durch Quadraturspiegelfilter in Frequenzbänder zerlegt, und die resultierenden Signale in den Bändern werden mittels entsprechender Quantisierer quantisiert. Die den einzelnen Bändern zugeteilte Quantisierungsbitzahl wird entsprechend der Energie des betreffenden Bandes festgelegt. In einem anderen Codierer erfolgt die Quantisierung mit einer Bitzuteilung, die durch Spektralanalyse der Bänder bestimmt wird.
EP-A-4 024 016 beschreibt das Codieren von Audiosignalen. In EP-A-0 424 016 arbeitet eine Tonalitätsabschätzung mit einer Statistik von mehreren, typischerweise zwei, der vorangehenden Zeitrahmen, um den Wert einer gegebenen Frequenzlinie des Leistungsspektrums in dem laufenden Zeitrahmen zu prädizieren. Hauptmerkmal dieses Prozesses ist die Verwendung eines Euklidischen Abstands zwischen der prädizierten Linie und der tatsächlichen Linie in dem laufenden Rahmen zur Abschätzung der Tonalität (oder des Rauschinhalts) jeder Spektrallinie. Es erweist sich als nützlich, die Schätzwerte in diesen Berechnungen unter Verwendung der prädizierten und der tatsächlichen Werte zu normieren. Die Tonalitätsschätzwerte können dann, z. B. auf der Basis kritischer Bänder, kombiniert werden, um einen Schätzwert für die tatsächliche Tonalität zu gewinnen. Dies wird für jede Frequenz durchgeführt, um die geräuschmaskierenden Schwellwerte zu bestimmen, die bei der Quantisierung der Frequenzinformation zu verwenden sind, welche letztlich für die Aufzeichnung, Übertragung oder eine andere Verwendung codiert wird. Die Zuteilung der verfügbaren Bits erfolgt auf der Basis des berechneten Schwellwerts zur Quantisierung der Werte für die einzelnen Frequenzen. Dort, wo der Schwellwert groß ist, werden weniger Bits benötigt, während dort wo der Schwellwert klein ist, eine feinere Quantisierung (geringeres Quantisierungsrauschen) erforderlich ist.
Der Artikel "Transform Coding of Audio Signals at 64Kbit/s" von Y. Mahieuz und J. P. Petit (Globecom 90, San Diego, California, Dezember 1990) beschreibt einen Codierungsalgorithmus, bei dem eine Zeitdomäne-Alias-Löschtransformation (TDAC-Transformation) benutzt wird. Nach der Transformation werden maskierte Koeffizienten detektiert. Aus unmaskierten Koeffizienten wird eine Beschreibung des Spektrums berechnet. Die Prozedur zur Bitzuteilung führt eine spektrale Formung des Rauschens durch. Die Bits werden nach Maßgabe der Bedeutung verteilt, die die durch die Transformation erzeugten Koeffizienten für die Wahrnehmung haben.
Beispiele anderer Verfahren benutzen Teilbandcodierung, ein System der Frequenzbandunterteilung ohne Blockbildung, bei der das Eingangsaudiosignal zeitlich nicht in Blöcke unterteilt wird, sondern für die Quantisierung durch ein Filter frequenzmäßig in mehrere Frequenzbänder unterteilt wird. In einem System mit Frequenzbandunterteilung und Blockbildung, wie einem Transformationscodiersystem, wird das Eingangsaudiosignal aus der Zeitdomäne durch eine orthogonale Transformation in Spektralkoeffizienten in der Frequenzdomäne umgewandelt. Die resultierenden Spektralkoeffizienten werden in mehrere Frequenzbänder unterteilt, und die Spektralkoeffizienten jedes Bandes werden quantisiert.
Es ist auch ein Verfahren bekannt, das aus einer Kombination aus Teilbandcodierung und Transformationscodierung besteht, wobei Frequenzbereichssignale, die durch frequenzmäßige Unterteilung des Eingangsaudiosignals erzeugt werden, individuell orthogonal in Spektralkoeffizienten transformiert werden. Die Spektralkoeffizienten werden dann in mehrere Frequenzbänder unterteilt, und die Spektralkoeffizienten jedes Bandes werden quantisiert.
Zu den Filtern, die zur Unterteilung eines digitalen Audioeingangssignals in Bänder verwendet werden können, gehört das Quadraturspiegelfilter (QMF-Filter), das z. B. in R. E. Crochiere, Digital Coding of Speech in Sub-bands, 55 Beil Syst. Tech. J. Nr. 8 (1976) beschrieben ist. Das Verfahren zur frequenzmäßigen Unterteilung des Audioeingangssignals in Frequenzbänder gleicher Breite wird in Joseph H. Rothweiler, Polyphase Quadrature Filers-a New Subband Coding Technique, ICASSP 83, Boston (1983) diskutiert.
Als Verfahren zur Quantisierung der durch Frequenzteilung gewonnenen Spektralkoeffizienten ist ein Teilbandsystem bekannt, das die Eigenschaften des menschlichen Gehörs berücksichtigt. Der Audiofrequenzbereich kann frequenzmäßig in mehrere Bänder, z. B. in 25 kritische Bänder, unterteilt werden, deren Bandbreite mit wachsender Frequenz größer wird. Die Spektralkoeffizienten der einzelnen Bänder werden mit adaptiver Bitzuteilung quantisiert, die für jedes Band angewendet wird. Die Spektralkoeffizienten, die beispielsweise aus einer modifizierten diskreten Cosinustransformation (MDCT) resultieren, werden in Bänder unterteilt, und die Spektralkoeffizienten jedes Bandes werden mit einer adaptiv bestimmten Bitzahl quantisiert.
Im folgenden werden zwei bekannte Verfahren zur adaptiven Bitzuteilung beschrieben. Zunächst das in ASSP-25, IEEE Transactions of Acoustics, Speech, and Signal Processing, Nr. 4, August 1977 vorgestellte Verfahren, bei dem die Bitzuteilung auf der Basis der Größe der Signale der betreffenden Bänder durchgeführt wird. Obwohl dieses System ein flaches Quantisierungsrauschspektrum liefert und die Rauschenergie minimiert, wird das von dem Hörer wahrgenommene Rauschen nicht minimiert, weil das Verfahren nicht die Maskierungseigenschaften des menschlichen Gehörs nutzt.
Auf der anderen Seite nutzt das in M. A. Kransner, The Critical Band Coder-Digital Encoding of the Perceptual Requirements of the Auditory System, ICASSP 1980, beschriebene Verfahren die Maskierungseigenschaften des menschlichen Gehörs zur Bestimmung des für jedes Band benötigten Signal/Rausch-Verhältnisses, um eine feste Quantisierungsbitzuteilung durchzuführen. Dieses Verfahren liefert wegen der festen Bitzuteilung bei einem einzelnen sinusförmigen Eingangssignal jedoch relative schlechte Ergebnisse.
Wenn die Bitzuteilung zur Minimierung des Quantisierungsrauschpegels von der Größe der Bandsignale abhängig gemacht wird, ist der subjektive Rauschpegel nicht optimal, während es andererseits wenig wahrscheinlich ist, daß bei einer festen Bitzuteilung, die nur den Maskierungseffekt berücksichtigt, zufriedenstellende Signal/Rausch-Werte erzeugt werden.
Um die oben erwähnten Nachteile der beschriebenen Verfahren mit adaptiver Bitzuteilung zu beseitigen, wurde die in der Patentanmeldung EP-A-0 525 809 (veröffentlicht am 03. Februar 1993) beschriebene Datenkomprimiervorrichtung vorgeschlagen. Bei dieser wird die Gesamtbitzahl, die für die Quantisierung aller Spektralkoeffizienten aus der orthogonalen Transformation eines digitalen Eingangssignals resultierenden zur Verfügung steht, unterteilt in Bits, die nach Maßgabe des Pegels des Eingangssignals zuzuordnen sind (pegelabhängige Bits) und in Bits, die nach Maßgabe der spektralen Verteilung des Eingangssignals zuzuteilen sind (spektrumsabhängige Bits). Die Gesamtbitzahl, bestehend aus pegelabhängigen Bits und spektrumsabhängigen Bits, wird jedem Band zugeteilt. Jeder Spektralkoeffizient in dem Band wird mit der zugeteilten Bitzahl quantisiert. Die Gesamtbitzahl, die zur Quantisierung jedes Spektralkoeffizienten in jedem Band zugeteilt wird, ist die Summe aus der Zahl dem Band zugeteilten pegelabhängigen Bits und der Zahl der dem Band zugeteilten spektrumsabhängigen Bits.
Das Verhältnis, in dem die Zahl der insgesamt verfügbaren Quantisierungsbits zwischen pegelabhängigen Bits und spektrumsabhängigen Bits aufgeteilt wird, kann in Abhängigkeit von einem auf das Eingangssignal bezogenen Signal variabel sein, so daß dieses Verhältnis zugunsten der pegelabhängigen Bits um so größer ist, je glatter das Spektrum des Eingangssignals ist (d. h. je weniger Tonalität das Eingangssignal aufweist). Für jeden Block des digitalen Audioeingangssignals wird die Zahl der pegelabhängigen Bits, die für die Quantisierung jedes Spektralkoeffizienten in jedem Band zugeteilt werden, nach Maßgabe eines von mehreren vorbestimmten Bitzuteilungsmustern festgelegt, das in Abhängigkeit von dem Pegel des Eingangssignals ausgewählt wird. Die Zahl der spektrumsabhängigen Bits, die für die Quantisierung der Spektralkoeffizienten in jedem Band entsprechend den einzelnen Blöcken des Audioeingangssignals zugeteilt wird, hängt jeweils von dem im folgenden auch als "Bandamplitude" oder "Bandmagnitude" bezeichneten Höchstwert in dem betreffenden Band ab. Die Bandmagnitude kann entweder die Energie des Bandes, der Spitzenpegel in dem Band, der über das Band integrierte Pegel oder ein anderer geeigneter Parameter sein, der auf das Band bezogen ist.
Wenn die Energie des Eingangssignals in speziellen Spektralbereichen konzentriert ist, wie dies bei einem aus einer einzigen Sinusschwingung bestehenden Eingangssignal der Fall ist, ermöglicht das beschriebene Verfahren zur Quantisierungsbitzuteilung eine Vergrößerung der zugeteilten Bitzahl für solche Bändern, die hohe Pegel der Spektralenergie enthalten, um auf diese Weise das Signal/Rausch-Verhältnis über alles zu verbessern. Da das menschliche Gehör im allgemeinen für Signale, die schmale Spektralkomponenten enthalten, hochempfindlich ist, verbessert das oben beschriebene Verfahren zur Bitzuteilung nicht nur den Meßwert des Signal/Rausch-Verhältnisses sondern auch das von dem Hörer subjektiv wahrgenommene Signal/Rausch-Verhältnis.
Wenn die spektrumsabhängige Bitzuteilung einfach zu dem Zweck erfolgt, die Signal/Rausch- Eigenschaften zu verbessern, ist es jedoch nicht möglich, Bändern, die den Spektralbereichen in einem Signal entsprechen, das eine große Zahl von schmalen Spektralkomponenten enthält, z. B. dem Klang eines. Triangels, eine genügend große Bitzahl zuzuteilen. Dementsprechend beschreibt die Patentanmeldung EP-A-554 081 (veröffentlicht am 04.08.1993) eine Version des oben beschriebenen Komprimierers, bei dem die Zahl der spektrumsabhängigen Bits, die für die Quantisierung der Spektralkoeffizienten in jedem Band zugeteilt werden, von der nach der Bandfrequenz gewichteten Magnitude des Bandes abhängt.
Zumindest einige Aspekte der vorliegenden Erfindung betreffen eine Vorrichtung zum Komprimieren eines digitalen Audioeingangssignals, die einen hohen Kompressionsgrad ermöglicht und ein Ausgangssignal liefert, das nach komplementärer Expandierung, Decodierung und Reproduktion selbst dann eine für die subjektive Wahrnehmung des Hörers gute Tonqualität liefert, wenn das Audioeingangssignal aus einer schmalen Spektrallinie, z. B. einer 1- kHz-Sinuswelle, besteht.
Nach einem ihrer Aspekte sieht die Erfindung eine Vorrichtung vor zum Komprimieren eines digitalen Audioeingangssignals zur Bereitstellung eines komprimierten Ausgangssignals, wobei die Vorrichtung aufweist:
eine Einrichtung zum Herleiten mehrerer Spektralkoeffizienten aus dem Eingangssignal und zum Gruppieren der Spektralkoeffizienten in Bänder,
eine Verteilereinrichtung zum Verteilen der insgesamt verfügbaren Zahl von Quantisierungsbits auf signalspektrumsabhängige Quantisierungsbits und rauschspektrumsabhängige Quantisierungsbits in Abhängigkeit von dem Eingangssignal,
eine Einrichtung zum Festlegen einer Amplitude für jedes Band und zum Zuteilen der signalspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von der für das Band festgelegten Amplitude für die Quantisierung der einzelnen Spektralkoeffizienten in jedem Band,
eine Einrichtung zum Festlegen eines subjektiv zulässigen Rauschspektrums für jedes Band und zum Zuteilen der rauschspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von dem festgelegten Rauschspektrum für die Quantisierung der einzelnen Spektralkoeffizienten in dem Band und
eine Quantisierungseinrichtung zum Quantisieren der Spektralkoeffizienten in dem Band unter Verwendung einer Gesamtzahl von Quantisierungsbits, die durch Addieren der Zahl der dem Band zugeteilten signalspektrumsabhängigen Quantisierungsbits und der Zahl der dem Band zugeteilten rauschspektrumsabhängigen Quantisierungsbits bestimmt wird.
Nach einem anderen ihrer Aspekte sieht die Erfindung ein Verfahren vor zum Komprimieren eines digitalen Audioeingangssignals zur Bereitstellung eines komprimierten Ausgangssignals, wobei das Verfahren die folgenden Schritte umfaßt:
Herleiten mehrerer Spektralkoeffizienten aus dem Eingangssignal und Gruppieren der Spektralkoeffizienten in Bänder,
Verteilen der insgesamt verfügbaren Zahl von Quantisierungsbits auf signalspektrumsabhängige Quantisierungsbits und rauschspektrumsabhängige Quantisierungsbits in Abhängigkeit von dem Eingangssignal,
Festlegen einer Amplitude für jedes Band und zum Zuteilen der signalspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von der für das Band festgelegten Amplitude für die Quantisierung der einzelnen Spektralkoeffizienten in jedem Band,
Festlegen eines subjektiv zulässigen Rauschspektrums für jedes Band und zum Zuteilen der rauschspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von dem festgelegten Rauschspektrum für die Quantisierung der einzelnen Spektralkoeffizienten in dem Band und
Quantisieren der Spektralkoeffizienten in dem Band unter Verwendung einer Gesamtzahl von Quantisierungsbits, die durch Addieren der Zahl der dem Band zugeteilten signalspek trumsabhängigen Quantisierungsbits und der Zahl der dem Band zugeteilten rauschspektrumsabhängigen Quantisierungsbits bestimmt wird.
Nach einem weiteren Aspekt sieht die Erfindung ein System vor zum Aufzeichnen eines digitalen Audioeingangssignals mit einer Bitrate auf einem Medium und zur Wiedergabe des digitalen Eingangssignals von dem Medium zur Bereitstellung eines digitalen Audioausgangssignals, wobei das System aus dem Eingangssignal ein für die Aufzeichnung auf dem Medium komprimiertes Signal herleitet und aus dem von dem Medium reproduzierten komprimierten Signal das Ausgangssignal herleitet, wobei das komprimierte Signal eine kleinere Bitrate aufweist als das Eingangssignal, wobei das System eine Vorrichtung nach dem oben beschriebenen Aspekt zur Erzeugung des komprimierten Signals umfaßt sowie eine Vorrichtung zum Expandieren des komprimierten Signals zur Bereitstellung des digitalen Audioausgangssignals, wobei die Expandiervorrichtung aufweist:
eine Extrahiereinrichtung zum Extrahieren von quantisierten Spektralkoeffizienten aus dem komprimierten Signal,
eine Dequantisiereinrichtung zum Dequantisieren der quantisierten Spektralkomponenten und
eine Einrichtung zum Herleiten des Ausgangssignals aus den dequantisierten Spektralkomponenten.
Das System kann dazu benutzt werden, ein Signal für die Übertragung über ein Übertragungsmedium zu komprimieren und zu expandieren.
Das digitale Signal kann auf einem Medium aufgezeichnet werden. Das komprimierte Signal wird aus einem digitalen Audioeingangssignal mit einem gegebenen Spektrum durch ein Komprimierverfahren gewonnen, bei dem aus dem Eingangssignal mehrere Spektralkoeffizienten hergeleitet und in Bänder gruppiert werden und für jedes Band eine Magnitude bestimmt wird. Die insgesamt verfügbaren Quantisierungsbits werden nach Maßgabe des Eingangssignals aufgeteilt in rauschspektrumsabhängige Bits, die den Bändern in Abhängigkeit von einem subjektiv zulässigen Rauschspektrum zugeteilt werden, und in signalspektrumsabhängigen Bits, die den Bändern nach Maßgabe der Magnituden der Bänder zugeteilt werden. Die Spektralkoeffizienten jedes Bandes werden mit einer Gesamtbitzahl quantisiert, die sich durch Summieren der dem Band zugeteilten rauschspektrumsabhängigen Bits und der dem Band zugeteilten signalspektrumsabhängigen Bits ergibt. Schließlich sind die quantisierten Spektralkomponenten in dem komprimierten Signal enthalten.
Die Gesamtzahl der verfügbaren Quantisierungsbits ist bei dem oben erwähnten Komprimierer, Expandierer, dem System und dem Medium aufgeteilt in signalspektrumsabhängige Quantisierungsbits und rauschspektrumsabhängige Quantisierungsbits, wobei das Auftei lungsverhältnis in Abhängigkeit von dem Eingangssignal festgelegt ist. Je glatter das Spektrum des Eingangssignals ist, um so mehr verschiebt sich das Aufteilungsverhältnis zugunsten der rauschspektrumsabhängigen Quantisierungsbits.
Ein Signal, das die Differenzinformation zwischen benachbarten Spektralkomponenten angibt, dient als Index zur Anzeige der Glätte des Spektrums. Alternativ kann zur Anzeige der Glätte des Spektrums auch ein Signal benutzt werden, das aus den für die Bänder erzeugten Blockgleitkoeffizienten abgeleitet ist. Dieser Lösungsweg erfordert weniger Prozeßschritte, da die Blockgleitkoeffizienten bereits berechnet sind.
Wenn das Eingangssignal eine spektrale Verteilung aufweist, wie sie für ein Musiksignal typisch ist, sind die Quantisierungsbits breit verteilt, und der von dem Hörer subjektiv wahrgenommene Rauschpegel wird durch Maskierung reduziert. Wenn das Eingangssignal ein stark tonales Spektrum besitzt, wie z. B. eine 1-kHz-Sinuswelle, erlaubt das Bitzuteilungsschema gemäß der Erfindung, eine Konzentration der Quantisierungsbits in dem Teil des Spektrums, in dem das Signal die größte Magnitude hat. Dadurch ergibt sich bei einem Eingangssignal mit hoher Tonalität ein verbessertes Signal/Rausch-Verhältnis.
Im folgenden wird unter Bezugnahme auf die anliegenden Zeichnungen ein spezifisches Ausführungsbeispiel der Erfindung beschrieben.
Fig. 1 zeigt ein Blockdiagramm des Komprimierers zum Komprimieren eines digitalen Audioeingangssignals,
Fig. 2 zeigt ein praktisches Beispiel für die Blockgröße in den einzelnen MDCT-Schaltungen,
Fig. 3 zeigt ein praktisches Beispiel einer Schaltung für die adaptive Bitzuteilung in einer Darstellung als Blockdiagramm,
Fig. 4 zeigt eine grafische Darstellung des Spektrums des Ausgangssignals der Schaltung zur Berechnung der Energie in den einzelnen kritischen Bändern,
Fig. 5 zeigt eine Schaltung zur Berechnung des subjektiv zulässigen Rauschspektrums in einer Darstellung als Blockdiagramm,
Fig. 6 zeigt ein Bark-Spektrum, dessen Frequenzachse in kritische Bänder unterteilt ist,
Fig. 7 zeigt eine Grafik, in der die Hörschwellenkurve und das Maskierspektrum kombiniert sind,
Fig. 8 zeigt eine Grafik für ein Beispiel der adaptiven Bitzuordnung durch den Komprimierer mit einem Eingangssignal, das ein im wesentlichen flaches Spektrum besitzt,
Fig. 9 zeigt eine Grafik für ein Beispiel des Quantisierungsrauschspektrums, das der Komprimierer bei einem Eingangssignal mit einem im wesentlichen flachen Spektrum erzeugt,
Fig. 10 zeigt eine Grafik für ein Beispiel der adaptiven Bitzuordnung durch den Komprimierer bei einem Eingangssignal mit starker Tonalität,
Fig. 11 zeigt eine grafische Darstellung für ein Beispiel des Quantisierungsrauschspektrums, das der Komprimierer bei einem Eingangssignal mit starker Tonalität erzeugt,
Fig. 12 zeigt ein Blockdiagramm des Expandierers.
Fig. 1 zeigt den Komprimierer eines hocheffizienten digitalen Komprimier/Expandier-Systems. Der Komprimierer komprimiert ein digitales Audioeingangssignal, z. B. ein PCM-Audiosignal, wobei er die Verfahren der Teilbandcodierung (SBC), der adaptiven Transformationscodierung (ATC) und der adaptiven Bitzuordnung (APC-AB) verwendet.
Der in Fig. 1 dargestellte Komprimierer für digitale Audioeingangssignale unterteilt das digitale Audioeingangssignal mit Hilfe eines Filters usw. in mehrere Frequenzbereiche, die gleiche Bandbreite haben können. Der Komprimierer unterzieht dann das Frequenzbereichsignal in jedem Frequenzbereich einer orthogonalen Transformation. Die Spektralkoeffizienten, die aus der orthogonalen Transformation der Frequenzbereichsignale aus der Zeitdomäne in die Frequenzdomäne resultieren, werden in Frequenzbänder, vorzugsweise in kritische Bänder, gruppiert, die den Eigenschaften des menschlichen Gehörsinns Rechnung tragen. Alternativ können die Spektralkoeffizienten auch mittels geeigneter Filter generiert werden, die das Eingangssignal frequenzmäßig in mehrere schmale Frequenzbänder unterteilen, ohne die Eingangssignale zeitlich zu unterteilen. Die Spektralkomponenten in den einzelnen Frequenzbändern werden dann durch adaptive Bitzuteilung quantisiert.
In dem Komprimierer wird die Blockgröße jedes Frequenzbereichsignals, das der orthogonalen Transformation unterzogen wird, (d. h. die Anzahl der Abtastproben jedes Frequenzbereichsignals pro Block) in Abhängigkeit von den dynamischen Eigenschaften des Eingangssignals adaptiv verändert. Zusätzlich wird auf die Spektralkoeffizienten jedes kritischen Bandes ein Blockgleiten (block floating) angewendet. Die Spektralkoeffizienten in den höherfrequenten kritischen Bändern können optional in mehrere Teilbänder gruppiert werden, wobei dann das Blockgleiten auf die Spektralkoeffizienten in jedem Teilband angewendet werden kann. Wenn in der folgenden Beschreibung von kritischen Bändern die Rede ist, ist dies so zu verstehen, daß die höherfrequenten kritischen Bänder optional frequenzmäßig in mehrere Teilbänder unterteilt werden können. Wenn höherfrequente kritische Bänder in Teilbänder unterteilt werden, bezieht sich die Bezeichnung kritische Bänder auch auf die Teilbänder, in die die höherfrequenten kritischen Bänder unterteilt wurden.
Ein kritisches Band ist ein Frequenzband, das von einem Frequenzteilersystem erzeugt wird, welches die Frequenzunterscheidungseigenschaften des menschlichen Gehörsinns in Rechnung stellt. Ein kritisches Band ist ein Rauschband, das durch einen reinen Klang verdeckt werden kann, der die gleiche Intensität hat wie das Rauschband und dessen Frequenz in der Mitte des Rauschbandes liegt. Die Breite der kritischen Bänder nimmt mit wachsender Frequenz zu. Der Audiofrequenzbereich von 0 Hz bis 20 kHz wird normalerweise in 25 kritische Bänder unterteilt.
In der Anordnung von Fig. 1 wird ein digitales Audioeingangssignal, z. B. ein PCM-Audiosignal, im Frequenzbereich von beispielsweise 0 Hz bis 20 kHz dem Eingang 10 zugeführt. Das Eingangssignal wird von einem Bandteilungsfilter 11, das vorzugsweise ein Quadraturspiegelfilter (QMF-Filter) ist, in ein Frequenzbereichsignal im Frequenzbereich von 0 Hz bis 10 kHz und ein hohes Frequenzbereichsignal im Frequenzbereich von 10 bis 20 kHz unterteilt. Das Frequenzbereichsignal in dem Frequenzbereich von 0 Hz bis 10 kHz wird von einem Bandteilungsfilter 12, das vorzugsweise ebenfalls ein QMF-Filter ist, weiter unterteilt in ein niederfrequentes Bereichsignal im Frequenzbereich von 0 Hz bis 5 kHz und ein mittelfrequentes Bereichsignal im Frequenzbereich von 5 bis 10 kHz.
Das Frequenzbereichsignal für den Frequenzbereich von 10 kHz bis 20 kHz aus dem Bandteilungsfilter 11 wird einer orthogonalen Transformationsschaltung 13, die vorzugsweise eine Schaltung zur modifizierten diskreten Cosinustransformation (MDCT-Schaltung) ist, und einer Blockgrößenentscheidungsschaltung 19 zugeführt. Das Frequenzbereichsignal für den Frequenzbereich von 5 kHz bis 10 kHz aus dem Bandteilungsfilterfilter 12 wird einer MDCT- Schaltung 14 und einer Blockgrößenentscheidungsschaltung 20 zugeführt. Das Frequenzbereichsignal für den Frequenzbereich von 0 Hz bis 5 kHz aus dem Bandteilungsfilterfilter 12 wird der MDCT-Schaltung 14 und einer Blockgrößenentscheidungsschaltung 21 zugeführt.
Die Blockgröße, die der MDCT-Verarbeitung unterzogen wird, wird in den Blockgrößenentscheidungsschaltungen 19, 20 bzw. 21 festgelegt. Die Frequenzbereichsignale aus den Bandteilungsfilterfiltern 11 und 12 werden in den MDCT-Schaltungen 13, 14 und 15 einer MDCT-Verarbeitung unterzogen. Dabei werden Blockgrößen verwendet, die durch von den Blockgrößenentscheidungsschaltungen 19, 20 und 21 gelieferte Blockgrößendaten angegeben werden.
Fig. 2 zeigt ein praktisches Beispiel für Blockgrößen, die in den MDCT-Schaltungen 13, 14 und 15 benutzt werden. In Richtung wachsender Frequenz werden hier die Frequenzbereiche verbreitert, und die zeitliche Auflösung wird vergrößert (d. h. die Blocklänge wird kürzer). In der gleichen Zeit, in der eine MDCT-Operation an den Blöcken bL, bM des niederfrequenten Bereichsignals (0 Hz bis 5 kHz) bzw. dem mittelfrequenten Bereichsignals (5 bis 10 kHz) durchgeführt wird, wobei jeder dieser Blöcke beispielsweise 256 Abtastproben enthält, werden an den Blöcken bH1, bH2 des hochfrequenten Bereichsignals (10 bis 20 kHz), die beispielsweise jeweils 128 Abtastproben enthalten, zwei MDCT-Operationen durchgeführt.
Durch die hier beschriebene Anordnung kann der Aufbau der Vorrichtung vereinfacht werden, weil jeder Frequenzbereich die gleiche Anzahl von Spektralkoeffizienten aufweist, während in dem nieder- und mittelfrequenten Bereich, in denen die Frequenzauflösung kritisch ist, eine größere Frequenzauflösung und in dem hochfrequenten Bereich eine größere zeitliche Auflösung vorgesehen ist, weil Transientensignale mehr hochfrequente Komponenten enthalten. Durch weitere Unterteilung der Blocklängen um den Faktor 2 oder 4 kann zusätzlich die zeitliche Auflösung in allen Frequenzbereichen adaptiv vergrößert werden, wenn das Eingangssignal signifikante zeitliche Änderungen aufweist.
Es sei noch einmal auf Fig. 1 Bezug genommen. Die von den MDCT-Schaltungen 13, 14 und 15 erzeugten Spektralkomponenten werden in kritische Bänder gruppiert und den adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18 zugeführt.
Diese adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18 requantisieren die Spektralkoeffizienten in jedem kritischen Band, wobei sie die für die Quantisierung der Spektralkoeffizienten in dem kritischen Band zugeteilte Bitzahl benutzen. Die requantisierten Spektralkoeffizienten werden den Ausgängen 22, 24 und 26 zugeführt. Gleichzeitig wir den Ausgängen 23, 25 und 27 eine Blockgleitinformation, die die aus der Normierung resultierende Signalmagnitude angibt, sowie eine Wortlängeninformation zugeführt, die für die Quantisierung der Spektralkoeffizienten in jedem kritischen Band benutzte Bitzahl angibt.
Die quantisierten Spektralkoeffizienten, die Blockgleitinformation und die Wortlängeninformation werden als Ausgangssignal ausgegeben oder von einem Multiplexer, einer Fehlerkorrekturschaltung und einer Modulatorschaltung, die in Fig. 1 nicht dargestellt sind, in ein geeignetes Ausgangssignalformat transformiert. Das Ausgangssignal, das in einem für die Übertragung oder Aufzeichnung geeigneten Format vorliegt, wird einer Aufzeichnungsvorrichtung oder einer anderen Verarbeitungsvorrichtung für die Aufzeichnung auf einem Aufzeichnungsmedium, z. B. einem Magnetband oder einer Platte, vorzugsweise einer optischen Platte, zugeführt.
Wegen der Komprimierung des Eingangssignals durch den Komprimierer gemäß der Erfindung hat das Ausgangssignal eine wesentlich kleinere Bitrate als das Eingangssignal. Somit kann das Ausgangssignal auf einem Speichermedium (z. B. einer kleineren optischen Platte) gespeichert werden, das eine geringere Speicherkapazität besitzt als ein Medium, das für die Speicherung des Eingangssignals benötigt wird. Das Ausgangssignal kann außerdem durch ein Übertragungsmedium übertragen werden, das eine geringere Übertragungsrate besitzt als ein für die Übertragung des Eingangssignals benötigtes Übertragungsmedium.
Fig. 3 zeigt ein praktisches Beispiel für die adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18. Die Spektralkoeffizienten aus den MDCT-Schaltungen 13, 14 und 15 in Fig. 1 werden über den Eingang 301 der adaptiven Bitzuteilungs- und Quantisierschaltung 300 in der Bandmagnitudenberechnungsschaltung 303 zugeführt. Die Bandmagnitudenberechnungsschaltung berechnet für jedes kritische Band eine Magnitude, indem sie die mittleren Quadratwurzelwerte der Amplituden der Spektralkoeffizienten in dem kritischen Band berechnet. Die Bandmagnitude kann alternativ aus den Spitzen- oder Mittelwerten der Amplituden der Spektralkoeffizienten in dem kritischen Band oder auf eine andere geeignete Weise hergeleitet werden.
Die Bandmagnitudenberechnungsschaltung 303 liefert als Ausgangssignal für jedes kritische Band eine Bandmagnitude, wie dies in Fig. 4 dargestellt ist. In Fig. 4 sind zur Vereinfachung nur 12 Bänder (B1 bis B12) dargestellt, die die kritischen Bänder sowie die Teilbänder repräsentieren, in die die höherfrequenten kritischen Bänder unterteilt sein können.
Anhand von Fig. 3 wird die Funktion der adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18 näher beschrieben.
Die Spektralkoeffizienten aus den MDCT-Schaltungen 13, 14 und 15 werden dem Eingang 301 und von dort der Bandmagnitudenberechnungsschaltung 303 zugeführt. Die Bandmagnitudenberechnungsschaltung 303 berechnet für jedes kritische Band und für die einzelnen Teilbänder, in die die höherfrequenten kritischen Bänder unterteilt sind, eine Bandmagnitude.
Die von der Bandmagnitudenberechnungsschaltung 303 berechneten Bandmagnituden werden der signalspektrumsabhängigen Bitzuteilungsschaltung 304 zugeführt. Die signalspektrumsabhängige Bitzuteilungsschaltung ordnet einen Teil der insgesamt verfügbaren Quantisierungsbitzahl so zu, daß sich ein Quantisierungsrauschen mit einem weißen Rauschspektrum ergibt. Die Zahl der insgesamt verfügbaren Quantisierungsbits, z. B. 100 kb/s, wird für die Zuteilung zu den kritischen Bändern zwischen einer signalspektrumsabhängigen Bitzuteilung und einer rauschspektrumsabhängigen Bitzuteilung aufgeteilt. Das Aufteilungsverhältnis zwischen den beiden verschiedenen Typen der Bitzuteilung hängt ab von der Tonalität des Eingangssignals, d. h. von der Glätte des Spektrums des Eingangssignals. Die Glätte des Spektrums des Eingangssignals wird durch einen Spektralglätteindex angegeben, der von der Spektralglätteberechnungsschaltung 308 berechnet wird.
Die signalspektrumsabhängige Bitzuteilungsschaltung 304 teilt die Quantisierungsbits, die für die Zuteilung entsprechend der signalspektrumsabhängigen Bitzuteilung auf die kritischen Bändern aufgeteilt werden, entsprechend dem Logarithmus der Magnitude jedes kritischen Bandes zu.
Die rauschspektrumsabhängige Bitzuteilungsschaltung 305, die die Bitzuteilung entsprechend dem zulässigen Rauschspektrum vornimmt, empfängt aus der Bandmagnitudenberechnungsschaltung 303 die Bandmagnitude für jedes kritische Band. In Abhängigkeit von dem Bandmagnitudenspektrum, bestimmt die rauschspektrumsabhängige Bitzuteilungsschaltung ein zulässiges Rauschspektrum, d. h. einen zulässigen Rauschpegel für jedes kritische Band, wobei der Maskiereffekt berücksichtigt wird. Die Schaltung für die rauschspektrumsabhängige Bitzuteilung ordnet dann diejenige Bitzahl zu, die für die rauschspektrumsabhängige Bitzuteilung auf die kritischen Bänder zugeteilt wurde, um das geforderte zulässige Rauschspektrum zu erzeugen.
Die für jedes kritische Band festgelegte Zahl von signalspektrumsabhängigen Bits und die für jedes kritische Band festgelegte Zahl der rauschspektrumsabhängigen Bits werden summiert und ergeben die Gesamtzahl der Quantisierungsbit für das Quantisieren der Spektralkoeffizienten in dem betreffenden kritischen Band. Die adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18 in Fig. 1 requantisieren dann die einzelnen Spektralkoeffizienten in jedem kritischen Band, wobei sie die für die Quantisierung der Spektralkoeffizienten in dem kritischen Band zugeteilte Gesamtzahl an Quantisierungsbits benutzen. Die auf diese Weise quantisierten Spektralkoeffizienten werden den Ausgängen 22, 24 und 26 zugeführt.
Die rauschspektrumsabhängige Bitzuteilungsschaltung 305 enthält eine Rechenschaltung zur Berechnung des zulässigen Rauschspektrums, die den Maskiereffekt des Eingangssignals berücksichtigt, um das zulässige Rauschspektrum zu berechnen. Mit Maskierung ist hier das Phänomen bezeichnet, durch das ein Schall für das menschliche Gehör unhörbar wird, wenn er durch einen anderen Schall verdeckt (maskiert) wird. Dieses Maskieren beinhaltet ein zeitliches Maskieren durch einen Schall in der Zeitdomäne und ein simultanes Maskieren durch einen Schall in der Frequenzdomäne. Das Ergebnis der Maskierung besteht darin, daß ein Geräusch, das einer zeitlichen oder simultanen Maskierung unterworfen ist, nicht wahrgenommen wird. Infolgedessen wird ein Geräusch in einem tatsächlichen Audiosignal als zulässiges Geräusch betrachtet, das innerhalb des zeitlichen oder simultanen Maskierbereichs des Signals liegt.
Fig. 5 zeigt ein Blockdiagramm eines praktischen Beispiels für die Schaltung zur Berechnung des zulässigen Rauschspektrums. In Fig. 5 werden die Spektralkoeffizienten aus den MDCT- Schaltungen 13, 14 und 15 dem Eingang 521 zugeführt und gelangen von dort in die Bandmagnitudenberechnungsschaltung 522. In dieser wird die Magnitude jedes kritischen Bandes bestimmt, indem die Summe der Amplituden der Spektralkoeffizienten in dem kritischen Band berechnet wird. Alternativ können auch der Spitzenwert, die RMS oder die Mittelwerte der Amplituden der Spektralkoeffizienten verwendet werden. Das von der Bandmagnituden berechnungsschaltung 522 erzeugte Spektrum der Magnituden der kritischen Bänder wird im allgemeinen als Bark-Spektrum bezeichnet. Fig. 6 zeigt ein typisches Bark-Spektrum SB, wobei zur Vereinfachung der Darstellung jedoch nur 12 kritische Bänder B1 bis B12 dargestellt sind.
Um den Maskiereffekt eines Bark-Spektrums zu bestimmen, wird das Bark-Spektrum SB gefaltet, d. h., die Werte des Bark-Spektrums werden mit einer vorbestimmten Gewichtungsfunktion multipliziert, und die resultierenden Produkte werden addiert. Zu diesem Zweck werden die Werte des Bark-Spektrums aus der Bandmagnitudenberechnungsschaltung 522 dem Faltungsfilter 523 zugeführt.
Das Faltungsfilter 523 besteht aus mehreren Verzögerungselementen, die die Eingangsdaten sequentiell verzögern, mehreren, z. B. 25, Multiplizierern, nämlich einem für jedes kritische Band, zum Multiplizieren des Ausgangssignals jedes Verzögerungselements mit einer Gewichtungsfunktion, und einer Summierschaltung zum Addieren der Ausgangssignale der Multiplizierer. Die hier beschriebene Faltungsverarbeitung leitet das in Fig. 6 dargestellte Maskierspektrum MS aus dem ebenfalls in Fig. 6 dargestellten Bark-Spektrum ab.
Als praktisches Beispiel für die Gewichtungsfunktionen in der Faltungsfilterschaltung 523 sind hier 0,15; 0,0019; 0,0000086; 0,4; 0,06 und 0,007 für die Multiplizierer M-1, M-2, M-3, M+1, M+2 bzw. M+3 gewählt. Der Gewichtungsfaktor für den Multiplizierer M ist gleich 1, und M ist eine beliebige ganze Zahl von 1 bis 25.
Das Ausgangssignal des Faltungsfilters 523 wird dem Subtrahierer 524 zugeführt, um den Pegel α zu ermitteln, der dem zulässigen Rauschpegel in der gefalteten Region entspricht. Der Pegel α, der dem zulässigen Rauschpegel in der gefalteten Region entspricht, ist der Pegel, der nach der Rückfaltung den zulässigen Rauschpegel für jedes kritische Band liefert.
Eine Zulässigkeitsfunktion, die den Maskierpegel repräsentiert, wird dem Subtrahierer 524 zugeführt, um den Pegel α zu ermitteln. Der Pegel α wird durch Vergrößern oder Verkleinern der Zulässigkeitsfunktion gesteuert. Die Zulässigkeitsfunktion wird von dem weiter unten beschriebenen (n - ai)-Funktionsgenerator 525 geliefert.
Wenn die Ordnungszahl eines kritischen Bandes mit i bezeichnet wird und die Ordnungszahl des kritischen Bandes mit der niedrigsten Frequenz gleich 1 ist, wird der Pegel α, der dem zulässigen Rauschpegel entspricht, durch die folgende Gleichung bestimmt:
(1) α = S - (n - ai)
worin n und a Konstanten sind (a > 0) und S die Intensität des dem Faltungsprozeß unterzogenen Bark-Spektrums bedeutet. In der Gleichung (1) repräsentiert der Ausdruck (n - ai) die Zulässigkeitsfunktion. In dem bevorzugten Ausführungsbeispiel ist n auf 38 gesetzt und a auf 1. Mit diesen Werten tritt keine Verschlechterung der Tonqualität auf, so daß man ein zufriedenstellendes komprimiertes Signal erhält.
Der in der beschriebenen Weise festgelegte Pegel α wird dem Teiler 526 zugeführt, der den Pegel α in der gefalteten Region einer Rückfaltung unterzieht. Auf diese Weise wird das Maskierspektrum zu dem zulässigen Rauschspektrum. Obwohl die Rückfaltung normalerweise eine komplizierte arithmetische Operation erfordert, dient in dem vorliegenden Ausführungsbeispiel der einfache Teiler 526 zur Rückfaltung.
Das Maskierspektrum, d. h. der Maskierpegel für jedes kritische Band, wird über die Synthetisierschaltung 527 dem Subtrahierer 528 zugeführt, der außerdem über die Verzögerungsschaltung 529 das Ausgangssignal der Bandmagnitudenberechnungsschaltung 522, d. h. das oben erwähnte Bark-Spektrum SB empfängt. Der Subtrahierer 528 subtrahiert das Maskierspektrum von dem Bark-Spektrum SB, so daß derjenige Teil des Bark-Spektrums SB, der unterhalb des Maskierpegels MS liegt, maskiert wird, wie dies in Fig. 7 dargestellt ist. Die Verzögerungsschaltung 529 verzögert das Bark-Spektrum SB aus der Bandmagnitudenberechnungsschaltung 522, um die Verzögerung durch die Verarbeitung in den Schaltungen zwischen der Bandmagnitudenberechnungsschaltung und dem Subtrahierer 528 zu berücksichtigen.
Das Ausgangssignal des Subtrahierers 528 wird über eine Schaltung 530 zur Korrektur des zulässigen Rauschspektrums dem Ausgang 531 zugeführt. Von dem Ausgang gelangt das Signal zu einem nicht dargestellten ROM, in dem Informationen über mehrere Bitzahlzuteilungen gespeichert sind. Das ROM wählt nach Maßgabe des Ausgangssignals des Subtrahierers 528, das in der Schaltung 530 zur Korrektur des zulässigen Rauschpegels korrigiert wurde, einen Informationssatz über die Bitzahlzuteilung aus, d. h. eine zugeteilte Bitzahl für jedes kritische Band. Dieser Informationssatz über die zugeteilte Bitzahl wird den adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18 zugeführt, in denen die Spektralkoeffizienten aus den MDCT-Schaltungen 13 bis 15 unter Verwendung der durch die zugeteilte Bitzahl für jedes kritische Band angegebenen Bitzahl quantisiert werden.
Die Spektralkoeffizienten in jedem kritischen Band werden in den adaptiven Bitzuteilungs- und Quantisierschaltungen 16, 17 und 18 quantisiert, wobei eine dem kritischen Band zugeteilte Quantisierungsbitzahl verwendet wird, die von dem Pegel der Differenz zwischen der Magnitude des kritischen Bandes und dem jeweiligen Ausgangssignal der Schaltung zur Berechnung des zulässigen Rauschspektrums abhängt.
Die Synthetisierschaltung 527 synthetisiert Daten, die die sog. Hörschwellenkurve RC repräsentieren, mit dem Maskierspektrum MS, wie dies in Fig. 7 dargestellt ist. Die Hörschwellenkurve repräsentiert eine weitere Eigenschaft des menschlichen Gehörs und wird von dem Hörschwellenkurvengenerator 532 geliefert. Rauschen mit einem unter der Hörschwellenkurve liegenden absoluten Pegel ist nicht wahrnehmbar. Für eine gegebene Quantisierung hängt die Form der Hörschwellenkurve von der Wiedergabelautstärke ab. Da jedoch die Art und Weise, in der Musik sich in den Dynamikbereich praktischer 16-Bit-Digitalsysteme einpaßt, nicht signifikant variiert, wenn Quantisierungsrauschen in dem Frequenzband, für das das Ohr die größte Empfindlichkeit besitzt, d. h. dem Frequenzband in der Nähe von 4 kHz, unhörbar ist, kann man davon ausgehen, daß Quantisierungsrauschen unterhalb des Pegels der Hörschwellenkurve auch in anderen Frequenzbändern nicht wahrnehmbar ist. Deshalb kann der zulässige Rauschpegel durch Synthetisieren der Hörschwellenkurve RC und des Maskierspektrums MS gewonnen werden, wenn der Quantisierungsrauschpegel in der Nähe von 4 kHz entsprechend der von dem System gesetzten Wortlänge nicht wahrnehmbar ist. Der resultierende zulässige Rauschpegel in jedem kritischen Band kann bis zu dem durch den schraffierten Teil in Fig. 9 angegebenen Pegel reichen. Im vorliegenden Ausführungsbeispiel ist der Pegel der Hörschwellenkurve bei 4 kHz so gesetzt, daß er dem minimalen Pegel entspricht, der einer Quantisierung z. B. mit 20 Bit entspricht. Fig. 7 zeigt auch das Signalspektrum SS.
Die Schaltung 530 zur Korrektur des zulässigen Rauschpegels korrigiert den zulässigen Rauschpegel am Ausgang des Subtrahierers 528 z. B. auf der Basis einer von der Korrekturschaltung 533 erzeugten Kurve gleicher Lautheit. Die Kurve gleicher Lautheit entspricht einer weiteren Eigenschaft des menschlichen Gehörs. Diese Kurve wird hergeleitet, indem die Schalldruckpegel bei verschiedenen Frequenzen bestimmt werden, die mit der gleichen Intensität wahrgenommen werden wie der Schalldruckpegel eines reinen Tons bei 1 kHz. Die Kurve gleicher Lautheit gleicht im wesentlichen der in Fig. 7 dargestellten Hörschwellenkurve RC. In der Kurve gleicher Lautheit wird ein Ton in der Nähe von 4 kHz mit der gleichen Intensität wahrgenommen wie ein Ton bei 1 kHz, selbst wenn der Schalldruckpegel um 8 bis 10 dB kleiner ist als bei dem 1-kHz-Ton. Ein Ton in der Nähe von 50 Hz muß hingegen einen Schalldruckpegel haben, der um etwa 15 dB größer ist als der Schalldruckpegel eines 1-kHz- Tons, um mit der gleichen Intensität wahrgenommen zu werden. Aus diesem Grund sollte der zulässige Rauschpegel über dem Pegel der Hörschwellenkurve eine Frequenzkennlinie haben, die durch eine der Kurve gleicher Lautheit entsprechende Kurve gegeben ist. Man erkennt, daß die Anpassung an die Eigenschaften des menschlichen Gehörs eine Korrektur des zulässigen Geräuschpegels durch Berücksichtigung der Kurve gleicher Lautheit erfordert.
Das zulässige Rauschspektrum wird erzeugt, indem man einen gewissen Teil der insgesamt verfügbaren Bitzahl, z. B. 100 kb/s, benutzt. Dieser Teil wird mit wachsender Tonalität des Eingangssignals kleiner.
Das Verhältnis, mit dem die insgesamt verfügbaren Bitzahl auf die beiden Zuteilungsverfahren, d. h. die rauschspektrumsabhängige Bitzuteilung und die signalspektrumsabhängige Bitzuteilung, aufgeteilt werden, wird durch den Spektralglätteindex eingestellt, der die Glätte des Spektrums des Eingangssignals angibt. Das praktische Verfahren zur Aufteilung der Bits zwischen den beiden Bitzuteilungsverfahren wird nun anhand von Fig. 3 erläutert.
In Fig. 3 werden die Spektralkoeffizienten aus den MDCT-Schaltungen 13, 14 und 15 (Fig. 1) über den Eingang 301 der Spektralglätteberechnungsschaltung 308 zugeführt, der außerdem das Ausgangssignal der Bandmagnitudenberechnungsschaltung 303 zugeführt wird. Die Spektralglätteberechnungsschaltung 308 berechnet einen Index, der die Glätte des Spektrums des Eingangssignals angibt. Im vorliegenden Ausführungsbeispiel ist dieser Index die Summe der Absolutwerte der Differenzen zwischen benachbarten Werten des Signalspektrums, geteilt durch die Summe der Werte des Signalspektrums. Die Schaltung zur Berechnung der spektralen Glätte kann z. B. den Quotienten der Summe der Absolutwerte der Differenzen zwischen den Werten von benachbarten Bandmagnituden und der Summe aller Bandmagnituden als Index der spektralen Glätte berechnen, d. h.
worin I den Index der spektralen Glätte und Si die Bandmagnitude in dem i-ten kritischen Band bedeuten.
Der Spektralglätteberechnungsschaltung 308 liefert den Index für die spektrale Glätte an die Schaltung 309 für die Entscheidung über das Bitaufteilungsverhältnis zugeführt. Diese stellt das Aufteilungsverhältnis ein zwischen den Bits, die nach der signalspektrumsabhängigen Bitzuteilung zugeteilt werden, und den Bits, die nach der rauschspektrumsabhängigen Bitzuteilung zugeteilt werden. Das Bitaufteilungsverhältnis wird so eingestellt, daß dann, wenn der Index für die spektrale Glätte aus der Spektralglätteberechnungsschaltung 308 anwächst, was anzeigt, daß die Glätte des Spektrums des Eingangssignals reduziert ist, mehr Bits durch die rauschspektrumsabhängige Bitzuteilung und weniger Bits durch die signalspektrumsabhängige Bitzuteilung zugeteilt werden.
Die Schaltung 309 für die Entscheidung über das Bitaufteilungsverhältnis überträgt an den Multiplizierer 311 ein Steuersignal, das das Bitaufteilungsverhältnis angibt, und an den Multiplizierer 312 ein Steuersignal, das das Komplement des Bitaufteilungsverhältnisses (1 minus Bitaufteilungsverhältnis) repräsentiert. Der Multiplizierer 311 stellt die signalspektrumsabhängige Bitzuteilung ein, während der Multiplizierer 312 die rauschspektrumsabhängige Bitzuteilung für das Verteilungsverhältnis einstellt.
Wenn das Spektrum des Eingangssignals einen glatten Verlauf hat, nimmt das aus der Schaltung 309 zur Entscheidung über das Verteilungsverhältnis kommende Signal, das das Bitaufteilungsverhältnis repräsentiert, den Wert 0,8 an, so daß mehr Bits durch die signalspektrumsabhängige Bitzuteilung zugeteilt werden. Das dem Multiplizierer 312 zugeführte Steuersignal, das das Komplement des Bitaufteilungsverhältnisses repräsentiert, wird auf 1 - 0,8 = 0,2 gesetzt. Der Multiplizierer 311 multipliziert die Bitzuteilungsinformation aus der Schaltung 304 für die signalspektrumsabhängige Bitzuteilung mit 0,8, während der Multiplizierer 312 die Bitzuteilungsinformation aus der Schaltung 305 für die rauschspektrumsabhängige Bitzuteilung mit 0,2 multipliziert. Die Ausgangssignale der Multiplizierer 311 und 312 werden in dem Addierer 306 summiert und liefern die Gesamtbitzuteilungsinformation für jedes kritische Band. Die gesamte Bitzuteilungszahl wird dem Ausgang 307 zugeführt.
Im folgenden wird anhand von Fig. 8 bis 11 ein praktisches Beispiel für die Funktion des oben beschriebenen Bitzuteilungsschemas erläutert. Fig. 8 und 10 zeigen die Bitzuteilung, und Fig. 9 und 11 zeigen das resultierende Quantisierungsrauschen. Fig. 8 bzw. 9 zeigen die Bitzuteilung und das resultierende Quantisierungsrauschen, wenn das Eingangssignal ein flaches Spektrum besitzt. Fig. 10 bzw. 11 zeigen die Bitzuteilung und das resultierende Quantisierungsrauschen, wenn das Eingangssignal ein stark tonales Spektrum besitzt.
In Fig. 8 und 10 bezeichnen die unschattierten Teile die Bitzahl, die zur Quantisierung der Spektralkomponenten in jedem kritischen Band entsprechend der signalspektrumsabhängigen Bitzuteilung zugeteilt werden, während die schattierten Teile die entsprechende Bitzahl zeigen, die nach der rauschspektrumsabhängigen Bitzuteilung zugeteilt wird. In Fig. 9 und 11 zeigt die Kurve a des Spektrums des Eingangssignals, und die Teile b und c zeigen Bereiche, in denen das Rauschen durch die signalspektrumsabhängige Bitzuteilung bzw. durch die rauschspektrumsabhängige Bitzuteilung reduziert ist.
Fig. 8 und 9 zeigen ein Eingangssignal mit einem recht flachen Spektrum. Die rauschspektrumsabhängige Bitzuteilung gewährleistet ein hohes Signal/Rausch-Verhältnis über den gesamten Audiofrequenzbereich. In Richtung auf die niederfrequenten und hochfrequenten Enden des Audiofrequenzbereichs werden jedoch weniger Bits zugeteilt, weil diese Bereiche subjektiv weniger signifikant sind. Obwohl die signalspektrumsabhängige Bitzuteilung relativ wenige Bits zuteilt, teilt sie diese Bits hauptsächlich dem nieder- bis mittelfrequenten Bereich zu, wenn das Eingangssignal relativ groß ist, um ein weißes Quantisierungsrauschspektrum zu erzeugen.
Wenn umgekehrt das Eingangssignal ein stark tonales Spektrum besitzt, wie dies in Fig. 11 dargestellt ist, wird die bei der signalspektrumsabhängigen Bitzuteilung zugeteilte Bitzahl vergrößert, und die resultierende Reduzierung des Quantisierungsrauschens wird für die Reduzierung des Quantisierungsrauschens in einem extrem engen Frequenzbereich verwendet. Die bei der rauschspektrumsabhängigen Zuteilung zugeteilten Bits werden über den Audiofrequenzbereich breiter verteilt. Durch die Verwendung zweier unterschiedlicher Typen von Bitzuteilung wird die Quantisierung eines Eingangssignals, das aus einer oder mehreren schmalen Spektrallinien besteht, verbessert, wie dies in Fig. 11 dargestellt ist.
Fig. 12 zeigt ein Ausführungsbeispiel eines komplementären Expandierers, der die durch den oben beschriebenen Komprimierer komprimierten Signale nach der Übertragung oder Aufzeichnung und Reproduktion expandiert. Aus dem reproduzierten Signal werden die quantisierten Spektralkoeffizienten, sowie die Blockgleitinformation und die Wortlängeninformation mittels eines (nicht dargestellten) Demultiplexers extrahiert. Die quantisierten Spektralkoeffizienten in jedem kritischen Band werden den Eingängen 122, 124, 126 des Expandierers zugeführt, während die Wortlängeninformation den Eingängen 123, 125, 127 zugeführt wird. Die Dequantisierungsschaltungen 116, 117 und 118 kehren die adaptive Bitzuteilung um, wobei sie die Wortlängeninformation benutzen. Die resultierenden Spektralkoeffizienten werden von den inversen MDCT-Schaltungen (IMDCT-Schaltungen) 113, 114 und 115 in drei Frequenzbereichsignale in der Zeitdomäne orthogonal transformiert. Die drei Frequenzbereichsignale werden von den Inversen QMF-Schaltungen (IQMF-Schaltungen) 112 und 111 kombiniert, und das resultierende Vollfrequenzbereichsignal wird dem Ausgang 110 zugeführt.
Das oben beschriebene Quantisierungsschema sieht eine Bitzuteilung vor, die gehörmäßig wünschenswerte Ergebnisse bringt und eine optimale Quantisierung von Signalen ermöglicht, die aus einer einzelnen Spektrallinie, z. B. einem Eingangssignal in Form einer 1-kHz-Sinuswelle bestehen. Diese Ergebnisse werden durch einfache arithmetische Operationen erzielt, ohne daß die Bitzuteilung wiederholt eingestellt werden muß. Wenn das Eingangssignalspektrum verteilt ist, wie im Fall von Musiksignalen, wird der subjektive Rauschpegel durch Maskiereffekte reduziert. Bei einem Eingangssignal in Form einer einzelnen Sinuswelle wird das Signal/Rausch-Verhältnis vergrößert, weil Bits in dem Bereich der größten Signalamplitude konzentriert werden können.

Claims

1. Vorrichtung zum Komprimieren eines digitalen Audioeingangssignals zur Bereitstellung eines komprimierten Ausgangssignals, wobei die Vorrichtung aufweist:

eine Einrichtung (11-15, 19-21) zum Herleiten mehrerer Spektralkoeffizienten aus dem Eingangssignal und zum Gruppieren der Spektralkoeffizienten in Bänder,

eine Verteilereinrichtung (303, 308, 309) zum Verteilen der insgesamt verfügbaren Zahl von Quantisierungsbits auf signalspektrumsabhängige Quantisierungsbits und rauschspektrumsabhängige Quantisierungsbits in Abhängigkeit von dem Eingangssignal,

eine Einrichtung (303, 304) zum Festlegen einer Amplitude für jedes Band und zum Zuteilen der signalspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von der für das Band festgelegten Amplitude für die Quantisierung der einzelnen Spektralkoeffizienten in jedem Band,

eine Einrichtung (303, 305) zum Festlegen eines subjektiv zulässigen Rauschspektrums für jedes Band und zum Zuteilen der rauschspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von dem festgelegten Rauschspektrum für die Quantisierung der einzelnen Spektralkoeffizienten in dem Band und

eine Quantisierungseinrichtung (16-18) zum Quantisieren der Spektralkoeffizienten in dem Band unter Verwendung einer Gesamtzahl von Quantisierungsbits, die durch Addieren der Zahl der dem Band zugeteilten signalspektrumsabhängigen Quantisierungsbits und der Zahl der dem Band zugeteilten rauschspektrumsabhängigen Quantisierungsbits bestimmt wird.

2. Vorrichtung nach Anspruch 1, bei der die Verteilereinrichtung (303, 308, 309) die Glätte (208) des Spektrums des Eingangssignals berücksichtigt.

3. Vorrichtung nach Anspruch 2, bei der die Verteilereinrichtung (303, 308, 309) den rauschspektrumsabhängigen Quantisierungsbits eine größere Menge aus der insgesamt verfügbaren Anzahl von Quantisierungsbits zuteilt, wenn die Glätte des Spektrums des Eingangssignals größer wird.

4. Vorrichtung nach Anspruch 3, bei der

das Spektrum des Eingangssignals mehrere Spektralpunkte aufweist, die jeweils einen Wert haben, und

die Verteilereinrichtung eine Einrichtung (308) zum Berechnen der Differenz zwischen den Werten benachbarter Spektralpunkte zur Kennzeichnung der Glätte des Spektrums des Eingangssignals aufweist.

5. Vorrichtung nach Anspruch 3, bei der die Verteilereinrichtung aufweist:

eine Einrichtung (303) zum Festlegen einer Amplitude für jedes Band und

eine Einrichtung (308) zum Berechnen der Differenz zwischen den Amplituden der Bänder zur Kennzeichnung der Glätte des Spektrums des Eingangssignals.

6. Vorrichtung nach Anspruch 3, bei der die Verteilereinrichtung aufweist:

eine Einrichtung zur Anwendung des Blockgleitens für jedes Band und zum Berechnen eines Blockgleitkoeffizienten für jedes Band und

eine Einrichtung zum Berechnen der Differenz zwischen den Blockgleitkoeffizienten benachbarter Bänder zur Kennzeichnung der Glätte des Spektrums des Eingangssignals.

7. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung zur Herleitung von Spektralkoeffizienten aus dem Eingangssignal aufweist:

eine Einrichtung (11) zur frequenzmäßigen Unterteilung des Eingangssignals ohne zeitliche Unterteilung des Eingangssignals zur Bildung mehrerer Frequenzbereichssignale und

eine Einrichtung (9-21, 13-15) zur zeitlichen Unterteilung des Eingangssignals in Blöcke und zur weiteren frequenzmäßigen Unterteilung des Frequenzbereichssignals in jedem Block zur Bildung der Spektralkoeffizienten.

8. Vorrichtung nach einem der Ansprüche 1 bis 6, bei der die Einrichtung zur Herleitung von Spektralkoeffizienten aus dem Eingangssignal aufweist:

eine orthogonale Transformationsschaltung (13-15), die mit den einzelnen Frequenzbereichssignalen verbunden ist und aus diesen mehrere Spektralkoeffizienten bildet.

9. Verfahren zum Komprimieren eines digitalen Audioeingangssignals zur Bereitstellung eines komprimierten Ausgangssignals, wobei das Verfahren die folgenden Schritte umfaßt:

Herleiten mehrerer Spektralkoeffizienten aus dem Eingangssignal und Gruppieren der Spektralkoeffizienten in Bänder,

Verteilen der insgesamt verfügbaren Zahl von Quantisierungsbits auf signalspektrumsabhängige Quantisierungsbits und rauschspektrumsabhängige Quantisierungsbits in Abhängigkeit von dem Eingangssignal,

Festlegen einer Amplitude für jedes Band und zum Zuteilen der signalspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von der für das Band festgelegten Amplitude für die Quantisierung der einzelnen Spektralkoeffizienten in jedem Band,

Festlegen eines subjektiv zulässigen Rauschspektrums für jedes Band und zum Zuteilen der rauschspektrumsabhängigen Quantisierungsbits an die einzelnen Bänder in Abhängigkeit von dem festgelegten Rauschspektrum für die Quantisierung der einzelnen Spektralkoeffizienten in dem Band und

Quantisieren der Spektralkoeffizienten in dem Band unter Verwendung einer Gesamtzahl von Quantisierungsbits, die durch Addieren der Zahl der dem Band zugeteilten signalspektrumsabhängigen Quantisierungsbits und der Zahl der dem Band zugeteilten rauschspektrumsabhängigen Quantisierungsbits bestimmt wird.

10. Verfahren nach Anspruch 9, bei dem der Schritt des Verteilens in Abhängigkeit von der Glätte des Spektrum des Eingangssignals durchgeführt wird.

11. Verfahren nach Anspruch 11, bei dem in dem Schritt des Verteilens den rauschspektrumsabhängigen Quantisierungsbits eine größere Menge aus der insgesamt verfügbaren Anzahl von Quantisierungsbits zugeteilt wird, wenn die Glätte des Spektrums des Eingangssignals größer wird.

12. Verfahren nach Anspruch 11, bei dem das Spektrum des Eingangssignals mehrere Spektralpunkte aufweist, die jeweils einen Wert haben, und der Schritt des Verteilens den Schritt umfaßt, daß die Differenz zwischen den Werten benachbarter Spektralpunkte zur Kennzeichnung der Glätte des Spektrums des Eingangssignals berechnet wird.

13. Verfahren nach Anspruch 11, bei dem der Schritt des Verteilens folgende Schritte umfaßt:

Festlegen einer Amplitude für jedes Band und

Berechnen der Differenz zwischen den Amplituden der Bänder zur Kennzeichnung der Glätte des Spektrums des Eingangssignals.

14. Verfahren nach Anspruch 11, bei dem der Schritt des Verteilens folgende Schritte umfaßt:

Anwenden des Blockgleitens für jedes Band und Berechnen eines Blockgleitkoeffizienten für jedes Band und

Berechnen der Differenz zwischen den Blockgleitkoeffizienten benachbarter Bänder zur Kennzeichnung der Glätte des Spektrums des Eingangssignals.

15. Verfahren nach einem der Ansprüche 9 bis 14, bei dem der Schritt des Herleitens von Spektralkoeffizienten aus dem Eingangssignal umfaßt:

das frequenzmäßige Unterteilen des Eingangssignals ohne zeitliche Unterteilung des Eingangssignals zur Bildung mehrerer Frequenzbereichssignale und

das zeitliche Unterteilen des Eingangssignals in Blöcke und das weitere frequenzmäßige Unterteilen des Frequenzbereichssignals in jedem Block zur Bildung der Spektralkoeffizienten.

16. Verfahren nach einem der Ansprüche 9 bis 15, bei dem der Schritt des Herleitens von Spektralkoeffizienten aus dem Eingangssignal umfaßt:

das orthogonale Transformieren der einzelnen Frequenzbereichssignale und das Bilden mehrerer Spektralkoeffizienten aus diesen.

17. Verfahren nach einem der Anspruche 9 bis 16 mit dem zusätzlichen Schritt, daß in das komprimierte Signal die quantisierten Spektralkoeffizienten, ferner eine Blockgleitinformation und eine Blocklängeninformation einbezogen wird, welche die für die Quantisierung der Spektralkoeffizienten in jedem Band verwendete Bitzahl kennzeichnet.

18. System zum Aufzeichnen eines digitalen Audioeingangssignals mit einer Bitrate auf einem Medium und zur Wiedergabe des digitalen Eingangssignals von dem Medium zur Bereitstellung eines digitalen Audioausgangssignals, wobei das System aus dem Eingangssignal ein für die Aufzeichnung auf dem Medium komprimiertes Signal herleitet und aus dem von dem Medium reproduzierten komprimierten Signal das Ausgangssignal herleitet, wobei das komprimierte Signal eine kleinere Bitrate aufweist als das Eingangssignal, wobei das System eine Vorrichtung nach einem der Ansprüche 1 bis 8 zur Erzeugung des komprimierten Signals umfaßt sowie eine Vorrichtung zum Expandieren des komprimierten Signals zur Bereitstellung des digitalen Audioausgangssignals, wobei die Expandiervorrichtung aufweist:

eine Extrahiereinrichtung zum Extrahieren von quantisierten Spektralkoeffizienten aus dem komprimierten Signal,

eine Dequantisiereinrichtung zum Dequantisieren der quantisierten Spektralkomponenten und

eine Einrichtung zum Herleiten des Ausgangssignals aus den dequantisierten Spektralkomponenten.

19. System nach Anspruch 18, soweit direkt oder indirekt abhängig von Anspruch 8, bei dem die Einrichtung zum Herleiten des Ausgangssignals aus den dequantisierten Spektralkomponenten eine orthogonale Transformationsschaltung aufweist.