DE69227570T2

DE69227570T2 - Verfahren und Anordnung zur Audiodatenkompression

Info

Publication number: DE69227570T2
Application number: DE69227570T
Authority: DE
Inventors: Kyoya C/O Patents Div. Sony Corporation Tokyo 141 Tsutsui
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1991-09-30
Filing date: 1992-09-28
Publication date: 1999-04-22
Anticipated expiration: 2012-09-29
Also published as: EP0786874A2; USRE36683E; EP0786874B1; AU2604992A; ATE173366T1; DE69231369D1; AU664386B2; EP0786874A3; HK1013536A1; ATE195618T1; US5375189A; EP0535889A3; DE69231369T2; EP0535889B1; DE69227570D1; EP0535889A2

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Audiodatenkompression sowie auf ein Verfahren und eine Vorrichtung zur Audiodatendekompression.
Zu beachten ist die Teilungsanmeldung EP-A-0 786 874.
In der EP-A-0 420 745 ist ein Verfahren zum Komprimieren eines digitalen Audio-Eingangssignals zur Lieferung eines Aufzeichnungssignals angegeben; das Verfahren umfaßt die Schritte: Aufteilen des Eingangssignals in Rahmen mit einer Vielzahl von Abtastproben; Transformieren jedes Rahmens der Vielzahl von Abtastproben in einen Block von Spektralkoeffizienten und Aufteilen des Blockes der Spektralkoeffizienten in eine Vielzahl von Bändern, die untere Frequenzbänder und ein unterstes Frequenzband aufweisen; Anwenden eines Blockgleitens auf die Spektralkoeffizienten in jedem Band und Erzeugen von Block-Gleitkoeffizienten; Quantisieren der Spektralkoeffizienten mit einer adaptiven Anzahl von Bits zur Lieferung von quantisierten Spektralkoeffizienten; Addieren eines Datenblockes, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal, wobei der aus dem Block der Spektralkoeffizienten abgeleitete Datenblock quantisierte Spektralkoeffizienten und Hauptblock-Gleitkoeffizienten aufweist.
In der EP-A-0 420 745 ist ferner eine entsprechende Vorrichtung gegeben.
Als ein hocheffizientes Codierverfahren zur Komprimierung eines digitalen Audiosignals ist es bekannt, das digitale Audio-Eingangssignal in der Zeit in eine Vielzahl von Rahmen von bestimmten Abtastproben aufzuteilen, jeden Rahmen in Spektralkoeffizienten in der Frequenzebene zu transformieren und den aus dem Transformieren eines Rahmens resultierenden Block von Spektralkoeffizienten in eine Vielzahl von Frequenzbänder aufzuteilen. Die Spektralkoeffizienten in jedem Band werden durch ein Blockgleiten verarbeitet, und sie werden durch adaptive Bitzuteilung quantisiert.
Ein Blockgleiten ist ein Normierungsprozeß, der bei einem Datenblock angewandt wird, welcher eine Vielzahl von Wörtern enthält, wie ein Band von Spektralkoeffizienten. Ein Blockgleiten wird dadurch angewandt, daß jedes Wort in dem Datenblock mit einem gemeinsamen Wert für den Datenblock multipliziert wird, um den Quantisierungswirkungsgrad zu steigern. Bei einem typischen Blockgleitprozeß bzw. -verfahren wird der maximale Absolutwert der Wörter in dem Datenblock ermittelt und als gemeinsamer Block-Gleitkoeffizient für sämtliche Wörter in dem Datenblock genutzt. Die Nutzung des maximalen Absolutwerts in dem Band als Block-Gleitkoeffizient verhindert einen Datenüberlauf, da der Absolutwert keines anderen Wortes in dem Datenblock größer sein kann als der maximale Absolutwert. Eine vereinfachte Form des Blockgleitens bestimmt den Block-Gleitkoeffizienten unter Nutzung einer Verschiebegröße, die ein Blockgleiten in 6 dB-Schritten hervorruft.
Der das Blockgleiten anwendende Datenkompressor erzeugt für jedes Band verschiedene Block-Gleitparameter BF, die zusammen mit den quantisierten Spektralkoeffizienten oder der Hauptinformation übertragen oder auf einem Aufzeichnungsträger aufgezeichnet werden. Die Block-Gleitparameter enthalten einen Block-Gleitkoeffizienten SF und eine Wortlänge WL, die eine Information bezüglich der adaptiven Bitzuweisung liefert, welche die Differenz zwischen dem Wert des Block-Gleitkoeffizienten SF und dem zulässigen Stör- bzw. Rauschpegel angibt, der für jedes Band festgelegt wird, indem eine Maskierung berücksichtigt ist.
In der folgenden Beschreibung wird auf eine Aufzeichnung oder Wiedergabe auf bzw. von einem Aufzeichnungsträger Bezug genommen. Wenn derartige Bezugnahmen erfolgen, dann sind sie dahingehend zu verstehen, daß sie zusätzlich die Übertragung und den Empfang zu bzw. von einem Übertragungsmedium einschließen.
Die Maskierung ist ein psychoakustisches Phänomen, bei dem ein Ton bzw. Schall durch andere Töne bzw. anderen Schall unhörbar oder "maskiert" wird, die gleichzeitig damit oder geringfügig früher oder später als der betreffende Ton oder Schall auftreten. Maskierungseffekte können in Zeitebenen- Maskierungseffekte, das ist eine Maskierung durch Töne, die früher oder später als der maskierte Ton bzw. Schall auftreten, und in gleichzeitige Maskierungseffekte klassifiziert werden, bei denen es sich um die Maskierung durch gleichzeitig auftretende Töne mit einer von der Frequenz des maskierten Tones oder Schalls verschiedenen Frequenz handelt.
Die Maskierung ermöglicht einem Ton bzw. Schall, jegliche Störung innerhalb seines Zeit- oder Frequenzmaskierungsbereiches unhörbar zu machen. Dies bedeutet, daß bei Vorhandensein eines Signals, welches bei Wiedergabe einen Ton erzeugt, ein digitales Codiersystem, welches ein Quantisierungsrauschen hervorruft, Quantisierungs-Rauschpegel aufweisen kann, die intensiv mit dem Rauschpegel verglichen werden, der bei Fehlen des Signals zulässig ist, vorausgesetzt, daß das Quantisierungsrauschen innerhalb des Maskierungsbereiches des durch das Signal hervorgerufenen Tones bzw. Schalls liegt. Da relativ hohe Pegel des Quantisierungsrauschens zulässig sind, falls eine Maskierung durch den aus dem Signal resultierenden Ton erfolgt, kann die Anzahl von Bits, die für die Quantisierung des den Ton repräsentierenden Signals oder von Teilen des Signals erforderlich sind, erheblich verringert werden.
Ein kritisches Band ist ein Frequenzband, welches die Maskierungscharakteristiken des menschlichen Gehörsinns nutzt. Ein kritisches Band ist das Stör- bzw. Rauschband, welches durch einen reinen Ton maskiert werden kann, der dieselbe Intensität hat wie die Störung bzw. das Rauschen und der eine Frequenz in der Nähe der Frequenz der Störung bzw. des Rauschens aufweist. Die Breite des kritischen Bandes nimmt mit zunehmender Frequenz des reinen Tones zu. Der gesamte Audiofrequenzbereich von 0 Hz bis 20 kHz kann beispielsweise in 25 kritische Bänder aufgeteilt sein.
Falls aus irgendeinem Grunde Daten zwischen dem Ausgang des Datenkompressors und dem Eingang eines komplementären Datenexpanders zerstört werden oder verloren gehen, ist es möglich, die hörbaren Effekte der fehlenden Daten in dem Datenexpander bzw. der Datendehnungseinrichtung durch Verringern der Signalkomponente in dem Frequenzband entsprechend den fehlenden Daten auf Null zu verringern.
Da die Block-Gleitparameter BF auf die Spektralkoeffizienten im jeweiligen Band bezogen sind, ist jedoch der Effekt auf die Tonqualität beim Verlust eines Block-Gleitparameters BF stärker bemerkbar als der Verlust der Hauptinformation (das sind die quantisierten Spektrumsignale).
Um die Auswirkungen eines möglichen Verlustes eines Block- Gleitparameters BF zu mildern, ist vorgeschlagen worden, die Block-Gleitparameter BF in dem durch den Datenkompressor bereitgestellten komprimierten Signal zweimal einzubeziehen bzw. einzuschließen, so daß sie zweimal auf dem Aufzeichnungsträger aufgezeichnet werden. Dies liefert einen redundanten Satz von Block-Gleitparametern in dem Fall, daß ein Block-Gleitparameter verloren geht oder fehlerhaft wird.
In der folgenden Beschreibung wird auf verlorene Daten, wie Block-Gleitparameter und quantisierte Spektralkoeffizienten Bezug genommen, und zwar auf dem Verständnis aufbauend, daß dieser Ausdruck auch fehlerhafte oder verfälschte Daten, wie Block-Gleitparameter und quantisierte Spektralkoeffizienten, erfaßt.
Wie in Fig. 15 veranschaulicht, werden die quanitisierten Spektralkoeffizienten (Hauptinformation) zusammen mit den Block-Gleitkoeffizienten SF und einer Wortlänge WL als die oben erwähnten Block-Gleitparameter BF aufgezeichnet. Sie werden als Block-Gleitkoeffizienten SF1 bzw. als Wortlängen WL1 aufgezeichnet, und sie werden als Block-Gleitkoeffizienten SF2 bzw. als Wortlängen WL2 ein zweites Mal aufgezeichnet.
Bei dem obigen Verfahren muß mit Rücksicht darauf, daß sämtliche Block-Gleitparameter BF zweimal aufgezeichnet werden müssen, um mit normalem Auftreten eines Datenverlustes fertig zu werden, die Anzahl der der Hauptinformation zugeteilten Bits verringert werden, um die zusätzlichen Block-Gleitparameter aufzunehmen. Demgemäß kann in Systemen mit einem hohen Kompressionsverhältnis oder einer niedrigen Bitrate eine zufriedenstellende Tonqualität nicht erzielt werden.
In einem konventionellen Datenkompressor liegt die Anzahl von Block-Gleitparametern BF, die pro Rahmen des Eingangssignals aufgezeichnet werden, üblicherweise fest. Fig. 16 zeigt, wie die Daten entsprechend dem jeweiligen Rahmen des Eingangssignals in dem durch einen konventionellen Datenkompressor erzeugten Aufzeichnungssignal angeordnet sind. Bei dem dargestellten Beispiel müssen die Werte der Block-Gleitparameter BF für die Bänder, denen keine Bits zugeteilt bzw. zugeordnet sind, dennoch aufgezeichnet werden, was die Anzahl an Bits verringert, die für die Codierung der Spektralkoeffizienten in der Hauptinformation verfügbar sind. Dies macht es schwierig, eine zufriedenstellende Tonqualität dann zu erzielen, wenn das komprimierte Signal von dem Kompressor einer komple mentären Expansion bzw. Dehnung unterzogen und wiedergegeben wird. Dies ist insbesondere so in Systemen mit einem hohen Kompressionsverhältnis oder einer niedrigen Bitrate.
Das in Fig. 17 dargestellte System ist ebenfalls bekannt. Bei diesem System werden keine Block-Gleitkoeffizienten SF für solche Bänder aufgezeichnet, denen keine Bits tatsächlich zugewiesen sind, das heißt bezüglich der Bänder, die eine Wortlänge WL = 0 aufweisen. Demgemäß stehen mehr Bits für die Zuweisung bzw. Zuteilung zur Codierung der Spektralkoeffizienten zur Verfügung. Bei dem Beispiel gemäß Fig. 17 ist die Anzahl der aufgezeichneten Block-Gleitkoeffizienten SF um vier vermindert, was die Anzahl von Bändern darstellt, denen keine Bits zugewiesen sind. Bei der in Fig. 17 dargestellten Anordnung ist es dennoch notwendig, die Wortlänge WL für sämtliche Bänder aufzuzeichnen, und um festzulegen, ob die Wortlänge WL des jeweiligen Bandes nicht Null ist, wenn die Block-Gleitkoeffizienten SF in dem Expander gelesen werden.
Es ist außerdem für den Datenkompressor notwendig, die Anzahl der Bits zu berechnen, die für eine Quantisierung der Spektralkoeffizienten im jeweiligen Band erforderlich sind, und zwar durch einen Prozeß, der die Maskierung festlegt. Die Anzahl von so berechneten Bits wird mit der Gesamtzahl der dem Rahmen zugewiesenen Bits verglichen, woraufhin die Bitzuteilung zum jeweiligen Band eingestellt bzw. abgeglichen werden kann. Falls die Änderung in der Bitzuteilung sich indessen ändert, und zwar je nachdem, ob der Block-Gleitkoeffizient SF oder ein Block aufgezeichnet wird oder nicht, wird auch die Gesamtanzahl von Bits, die der Hauptinformation zugeteilt werden, geändert, was den Prozeß der Einstellung bzw. des Abgleichs der Zuteilung kompliziert.
Gemäß einem Aspekt der vorliegenden Erfindung ist ein Verfahren zur Komprimierung eines digitalen Audio-Eingangssignals zur Bereitstellung des Aufzeichnungssignals geschaffen, umfassend die Verfahrensschritte:
Aufteilen des Eingangssignals in Rahmen, die eine Vielzahl von Abtastproben umfassen,
Transformieren des jeweiligen Rahmens der Vielzahl von Abtastproben in einen Block von Spektralkoeffizienten und Aufteilen des Blockes der Spektralkoeffizienten in eine Vielzahl von Bändern, die ein unterstes Frequenzband und ein höchstes Frequenzband aufweisen,
Erzeugen von Block-Gleitparametern,
Anwenden eines Blockgleitens auf die Spektralkoeffizienten im jeweiligen Band auf einen Block-Gleitparameter hin,
Quantisieren der Spektralkoeffizienten im jeweiligen Band mit einer adaptiven Anzahl von Bits zur Bereitstellung von quantisierten Spektralkoeffizienten auf einen Block-Gleitparameter hin,
wobei 0-Bits den Spektralkoeffizienten in Bändern zugeteilt werden, die in der Frequenz höher liegen als ein höchstes nutzbares Band. Dieses Verfahren zeichnet sich dadurch aus, daß ein aus dem Block der Spektralkoeffizienten abgeleiteter Datenblock dem Aufzeichnungssignal hinzuaddiert wird, wobei der aus dem Block der Spektralkoeffizienten abgeleitete Datenblock aus
den quantisierten Spektralkoeffizienten für jedes Band bis zum höchsten nutzbaren Band, bis zu welchem eine Anzahl von Bändern vorhanden ist,
den Block-Gleitparametern für jedes Band bis zum höchsten nutzbaren Band
und Daten, welche die Anzahl der Bänder bis zum höchsten nutzbaren Band angeben, besteht.
Bei einem Ausführungsbeispiel des Verfahrens gemäß dem betreffenden einen Aspekt umfassen die Block-Gleitparameter eine Wortlänge und einen Block-Gleitkoeffizienten; der Schritt der Anwendung des Blockgleitens umfaßt den Schritt der Anwendung des Blockgleitens auf den Block-Gleitkoeffi zienten hin. Der Schritt des Quantisierens der Spektralkoeffizienten umfaßt den Schritt des Quantisierens der Spektralkoeffizienten auf die Wortlänge hin. Beim Schritt des Addierens eines aus dem Block der Spektralkoeffizienten abgeleiteten Datenblocks zu dem Aufzeichnungssignal bestehen die Block-Gleitparameter in dem aus dem Block der Spektralkoeffizienten abgeleiteten Datenblock aus einer Hauptwortlänge für jedes Band bis zum höchsten nutzbaren Band, einem Hauptblock- Gleitkoeffizienten für jedes Band bis zum höchsten nutzbaren Band und einer Reserve-Wortlänge für jedes der unteren Frequenzbänder.
Bei dem Ausführungsbeispiel können beim Schritt des Addierens eines Datenblocks, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal die Block- Gleitparameter im Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, zusätzlich einen Reserveblock- Gleitkoeffizienten für jedes der unteren Frequenzbänder aufweisen.
Bei dem Ausführungsbeispiel kann der Schritt des Addierens eines Datenblocks, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal den Schritt der sequentiellen Anordnung der quantisierten Spektralkoeffizienten in dem Datenblock umfassen, der von dem Block der Spektralkoeffizienten abgeleitet ist, beginnend mit den quantisierten Spektralkoeffizienten im untersten Frequenzband.
Überdies können beim Schritt des Addierens eines Datenblockes, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, aus einer Hauptwortlänge für jedes Band bis zum höchsten nutzbaren Band,
einem Hauptblock-Gleitkoeffizienten für jedes Band bis zum höchsten nutzbaren Band,
einer Reservewortlänge für jedes Band einer ersten Anzahl der unteren Frequenzbänder und
einem Reserveblock-Gleitkoeffizienten für jedes Band einer zweiten Anzahl von unteren Frequenzbändern bestehen, wobei die zweite Anzahl der unteren Frequenzbänder kleiner ist als die erste Anzahl der unteren Frequenzbänder.
Gemäß einem anderen Aspekt der Erfindung ist eine Vorrichtung zum Komprimieren eines digitalen Audio-Eingangssignals zur Lieferung eines Aufzeichnungssignals geschaffen mit einer Einrichtung zum Aufteilen des Eingangssignals in Rahmen, die eine Vielzahl von Abtastproben umfassen,
mit einer Einrichtung zum Transformieren des jeweiligen Rahmens aus der Vielzahl von Abtastproben in einen Block von Spektralkoeffizienten und zum Aufteilen des Blocks der Spektralkoeffizienten in eine Vielzahl von Bändern,
wobei die Vielzahl von Bändern ein unterstes Frequenzband und ein höchstes Frequenzband aufweist,
mit einer Einrichtung zur Erzeugung von Block-Gleitparametern,
mit einer Block-Gleiteinrichtung zur Anwendung eines Blockgleitens auf die Spektralkoeffizienten im jeweiligen Band auf einen Block-Gleitparameter hin,
mit einer Quantisierungseinrichtung zum Quantisieren der Spektralkoeffizienten im jeweiligen Band mit einer adaptiven Anzahl von Bits zur Lieferung von quantisierten Spektralkoeffizienten auf einen Block-Gleitparameter hin,
wobei die Quantisierungseinrichtung 0-Bits den Spektralkoeffizienten in Bändern höherer Frequenz als in einem höchsten nutzbaren Band zuteilt,
mit einer Einrichtung zum Addieren eines Datenblocks, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal,
wobei der von dem Block der Spektralkoeffizienten abgeleitete Datenblock aus
den quantisierten Spektralkoeffizienten für das jeweilige Band bis zum höchsten nutzbaren Band, bis zu welchem eine Anzahl von Bändern vorhanden ist,
den Block-Gleitparametern für das jeweilige Band bis zum höchsten nutzbaren Band
und Daten besteht, welche die Anzahl von Bändern bis zum höchsten nutzbaren Band angeben.
Bei einem Ausführungsbeispiel gemäß dem genannten weiteren Aspekt enthalten die Block-Gleitparameter eine Wortlänge und einen Block-Gleitkoeffizienten, wobei die Block-Gleiteinrichtung ein Blockgleiten auf den Block-Gleitkoeffizienten hin vornimmt,
wobei die Quantisierungseinrichtung die Spektralkoeffizienten in Abhängigkeit von der Wortlänge quantisiert
und wobei die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist,
eine Hauptwortlänge für das jeweilige Band bis zum höchsten nutzbaren Band,
einen Hauptblock-Gleitkoeffizienten für das jeweilige Band bis zum höchsten nutzbaren Band und
eine Reservewortlänge für jedes der unteren Frequenzbänder enthalten.
Bei einem Ausführungsbeispiel der Block-Gleitparameter kann der Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, zusätzlich einen Reserveblock-Gleitkoeffizienten für jedes der unteren Frequenzbänder enthalten.
Bei dem Ausführungsbeispiel kann die Addiereinrichtung eine Einrichtung zum sequentiellen Anordnen der quantisierten Spektralkoeffizienten in dem Datenblock, der von den Spektralkoeffizienten abgeleitet ist, enthalten, beginnend mit den quantisierten Spektralkoeffizienten im untersten Frequenzband.
Die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, können eine Hauptwortlänge für jedes Band bis zum höchsten nutzbaren Band, einen Hauptblock-Gleitkoeffizienten für jedes Band bis zum höchsten nutzbaren Band, eine Reservewortlänge für jedes einer ersten Anzahl von unteren Frequenzbändern, sowie einen Reserveblock-Gleitkoeffizienten für jedes einer zweiten Anzahl von unteren Frequenzbändern umfassen, wobei die zweite Anzahl der unteren Frequenzbänder kleiner ist als die erste Anzahl der unteren Frequenzbänder.
Ein Ausführungsbeispiel gemäß der Erfindung ermöglicht die Verarbeitung eines Audiosignals, in welchem mehr Bits den quantisierten Spektralkoeffizienten zugeteilt werden können und welches gegenüber einem Datenverlust widerstandsfähig ist. Außerdem ist die Verarbeitung eines Audiosignals ermöglicht, bei dem die Bitzuteilung ohne weiteres eingerichtet bzw. angepaßt werden kann und bei dem die Tonqualität durch die Einrichtung bzw. Anpassung der Bitzuweisung nicht beeinträchtigt wird.
Falls die Spektralkoeffizienten höherer Frequenz in dem Aufzeichnungssignal nicht enthalten sind, da diese Signale keinen merklichen Beitrag zu dem wiedergegebenen Audiosignal liefern, sind die Block-Gleitparameter für die höherfrequenten Bänder des Rahmens, das heißt der Block-Gleitkoeffizient und die Wortlänge, in dem Aufzeichnungssignal nicht enthalten. Die somit eingesparten Bits werden der Hauptinformation bei niederen Frequenzen zugeteilt, was für den menschlichen Gehörsinn entscheidend ist.
Wenn Block-Gleitparameter aus dem Aufzeichnungssignal weggelassen sind, werden Daten in dem Aufzeichnungssignal eingeschlossen, welche die Anzahl der Block-Gleitparameter in dem Aufzeichnungssignal angeben. Die Anzahl der Block-Gleitpara meter entspricht der Anzahl von Bändern bis zum höchsten nutzbaren Band.
Bei einem Beispiel eines Audiodaten-Kompressionsverfahrens gemäß der vorliegenden Erfindung sind die Blockparameter für jedes Band in dem Aufzeichnungssignal innerhalb des jeweiligen Rahmens für jene Bänder, die solche Parameter benötigen, enthalten, das heißt für die Bänder bis zum maximalen nutzbaren Band. Die Block-Gleitparameter für die Bänder, für die die Block-Gleitparameter unnötig sind, das heißt für Bänder oberhalb des maximal nutzbaren Bandes, sind aus dem Aufzeichnungssignal weggelassen, und die so eingesparten Bits werden der Codierung für die Spektralkoeffizienten niederer Frequenz in der Hauptinformation zugeteilt.
Gemäß weiteren Aspekten der Erfindung sind ein Verfahren zum Dekomprimieren von Audiodaten und eine Vorrichtung zum Dekomprimieren von Audiodaten geschaffen, wie dies in den Ansprüchen 13 bzw. 16 angegeben ist.
Anhand von Zeichnungen wird die Erfindung nachstehend beispielsweise näher erläutert.
Fig. 1 zeigt eine schematische Ansicht zur Veranschaulichung des Signals, welches gemäß einem ersten Beispiel eines Kompressionsverfahrens erzeugt wird.
Fig. 2 zeigt eine schematische Ansicht zur Veranschaulichung des Aufzeichnungssignals, welches gemäß zweiten und dritten Beispielen von Kompressionsverfahren erzeugt werden.
Fig. 3 zeigt ein Blockschaltungsdiagramm zur Veranschaulichung einer Anordnung eines Datenkompressors, bei dem ein Verfahren gemäß der vorliegenden Erfindung angewandt werden kann.
Fig. 4 zeigt ein Blockschaltungsdiagramm zur Veranschaulichung einer praktischen Anordnung der Orthogonal- Transformationsschaltung des Datenkompressors.
Fig. 5 zeigt ein Blockschaltungsdiagramm zur Veranschaulichung einer Anordnung eines komplementären Datenexpanders.
Fig. 6 zeigt ein Blockschaltungsdiagramm zur Veranschaulichung einer praktischen Anordnung der Orthogonal- Transformationsschaltung des Expanders.
Fig. 7 zeigt ein Flußdiagramm zur Veranschaulichung der Block-Gleitkoeffizient-Lesesequenz in der Block- Gleitkoeffizient-Leseschaltung in einem Expander.
Fig. 8 zeigt ein Flußdiagramm zur Veranschaulichung der Wortlängen-Lesesequenz in der Wortlängen-Leseschaltung innerhalb eines Expanders.
Fig. 9 zeigt ein Flußdiagramm zur Veranschaulichung der Wortlängen-Lesesequenz in der Wortlängen-Leseschaltung innerhalb eines Expanders.
Fig. 10 zeigt ein Flußdiagramm zur Veranschaulichung der Lesesequenz für quantisierte Spektralkoeffizienten in der Leseschaltung für einen quantisierten Spektralkoeffizienten innerhalb eines Expanders.
Fig. 11 zeigt eine schematische Darstellung zur Veranschaulichung einer Datenaufzeichnung gemäß einem Beispiel der vorliegenden Erfindung, bei dem Spektralkoeffizienten höherer Frequenz nicht aufgezeichnet werden.
Fig. 12 zeigt eine schematische Ansicht zur Veranschaulichung einer Datenaufzeichnung gemäß einem Beispiel der vorliegenden Erfindung, bei dem Spektralkoeffizienten höherer Frequenz aufgezeichnet werden.
Fig. 13 zeigt ein Flußdiagramm zur Veranschaulichung der Verarbeitung durch den Datenkompressor gemäß der vorliegenden Erfindung.
Fig. 14 zeigt ein Flußdiagramm zur Veranschaulichung der Verarbeitung durch einen Datenexpander gemäß der vorliegenden Erfindung.
Fig. 15 zeigt eine schematische Ansicht zur Veranschaulichung des Aufzeichnungssignals, welches durch einen konventionellen Datenkompressor erzeugt wird.
Fig. 16 zeigt eine schematische Ansicht zur Veranschaulichung des Aufzeichnungssignals, welches durch ein konventionelles System erzeugt wird, bei dem die Anzahl der Block-Gleitparameter konstant ist.
Fig. 17 zeigt eine schematische Ansicht zur Veranschaulichung des Aufzeichnungssignals, welches durch ein konventionelles System erzeugt wird, bei dem die Anzahl der Block-Gleitkoeffizieriten variabel ist.
Ein erstes Beispiel eines Verfahrens zum Komprimieren eines digitalen Audio-Eingangssignals umfaßt das Transformieren eines Rahmens des Eingangs-Audiosignals TS in der Zeitebene in eine Vielzahl von Spektralkoeffizienten SP in der Frequenzebene. Die Spektralkoeffizienten werden in eine Vielzahl von Frequenzbändern aufgeteilt, wobei auf jedes Band ein Blockgleiten angewandt wird. Die Spektralkoeffizienten im jeweiligen Band werden durch eine adaptive Bitzuteilung quantisiert. Die quantisierten Spektralkoeffizienten QSP, der Block-Gleitkoeffizient SF1 und die Wortlänge WL1 werden für sämtliche Bänder einmal aufgezeichnet. Überdies werden die Block-Gleitkoeffizienten SF2 für die Bänder niederer Frequenz und die Wortlängen WL2 für sämtliche Bänder ein zweites Mal aufgezeichnet.
Fig. 1 zeigt, wie ein Datenblock in der Frequenzebene, der aus der Transformation eines Rahmens des Eingangssignals resultiert, aufgezeichnet wird bzw. ist. Die in Fig. 1 veranschaulichte Hauptinformation sind sämtliche quantisierten Spektralkoeffizienten in dem Block.
Von den Block-Gleitparametern BF werden die Wortlängen WL1 und WL2 für sämtliche Bänder in dem Block ein zweites Mal aufgezeichnet; die Block-Gleitkoeffizienten SF1 für sämtliche Bänder in dem Block werden einmal aufgezeichnet, und die Block-Gleitkoeffizienten SF2 lediglich für die Bänder niede rer Frequenz in dem Block werden ein zweites Mal aufgezeichnet.
Der Vorteil des zweimaligen Aufzeichnens der Block-Gleitparameter SF2 lediglich für die Bänder niederer Frequenz wird nunmehr erläutert werden. Von den Block-Gleitparametern BF repräsentiert die Wortlänge WL die Differenz zwischen dem Block-Gleitkoeffizienten SF und dem für das jeweilige Band festgelegten zulässigen Störpegel unter Berücksichtigung einer Maskierung. Die Wortlänge gibt eine Information bezüglich der adaptiven Bitzuteilung für die Quantisierung der Spektralkoeffizienten SP an, das heißt die Anzahl der Bits, die zur Quantisierung der Spektralkoeffizienten in dem aufgezeichneten Signal verwendet werden. Als Ergebnis kann dann, wenn lediglich eine der Wortlängen WL für den Block verloren ist, keiner der quantisierten Spektralkoeffizienten in dem Block, welcher, den quantisierten Spektralkoeffizienten QSP entsprechend der verlorenen Wortlänge WL folgt, gelesen werden. Andererseits können in dem Fall, daß einer der Block- Gleitkoeffizienten SF für ein Band von Spektralkoeffizienten verloren ist, lediglich die Spektralkoeffizienten SP in dem Band entsprechend dem fehlerhaften oder verlorenen Block- Gleitparameter SF nicht wiederhergestellt werden. Folglich ist die Beeinträchtigung der Tonqualität, die aus einem verlorenen Block-Gleitkoeffizienten resultiert, geringer als jene, die aus dem Verlust einer Wortlänge resultiert.
Überdies maskieren, soweit ein menschlicher Zuhörer betroffen ist, Audiosignale niederer Frequenz, die durch die Spektralkoeffizienten SP niederer Frequenz repräsentiert sind, höherfrequente Signale, welche durch Spektralkoeffizienten SP höherer Frequenz repräsentiert sind, effektiv. Demgemäß hat der Verlust von Spektralkoeffizienten SP höherer Frequenz eine minimale Auswirkung auf die Tonqualität.
Aus diesem Grunde kann bei dem ersten Beispiel eines Audiosignal-Verarbeitungsverfahrens eine Beeinträchtigung der Tonqualität des expandierten bzw. gedehnten, decodierten und wiedergegebenen Signals aufgrund eines Datenverlustes minimiert werden, falls von den Block-Gleitparametern BF die Block-Gleitkoeffizienten lediglich der Bänder niederer Frequenz zweimal aufgezeichnet werden bzw. sind. Eine Gesamtverbesserung der Tonqualität kann erreicht werden, falls die so eingesparten Bits einer genaueren Quantisierung der Spektralkoeffizienten zugeteilt werden.
Bei einem zweiten Beispiel eines Audiosignal-Verarbeitungsverfahrens werden die quantisierten Spektralkoeffizienten QSP sequentiell aufgezeichnet, und zwar beginnend mit den quantisierten Spektralkoeffizienten im Band der niedrigsten Frequenz, wie dies in Fig. 2 durch Pfeile veranschaulicht ist. Von den Block-Gleitparametern BF werden die Wortlänge WL1 und der Block-Gleitkoeffizient SF1 für das jeweilige Band einmal aufgezeichnet. Zusätzlich werden lediglich die Wortlängen WL2 für die Bänder niederer Frequenz ein zweites Mal aufgezeichnet. Die Block-Gleitkoeffizienten werden nicht ein zweites Mal aufgezeichnet. Lediglich der Block-Gleitkoeffizient SF1 wird aufgezeichnet.
Ein drittes Beispiel stellt eine Abwandlung des zweiten Beispiels dar. Bei dem dritten Beispiel werden die Block-Gleitkoeffizienten SF2 für die Bänder niederer Frequenz ein zweites Mal aufgezeichnet, wie dies in Fig. 2 veranschaulicht ist. Zusätzlich wird die Anzahl der Bänder, bezüglich der die Wortlänge WL zweimal aufgezeichnet wird, größer festgelegt als die Anzahl der Bänder, bezüglich der der Block-Gleitkoeffizient SF zweimal aufgezeichnet wird.
Die Vorteile der Verfahren gemäß den zweiten und dritten Beispielen werden nunmehr erläutert. Wie beim ersten Beispiel maskieren, soweit ein menschlicher Zuhörer betroffen ist, Audiosignale niederer Frequenz, die durch die Spektralkoeffizienten SP niederer Frequenz repräsentiert sind, effektiv die Signale höherer Frequenz, welche durch die Spektralkoeffizienten SP höherer Frequenz repräsentiert sind. Folglich ist in dem Fall, daß Spektralkoeffizienten SP höherer Frequenz verloren gehen, die Beeinträchtigung der Grundqualität gering.
Von den Block-Gleitparametern BF repräsentiert die Wortlänge WL die Differenz zwischen dem Block-Gleitkoeffizienten SF und dem zulässigen Störpegel, der für jedes Band unter Berücksichtigung der Maskierung festgelegt ist. Die Wortlänge gibt eine Information bezüglich der adaptiven Bitzuteilung für die Quantisierung der Spektralkoeffizienten SP an, das heißt die Anzahl der Bits, die zur Quantisierung der Spektralkoeffizienten im aufgezeichneten Signal verwendet sind. Infolgedessen kann in dem Fall, daß lediglich eine der Wortlängen WL für den Block verloren ist, keiner der quantisierten Spektralkoeffizienten in dem aufgezeichneten Signal, welche den Spektralkoeffizienten SP entsprechend der verlorenen Wortlänge WL folgen, gelesen werden. Falls indessen die quantisierten Spektralkoeffizienten QSP sequentiell aufgezeichnet werden, und zwar beginnend mit dem Band unterster Frequenz, wie beim zweiten Beispiel der Erfindung, können die quantisierten Spektralkoeffizienten QSP in dem Decoder bis zu dem Frequenzband entsprechend der verlorenen Wortlänge WL korrekt gelesen werden. Die korrekt gedehnten Spektralkoeffizienten niederer Frequenz maskieren die Defekte in dem gedehnten Signal, die aus den nicht gedehnten Spektralkoeffizienten höherer Frequenz resultieren.
Falls ein Block-Gleitkoeffizient SF zerstört ist, können lediglich die Spektralkoeffizienten in dem Band entsprechend dem verlorenen Block-Gleitkoeffizienten nicht wiederhergestellt werden, so daß eine Beeinträchtigung der Tonqualität geringer ist als dann, wenn die Wortlänge WL des Bandes zerstört ist.
Aus vorstehendem ist ersichtlich, daß beim zweiten Beispiel, bei dem die quantisierten Spektralkoeffizienten QSP sequentiell aufgezeichnet werden, und zwar beginnend mit dem untersten Frequenzband, bezüglich der Block-Gleitparameter BF lediglich die Wortlängen WL für die Bänder niederer Frequenz ein zweites Mal aufgezeichnet werden und daß die Block-Gleitkoeffizienten SF lediglich einmal aufgezeichnet werden. Dies minimiert die Beeinträchtigung der Tonqualität, die durch den Verlust von Spektralkoeffizienten höherer Frequenz verursacht wird. Andererseits wird die Tonqualität dadurch verbessert, daß die durch Nichtaufzeichnen der Block-Gleitkoeffizienten SF zum zweiten Male eingesparten Bits der Quantisierung der Spektralkoeffizienten SP zugeteilt werden.
Bei dem dritten Beispiel werden die Block-Gleitkoeffizienten SF ebenfalls zweimal aufgezeichnet, und die Anzahl der Bänder, bezüglich der die Wortlänge WL zweimal aufgezeichnet wird, wird größer festgelegt als die Anzahl der Bänder, bezüglich der der Block-Gleitkoeffizient SF zweimal aufgezeichnet wird. Infolgedessen können in dem Fall, daß ein Block- Gleitkoeffizient SF verloren geht, lediglich die Spektralkoeffizienten in dem Band entsprechend dem verlorenen Block- Gleitkoeffizienten SF nicht wiederhergestellt werden. Folglich ist die Tonqualität weniger beeinträchtigt als dann, wenn die Wortlänge WL für den Block verloren ist.
Im folgenden wird eine praktische Anordnung eines Audiosignals-Verarbeitungssystems zur Durchführung der oben beschriebenen Audiosignal-Verarbeitungsverfahren beschrieben. Fig. 3 veranschaulicht den Aufbau eines Datenkompressors bzw. einer Datenkomprimierungseinrichtung zur Verwendung bei dem oben erwähnten Audiosignal-Verarbeitungssystem. Bei dem in Fig. 3 dargestellten Datenkompressor wird ein digitales Audio-Eingangssignal in der Zeitebene TS dem Eingangsanschluß 1 zugeführt und in Rahmen unterteilt, die eine Vielzahl von Abtastproben enthalten. Jeder Rahmen wird in einen Block von Spektralkoeffizienten in der Frequenzebene transformiert. Der Block der Spektralkoeffizienten wird in eine Vielzahl von Bändern aufgeteilt, vorzugsweise in 25 kritische Bänder, und die Spektralkoeffizienten in jedem Band werden mit einem Blockgleiten verarbeitet und mit einer adaptiven Anzahl von Bits quantisiert. Die resultierenden quantisierten Spektralkoeffizienten QSP werden aufgezeichnet, und der Block-Gleitkoeffizient SF sowie die Wortlänge WL für das jeweilige Band werden als Block-Gleitparameter BF aufgezeichnet, und zwar werden zumindest einige dieser Größen zweimal aufgezeichnet.
Bei der in Fig. 3 dargestellten Anordnung wird ein digitales Audio-Eingangssignal in der Zeitebene durch ein Bandaufteilungsfilter in eine Vielzahl von Frequenzbereichen aufgeteilt, und die resultierenden Frequenzbereichssignale werden in Spektralkoeffizienten in der Frequenzebene durch eine modifizierte diskrete Kosinustransformation (MDCT) transformiert. Die resultierenden Spektralkoeffizienten werden durch eine adaptive Bitzuteilung komprimiert.
Das Eingangssignal TS wird in Spektralkoeffizienten SP durch die Orthogonal-Transformationsschaltung 11 transformiert, die vorzugsweise eine modifizierte diskrete Kosinus-Transformation anwendet bzw. vornimmt. Die Orthogonal-Transformationsschaltung 11 teilt das Eingangssignal TS in Rahmen auf und unterteilt jeden Rahmen in eine Vielzahl von Frequenzbereichen. Die Frequenzbereiche weisen eine Bandbreite auf, die mit zunehmender Frequenz ansteigt. Bei der bevorzugten Ausführungsform wird das Eingangssignal in drei Frequenzbereiche unterteilt. Die Rahmen der Frequenzbereichssignale können unterschiedlich in Zeitbereichsblöcke unterteilt sein, die eine unterschiedliche Blocklänge im jeweiligen Frequenzbereich aufweisen.
Die durch die Orthogonal-Transformationsschaltung 11 erzeugten Spektralkoeffizienten werden in Bänder unterteilt, deren Bandbreiten so gewählt sind, daß der menschliche Gehörsinn berücksichtigt ist. Demgemäß werden die Spektralkoeffizienten SP in eine Vielzahl von Bändern aufgeteilt, die zu höheren Frequenzen hin breiter werden. Derartige Bänder entsprechen kritischen Bändern.
Die Spektralkoeffizienten SP von der Orthogonal-Transformationsschaltung 11 her werden der Quantisierungsschaltung 15 zur Quantisierung zugeführt. Die Quantisierungsschaltung 15 wendet ein Blockgleiten an, um die Spektralkoeffizienten SP im jeweiligen Band zu normieren, und quantisiert sodann das resultierende normierte Signal mit adaptiven Zahlen von Bits, wobei eine Maskierung berücksichtigt wird.
Die Block-Gleitkoeffizienten SF, die durch die Quantisierungsschaltung 15 benutzt werden, um das Blockgleiten auszuführen, werden von einer Block-Gleitkoeffizienten-Rechenschaltung 13 geliefert. Die Block-Gleitkoeffizienten-Rechenschaltung 13 erhält jeden Block der Spektralkoeffizienten SP, der aus der Transformation des jeweiligen Rahmens des Frequenzbereichssignals resultiert, und liefert für jedes Band einen Block-Gleitkoeffizienten.
Jeder Block der Spektralkoeffizienten SP wird ferner der für den zulässigen Störpegel vorgesehenen Rechenschaltung 17 zugeführt, um die adaptive Anzahl von Bits festzulegen, die durch die Quantisierungsschaltung 15 zu verwenden sind. In der für den zulässigen Störpegel vorgesehenen Rechenschaltung 17 wird der zulässige Störpegel MSKI für das jeweilige Band im jeweiligen Block der Spektralkoeffizienten berechnet. Die Berechnung berücksichtigt den Maskierungseffekt des Signalpegels in dem kritischen Band und in den benachbarten kritischen Bändern, um den zulässigen Störpegel für das jeweilige kritische Band zu bestimmen, wie dies nachstehend erläutert werden wird. Der zulässige Störpegel MSKI von der für die Berechnung des zulässigen Störpegels vorgesehenen Rechenschaltung 17 wird der Bitzuteilungs-Rechenschaltung 14 zugeführt, die eine Wortlänge WL für jedes Band in jedem Block der Spektralkoeffizienten auf den zulässigen Störpegel MSKI hin erzeugt. Die Quantisierungsschaltung 15 führt eine adaptive Quantisierung der Spektralkoeffizienten SP im jeweiligen Band auf den zulässigen Störpegel für das betreffende Band hin durch.
Die für die Berechnung des zulässigen Stör- bzw. Rauschpegels vorgesehene Rechenschaltung 17 sowie die Bitzuteilungs- Rechenschaltung 14 arbeiten in folgender Weise.
Zunächst legt die für die Berechnung des zulässigen Störpegels vorgesehene Rechenschaltung 17 für jeden Block von Spektralkoeffizienten die Energien der Spektralkoeffizienten SP im jeweiligen Band fest. Die Energien der Spektralkoeffizienten im jeweiligen Band werden vorzugsweise dadurch berechnet, daß die Summe der Amplituden der Spektralkoeffizienten in dem Band bestimmt wird. Die Spitzen- oder Mittelwerte der Amplituden können anstatt der Bandenergien genutzt werden. Das Spektrum der Summe der Energien im jeweiligen Band, das durch die für die Berechnung des zulässigen Störpegels vorgesehene Rechenschaltung bestimmt wird, wird Burke-Spektrum genannt.
Um den Maskierungseffekt des Burke-Spektrums zu berücksichtigen, führt die für die Berechnung des zulässigen Störpegels vorgesehene Rechenschaltung 17 eine Faltung durch, indem sie die Burke-Spektrumsdaten multipliziert mit bestimmten Filterkoeffizienten summiert. Um die Faltung durchzuführen, enthält die Schaltung eine Vielzahl von Verzögerungselementen zur sequentiellen Verzögerung der Eingangsdaten, eine Vielzahl von Multipliziereinrichtungen (vorzugsweise 25 Multiplizier einrichtungen, und zwar eine für jedes kritische Band) zum Multiplizieren der Ausgangssignale der Verzögerungselemente mit Filterkoeffizienten, und eine Summierschaltung zum Summieren der Ausgangssignale der Multipliziereinrichtungen.
Nach der Faltung wird eine Entfaltung vorgenommen, um eine Maskierungsschwelle zu ermitteln, die einen zulässigen Störpegel repräsentiert. Durch Subtrahieren der Maskierungsschwelle von dem Burke-Spektrum wird der Maskierungseffekt des Burke-Spektrums bezüglich des Maskierungspegels ermittelt. Daraus wird der zulässige Störpegel ermittelt, der in die Bitzuteilungs-Rechenschaltung 14 eingeführt wird.
Darüber hinaus können dann, wenn der zulässige Störpegel MSKI bestimmt wird, den minimalen hörbaren Pegel des menschlichen Gehörsinns angebende Daten mit dem Maskierungspegel kombiniert werden. Eine Störung bzw. ein Rauschen mit einem Absolutpegel, der niedriger ist als der minimal hörbare Pegel, ist unhörbar. Der minimal hörbare Pegel hängt vom Schalldruckpegel ab, mit dem das komprimierte digitale Signal nach Dehnung und Umsetzung in ein analoges Signal wiedergegeben wird. Bei einem praktischen System gibt es indessen, falls überhaupt, wenige signifikante Differenzen in der Weise, in der ein Musikprogrammaterial in den Dynamikbereich hineinpaßt, der durch ein 16-Bit-PCM-System bereitgestellt wird. Damit kann festgestellt werden, daß dann, wenn das Quantisierungsrauschen bei Frequenzen nahe 4 kHz unhörbar ist, bei der es sich um die Frequenz handelt, bei der das Ohr am empfindlichsten ist, das Quantisierungsrauschen bei anderen Frequenzen, bei denen es im Pegel niedriger ist als der Pegel der minimalen hörbaren Pegelkurve, ebenfalls unhörbar sein wird.
Der zulässige Störpegel MSKI kann ferner im Hinblick beispielsweise auf die Kurve gleicher Lautstärke korrigiert werden. Die Kurve gleicher Lautstärke ist auf noch eine weitere Charakteristik des menschlichen Gehörsinns bezogen. Die Kurve gleicher Lautstärke korrigiert Schalldruckpegel bei unterschiedlichen Frequenzen so, daß sie als Schall wahrgenommen werden, der so laut ist wie ein reiner Ton bei 1 kHz. Entsprechend der Kurve gleicher Lautstärke wird ein Ton in der Nähe von 4 kHz so laut empfunden wie ein Ton bei 1 kHz, der einen 8 bis 10 dB höheren Schalldruckpegel aufweist. Andererseits muß ein Ton in der Nähe von 50 Hz einen Schalldruckpegel aufweisen, der um etwa 15 dB höher ist als ein Ton bei 1 kHz, um als ebenso lauter Ton wahrgenommen zu werden. Mit Rücksicht hierauf muß der zulässige Störpegel unter Heranziehung der Kurve gleicher Lautstärke derart korrigiert werden, daß der zulässige Störpegel bezüglich der Lautstärkeempfindlichkeit des menschlichen Hörsinns angepaßt ist.
Die Bitzuteilungs-Rechenschaltung 14 enthält einen Festwertspeicher (ROM), in welchem eine Information bezüglich der Bitzuteilung gespeichert ist. Die Anzahl von Bits, die der Quantisierung der Spektralkoeffizienten im jeweiligen Band zuzuteilen sind, wird aus dem ROM-Speicher auf die Differenz zwischen dem zulässigen Störpegel MSKI und die Bandenergie hin ausgelesen. In Abhängigkeit von der Anzahl der dem jeweiligen Band zugeteilten Bits werden die Wortlängen WL für jedes Band in jedem der Frequenzbereiche ermittelt bzw. gefunden.
Die Block-Gleitkoeffizienten SF von der für die Berechnung der Block-Gleitkoeffizienten vorgesehenen Rechenschaltung 13, die Wortlängen WL von der Bitzuteilungs-Rechenschaltung 14 und die Spektralkoeffizienten QSP, die durch die Quantisierungsschaltung 15 quantisiert worden sind, werden zu der Codierschaltung 81 übertragen. Die Codierschaltung nimmt eine solche Anordnung der Daten in einem Aufzeichnungsformat vor, daß einige der Daten, wie einige der Wortlängen WL und einige der Block-Gleitkoeffizienten SF gemäß den ersten, zweiten und dritten Beispielen zweimal aufgezeichnet werden können.
Die Codierschaltung 81 liefert ein Aufzeichnungssignal als ihre Ausgangsdaten CDT.
Die Codierschaltung 81 gibt die Ausgangsdaten CDT an eine Fehlercode-Anhangschaltung 82 ab, die Fehlercodes zu den Ausgangsdaten hinzuaddiert und mit diesen möglicherweise verschachtelt und die ein Aufzeichnungssignal an dem Ausgangsanschluß 2 abgibt. Eine geeignete Anordnung zeichnet das Aufzeichnungssignal auf einem geeigneten Aufzeichnungsträger, wie einer magnetooptischen Platte, einer lediglich Lesen ermöglichenden Platte, einem Magnetband oder einem Halbleiterspeicher auf.
Fig. 4 zeigt eine praktische Anordnung der in Fig. 3 dargestellten Orthogonal-Transformationsschaltung 11. Die in Fig. 4 dargestellte Anordnung enthält ein Bandaufteilungsfilter, wie ein Quadratur-Spiegel-Filter (QMF) und eine eine modifizierte diskrete Kosinustransformation vornehmende MDCT- Schaltung zur Komprimierung des Eingangssignals.
Quadratur-Spiegel-Filter sind beispielsweise bei R. E. Crochiere, "Digital Coding of Speech in Subbands", 55 Bell Syst. Tech. J., Nr. 8, (1976) diskutiert. Die Technik des Unterteilens eines Frequenzspektrums in Frequenzbereiche gleicher Breite ist bei Joseph H. Rothweiler "Polyphase Quadrature Filters A New Subband Coding Technique", ICASSP 83, Boston, diskutiert.
Die modifizierte diskrete Kosinustransformation (MDCT) ist beispielsweise bei J. P. Princen und A. Bradley, "Subband/Transform Coding Using Filter Bank Based on Time Domain Aliasing Cancellation" ICASSP 1987, diskutiert.
Die orthogonale Transformation kann alternativ beispielsweise durch eine schnelle Fourier Transformation (FFT) oder durch eine diskrete Kosinustransformation (DCT) erzielt werden.
Bei der in Fig. 4 dargestellten Anordnung wird ein digitales Audio-Eingangssignal TS, wie ein PCM-Signal, in der Frequenz in drei Frequenzbereiche aufgeteilt. Der gesamte Audiofrequenzbereich von beispielsweise 0 Hz bis 20 kHz wird in einen Bereich höherer Frequenz von 10 bis 20 kHz, in einen Mittelfrequenzbereich von 5 bis 10 kHz und in einen Bereich niederer Frequenz von 0 Hz bis 5 kHz aufgeteilt.
Das digitale Audio-Eingangssignal TS, beispielsweise ein Audio-PCM-Signal im Frequenzbereich von 0 Hz bis 20 kHz, wird dem Eingangsanschluß 1 zugeführt. Das Eingangssignal TS wird durch das Bandaufteilungsfilter 71, bei dem es sich vorzugsweise um ein QMF-Filter handelt, beispielsweise in einen Bereich hoher Frequenz von 0 Hz bis 10 kHz und in einen Frequenzbereich von 10 bis 20 kHz aufgeteilt. Das Signal im Frequenzbereich von 0 Hz bis 10 kHz wird durch das Bandaufteilungsfilter 72, welches vorzugsweise ein QMF-Filter ist, weiter in einen Bereich niederer Frequenz von 0 Hz bis 5 kHz und in einen Mittelfrequenzbereich von 5 bis 10 kHz aufgeteilt. Das Frequenzbereichssignal für den Bereich hoher Frequenz von dem Filter 71 sowie die Frequenzbereichssignale für den Mittelfrequenzbereich und für den Bereich niederer Frequenz vom Filter 72 werden in die MDCT-Schaltungen 73, 74 bzw. 75 zur MDCT-Verarbeitung eingeführt. Die Spektralkoeffizienten, die von jedem der Frequenzbereichssignale durch die MDCT-Schaltungen 73, 74 und 75 abgeleitet sind, werden den Ausgangsanschlüssen 76, 77 bzw. 78 zugeführt.
In den MDCT-Schaltungen 73 bis 75 werden die Rahmen der Frequenzbereichssignale, die einer orthogonalen Transformationsverarbeitung unterzogen werden, vorzugsweise in Blöcke unterteilt, und die Blöcke der Frequenzbereichssignale werden orthogonal transformiert. In den Bereichen höherer Frequenz werden die Rahmen in Blöcke aufgeteilt. Dies führt zu einer feineren Zeitauflösung in den Bereichen höherer Frequenz. So sind beispielsweise die Blöcke der Frequenzbereichssignale, die der orthogonalen Transformation unterzogen sind, von der Art, daß ein aus einem gesamten Rahmen von 256 Abtastproben bestehender Block in den Bereich niederer Frequenz und in den Mittelfrequenzbereich transformiert wird, während in dem Bereich hoher Frequenz der Rahmen in zwei 128-Abtastprobenblöcke, deren jeder orthogonal transformiert wird, aufgeteilt wird bzw. ist. Durch diese Art und Weise wird eine gleichmäßigere Verteilung der Spektralkoeffizienten unter den kritischen Bändern erzielt.
Wenn sich der Pegel eines Frequenzbereichssignals schnell ändert, können die Rahmen des betreffenden Frequenzbereichssignals weiter unterteilt werden, um die Zeitauflösung der orthogonalen Transformation weiter zu steigern. Die Rahmen sind vorzugsweise unterteilt bzw. aufgeteilt in zwei hoch einer positiven ganzzahligen Potenz, einschließlich Null, das heißt dividiert durch 1, 2, 4, 8, etc..
Fig. 5 veranschaulicht eine Anordnung eines Datenexpanders bzw. einer Datendehnungseinrichtung, der bzw. die komplementär ist zu dem in Fig. 3 dargestellten Datenkompressor. Bei der in Fig. 5 dargestellten Anordnung wird das komprimierte digitale Signal mit den angehängten Fehlerkorrekturcodes ECDT, das normalerweise von einem Aufzeichnungs- oder Übertragungsmedium wiedergegeben worden ist, dem Eingangsanschluß 90 zugeführt. Von dem Eingangsanschluß 90 wird das komprimierte digitale Signal mit den Fehlerkorrekturcodes ECDT an die Fehlerdetektierschaltung 91 abgegeben, die Fehler in dem komprimierten digitalen Signal auf Fehlercodes hin ermittelt. Ein Fehlererkennungssignal EDT wird von der Fehlerdetektierschaltung 91 an die das quantisierte Spektralkoeffizientensignal lesende Leseschaltung 54, an die Block-Gleitkoeffi zienten-Leseschaltung 92 und an die Wortlängen-Leseschaltung 93 abgegeben.
Das komprimierte digitale Signal mit den Fehlerkorrekturcodes ECDT wird ferner der Block-Gleitkoeffizienten-Leseschaltung 92 zugeführt, in der die Block-Gleitkoeffizienten SF der Block-Gleitparameter BF gelesen oder herausgeholt werden. Ferner wird das betreffende Signal der Wortlängen-Leseschaltung 93 zugeführt, in der die Wortlängen WL der Block-Gleitparameter BF gelesen oder herausgeholt werden, und ferner wird das betreffende Signal an die quantisierte Spektralkoeffizienten lesende Leseschaltung 54 abgegeben, in der die quantisierten Spektralkoeffizienten aus dem digitalen Signal ECDT gelesen oder herausgeholt werden, und zwar auf die Wortlängen WL von der Wortlängen-Leseschaltung 93 hin. Die Signalverarbeitung in den Schaltungen 92, 93 und 54 wird auf das Fehlerdetektiersignal EDT hin durchgeführt.
Die quantisierten Spektralkoeffizienten von der die quantisierten Spektralkoeffizienten lesenden Leseschaltung 54, die Block-Gleitkoeffizienten SF von der Block-Gleitkoeffizienten- Leseschaltung 92 und die Wortlängen WL von der Wortlängen- Leseschaltung 93 werden zu der Spektralkoeffizienten-Wiederherstellungsschaltung 55 übertragen, die auf die zugeführten Signale hin die Spektralkoeffizienten extrahiert. Im besonderen werden auf die Block-Gleitkoeffizienten SF und die Wortlängen WL hin die aus dem komprimierten digitalen Signal gelesenen quantisierten Spektralkoeffizienten QSP als wiederhergestellte Spektralkoeffizienten RSP wiederhergestellt, was die Original-Spektralkoeffizienten SP in dem Kompressor approximiert. Die wiederhergestellten Spektralkoeffizienten RSP von der Spektralkoeffizienten-Wiederherstellungsschaltung 55 werden in Rahmen von Abtastproben in der Zeitebene RTS durch eine eine inverse orthogonale Transformation vornehmende Transformationsschaltung 56 transformiert. Die Rahmen der Abtastproben in der Zeitebene werden als ein digitales Ausgangssignal dem Ausgangsanschluß 57 zugeführt.
Fig. 6 zeigt eine praktische Anordnung der eine inverse orthogonale Transformation vornehmenden Transformationsschaltung 56 des in Fig. 5 gezeigten Expanders 56. Gemäß Fig. 6 werden die wiederhergestellten Spektralkoeffizienten RSP im jeweiligen Band für jeden Block der Spektralkoeffizienten über die Eingangsanschlüsse 61, 62 und 63 an die Invers- Transformationsschaltungen 64, 65 bzw. 66 abgegeben. Die Invers-Transformationsschaltungen 64, 65 und 66, die vorzugsweise eine inverse modifizierte diskrete Kosinustransformation (IMDCT) vornehmende Transformationsschaltungen sind, transformieren derart, daß die wiederhergestellten Spektralkoeffizienten in der Frequenzebene in Rahmen von Abtastproben von Frequenzbereichssignalen in der Zeitebene transformiert sind. Die drei Frequenzbereichssignale werden durch die Invers-QMF-(IQMF)-Schaltungen 67 und 68 synthetisiert, um ein digitales Ausgangssignal des vollen Frequenzbereichs an dem Ausgangsanschluß 69 bereitzustellen.
Fig. 7 zeigt in einem Flußdiagramm, wie die Block-Gleitkoeffizienten-Leseschaltung 92 in einem Expander für die ersten bis dritten Beispiele die Block-Gleitkoeffizienten SF liest. Bei diesem Ausführungsbeispiel liest die Block-Gleitkoeffizienten-Leseschaltung 92 N Block-Gleitkoeffizienten SF.
Gemäß Fig. 7 und ebenso gemäß Fig. 1 und 2 wird beim Schritt S21 die Zahl i an Block-Gleitkoeffizienten SF auf 1 initialisiert. Beim Schritt S22 wird bestimmt, ob der i-te Hauptblock-Gleitkoeffizient SF1 (Fig. 1 oder 2) korrekt ist, und zwar unter Bezugnahme auf das Fehlerdetektiersignal EDT. Falls der i-te Hauptblock-Gleitkoeffizient korrekt ist, das heißt, falls das Ergebnis beim Schritt S22 mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S23, bei dem der i-te Block-Gleitkoeffizient SF1 zum i-ten Element der Reihe SF[i] gemacht wird. Die Steuerung geht dann weiter zum Schritt S28.
Falls der Hauptblock-Gleitkoeffizient SF1 beim Schritt S22 als inkorrekt festgestellt wird, geht die Steuerung weiter zum Schritt S24. Beim Schritt S24 wird bestimmt, ob die Zahl i nicht größer ist als die maximale Zahl Ms von Reserveblock- Gleitkoeffizienten SF2 (das heißt i ≤ Ms). Falls das Ergebnis JA lautet, geht die Steuerung weiter zum Schritt S25. Beim Schritt S25 wird bestimmt, ob der i-te Reserveblock-Gleitkoeffizient SF2 (Fig. 1 und 2) korrekt ist. Falls die Reserveblock-Gleitkoeffizientdaten SF2 als korrekt festgelegt bzw. bestimmt werden, das heißt, falls das Ergebnis JA lautet, geht die Steuerung weiter zum Schritt S26, bei dem der i-te Block-Gleitkoeffizient SF2 zum i-ten Element der Reihe SF[i] gemacht wird. Die Steuerung geht dann weiter zum Schritt S28.
Falls das Ergebnis des Schrittes 524 NEIN lautet oder falls der Reserveblock-Gleitkoeffizient SF2 beim Schritt S25 als inkorrekt festgestellt wird, das heißt, falls das Ergebnis beim Schritt S25 NEIN lautet, geht die Steuerung weiter zum Schritt S27, bei dem eine 0 zum i-ten Element der Reihe SF[i] gemacht wird. Die Steuerung geht dann weiter zum Schritt S28.
Beim Schritt S28 wird bestimmt, ob die Zahl i kleiner ist als die Zahl N(i < N). Falls das Ergebnis JA lautet, geht die Steuerung weiter zum Schritt S29, bei dem i um i erhöht wird. Die Steuerung geht dann weiter zum Schritt S22, und der Prozeß wird wiederholt. Falls das Ergebnis des Schrittes 528 NEIN lautet, wird die Verarbeitung angehalten.
Fig. 8 veranschaulicht in einem Flußdiagramm, wie die Wortlängen-Leseschaltung 93 eines Expanders für das erste Beispiel der Erfindung die Wortlängen WL liest. Die Wortlängen- Leseschaltung 93 liest N Wortlängen WL.
In dem Flußdiagramm gemäß Fig. 8 wird die Zahl i der Wortlänge WL beim Schritt S31 auf 1 initialisiert. Beim Schritt S32 wird bestimmt, ob die i-te Hauptwortlänge WL1 der in Fig. 1 gezeigten Wortlängen korrekt ist, und zwar unter Bezugnahme auf das Fehlerdetektiersignal EDT. Falls die Daten korrekt sind, das heißt dann, wenn das Ergebnis des Schritts S32 mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S33, bei dem die i-te Wortlänge WL1 zum i-ten Element der Reihe WL[i] gemacht wird. Die Steuerung geht dann weiter zum Schritt S37. Falls die Hauptwortlänge WL1 als inkorrekt festgestellt wird, das heißt in dem Fall, daß das Ergebnis beim Schritt S32 mit NEIN beantwortet wird, geht die Steuerung weiter zum Schritt S34.
Beim Schritt S34 wird bestimmt, ob die i-te Reservewortlänge WL2 gemäß Fig. 1 korrekt ist, und zwar unter Bezugnahme auf das Fehlerdetektiersignal EDT. Falls die i-te Reserve Wortlänge WL2 als korrekt bestimmt wird, das heißt dann, wenn das Ergebnis beim Schritt S34 mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S35, bei dem die i-te Wortlänge WL2 zum i-ten Element der Reihe WL[i] gemacht wird. Die Steuerung geht dann weiter zum Schritt S37.
Falls das Ergebnis des Schritts S34 NEIN lautet, geht die Steuerung weiter zum Schritt S36; das k-te Element der Reihe WL[k] wird auf 0 gesetzt, wobei k = 1, i + 1, ....N vorgesehen ist, wonach die Verarbeitung stillgesetzt wird.
Beim Schritt S37 wird bestimmt, ob die Zahl i kleiner ist als die Zahl N (i < N). Falls das Ergebnis mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S38, bei dem i um 1 erhöht wird, womit zum Schritt S32 zurückgekehrt wird. Falls das Ergebnis beim Schritt S37 NEIN lautet, wird die Verarbeitung beendet.
Fig. 9 veranschaulicht in einem Flußdiagramm, wie die Wortlängen-Leseschaltung 93 eines Expanders für die z weiten und dritten Beispiele die Wortlängen WL liest. Die Wortlängen- Leseschaltung 93 liest N Wortlängen WL.
Unter Bezugnahme auf das Flußdiagramm gemäß Fig. 9 und auf Fig. 2 wird die Zahl i der Wortlänge WL beim Schritt S51 auf 1 initialisiert. Beim Schritt S52 wird bestimmt, ob die i-te Hauptwortlänge WL1 gemäß Fig. 2 korrekt ist, und zwar unter Bezugnahme auf das Fehlerdetektiersignal EDT. Falls die i-te Hauptwortlänge WL1 korrekt ist, das heißt in dem Fall, daß das Ergebnis beim Schritt S52 mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S53, bei dem die i-te Wortlänge WL1 zum i-ten Element der Reihe WL[i] gemacht wird. Die Steuerung geht dann weitere zum Schritt S58. Wenn die 1-ten Hauptwortlängendaten WL1 als inkorrekt ermittelt sind, das heißt in dem Fall, daß das Ergebnis beim Schritt S52 NEIN lautet, geht die Steuerung weiter zum Schritt S54.
Beim Schritt S54 wird bestimmt, ob die Zahl n nicht größer bzw. mehr ist als die Zahl Mw der Reservewortlängen WL2(i < Mw). Falls das Ergebnis JA lautet, geht die Steuerung weiter zum Schritt S55, bei dem bestimmt wird, ob die i-te Reservewortlänge WL2 korrekt ist. Falls die i-te Reservewortlänge WL2 als korrekt bestimmt wird, das heißt in dem Fall, daß das Ergebnis beim Schritt S55 mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S56, bei dem die i-te Reservewortlänge WL2 zum i-ten Element der Reihe WL[i] gemacht wird. Die Steuerung geht dann weiter zum Schritt S58.
Falls das Ergebnis beim Schritt S54 mit NEIN beantwortet wird oder in dem Fall, daß die i-te Reservewortlänge WL2 als inkorrekt ermittelt bzw. bestimmt wird, das heißt in dem Fall, daß das Ergebnis beim Schritt S55 mit NEIN beantwortet wird, geht die Steuerung weiter zum Schritt S57. Beim Schritt S57 wird das k-te Element der Reihe WL[k] auf Null gesetzt, wobei k = i, i + 1, ... N gilt, wonach die Verarbeitung stillgesetzt wird.
Beim Schritt S58 wird bestimmt, ob die Zahl i kleiner ist als die Zahl N(i < N); wenn sie kleiner ist, das heißt in dem Fall, daß das Ergebnis beim Schritt S58 mit JA beantwortet wird, geht die Steuerung weiter zum Schritt S59, bei dem die Zahl i um 1 erhöht wird, und die Steuerung kehrt zum Schritt 552 zurück. Falls das Ergebnis beim Schritt S58 mit NEIN beantwortet wird, wird die Verarbeitung angehalten.
Fig. 10 veranschaulicht in einem Flußdiagramm die Arbeitsweise der die quantisierten Spektralkoeffizienten lesenden Quantisierungs-Spektralkoeffizienten-Leseschaltung 54 in einem Expander für die ersten bis dritten Beispiele. Die die quantisierten Spektralkoeffizienten lesende Leseschaltung 54 liest N Bänder von quantisierten Spektralkoeffizienten QSP.
In dem Flußdiagramm gemäß Fig. 10 wird die Spektralkoeffizientenzahl j beim Schritt S41 auf 1 initialisiert. Beim Schritt S42 wird das Band, zu dem der j-te quantisierte Spektralkoeffizient QSP gehört, auf i gesetzt. Beim Schritt S43 wird bestimmt, ob das i-te Element der Reihe WL[i] der Wortlängen WL größer ist als Null (WL[i] > 0). Falls das Ergebnis beim Schritt S43 JA lautet, geht das Programm weiter zum Schritt S44.
Beim Schritt S44 wird der Wert des i-ten Elementes der Reihe WL[i] der Wortlängen WL in bzw. durch die Variable Q substituiert. Beim Schritt S45 wird bestimmt, ob Q korrekt ist. Falls das Ergebnis JA lautet, geht die Steuerung weiter zum Schritt S46, bei dem Q zum j-ten Element der Reihe QSP[j] von quantisierten Spektralkoeffizienten QSP gemacht wird. Die Steuerung geht dann weiter zum Schritt S48.
Falls das Ergebnis beim Schritt S43 NEIN lautet oder falls Q als inkorrekt bestimmt wird, das heißt in dem Fall, daß das Ergebnis beim Schritt S45 mit NEIN beantwortet wird, geht die Steuerung weiter zum Schritt S47, bei dem das j-te Element der Reihe QSP[j] auf Null gesetzt wird, bevor die Steuerung zum Schritt S48 weitergeht.
Beim Schritt S48 wird bestimmt, ob die Zahl j kleiner ist als die Zahl der quantisierten Spektralkoeffizienten L(j < L). Falls das Ergebnis JA lautet, geht die Steuerung weiter zum Schritt S49, bei dem die Zahl j um 1 erhöht wird, bevor die Steuerung zum Schritt S42 weitergeht. Falls das Ergebnis beim Schritt S48 NEIN lautet, wird die Verarbeitung angehalten.
Bei den oben beschriebenen Beispielen von Verfahren zur Komprimierung von digitalen Audiosignalen sind von den Block- Gleitparametern lediglich die Block-Gleitkoeffizienten des Bandes niederer Frequenz zweimal aufgezeichnet worden, so daß die Menge der zweimal aufgezeichneten Block-Gleitparameterdaten vermindert ist im Vergleich zu dem konventionellen Verfahren. Demgemäß können mehr Bits der Quantisierung der Spektralkoeffizienten selbst zugeteilt werden, um eine verbesserte Tonqualität zu liefern. Überdies ist die Beeinträchtigung der Tonqualität aufgrund eines Datenverlustes weniger bemerkbar als bei dem konventionellen Verfahren.
Ferner werden bei den oben beschriebenen Beispielen von Verfahren zum Komprimieren von digitalen Audiosignalen die quantisierten Spektralkoeffizienten sequentiell aufgezeichnet, und zwar beginnend mit den Spektralkoeffizienten in dem Band unterster Frequenz, und von den Block-Gleitparametern werden lediglich die Wortlängen bezüglich der Bänder unterer Frequenz zweimal aufgezeichnet. Falls die Block-Gleitkoeffizienten zweimal aufgezeichnet werden, wird die Anzahl der Bänder, bezüglich der die Wortlänge zweimal aufgezeichnet wird, so festgelegt bzw. eingestellt, daß sie größer ist als die An zahl der Bänder, bezüglich der der Block-Gleitkoeffizient zweimal aufgezeichnet wird. Auf diese Weise werden die Parameter, die für die Bereitstellung einer akzeptablen Tonqualität entscheidend sind, zweimal aufgezeichnet, während eine bemerkbare Beeinträchtigung der Tonqualität aufgrund eines Datenverlustes minimiert ist. Da das Volumen der zweifach aufgezeichneten Daten geringer ist als bei dem konventionellen Verfahren, können ferner mehr Bits der Quantisierung der Spektralkoeffizienten zugeteilt werden, was eine höhere Tonqualität liefert.
Ein viertes Beispiel gemäß der vorliegenden Erfindung stellt ein Verfahren zum Komprimieren von Audiosignalen bereit, bei dem ein Rahmen eines Eingangssignals in der Zeitebene TS in Spektralkoeffizienten SP in der Frequenzebene transformiert wird. Der Block von Spektralkoeffizienten, der aus der Transformation eines Rahmens der Eingangssignale resultiert, wird in eine Vielzahl von Bändern unterteilt, wobei ein Blockgleiten auf die Spektralkoeffizienten im jeweiligen Band angewandt wird und wobei die hinsichtlich des Blockgleitens verarbeiteten Spektralkoeffizienten im jeweiligen Band durch eine adaptive Bitzuteilung quantisiert werden. Ein komprimiertes Digitalsignal, welches die quantisierten Spektralkoeffizienten zusammen mit Block-Gleitparametern BF enthält, einschließlich der Block-Gleitkoeffizienten SF und der Wortlängen WL, wird aufgezeichnet. Bei diesem Verfahren, wie es in Fig. 11 veranschaulicht ist, werden die Block-Gleitparameter für das jeweilige Band je Rahmen aufgezeichnet, und zwar beginnend mit jenen für das Band unterster Frequenz, und endend mit dem Band höchster Frequenz, für das derartige Parameter benötigt werden. Außerdem werden Daten aufgezeichnet, die die Anzahl der aufgezeichneten Block-Gleitparameter angeben.
Fig. 11 veranschaulicht, wie die Daten, die aus der Transformation eines Rahmens des Eingangssignals resultieren, aufge zeichnet werden. Die in Fig. 11 dargestellte Hauptinformation sind die quantisierten Spektralkoeffizienten.
Die Vorteile des Beispiels gemäß der Erfindung (des vierten Beispiels) werden nunmehr erläutert werden. Der minimale hörbare Pegel des menschlichen Gehörsinns ist, wie oben beschrieben, bei Frequenzen oberhalb von etwa 10 kHz hoch. Zusätzlich weisen hochpegelige Signale niederer Frequenz eine Eigenschaft auf, Signale höherer Frequenz zu maskieren, so daß eine Tonqualitätsbeeinträchtigung, die aus Pegeln des Quantisierungsrauschens bei hohen Frequenzen, welche wesentlich höher sind als jene bei unteren Frequenzen, beispielsweise niedriger als 10 kHz, kaum wahrnehmbar sind. Insgesamt ist in dem Fall, daß die Spektralkoeffizienten für Frequenzen über 15 kHz durch die Zuteilung bzw. Zuordnung von 0-Quantisierungsbits zu diesen Koeffizienten gelöscht sind, die resultierende Differenz in der Tonqualität für das menschliche Hörvermögen kaum wahrnehmbar.
Aus den gerade angegebenen Gründen können die Block-Gleitparameter BF, das heißt die Block-Gleitkoeffizienten SF und die Wortlänge WL entsprechend der Anzahl von zugeteilten Quantisierungsbits, für jedes Frequenzband lediglich bezüglich jener Bänder bis zum höchsten Frequenzband aufgezeichnet werden, die derartige Parameter BF benötigen. Mit anderen Worten ausgedrückt heißt dies, daß die Block-Gleitparameter lediglich für den Teil des Audiofrequenzspektrums aufgezeichnet zu werden brauchen, der für den Gehörsinn kritisch ist und der unterhalb einer gewissen Frequenz liegt. Da das höchste Frequenzband, welches Block-Gleitparameter braucht, sich von einem Rahmen des Eingangssignals zum nächsten ändern kann, kann die Anzahl der aufgezeichneten Block-Gleitparameter sich von einem Rahmen zum nächsten ändern. Auf diese Art und Weise ist es möglich, dem Quantisieren der Spektralkoeffizienten niederer Frequenz, die für den menschlichen Gehörsinn kritisch bzw. entscheidend sind, mehr Bits zuzutei len, und damit können sie nicht weggelassen werden. Dies führt zu einer weiteren Verbesserung in der Tonqualität.
Da sich die Anzahl der aufgezeichneten Block-Gleitparameter BF von einem Rahmen zum nächsten ändert, sind die aufgezeichneten Daten, welche die Zahl N der Block-Gleitparameter BF angeben, in jedem Block des aufgezeichneten digitalen Signals enthalten, welches aus der Transformation eines Rahmens des Eingangssignals resultiert. Das Volumen der die Zahl N angebenden Daten ist gering. Wenn 10 Block-Gleitparameter BF pro Block aufgezeichnet werden, genügen sieben Bits, um N anzugeben. Demgegenüber genügt in dem Fall, daß jeder Rahmen lediglich zwei Bänder einschließt, ein Bit, um N anzugeben.
Somit können gemäß dem Beispiel der Erfindung in dem Fall, daß die Spektralkoeffizienten hoher Frequenz entsprechend einem Rahmen des Eingangssignals nicht aufgezeichnet zu werden brauchen, da sie unhörbar sind, die zuvor für die Block- Gleitparameter BF der Bänder hoher Frequenz, denen Null-Bits zugeteilt werden, benötigten Bits der Hauptinformation der Bänder niederer Frequenz zugeteilt werden. In diesem Falle werden die Block-Gleitparameter BF niederer Frequenz und die Hauptinformation zusammen mit der Zahl N von für den betreffenden Rahmen aufgezeichneten Block-Gleitparametern BF aufgezeichnet.
Falls die Spektralkoeffizienten in den Bändern niederer Frequenz einen relativ niedrigen Pegel aufweisen und die Spektralkoeffizienten in den Bändern höherer Frequenz einen relativ hohen Pegel zeigen und falls die Spektralkoeffizienten hoher Frequenz aus dem komprimierten Signal weggelassen werden bzw. sind, ist die resultierende Beeinträchtigung der Tonqualität ohne weiteres bemerkbar. In derartigen Fällen werden die Spektralkoeffizienten hoher Frequenz und die Block-Gleitparameter in dem Aufzeichnungssignal eingeschlossen, wie dies in Fig. 12 veranschaulicht ist.
Fig. 13 veranschaulicht in einem Flußdiagramm die Signalverarbeitung in dem in Fig. 3 dargestellten Datenkompressor. Bei dem in Fig. 3 dargestellten Datenkompressor kann dieses Flußdiagramm unter Verwendung der in Fig. 3 dargestellten Schaltungsblöcke ausgeführt werden; es kann allerdings auch unter Verwendung eines digitalen Signalprozessors und damit verbundenen Speichern ausgeführt werden.
Gemäß Fig. 13 führt beim Schritt S1 die Orthogonal-Transformationsschaltung 11 je Rahmen eines digitalen Audio-Eingangssignals TS in der Zeitebene eine Transformation in einem Block von Spektralkoeffizienten SP durch. Nach dem Schritt S1 geht die Steuerung weiter zum Schritt S2, bei dem die Block- Gleitkoeffizienten-Rechenschaltung 13 einen Block-Gleitkoeffizienten SF für jedes Band von Spektralkoeffizienten berechnet. Beim Schritt S3 führt die Maskierungs-Rechenschaltung 17 die Berechnung des zulässigen Störpegels aus, und beim Schritt S4 werden die Bänder, denen Bits zuzuordnen bzw. zuzuteilen sind, und die Anzahl N der Block-Gleitparameter BF bestimmt. Beim Schritt S5 berechnet die Bitzuteilungs-Rechenschaltung 14 die Quantisierungsbitzuteilung und bestimmt die Wortlänge WL für jedes Band. Beim Schritt S6 quantisiert die Spektralkoeffizienten-Quantisierungsschaltung 15 die Spektralkoeffizienten. Schließlich werden beim Schritt S7 die Daten, welche die Zahl N der Block-Gleitparameter BF für die Bänder angeben, die aufzuzeichnen erforderlich ist, die Block-Gleitparameter BF und die quantisierten Spektralkoeffizienten QSP in ein komprimiertes digitales Signal durch die Datencodierungsschaltung 81 codiert.
Fig. 14 zeigt in einem Flußdiagramm die Signalverarbeitung in dem in Fig. 5 gezeigten komplementären Datenexpander. Bei dem in Fig. 5 dargestellten Datenexpander kann das Flußdiagramm unter Verwendung der in Fig. 5 gezeigten Schaltungsblöcke ausgeführt werden; es kann allerdings auch unter Verwendung eines digitalen Prozessors und damit verbundener Speicher ausgeführt werden. Der für den Datenkompressor gemäß Fig. 3 verwendete digitale Signalprozessor kann einfach neu programmiert sein, oder der Expanderteil eines Kompressor-/Expander- Programms kann ablaufen.
In dem Flußdiagramm gemäß Fig. 14 wird die Zahl N der Block- Gleitparameter BF zunächst beim Schritt S11 durch die Block- Gleitkoeffizienten-Leseschaltung 92 gelesen. Sodann wird beim Schritt S12 die Zahl der Block-Gleitparameter BF, die durch die Zahl N angegeben ist, durch die Block-Gleitparameter- Leseschaltung 93 gelesen. Sodann werden beim Schritt S13 die quantisierten Spektralkoeffizienten QSP durch die für das Lesen der quantisierten Spektralkoeffizienten vorgesehene Leseschaltung 54 auf die Wortlänge WL der Block-Gleitparameter BF hin gelesen. Beim Schritt S14 stellt die Spektralkoeffizienten-Wiederherstellungsschaltung 55 auf die Block- Gleitkoeffizienten SF und die Wortlänge WL hin die quantisierten Spektralkoeffizienten QSP als wiederhergestellte Spektralkoeffizienten RSP wieder her, was die Werte der Original-Spektralkoeffizienten SP in dem Datenkompressor (Fig. 3) approximiert. Schließlich transformiert beim Schritt S15 die Invers-Transformationsschaltung 56 die wiederhergestellten Spektralkoeffizienten RSP unter Heranziehung einer inversen modifizierten diskreten Kosinustransformation (IMDCT) in drei Frequenzbereichssignale in der Zeitebene und synthetisiert diese Signale in ein digitales Vollfrequenzbereichs-Ausgangssignal RTS.
Bei dem oben beschriebenen vierten Beispiel eines Audiosignal-Verarbeitungsverfahrens gemäß der vorliegenden Erfindung kann mit Rücksicht darauf, daß die Block-Gleitparammeter für jedes Band bis zu dem Band aufgezeichnet werden, bezüglich dessen solche Parameter nicht benötigt werden, und die Anzahl der aufgezeichneten Block-Gleitparameter ebenfalls je Rahmen aufgezeichnet wird, die Bitzuteilung ohne Beeinträch tigung der Tonqualität eingerichtet bzw. angepaßt werden. Dies bedeutet, daß in dem Fall, daß die Spektralkoeffizienten hoher Frequenz nicht aufgezeichnet werden, da sie keinen wahrnehmbaren Unterschied bezüglich der Tonqualität hervorrufen, die Bits, die sonst den Spektralkoeffizienten hoher Frequenz zugeteilt werden, für die Quantisierung der Spektralkoeffizienten niederer Frequenz zugeteilt werden können, was die Tonqualität verbessert. Überdies können gelegentlich hochpegelige Spektralkoeffizienten hoher Frequenz aufgezeichnet werden, ohne die Bandbreite einzuengen. Der Grund hierfür liegt darin, daß hohe Pegel des Quantisierungsrauschens bei Vorhandensein von hochpegeligen Signalen hoher Frequenz toleriert werden können, weshalb relativ wenige Bits erforderlich sind. Schließlich ist eine geringe Extraverarbeitung erforderlich, um diese Operation auszuführen.
Obwohl vorstehend ein System zum Komprimieren von Spektralkoeffizienten beschrieben worden ist, die von einem in der Zeitebene liegenden Eingangs-Audiosignal transformiert worden sind, kann die Erfindung auch bei einem Subband-Codierungssystem angewandt werden, bei dem die in der Zeitebene liegenden Signale nach Frequenzunterteilung in Subbänder codiert werden.

Claims

1. Verfahren zum Komprimieren eines digitalen Audio-Eingangssignals zur Bereitstellung eines Aufzeichnungssignals, umfassend die Verfahrensschritte:

Aufteilen (11) des Eingangssignals in Rahmen, die eine Vielzahl von Abtastproben umfassen,

Transformieren (11) des jeweiligen Rahmens der Vielzahl von Abtastproben in einen Block von Spektralkoeffizienten und Aufteilen des Blockes der Spektralkoeffizienten in eine Vielzahl von Bändern, die ein unterstes Frequenzband und ein höchstes Frequenzband aufweisen,

Erzeugen (13) von Block-Gleitparametern,

Anwenden (13, 15) eines Blockgleitens auf die Spektralkoeffizienten im jeweiligen Band auf einen Block-Gleitparameter hin,

Quantisieren (15) der Spektralkoeffizienten im jeweiligen Band mit einer adaptiven Anzahl von Bits zur Bereitstellung von quantisierten Spektralkoeffizienten auf einen Block- Gleitparameter hin,

wobei 0-Bits den Spektralkoeffizienten in Bändern zugeteilt werden, die in der Frequenz höher liegen als ein höchstes nutzbares Band,

dadurch gekennzeichnet,

daß ein aus dem Block der Spektralkoeffizienten abgeleiteter Datenblock dem Aufzeichnungssignal hinzuaddiert (81) wird, wobei der aus dem Block der Spektralkoeffizienten abgeleitete Datenblock aus

den quantisierten Spektralkoeffizienten für jedes Band bis zum höchsten nutzbaren Band, bis zu welchem eine Anzahl von Bändern vorhanden ist,

den Block-Gleitparametern für jedes Band bis zum höchsten nutzbaren Band

und Daten, welche die Anzahl der Bänder bis zum höchsten nutzbaren Band angeben, besteht.

2. Verfahren nach Anspruch 1, wobei der Schritt (15) des Quantisierens der Spektralkoeffizienten im jeweiligen Band mit einer adaptiven Anzahl von Bits eine Quantisierung der Spektralkoeffizienten im jeweiligen Band unter Verwendung einer zusätzlichen Anzahl von Bits umfaßt, wobei die zusätzliche Anzahl von Bits eine Anzahl von Bits ist, die äquivalent ist einer Differenz zwischen einer Anzahl von Bits, die erforderlich sind zur Lieferung von Block- Gleitparametern für das jeweilige Band, und einer Anzahl von Bits, die erforderlich sind für die Bereitstellung von Block- Gleitparametern für das jeweilige Band bis zum höchsten nutzbaren Band.

3. Verfahren nach Anspruch 1, wobei die Block-Gleitparameter eine Wortlänge und einen Block-Gleitkoeffizienten enthalten, wobei der Schritt (13, 15) des Anwendens des Blockgleitens den Schritt des Anwenders des Blockgleitens auf den Block- Gleitkoeffizienten hin umfaßt,

wobei der Schritt (15) des Quantisierens der Spektralkoeffizienten den Schritt des Quantisierens der Spektralkoeffizienten in Abhängigkeit von der Wortlänge umfaßt,

und wobei beim Schritt (81) des Addierens eines von dem Block der Spektralkoeffizienten abgeleiteten Datenblockes zu dem Aufzeichnungssignal die Block-Gleitparameter im Datenbock, der von dem Block der Spektralkoeffizienten abgeleitet ist, aus

einer Hauptwortlänge für jedes Band bis zum höchsten nutzbaren Band,

einem Hauptblock-Gleitkoeffizienten für jedes Band bis zum höchsten nutzbaren Band und

einer Reserve-Wortlänge für jedes der unteren Frequenzbänder bestehen.

4. Verfahren nach Anspruch 3, wobei beim Schritt (81) des Addierens eines Datenblocks, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal die Block-Gleitparameter im Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, zusätzlich durch einen Reserveblock-Gleitkoeffizienten für jedes der unteren Frequenzbänder gebildet sind.

5. Verfahren nach Anspruch 3, wobei der Schritt (81) des Addierens eines Datenblockes, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal den Schritt der sequentiellen Anordnung der quantisierten Spektralkoeffizienten in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, umfaßt, beginnend mit den quantisierten Spektralkoeffizienten im untersten Frequenzband.

6. Verfahren nach Anspruch 5, wobei beim Schritt (81) des Addierens eines Datenblocks, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, aus

einer Hauptwortlänge für jedes Band bis zum höchsten nutzbaren Band,

einem Hauptblock-Gleitkoeffizienten für jedes Band bis zum höchsten nutzbaren Band,

einer Reservewortlänge für jedes Band einer ersten Anzahl der unteren Frequenzbänder und

einem Reserveblock-Gleitkoeffizienten für jedes Band einer zweiten Anzahl von unteren Frequenzbändern bestehen,

wobei die zweite Anzahl der unteren Frequenzbänder kleiner ist als die erste Anzahl der unteren Frequenzbänder.

7. Vorrichtung zum Komprimieren eines digitalen Audio-Eingangssignals zur Lieferung eines Aufzeichnungssignals,

mit einer Einrichtung (11) zum Aufteilen des Eingangssignals in Rahmen, die eine Vielzahl von Abtastproben umfassen,

mit einer Einrichtung (11) zum Transformieren des jeweiligen Rahmens aus der Vielzahl von Abtastproben in einen Block von Spektralkoeffizienten und zum Aufteilen des Blocks der Spektralkoeffizienten in eine Vielzahl von Bändern,

wobei die Vielzahl von Bändern ein unterstes Frequenzband und ein höchstes Frequenzband aufweist,

mit einer Einrichtung (13) zur Erzeugung von Block-Gleitparametern,

mit einer Block-Gleiteinrichtung (15) zur Anwendung eines Blockleitens auf die Spektralkoeffizienten im jeweiligen Band auf einen Block-Gleitparameter hin,

mit einer Quantisierungseinrichtung (15) zum Quantisieren der Spektralkoeffizienten im jeweiligen Band mit einer adaptiven Anzahl von Bits zur Lieferung von quantisierten Spektralkoeffizienten auf einen Block-Gleitparameter hin,

wobei die Quantisierungseinrichtung 0-Bits den Spektralkoeffizienten in Bändern höherer Frequenz als in einem höchsten nutzbaren Band zuteilt,

mit einer Einrichtung (81) zum Addieren eines Datenblocks, der von dem Block der Spektralkoeffizienten abgeleitet ist, zu dem Aufzeichnungssignal,

wobei der von dem Block der Spektralkoeffizienten abgeleitete Datenblock aus

den quantisierten Spektralkoeffizienten für das jeweilige Band bis zum höchsten nutzbaren Band, bis zu welchem eine Anzahl von Bändern vorhanden ist,

den Block-Gleitparametern für das jeweilige Band bis zum höchsten nutzbaren Band

und Daten besteht, welche die Anzahl von Bändern bis zum höchsten nutzbaren Band angeben.

8. Vorrichtung nach Anspruch 7, wobei die Quantisierungseinrichtung zum Quantisieren der Spektralkoeffizienten im jeweiligen Band mit einer adaptiven Anzahl von Bits eine zusätz liche Anzahl von Bits nutzt, bei der es sich um eine Anzahl von Bits handelt, die äquivalent ist einer Differenz zwischen einer Anzahl von Bits, die erforderlich sind zur Lieferung von Block-Gleitparametern für das jeweilige Band, und einer Anzahl von Bits, die erforderlich sind für die Lieferung von Block-Gleitparametern für das jeweilige Band bis zum höchsten nutzbaren Band.

9. Vorrichtung nach Anspruch 7, wobei die Block-Gleitparameter eine Wortlänge und einen Block-Gleitkoeffizienten enthalten,

wobei die Block-Gleiteinrichtung ein Blockgleiten auf den Block-Gleitkoeffizienten hin vornimmt,

wobei die Quantisierungseinrichtung die Spektralkoeffizienten in Abhängigkeit von der Wortlänge quantisiert

und wobei die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist,

eine Hauptwortlänge für das jeweilige Band bis zum höchsten nutzbaren Band,

einen Hauptblock-Gleitkoeffizienten für das jeweilige Band bis zum höchsten nutzbaren Band und

eine Reservewortlänge für jedes der unteren Frequenzbänder enthalten.

10. Vorrichtung nach Anspruch 9, wobei die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist, zusätzlich durch einen Reserveblock-Gleitkoeffizienten für jedes der unteren Frequenzbänder gebildet sind.

11. Vorrichtung nach Anspruch 9, wobei die Addiereinrichtung eine Einrichtung enthält zum sequentiellen Anordnen der quantisierten Spektralkoeffizienten in dem Datenblock, der von den Spektralkoeffizienten abgeleitet ist, und zwar beginnend mit den quantisierten Spektralkoeffizienten in dem untersten Frequenzband.

12. Vorrichtung nach Anspruch 11, wobei die Block-Gleitparameter in dem Datenblock, der von dem Block der Spektralkoeffizienten abgeleitet ist,

eine Hauptwortlänge für jedes Band bis zum höchsten nutzbaren Band,

einen Hauptblock-Gleitkoeffizienten für jedes Band bis zum höchsten nutzbaren Band,

eine Reservewortlänge für jedes einer ersten Anzahl von unteren Frequenzbändern,

einen Reserveblock-Gleitkoeffizienten für jedes einer zweiten Anzahl von unteren Frequenzbändern umfaßt,

13. Verfahren zum Dekomprimieren eines digitalen Audiosignals, welches durch ein Verfahren nach einem der Ansprüche 1 bis 6 komprimiert ist, umfassend die Verfahrensschritte:

(a) von dem genannten Datenblock werden

(i) die genannten Daten, welche die Anzahl von Bändern N bis zum höchsten nutzbaren Band (S11) angeben,

(ii) die Block-Gleitparameter für jedes der N Bänder bis zum höchsten nutzbaren Band (S12) und

(iii) von den Block-Parametern werden die quantisierten Spektralkoeffizienten (QSP) für jedes der genannten N Bänder (S13) abgeleitet;

(b) Heranziehen der abgeleiteten Block-Gleitparameter und der quantisierten Spektralkoeffizienten zur Wiederherstellung der Spektralkoeffizienten (S14); und

(c) Transformieren der wiederhergestellten Spektralkoeffizienten in ein Zeitbereichs-Audiosignal (S15).

14. Dekomprimierungsverfahren nach Anspruch 13, wobei die genannten Block-Gleitparameter eine Wortlänge (WL) und einen Block-Gleitkoeffizienten (SF) aufweisen und wobei die quantisierten Spektralkoeffizienten beim Schritt (a)(iii) (S13) in Abhängigkeit von der Wortlänge (WL) abgeleitet werden.

15. Dekomprimierungsverfahren nach Anspruch 14, wobei beim Schritt (b) (S14) die Spektralkoeffizienten als wiederhergestellte Spektralkoeffizienten (RSP) in Abhängigkeit von den quantisierten Spektralkoeffizienten (QSP) und der Wortlänge (WL) sowie den Block-Gleitkoeffizienten (SF) wiederhergestellt werden.

16. Vorrichtung zum Dekomprimieren eines digitalen Audiosignals, welches durch die Vorrichtung nach einem der Ansprüche 7 bis 12 komprimiert ist, umfassend:

Einrichtungen (92, 93, 94), die von dem genannten Datenblock

(i) die genannten Daten, welche die Anzahl von Bändern N bis zum höchsten nutzbaren Band angeben,

(ii) die Block-Gleitparameter für jedes der N Bänder bis zum höchsten nutzbaren Band (92) und

(iii) die quantisierten Spektralkoeffizienten (QSP) für jedes der genannten N Bänder (93, 94) ableiten;

eine Einrichtung (55) zur Wiederherstellung der Spektralkoeffizienten (SP) unter Heranziehung der abgeleiteten Block- Gleitparameter (BF) und der quantisierten Spektralkoeffizienten (QSP); und

eine Einrichtung (56) zum Transformieren der wiederhergestellten Spektralkoeffizienten (RSP) in ein Zeitbereichs- Audiosignal (RST).

17. Dekomprimierungsvorrichtung nach Anspruch 16, wobei die genannten Block-Gleitparameter eine Wortlänge (WL) und einen Block-Gleitkoeffizienten (SF) aufweisen und wobei die Ableitungseinrichtungen (92, 93, 54) eine Einrichtung (93) zur Ableitung der Wortlänge (WL) aus dem Block- Gleitparameter und eine Einrichtung (54) zur Ableitung der quantisierten Spektralkoeffizienten (QSP) in Abhängigkeit von der Wortlänge (WL) aufweisen.

18. Dekomprimierungsvorrichtung nach Anspruch 17, wobei die Wiederherstellungseinrichtung (55) die Spektralkoeffizienten in Abhängigkeit von den quantisierten Spektralkoeffizienten (QSP) und der Wortlänge (WL) sowie den Block-Gleitkoeffizienten (SF) wiederherstellt.