DE69432012T2

DE69432012T2 - Wahrnehmungsgebundene Kodierung von Audiosignalen

Info

Publication number: DE69432012T2
Application number: DE69432012T
Authority: DE
Inventors: James David Johnston; Deepen Sinha
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1993-11-23
Filing date: 1994-11-16
Publication date: 2003-11-06
Anticipated expiration: 2014-11-17
Also published as: JPH07199993A; JP3970342B2; EP0655876B1; KR100351219B1; CA2117829A1; DE69432012D1; EP0655876A1; KR950016011A; US5717764A; CA2117829C; US5488665A

Description

Allgemeiner Stand der Technik

Die vorliegende Erfindung betrifft die Verarbeitung von Informationssignalen und insbesondere Techniken zur effizienten Codierung von Audiosignalen, wie z. B. Audiosignalen, die Sprache und Musik darstellen.
Viele Bemühungen in den letzten Jahren haben sich mit der sogenannten wahrnehmungsbezogenen Audiocodierung oder PAC beschäftigt. Gemäß dieser Technik wird jeder einer Abfolge von Zeitbereichsblöcken eines Audiosignals im Frequenzbereich codiert. Genauer gesägt wird die Frequenzbereichsdarstellung jedes Blocks in Codiererbänder aufgeteilt, die jeweils einzeln auf der Grundlage psychoakustischer Kriterien dergestalt codiert werden, daß ein Audiosignal wesentlich "komprimiert" ist, daß also die Anzahl zur Darstellung des Audiosignals erforderlicher Bit wesentlich kleiner als bei dem Fall wäre, wenn das Audiosignal in einem simplistischeren digitalen Format, z. B. in Form von PCM-Wörtern, dargestellt werden würde.
Wenn das Audiosignal zwei oder mehr Eingangskanäle, wie z. B. Links- und Rechts-Kanäle von stereophonischer (Stereo-)Musik umfaßt, wird die oben beschriebene wahrnehmungsbezogene Codierung an einer gleichen Anzahl sogenannter gematrixter Kanäle ausgeführt. Bei der einfachsten Implementierung wird jeder gematrixte Kanal von einem jeweiligen Eingangskanal abgeleitet. Im Fall von Stereomusik würde dies also z. B. bedeuten, daß die wahrnehmungsbezogene Codierung die Frequenzbereichsdarstellung des linken Stereoeingangskanals über die Zeit hinweg, die hier als "L" bezeichnet wird, codiert und separat die Frequenzbereichsdarstellung des rechten Stereoeingangskanals über die Zeit hinweg, die hier als "R" bezeichnet wird. Es kann jedoch eine weitere Komprimierung erzielt werden, wenn die Eingangskanäle stark miteinander korreliert sind, wie z. B. fast immer bei Stereomusikkanälen der Fall ist, indem die für jedes Codiererband ausgeführte Codierung zwischen zwei Codierungsbetriebsarten umgeschaltet wird, bei denen verschiedene Mengen gematrixter Kanäle verwendet werden. Bei einer der Betriebsarten umfaßt die Menge zweier gematrixter Kanäle einfach die Eingangskanäle L und R. In der anderen Betriebsart umfaßt die Menge zweier gematrixter Kanäle S = (L + R)/2 und D = (L - R)/2. Die Kanäle S und D werden als Summen-/Differenzkanäle bezeichnet. Diese Technik wird in dem US-Patent 5,285,498, ausgegeben am 8. Februar 1994 an J. D. Johnston, das im folgenden als das "Patent von Johnston" bezeichnet wird, gelehrt.
In letzer Zeit wurde in der Technik die Aufmerksamkeit der wahrnehmungsbezogenen Codierung von Audiosignalen mit mehr als zwei Kanälen, wie z. B. Fünfkanal-Audio, gewidmet. (Wie für Fachleute im Verlauf dieser Beschreibung erkennbar werden wird, kann die Erfindung jedoch auch in einem System mit einer anderen Anzahl als fünf Kanälen implementiert werden.) Die Eingangskanäle eines Fünfkanal-Audiosystems umfassen in der Regel drei "Front"-Kanäle und zwei "Back"-Kanäle. Die Front-Kanäle enthalten die herkömmlichen Links- und Rechts-Stereokanäle plus einen Mittenkanal, dessen Frequenzbereichsdarstellung über die Zeit hinweg hier als C bezeichnet wird. Diese Kanäle sollen durch Lautsprecher wiedergegeben werden, die vor dem Zuhörer links, rechts bzw. direkt vor ihm positioniert sind. Die Back-Kanäle werden als "Links-Surround" und "Rechts-Surround" bezeichnet, deren Frequenzbereichsdarstellungen über die Zeit hinweg hier als LS und RS bezeichnet werden. Diese Kanäle sollen durch Lautsprecher wiedergegeben werden, die hinter dem Zuhörer links bzw. rechts angeordnet sind.

Kurze Darstellung der Erfindung

Die obenerwähnten Lehren des Patents von Johnston bezüglich des Umschaltens zwischen Codierungsbetriebsarten für die Codierung von Stereo-, d. h. Zweikanal- Audiosignalen, kann auch auf ein Fünfkanalsystem angewandt werden, um wiederum gegenüber der von der wahrnehmungsbezogenen Codierung selbst bereitgestellten, eine weitere Komprimierung bereitzustellen. Z. B. kann man die beiden Front-Kanäle zwischen zwei Betriebsarten und die Back-Kanäle zwischen zwei Betriebsarten umschalten. Die beiden Codierungsbetriebsarten für die Front-Kanäle wären a) eine Betriebsart, deren Menge gematrixter Kanäle L, R und C umfaßt, und b) eine Betriebsart, deren Menge gematrixter Kanäle S, D und C umfaßt. Ähnlich wären die beiden Codierungsbetriebsarten für die Back-Kanäle a) eine Betriebsart, deren Menge gematrixter Kanäle LS und RS umfaßt, und b) eine Betriebsart, deren Menge gematrixter Kanäle Back-Summen-/Differenzkanäle SS und SD umfaßt, die durch SS = (LS + RS)/2 und SD = (LS - RS)/2 gegeben werden.
Der Verfasser hat jedoch einen komplizierteren Betriebsartenumschaltungsansatz für die Codierung von mehr als zwei Kanälen, z. B. fünf Kanälen, erfunden. Gemäß der Erfindung läßt sich eine zusätzliche Komprimierung erreichen, indem zwischen mehreren Betriebsarten umgeschaltet wird, von denen mindestens eine in ihrer gematrixten Kanalmenge mindestens einen gematrixten Kanal enthält, der durch einen Eingangskanal oder einen Summen-/Differenzkanal gegeben wird, von dem eine Prädiktion von sich selbst subtrahiert wurde. Wenn eine Prädiktion eine "gute" Prädiktion ist, d. h. gut mit dem vorhergesagten Kanal übereinstimmt, dann ist die Anzahl zur Darstellung ihrer Differenz notwendiger Bit wesentlich kleiner als die zur direkten Darstellung des vorhergesagten Kanals erforderliche, so daß die obenerwähnte zusätzliche Komprimierung bereitgestellt wird.
Ein Beispiel für eine solche Betriebsart für die Front- Kanäle umfaßt die folgende Menge dreier gematrixter Kanäle:
wobei und vorhergesagte Werte der Eingangskanäle L bzw. R sind, wie später ausführlicher beschrieben werden wird. Ein anderes Beispiel für eine solche Betriebsart für die Back-Kanäle umfaßt die folgende Menge zweier gematrixter Kanäle:
wobei
vorhergesagte Werte für Summen-/Differenzkanäle SS bzw. SD sind.
Wie aus den obigen Beispielen ersichtlich wird, wird bei bevorzugten Ausführungsformen die Prädiktion für einen bestimmten Eingangskanal oder Summen-/Differenzkanal von mindestens einem anderen "vorhersagenden" Kanal abgeleitet. Für die Front-Kanäle gibt es beispielsweise insgesamt sechs Codierungsbetriebsarten (die explizit in der nachfolgenden ausführlichen Beschreibung dargelegt werden), in denen C beispielsweise als ein vorhersagender Kanal für L, R, S und D verwendet wird, während L und R zusammen als vorhersagende Kanäle für C verwendet werden. Für die Back-Kanäle gibt es beispielsweise insgesamt acht Codierungsbetriebsarten (die ebenfalls nachfolgend ausführlich dargelegt werden), in denen alle drei Front-Kanäle als vorhersagende Kanäle für LS, RS, SS und DS entweder für sich oder in verschiedenen Kombinationen verwendet werden. Prädiktionen basieren vorzugsweise auf den codierten Werten der vorhersagenden Kanäle, anstelle ihrer tatsächlichen Werte, z. B. auf anstelle von C. Dadurch können die Eingangskanäle ohne Einführung eines Quantisierungsartefakts decodiert werden.
Bei bevorzugten Ausführungsformen erfolgt die Auswahl, welche Codierungsbetriebsart für jedes Codiererband verwendet wird, durch Bestimmung, welche der Betriebsarten zu ihrer Codierung die wenigsten Bit erfordert.

Kurze Beschreibung der Zeichnung

Fig. 1 ist ein Blockschaltbild eines Systems, in dem die vorliegende Erfindung beispielhaft implementiert ist;
Fig. 2 ist ein Blockschaltbild des in dem System von Fig. 1 verwendeten wahrnehmungsbezogenen Audiocodierers;
Fig. 3 ist ein Flußdiagramm eines in dem die Prinzipien der Erfindung implementierenden wahrnehmungsbezogenen Audiocodierers durchgeführten Prozesses;
Fig. 4-6 zeigen einen neuartigen Aspekt des wahrnehmungsbezogenen Audiocodierers, der mit der Verwendung einer globalen Maskierungsschwelle zusammenhängt;
Fig. 7 zeigt das Format der PAC-codierten Audiosignale; und
Fig. 8 ist ein Blockschaltbild des in dem System von Fig. 1 verwendeten wahrnehmungsbezogenen Audiodecodierers.

Ausführliche Beschreibung

Um die vorliegende Offenlegung zu vereinfachen, liefern die folgenden Patente und Veröffentlichungen nützliche Hintergrundinformationen: US-Patent 5,040,217, ausgegeben am 13. August 1991, von K. Brandenburg et al. US-Patent 5,341,457, ausgegeben am 23. Aug. 1994, an J. L. Hall et al.; J. D. Johnston, Transform Coding of Audio Signals Using Perceptual Nolse Criteria, IEEE Journal on Selected Areas in Communications, Bd. 6, Nr. 2 (Februar 1988); International Patent Application (PCT) WO 88/01811, eingereicht am 10. März 1988; Aspec: Adaptive Spectral Entropy Coding of High Quality Music Signals, AES 90th Convention (1991); Johnston, J., Estimation of Perceptual Entropy Using Noise Masking Criteria, ICASSP, (1988); J. D. Johnston, Perceptual Transform Coding of Wideband Stereo Signals, ICASSP (1989); E. F. Schroeder und J. J. Platte, "'MSC'": Stereo Audio Coding with CD-Quality and 256 kBIT/SEC," IEEE Trans. on Consumer Electronics, Bd. CE-33, Nr. 4, November 1987; und Johnston, Transform Coding of Audio Signals Using Noise Criteria, Bd. 6, Nr. 2, IEEE J.S.C.A. (Februar 1988).
Der Klarheit halber wird die beispielhafte Ausführungsform der vorliegenden Erfindung als einzelne Funktionsblöcke umfassend dargestellt (einschließlich als "Prozessoren" benannte Funktionsblöcke). Die von diesen Blöcken dargestellten Funktionen können entweder durch Verwendung gemeinsam benutzter oder eigener Hardware bereitgestellt werden, darunter u. a. Hardware, die Software ausführen kann. Beispielhafte Ausführungsformen können Hardware für digitale Signalverarbeitung (DSP) und die nachfolgenden Operationen durchführende Software umfassen. Außerdem können höchstintegrierte (VLSI-)Hardwareausführungsformen der vorliegenden Erfindung sowie hybride DSP/VLSI- Ausführungformen bereitgestellt werden.
Fig. 1 zeigt ein Gesamtblockschaltbild eines Systems, in dem die vorliegende Erfindung implementiert ist. In Fig. 1 wird ein analoges Audiosignal auf der Leitung 101 einem Vorprozessor 102 zugeführt und dort abgetastet (in der Regel mit 48 KHz) und auf standardmäßige Weise in ein digitales PCM-Signal (Pulse Code Modulation) mit 16 Bit pro Abtastwert auf der Leitung 103 umgesetzt. Das PCM-Signal wird einem wahrnehmungsbezogenen Audiocodierer ("PAC") 104 zugeführt, der das PCM-Signal komprimiert und das komprimierte PAC-Signal auf der Leitung 105 entweder an einen Kommunikationskanal oder an ein Speichermedium 106 ausgibt. Bei letzterem kann es sich z. B. um ein Magnetband, eine Compact Disk oder ein anderes Speichermedium handeln. Aus dem Kommunikationskanal oder dem Speichermedium wird das komprimierte PAC- codierte Signal auf der Leitung 107 einem wahrnehmungsbezogenen Audiodecodierer 108 zugeführt, der das komprimierte PAC-codierte Signal dekomprimiert und auf der Leitung 109 ein PCM-Signal ausgibt, das eine digitale Darstellung des ursprünglichen Analogsignals ist. Aus dem wahrnehmungsbezogenen Audiodecodierer wird das PCM-Signal auf der Leitung 108 einem Nachprozessor 110 zugeführt, der eine analoge Darstellung erzeugt.
Eine beispielhafte Ausführungsform des wahrnehmungsbezogenen Audiocodierers 104 ist in Fig. 2 als Blockschaltbild gezeigt. Der wahrnehmungsbezogene Audiocodierer von Fig. 2 kann vorteilhafterweise als eine Analysefilterbank 202, einen wahrnehmungsbezogenen Modellprozessor 204, einen zusammengesetzten Codierer 205, einen Quantisierer/Ratenschleifenprozessor 206 und einen Entropiecodierer 208 umfassend betrachtet werden.
Die Struktur und Funktionsweise der verschiedenen Komponenten des wahrnehmungsbezogenen Audiocodierers 104 gleichen im allgemeinen der Struktur und Funktionsweise gleicher Komponenten in Fig. 2 des Patents von Johnston bei der Verarbeitung von Stereosignalen und werden deshalb hier nur soweit ausführlich beschrieben, wie es für eine Erläuterung der vorliegenden Erfindung notwendig ist. Dazu gehört eine Beschreibung des zusammengesetzten Codierers 205, für den in Fig. 2 kein explizites Gegenstück des Patents von Johnston gezeigt ist (obwohl seine Funktionalität in bezug auf das Umschalten zwischen Codierungsbetriebsarten implizit in der Analysefilterbank 202 des Patents von Johnston ausgeführt wird).
Nunmehr also mit Bezug auf Fig. 2 ist das analoge Audioeingangssignal auf der Leitung 103 beispielsweise ein Fünfkanalsignal, das im Zeitbereich PCM-Abtastwerte einer Menge von Eingangskanälen umfaßt, wobei es sich dabei um die Kanäle Links, Rechts und Mitte-Front und Links-Surround und Rechts-Surround-Back handelt, mit den Bezeichnungen l(t), r(t), c(t), ls(t) bzw. rs(t). Die Analysefilterbank 202 empfängt diese Abtastwerte und teilt sie in Zeitbereichsblöcke auf. Genauer gesagt schaltet die Filterbank 202 zwischen zwei Fensterlängen für die Blöcke um: einem "kurzen" Fenster mit 128 Zeitabtastwerten und einem "langen" Fenster mit 1024 Zeitabtastwerten. Für jeden Block führt die Filterbank 202 eine modifizierte diskrete Cosinustransformation getrennt an jedem der fünf Kanäle durch, um eine Frequenzbereichsdarstellung jedes Kanals für den fraglichen Block bereitzustellen. Die Frequenzbereichsdarstellung jedes Kanals enthält 1024 gleichförmig beabstandete Frequenzspektrumlinien, die für die Blöcke mit langer Fensterlänge in 49 Codiererbänder aufgeteilt werden, und für die Blöcke mit kurzer Fensterlänge 128 gleichförmig beabstandete Frequenzspektrumlinien, die in 14 Codiererbänder aufgeteilt werden. Die Frequenzbereichsdarstellungen der Eingangskanäle Links, Rechts, Mitte, Links-Surround und Rechts-Surround werden in den Figur als L(f), R(f), C(f), LS(f) und RS(f) bezeichnet, werden hier aber der Einfachheit halber im folgenden als L, R, C, LS und RS bezeichnet.
Die Ausgangssignale der Analysefilterbank 202 werden an einen zusammengesetzten Codierer 205 angelegt, der auf eine nachfolgend beschriebene Weise fünf gematrixte Kanäle M&sub1;(f)-M&sub5;(f) erzeugt, die an den Quantisierer/Ratenschleifenprozessor 206 angelegt werden. Dieser codiert die gematrixten Kanäle durch: a) Erzeugung binärer Daten, die den vorzeichenbehafteten Betrag jeder der Frequenzspektrumlinien jedes gematrixten Kanals für einen gegebenen Block darstellen, und b) Formatieren dieser Daten zusammen mit anderen Informationen, die der Decodierer benötigt. Zu diesen Daten gehören verschiedene Elemente von "Verwaltungs"-Daten, die in dem Patent von Johnston und auch im folgenden beschrieben werden, sowie Daten, die im Verlauf der Implementierung der vorliegenden Erfindung erzeugt werden, darunter z. B. eine Anzeige, welche Codierungsbetriebsart zur Codierung jedes Codiererbands in einem gegebenen Block verwendet wurde, wie nachfolgend beschrieben wird, sowie die Werte bestimmter Prädiktionskoeffizienten, die ebenfalls später beschrieben werden.
Das Ausgangssignal des Quantisierers/Ratenschleifenprozessors 206 wird an den Entropiecodierer 208 angelegt. Letzterer wirkt in Verbindung mit ersterem, um eine noch weitere Komprimierung zu erzielen.
Wie bereits erwähnt, umfaßt das Ausgangssignal des zusammengesetzten Codierers 205 fünf gematrixte Kanäle. Der zusammengesetzte Codierer 205 besitzt eine Anzahl von Codierungsbetriebsarten, die jeweils durch eine verschiedene Menge gematrixter Kanäle gekennzeichnet sind, wobei die verschiedenen Codierungsbetriebsarten einzeln für jedes Codiererband auf noch zu beschreibende Weise aufgerufen werden. Ein Teil der gematrixten Kanäle in einem Teil der Betriebsarten sind die Eingangskanäle L, R, C, LS und RS. Andere der gematrixten Kanäle sind die sogenannten Summen-/Differenzkanäle S = (L + R)/2, D = (L - R)/2, SS = (LS + RS/2 und SD = (LS - RS)/2.
Gemäß der vorliegenden Erfindung umfaßt jedoch mindestens eine der Betriebsarten mindestens einen gematrixten Kanal, der durch einen Eingangskanal oder einen Summen-/Differenzkanal gegeben wird, von dem eine Prädiktion von sich selbst subtrahiert wurde. Bei der vorliegenden beispielhaften Ausführungsform werden zur Codierung der Front-Kanäle sechs Betriebsarten bereitgestellt. Drei, bei denen die Front-Eingangskanäle L, R und C direkt auftreten, lauten
Die anderen drei, bei denen die Front- Summen-/Differenzkanäle S und D auftreten, lauten
Für die Back-Kanäle werden acht Betriebsarten bereitgestellt. Vier, bei denen die Back-Kanäle LS und RS direkt auftreten, lauten
Die anderen vier, bei denen die Back-Summen-/Differenzkanäle SS und DS auftreten, lauten
Bei den obigen Codierungsbetriebsarten sind die Terme, die von den Eingangs- und Summen-/Differenzkanälen L, R, C, S, D, LS, RS, SS und DS subtrahiert werden, tatsächlich vorhergesagte Werte davon. Genauer gesagt wird, wie ersichtlich ist, die Prädiktion für einen bestimmten Eingangskanal oder Summen-/Differenzkanal von mindestens einem anderen "vorhersagenden" Kanal abgeleitet. Für die Front-Kanäle wird beispielsweise C als ein vorhersagender Kanal für L, R, S und D verwendet, während L und R zusammen als vorhersagende Kanäle für C verwendet werden. Für Back-Kanäle werden alle drei Front-Kanäle beispielsweise als vorhersagende Kanäle für LS, RS, SS und SD verwendet, und zwar entweder für sich oder in verschiedenen Kombinationen. Das "^" über den vorhersagenden Kanälen, z. B. , bedeutet, daß die Prädiktionen auf den codierten Werten der vorhersagenden Kanäle basieren, die durch den Quantisierer/Ratenschleifenprozessor 206 erzeugt und über die Leitung 216 zu dem zusammengesetzten Codierer 205 zurückgeführt werden, anstatt auf der Grundlage ihrer tatsächlichen Werte. Der Grund dafür ist wie folgt: Erstens dient der codierte vorhersagende Kanal praktisch genauso gut als Prädiktor wie der uncodierte Kanal, so daß dadurch kein Schaden entsteht. Es wird jedoch angemerkt, daß der vorhergesagte Wert jedes codierten Kanals in dem Decodierer zurückaddiert werden muß. Das heißt, L wird aus dem gesendeten L - durch Addieren von zu dem empfangenen wiederhergestellt. Im Decodierer ist nur und nicht C verfügbar. Man kann somit dem empfangenen codierten Kanal in dem Decodierer das zurückaddieren, was von ihm im Codierer subtrahiert wurde. Wenn im Codierer der uncodierte vorhersagende Kanal verwendet werden würde, würde nachteilhafterweise im Decodierer ein Quantisierungsrauschartefakt eingeführt.
Die skalaren Prädiktionskoeffizienten , usw. können mit vielfältigen verschiedenen Kriterien berechnet werden. Bei der einfachsten Implementierung können diese alle auf "1" oder eine beliebige andere Konstante, die kleiner als "1" ist, gesetzt werden. Tatsächlich könnte ein Teil dieser Koeffizienten auf Null gesetzt werden, wenn die Prädiktion, von der sie ein Teil sind, erwartungsgemäß sehr klein sein wird. Dies wäre z. B. für die Prädiktion eines Differenzgematrixten Kanals, wie z. B. D oder DS, der Fall, da diese gematrixten Kanäle selbst erwartungsgemäß Werte um Null aufweisen werden.
Bei einem etwas komplexeren System können die Prädiktionskoeffizienten für jeden Block (obwohl nur eine Koeffizientenmenge für alle Codiererbänder berechnet wird) mit einem Kriterium des minimalen mittleren quadratischen Fehlers (mmse) oder einem wahrnehmungsbezogen gewichteten mmse-Kriterium berechnet und als Teil des Bitstroms, der von dem Quantisierer/Ratenschleifenprozessor 206 ausgegeben wird, übertragen werden (wobei die Entscheidung über die zusammengesetzte Codierung immer noch für jedes der Codiererbände unabhängig ist). Der Grund für die Notation der Koeffizienten mit einem "^", z. B. , besteht darin, daß, wenn ihre Werte berechnet werden, diese Werte, anstatt Konstanten zu sein, notwendigerweise codiert, d. h. quantisiert, werden, wenn sie gespeichert oder in digitaler Form gesendet werden, wobei die Notation "^" dies anzeigt. Bei einem noch komplexeren System werden die Prädiktionskoeffizienten für jedes der Codiererbänder getrennt abgeschätzt. Ein solches Schema ist attraktiv, wenn der Prädiktionsgewinn aufgrund von Zeitverzögerungen zwischen verschiedenen Kanälen gering ist. Das Senden von Prädiktionskoeffizienten für jedes der Codiererbänder kann jedoch relativ kostspielig sein. Zum Glück legen Experimente nahe, daß Koeffizienten aus dem vorherigen Block mit relativ geringem Verlust an Prädiktionsgewinn verwendet werden können. Die Prädiktionskoeffizienten können bei einem solchen System deshalb sowohl im Codierer als auch im Decodierer im Rückwärtsverfahren aus den decodierten Werten des vorherigen Blocks berechnet werden.
Wie aus den obigen Gleichungen (1), (2), (3) und (4) hervorgeht, werden Summen-/Differenzkanäle nur zwischen Paaren von Front-Kanälen oder Paaren von Back-Kanälen gebildet. Komplexere Kombinationen oder "Basistransformationen", bei denen vielleicht drei oder mehr Eingangskanäle und/oder vielleicht Summen und Differenzen zwischen Front- und Back-Kanälen auftreten, könnten sich vom Komprimierungsstandpunkt aus gesehen als vorteilhaft erweisen. Es wird jedoch bevorzugt, solche komplexen Basistransformationen auszuschließen, da man dann sicherstellt, daß die Quantisierungsrauschmaskierung, die ein Antriebsprinzip der wahrnehmungsbezogenen Codierung ist, nicht nur in einer Hörraumumgebung mit fünf Lautsprechern effektiv ist, sondern auch im Fall einer sogenannten Stereo-Herabmischung der fünf Eingangskanäle zu zwei Kanälen zum Beispiel zur Kopfhörerwiedergabe. Die komplexeren Basistransformationen erfordern jedoch gewöhnlich die Verwendung niedrigerer Rauschschwellen (nachfolgend besprochen) für die Codierung, wodurch weniger Komprimierung erzielt werden kann.
Es werden nun die folgenden Fragen behandelt: a) wie wird die Codierung der fünf gematrixten Kanäle einer bestimmten Codierungsbetriebsart ausgeführt und b) wie wird entschieden, welche Betriebsart verwendet werden soll, um ein bestimmtes Codiererband für einen gegebenen Block zu codieren.
Insbesondere beschreibt das Patent von Johnston, wie für jeden Block der wahrnehmungsbezogene Modellprozessor für jedes Codiererband eine Rauschschwelle für jeden gematrixten Kanal erzeugt, wobei diese Schwelle ein kritischer Parameter für den Quantisierer/Ratenschleifenprozessor bei seiner Codierung des jeweiligen gematrixten Kanals ist. Für jedes Codiererband für ein zweikanaliges System sind dann vier Rauschschwellen verfügbar, und zwar jeweils eine für L, R, S und D. Die Rauschschwellen werden über die Leitung 214 durch den wahrnehmungsbezogenen Modellprozessor 204 dem zusammengesetzten Codierer 205 zugeführt. Wenn L und R die codierten Kanäle für ein bestimmtes Codiererband während einer Codierungsbetriebsart des Patents von Johnston sind, werden ihre jeweiligen Schwellen zur Codierung dieser Kanäle verwendet. Ähnlich werden, wenn S und D die codierten Kanäle während der anderen Codierungsbetriebsart sind, ihre jeweiligen Schwellen zur Codierung dieser Kanäle verwendet.
Bei der vorliegenden beispielhaften Ausführungsform sind neun Schwellen pro Codiererband verfügbar. Sie sind die Schwellen, die den fünf Eingangskanälen L, R, C, LS und RS und den vier Summen-/Differenzkanälen S, D, SS und DS entsprechen. Wenn die gewählte Codierungsbetriebsart einen Eingangskanal oder Summen-/Differenzkanal als einen der gematrixten Kanäle enthält, wird offensichtlich die entsprechende Schwelle verwendet. Zusätzlich soll die Schwelle, die einem bestimmten Eingangs-- oder Summen-/Differenzkanal zugeordnet ist, zur Codierung jedes gematrixten Kanals verwendet werden, der eine Prädiktion dieses Eingangs- oder Summen-/Differenzkanals enthält. Zum Beispiel wird die Schwelle für L auch für den gematrixten Kanal L - verwendet. Die Art und Weise der Erzeugung der neun Schwellen für jedes Codiererband während jedes Blocks ist eine einfache Anwendung der Techniken, die in dem Patent von Johnston für die Erzeugung seiner vier Schwellen beschrieben werden, und eine weitere Erläuterung dieses Punkts ist also nicht notwendig.
Die Art und Weise der Auswahl der bestimmten Codierungsbetriebsart ist durch das Flußdiagramm von Fig. 3 dargestellt. Das Flußdiagramm stellt die Verarbeitung dar, die diesbezüglich für die Front- Kanäle und für ein bestimmtes Codiererband ausgeführt wird. Sowohl für die Front- als auch die Back-Kanäle für jedes der Codiererbänder wird einzeln eine ähnliche Verareitung ausgeführt. Genauer gesagt betreffen die Elemente in [] die Verarbeitung, die für die Back- Kanäle ausgeführt wird.
Zu Anfang werden die oben erwähnten neun Schwellen durch den wahrnehmungsbezogenen Modellprozessor 204 (Block 301) erzeugt. In dem zusammengesetzten Codierer 205 wird dann entschieden, ob die Codierungsbetriebsart für die Front-Kanäle von einem Typ sein sollte, bei dem Eingangskanäle oder Summen-/Differenzkanäle auftreten, d. h. eine der Betriebsarten (1) oder eine der Betriebsarten (2). Ein Kriterium, das beim Treffen dieser Entscheidung verwendet werden kann, besteht darin, die Schwellen für L und R zu vergleichen (Block 303). Wenn sie sich um mehr als einen vorbestimmten Betrag, wie z. B. 2 dB, unterscheiden, wird Eingangskanalcodierung verwendet, d. h. eine der drei Betriebsarten in (1) (Block 311). Wenn sie sich nicht um mehr als den vorbestimmten Betrag unterscheiden, besteht ein Ansatz, der hier nicht implementiert wird, darin, sofort Summen-/Differenzcodierung, d. h. eine der drei Betriebsarten in (2), zu wählen. Hier wird jedoch ein komplizierterer Ansatz verwendet. Insbesondere wird erkannt, daß die Verwendung von gematrixten Summen-/Differenzkanälen erwünscht ist, wenn L und R stark korreliert sind, und zwar nicht nur a) weil sich in diesem Fall ein hoher Komprimierungsgrad erzielen läßt, sondern auch b) weil dadurch die sogenannte Rauschlokalisierung gesteuert wird. Die Rauschlokalisierungssteuerung kann jedoch auch durch geeignetes Senken der Schwellen für L und R erzielt werden, und es zeigt sich, daß eine Codierung von L und R mit diesen gesenkten Schwellen manchmal weniger Bit als eine Codierung von S und D erfordert. Man kann also z. B. ein Kriterium der "wahrnehmungsbezogenen Entropie" verwenden, das im Stand der Technik gelehrt wird, um zu bestimmen, welcher Ansatz (Codierung von L und R mit gesenkten Schwellen oder Codierung von S und D) weniger Bit erfordert. Nachdem die Codierungsbetriebsart auf eine von (1) oder (2) verschmälert wurde (Block 307), wird die bestimmte zu verwendende Codierungsbetriebsart einfach dadurch ausgewählt, daß wieder unter Verwendung des obenerwähnten Kriteriums der wahrnehmungsbezogenen Entropie die Betriebsart identifiziert wird, die die wenigsten Bit erfordert (Block 309 oder Block 314). Ein ähnlicher Prozeß wird in bezug auf die Back-Kanäle ausgeführt, und eine Anzeige, welche Codierungsbetriebsart sowohl für die Front- als auch die Back- Kanäle verwendet wurde, wird gespeichert und zusammen mit den codierten Kanälen selbst gesendet.
Ein weiteres neuartiges Merkmal des Codierers 104 von Fig. 2 betrifft die Erzeugung der Schwellen für die fünf Eingangskanäle und die vier Summen-/Differenzkanäle. Dieses Merkmal des Codierers, das eine sogenannte globale Maskierungsschwelle verwendet, nutzt die Maskierungsfähigkeit der Signalkomponente in dem gematrixten Kanal aus, dessen Signalkomponente die stärkste ist, um das Rauschen in den anderen gematrixten Kanälen zu maskieren.
Um die Verwendung dieses Merkmals zu verstehen, kann man mit der Betrachtung beginnen, daß in dem Codierer 104, wie bei den im Stand der Technik bekannten Codierern, ein sogenanntes "Bitreservoir" aufrechterhalten wird, das im Prinzip ein Zählwert der in Bit gemessenen überschüssigen Kanalkapazität ist. Dieser Zählwert ist im wesentlichen ein Maß für die Differenz zwischen a) der Anzahl von Bitübertragungsschlitzen, die in der Vergangenheit bei der mittleren Ausgangsbitrate verfügbar sind, und b) der Anzahl von Bit, die tatsächlich codiert wurden. Die maximale Größe des Zählwerts in dem Bitreservoir hängt von der Menge an Pufferung (Latenz) ab, die in dem System zugelassen wird. Mit dieser ungenutzten Kapazität kann man den Umstand behandeln, daß zukünftige Blöcke möglicherweise eine Anzahl von Bit zur Darstellung des Inhalts dieser Blöcke erfordern, die höher als die mittlere Anzahl ist. Somit kann eine relativ konstante Ausgangsbitrate unterstützt werden, obwohl die Anzahl von für jeden Block erzeugten codierten Bit von Block zu Block variiert und im allgemeinen etwas größer als diese Rate (auf der Grundlage von pro/Sekunde-Mittelung) und manchmal niedriger ist. In der Regel beträgt die Bitreservoirkapazität das fünffache der mittleren Bitrate pro Block.
Wenn das Bitreservoir seine maximale Kapazität erreicht, ist dies ein Hinweis, daß die Bitanforderung beständig kleiner als die mittlere Ausgangsbitrate war, und zwar zu einem solchen Grad, daß es vorteilhaft ist, diese überschüssige Kapazität durch Senken der Rauschschwellen aufzubrauchen, wodurch eine feinere Quantisierung durchgeführt wird. Dies ist insofern vorteilhaft, als es eine qualitativ hochwertigere Wiedergabe liefert. Es ist jedoch wahlweise, wobei die Alternative darin besteht, einfach Markierungs- oder andere, keine Informationen tragenden Bit zu senden.
Eine Technik muß jedoch definitiv den Fall behandeln, daß das Bitreservoir leer wird, da an diesem Punkt, solange keine Abhilfeschritte unternommen werden, die Pufferkapazität des Systems vollständig aufgebraucht wurde, und codierte Bit anfangen, verloren zu gehen. Der Stand der Technik behandelt dieses Problem durch Umschalten auf eine gröbere Quantisierung, wenn folgendes eintritt: a) das Bitreservoir ist aufgebraucht und b) zusätzlich übersteigt die Bitanforderung für den aktuellen Block die mittlere Ausgangsbitrate pro Block zu diesem Zeitpunkt. Bezüglich der Implementierung wird dies durch iteratives Multiplizieren jeder der Rauschschwellen mit einer Reihe zunehmender konstanter Werte von mehr als 1 und Neuberechnung der Bitanforderung, bis die Bitanforderung für den aktuellen Block erfüllt werden kann, bewirkt. Sobald die Bitanforderungen zukünftiger Blöcke unter die mittlere Rate fallen, können die normalen Schwellenwerte wieder verwendet werden, und das Bitreservoir beginnt, sich wieder aufzufüllen.
Obwohl dieser vorbekannte Ansatz das Problem des Leerwerdens des Bitreservoirs effektiv behandelt, kann er zu starken Artefakten in dem decodierten Signal führen, da der Mechanismus zum Erhöhen der Schwellen über die Codiererbänder hinweg deterministisch ist, anstatt, wie vom Verfasser als vorteilhaft festgestellt wurde, auf psychoakustischen Betrachtungen zu basieren.
Zusätzlich zu dem obenerwähnten neuartigen Merkmal des Codierers wird ein Ansatz für das Leerwerden des Bitreservoirs verwendet, das psychoakustische Betrachtungen berücksichtigt. Dieser Ansatz legt eine "globale Maskierungsschwelle" für jedes Codiererband fest, die über alle fünf gematrixten Kanäle hinweg konstant ist. Der Wert des globalen Maskierungsschwellenwerts wird wie nachfolgend beschrieben berechnet. Einstweilen reicht es aus, zu bemerken, daß sie den maximalen Rauschpegel in beliebigen der Kanäle darstellt, der von einem Zuhörer in einer Hörraumumgebung wahrgenommen wird.
Die Art und Weise der Verwendung der globalen Maskierungsschwelle zur Steuerung der Rauschschwellenwerte im Fall eines anstehenden Leerwerdens des Bitreservoirs ist in Fig. 4-6 dargestellt. Insbesondere zeigt Fig. 4 den Schwellenpegel z. B. für die ersten vier Codiererbänder von L, sowie die für jedes der Bänder festgelegte globale Maskierungsschwelle. (Für jeden der anderen Kanäle kann eine ähnliche Darstellung durchgeführt werden.) Es wird angenommen, daß zu dem durch Fig. 4 dargestellten Zeitpunkt das Bitreservoir knapp unter einem Pegel von 80% leer liegt. Somit werden die Standard-Schwellenwerte verwendet. Sobald der Leerpegel 80% erreicht, wird jedoch eine untere Schranke für jede der Schwellen von beispielsweise 50% der globalen Maskierungsschwelle verwendet, so daß jede Schwelle, die kleiner als die untere Schranke ist, vergrößert wird, so daß sie ihr gleich wird. Da für jedes Codiererband eine andere globale Maskierungsschwelle festgelegt wird und die Rauschschwelle für jedes Band verschieden ist, heißt dies, daß ein Teil der Schwellen mehr als andere erhöht wird, und daß bestimmte Schwellen möglicherweise überhaupt nicht erhöht werden. Dies ist in Fig. 5 dargestellt, in der zu sehen ist, daß die Schwelle für die Codiererbänder 1 und 3 nicht erhöht wurden, während die für die Codiererbänder 2 und 4 erhöht wurden. Dieser Ansatz ist insofern vorteilhaft, daß zwar als Folge des Erhöhens der Schwellen zusätzliches Rauschen eingeführt wird, dieses zusätzliche Rauschen aber in Codiererbändern eingeführt wird, in denen die Möglichkeit, daß es vom Zuhörer erkannt wird, am niedrigsten ist. Der Wirkmechanismus wird hier zu einem besseren Zeitpunkt nachfolgend erläutert.
Wenn zu einem späteren Zeitpunkt beobachtet wird, daß das Bitreservoir einen sogar noch bedenklicheren Zustand des Leerwerdens erreicht, wird ein höherer Prozentsatz der globalen Maskierungsschwelle, z. B. 75%, als die untere Schranke festgelegt, wodurch eine weitere Zunahme der verschiedenen der Schwellen verursacht wird. Wenn ultimativ die untere Schranke auf die volle globale Maskierungsschwelle festgelegt werden muß und das Bitreservoir weiter leerer wird, dann wird jede der Schwellen weiter bis auf einen Wert erhöht, der durch eine Konstante > 1, multipliziert mit dem relevanten globalen Maskierungsschwellenwert, gegeben wird, so daß weiter psychoakustische Betrachtungen bei der Einstellung der Schwellen implementiert werden (zumindest bis zu einem gewissen Grad). Dies ist in Fig. 6 dargestellt. Nachdem sich das Bitreservoir wieder aufbaut, werden immer niedrigere Prozentsätze der globalen Maskierungsschwelle zur Bestimmung der unteren Schranken der Rauschschwelle wirksam, bis am 80%-Punkt die Schwellen zu ihren Standardwerten zurückkehren.
Der tatsächliche Wert der globalen Maskierungsschwelle für jedes Codiererband wird als das Maximum der fünf Eingangskanalschwellen für dieses Band, minus einer Sicherheitsreserve, angenommen. Die Sicherheitsreserve wird wiederum als frequenzabhängige binaurale Maskierungspegeldifferenz oder MLD, die in dem Patent von Johnston definiert wird, plus einer Konstante von 4-5 dB angenommen.
Da nun der Wert der globalen Maskierungsschwelle auf diese Weise bestimmt wird, ist man nun in der Lage, zu verstehen, warum der oben beschriebene Ansatz effektiv ist. Es geschieht folgendes: die Technik nutzt die Maskierungsfähigkeit der Signalkomponente in dem gematrixten Kanal aus, dessen Signalkomponente die stärkste zur Maskierung des Rauschens in den anderen gematrixten Kanälen ist.
Es gibt mindestens zwei Gründe für die anfängliche Verwendung nur eines Prozentsatzes der globalen Maskierungsschwelle zur Festlegung der unteren Schranken der Rauschschwelle, anstatt des vollen Werts (solange dieser nicht wie oben beschrieben ultimativ benötigt wird). Ein Grund besteht darin, daß, wenn eine volle globale Schwelle verwendet wird, dann das Rauschen möglicherweise nicht für alle Zuhörer in einer Hörraumumgebung vollständig maskiert wird, insbesondere für Zuhörer, die sich in der Nähe der Lautsprecher befinden. Der andere besteht darin, daß die Wahrscheinlichkeit, daß Rauschen in den obenerwähnten heruntergemischten Stereo-Kanälen nicht vollständig maskiert wird, mit zunehmendem Prozentsatz der globalen Maskierungsschwelle, der zur Festlegung der obenerwähnten unteren Schranken verwendet wird, zunimmt.
Fig. 7 zeigt einen Teil eines Speichermediums 700 (beispielsweise eines Magnetbands), auf dem gemäß der Erfindung erzeugte PAC-codierte Daten gespeichert werden und aus dem sie nachfolgend gelesen, decodiert und an Zuhörer wie oben in Fig. 1 besprochen präsentiert werden können. Die Daten werden in Rahmen ..., Fi-1, Fi, Fi+1, ... gespeichert, die jeweils einem Block des Eingangssignals entsprechen. Die Rahmen werden sequenziell auf dem Speichermedium gespeichert, um einem vorbestimmten Format zu entsprechen, das sehr ähnlich dem Format ist, das im Stand der Technik für Zweikanal-PAC gelehrt wird. Als Beispiel wird der vollständige Rahmen Fi explizit in der Figur gezeigt. Er weist die folgenden Felder auf: das Sync-Wort 701, das den Start des Rahmens definiert; das Kanal-Flag 702, das die Anzahl von Kanälen in dem Eingangssignal angibt (in diesem Beispiel fünf); das Fenstertyp-Flag 704, das angibt, ob der Rahmen ein langes oder ein kurzes Fenster darstellt; Codierungsbetriebsarten-Flags 706, die angeben, welche der vierzehn Codierungsbetriebsarten zur Codierung des fraglichen Blocks in jedem der Codiererbänder verwendet wurden, wobei die Flags 706 unter Verwendung eines vordefinierten Kodebuchs in Huffman-codierter Form dargestellt werden; dc-Werte 709, die einen jeweiligen dc-Wert für jeden der fünf gematrixten Kanäle darstellen; ein Prädiktorkoeffizienten-Flag 710, dessen Wert, wenn er "1" ist, angibt, daß die Prädiktionskoeffizienten explizit in dem Rahmen spezifiziert werden, und in diesem Fall werden sie in dem Prädiktionskoeffizientenfeld 713 bereitgestellt, und daß, wenn er "0" ist, entweder angibt, daß alle Prädiktionskoeffizienten den Wert 1,0 aufweisen, oder daß sie auf die oben beschriebene Weise im Decodierer berechnet werden sollen, wobei die Wahl zwischen diesen beiden Möglichkeiten beim Entwurf des Systems vorbestimmt wird; und PAC-Datenfelder 714-718, die jeweils die codierten Daten für einen jeweiligen der (in diesem Fall) fünf gematrixten Kanäle M&sub1;(f) bis M&sub5;(f) enthalten. Wie im Stand der Technik (Zweikanal- PAC-Systeme) werden die PAC-codierten Daten in jedem einzelnen der Felder 714-718 der Reihe nach in Huffman- codierter Form dargestellt. Zur Codierung der Daten für die verschiedenen Codiererbänder in jedem Kanal werden verschiedene Huffman-Kode-Kodebücher verwendet, und deshalb enthalten die Daten in jedem der Felder 714-718 außerdem Informationen, die identifizieren, welche Kodebücher zur Codierung welcher Codiererbänder des fraglichen gematrixten Kanals verwendet wurden.
Es versteht sich, daß das in Fig. 7 gezeigte Format genauso gut zum Speichern der PAC-Rahmen in anderen Arten von Speichermedien, wie z. B. Compact Disk, optische Platte, Halbleiterspeicher, usw., dienen könnte.
Fig. 8 ist eine beispielhafte Ausführungsform des PAC-Decodierers 109 von Fig. 1. Der als eine Sequenz von Rahmen formatierte ankommende Bitstrom (siehe Fig. 7) wird durch den Bitstromanalysierer 801 zu seinen verschiedenen Komponenten analysiert. Obwohl es in der Figur nicht explizit gezeigt ist, führt der Analysierer 801 nicht nur die PAC-codierten Daten dem nächsten Funktionsblock in dem Decodierer (dem Entropiedecodierer 804) zu, sondern führt auch die verschiedenen Flags und anderen Werte, die oben in Verbindung mit Fig. 7 beschrieben wurden, jeder der verschiedenen Komponenten des Decodierers, die diese benötigen, zu. (Ähnlich versteht sich, daß, obwohl es in Fig. 2 nicht explizit gezeigt ist, die Flags und anderen Werte, die möglicherweise durch verschiedene Komponenten des Codierers 104 erzeugt worden sind, soweit sie nicht innerhalb des Quantisierers/Ratenschleifenprozessors 106 selbst erzeugt werden, diesem zugeführt werden, um in das Format jedes Rahmens integriert werden zu können.)
Weiter mit Bezug auf die durch den Decodierer 109 ausgeführte Verarbeitung führt der Entropiedecodierer 804 die umgekehrte Funktion des Entropiedecodierers 208 durch und liefert als seine Ausgangssignale die fünf gematrixten Kanäle M&sub1;(f) ... M&sub5;(f). Der Dematrixer 807 stellt aus den gematrixten Kanälen die Frequenzbereichs-Eingangskanäle L, R, C, LS und RS wieder her, die in Fig. 2 als L(f), R(f), C(f), LS(f) und RS(f) bezeichnet werden. Letztere werden dann durch einen Prozessor 808 für inverse modifizierte diskrete Cosinustransformation (Inverse MDCT) verarbeitet, um fünf Zeitbereichskanäle l(t), r(t), c(t), ls(t) und rs(t) zu erzeugen.
Die von jedem der in Fig. 8 gezeigten Elemente durchgeführte Verarbeitung, die gerade beschrieben wurde, kann unkompliziert implementiert werden und muß deshalb nicht ausführlich hier beschrieben werden. Tatsächlich ähnelt diese Verarbeitung sehr der im Stand der Technik für Zweikanal-PAC ausgeführten.

Claims

1. Verfahren zum wahrnehmungsbezogenen Codieren eines Audiosignals (101) mit einer Menge von Eingangskanälen (103), mit den folgenden Schritten:

Erzeugen einer Menge von gematrixten Kanälen als Reaktion auf die Eingangskanäle (202, 204, 205) und

wahrnehmungsbezogenes Codieren der gematrixten Kanäle (202, 205, 206, 208), wobei der Schritt des wahrnehmungsbezogenen Codierens das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt;

dadurch gekennzeichnet, daß mindestens ein einzelner der gematrixten Kanäle der Menge, von gematrixten Kanälen Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.

2. Erfindung nach Anspruch 1, mit dem weiteren Schritt des abwechselnden Anlegens a) der wahrnehmungsbezogen codierten gematrixten Kanäle und b) einer wahrnehmungsbezogenen Codierung der Eingangskanäle an einen Ausgang.

3. Erfindung nach Anspruch 1, mit dem weiteren Schritt des abwechselnden Anlegens a) der wahrnehmungsbezogen codierten gematrixten Kanäle und b) einer wahrnehmungsbezogenen Codierung der Eingangskanäle an einen Kommunikationskanal oder ein Speichermedium.

4. Erfindung nach Anspruch 1, wobei in dem Audiosignal die Eingangskanäle im Frequenzbereich dargestellt sind und wobei der Erzeugungsschritt den Schritt des Erzeugens der Menge von gematrixten Kanälen aus den Eingangskanälen dergestalt, daß für jeden einer Reihe von Zeitbereichsblöcken jeder der gematrixten Kanäle durch Frequenzspektrumlinien dargestellt wird, umfaßt.

5. Erfindung nach Anspruch 4, wobei die Frequenzspektrumlinien in mehrere Codiererbänder aufgeteilt werden und wobei die Beträge der Frequenzspektrumlinien jedes Codiererbands durch Werte dargestellt werden, die als Funktion einer diesem Codiererband zugeordneten Rauschschwelle quantisiert werden.

6. Vorrichtung zur Verarbeitung eines Audiosignals (101) mit einer Menge von Eingangskanälen (103), wobei die Vorrichtung folgendes umfaßt:

ein Mittel zum wahrnehmungsbezogenen Codieren (202, 205, 206, 208) einer aus einer vorbestimmten Vielzahl von Mengen von gematrixten Kanälen, die als Reaktion auf die Eingangskanäle erzeugt werden, wobei das Mittel zum wahrnehmungsbezogenen Codieren das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt; und

ein Mittel zum Anlegen (206, 208) der wahrnehmungsbezogen codierten gematrixten Kanäle wahlweise a) an einen Kommunikationskanal (106) oder b) an ein Speichermedium (106),

dadurch gekennzeichnet, daß die Kanäle einer einzelnen der Mengen von gematrixten Kanälen die Eingangskanäle sind und die Kanäle von anderen der Mengen von gematrixten Kanälen mindestens ein einzelnes Element der folgenden Gruppe enthalten: eine Summe von oder eine Differenz zwischen zwei dieser und b) eine Prädiktion von a).

7. Erfindung nach Anspruch 6, wobei in dem Audiosignal die Eingangskanäle für jeden einer Reihe von Zeitbereichsblöcken durch Frequenzspektrumlinien dargestellt werden, die in mehrere Codiererbänder aufgeteilt werden, wobei die Beträge der Frequenzspektrumlinien jedes Codiererbands durch Werte dargestellt werden, die als Funktion einer diesem Codiererband zugeordneten Rauschschwelle quantisiert werden.

8. Verfahren zur Verarbeitung eines wahrnehmungsbezogen codierten Audiosignals, wobei das wahrnehmungsbezogen codierte Audiosignal durch Erzeugen einer Menge von gematrixten Kanälen als Reaktion auf eine Menge von Eingangskanälen (103) erzeugt wurde; unter wahrnehmungsbezogener Codierung der gematrixten Kanäle (202, 205, 206, 208), wobei das wahrnehmungsbezogene Codieren das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt; und unter Anlegen (206) der wahrnehmungsbezogen codierten gematrixten Kanäle an einen Kommunikationskanal (106) oder an ein Speichermedium (106),

mit den folgenden Schritten:

Empfangen (801) der wahrnehmungsbezogen codierten gematrixten Kanäle aus dem Kommunikationskanal (106) oder dem Speichermedium (106),

Decodieren (804) der empfangenen wahrnehmungsbezogen codierten gematrixten Kanäle und

Wiederherstellen der Eingangskanäle (807) aus den decodierten gematrixten Kanälen und Bestimmen, wie die Menge von gematrixten Kanälen als Reaktion auf die Menge von Eingangskanälen erzeugt wurde,

dadurch gekennzeichnet, daß die Menge von gematrixten Kanälen ein gewähltes Element der folgenden Gruppe umfaßt: i) die Eingangskanäle und ii) eine Menge von gematrixten Kanälen, bei der mindestens ein einzelner der gematrixten Kanäle Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.

9. Erfindung nach Anspruch 8, wobei der Schritt des Wiederherstellens den Schritt des Bestimmens, wie die Menge von gematrixten Kanälen als Reaktion auf die Menge von Eingangskanälen erzeugt wurde, umfaßt.

10. Vorrichtung zur Verarbeitung eines wahrnehmungsbezogen codierten Audiosignals, wobei das wahrnehmungsbezogen codierte Audiosignal durch Erzeugen einer Menge von gematrixten Kanälen (202, 204, 205) als Reaktion auf eine Menge von Eingangskanälen (103) erzeugt wurde; unter wahrnehmungsbezogener Codierung der gematrixten Kanäle, wobei das wahrnehmungsbezogene Codieren das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt; und unter Anlegen der wahrnehmungsbezogen codierten gematrixten Kanäle an einen Kommunikationskanal (106) oder an ein Speichermedium (106);

wobei die Vorrichtung folgendes umfaßt:

ein Mittel (801) zum Empfangen der wahrnehmungsbezogen codierten gematrixten Kanäle aus dem Kommunikationskanal (206) oder dem Speichermedium (106),

ein Mittel (804) zum Decodieren der empfangenen wahrnehmungsbezogen codierten gematrixten Kanäle und

ein Mittel (807) zum Wiederherstellen der Eingangskanäle (103) aus den decodierten gematrixten Kanälen;

dadurch gekennzeichnet, daß mindestens ein einzelner der gematrixten Kanäle der Menge von gematrixten Kanälen Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.

11. Erfindung nach Anspruch 10, wobei das Mittel zum Wiederherstellen bestimmt, wie die Menge von gematrixten Kanälen als Reaktion auf die Menge von Eingangskanälen erzeugt wurde.

12. Vorrichtung, in der Informationen gespeichert sind, die ein wahrnehmungsbezogen codiertes Audiosignal mit einer Menge von Eingangskanälen (103) darstellen, wobei das wahrnehmungsbezogen codierte Audiosignal durch die folgenden Schritte erzeugt wurde:

13. Erfindung nach Anspruch 12, wobei das wahrnehmungsbezogen codierte Audiosignal durch den weiteren Schritt des abwechselnden wahrnehmungsbezogenen Codierens der Eingangskanäle und der gematrixten Kanäle erzeugt wurde.

14. Erfindung nach Anspruch 1 oder Anspruch 6 oder Anspruch 10 oder Anspruch 12, wobei der einzelne der gematrixten Kanäle Funktion der Differenz zwischen a) und b) ist.

15. Erfindung nach Anspruch 1, wobei die Menge von Eingangskanälen einen Links-, einen Rechts- und einen Mittenkanal umfaßt.

16. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle Funktion des Links-Kanals und einer Prädiktion des Links-Kanals ist; wobei ein zweiter der gematrixten Kanäle Funktion des Rechts-Kanals und einer Prädiktion des Rechts- Kanals ist; und wobei ein dritter der gematrixten Kanäle der Mittenkanal ist; wobei jede der Prädiktionen Funktion des Mittenkanals ist.

17. Erfindung nach Anspruch 16, wobei jede der Prädiktionen Funktion einer wahrnehmungsbezogen codierten Version des Mittenkanals ist.

18. Erfindung nach Anspruch 16, wobei jede der Prädiktionen Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Mittenkanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.

19. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle der Links-Kanal ist; wobei ein zweiter der gematrixten Kanäle der Rechts-Kanal ist; und wobei ein dritter der gematrixten Kanäle Funktion des Mittenkanals und einer Prädiktion des Mittenkanals ist, wobei diese Prädiktion Funktion des Links- und des Rechts-Kanals ist.

20. Erfindung nach Anspruch 19, wobei die Prädiktion Funktion von wahrnehmungsbezogen codierten Versionen des Links- und des Rechts-Kanals ist.

21. Erfindung nach Anspruch 19, wobei die Prädiktion Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Links-Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist und weiterhin Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Rechts- Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.

22. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle Funktion der Summe des Links- und des Rechts-Kanals ist; wobei ein zweiter der gematrixten Kanäle Funktion der Differenz zwischen dem Links- und dem Rechts-Kanal ist; und wobei ein dritter der gematrixten Kanäle der Mittenkanal ist.

23. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle Funktion eines Summenkanals und einer Prädiktion des Summenkanals ist; wobei ein zweiter der gematrixten Kanäle Funktion eines Differenzkanals und einer Prädiktion des Differenzkanals ist; und wobei ein dritter der gematrixten Kanäle der Mittenkanal ist; wobei der Summenkanal Funktion der Summe des Links- und des Rechts-Kanals ist, wobei der Differenzkanal Funktion der Differenz zwischen dem Links- und dem Rechts-Kanal ist und jede der Prädiktionen Funktion des Mittenkanals ist.

24. Erfindung nach Anspruch 23, wobei jede der Prädiktionen Funktion einer wahrnehmungsbezogen codierten Version des Mittenkanals ist.

25. Erfindung nach Anspruch 23, wobei jede der Prädiktionen Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Mittenkanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.

26. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle ein Summenkanal ist; wobei ein zweiter der gematrixten Kanäle ein Differenzkanal ist; und wobei ein dritter der gematrixten Kanäle Funktion des Mittenkanals und einer Prädiktion des Mittenkanals ist; wobei der Summenkanal Funktion der Summe des Links- und des Rechts-Kanals ist, wobei der Differenzkanal Funktion der Differenz zwischen dem Links- und dem Rechts-Kanal ist und die Prädiktion Funktion des Links- und des Rechts- Kanals ist.

27. Erfindung nach Anspruch 26, wobei die Prädiktion Funktion wahrnehmungsbezogen codierter Versionen des Links- und des Rechts-Kanals ist.

28. Erfindung nach Anspruch 26, wobei die Prädiktion Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Links-Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist und weiterhin Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Rechts- Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.

29. Erfindung nach Anspruch 15, wobei die Menge von Eingangskanälen weiterhin einen Links-Surround- und einen Rechts-Surround-Kanal enthält.

30. Erfindung nach Anspruch 29, wobei ein einzelner der gematrixten Kanäle Funktion des Links- Surround-Kanals und einer Prädiktion des Links- Surround-Kanals ist und wobei ein weiterer der gematrixten Kanäle Funktion des Rechts-Surround- Kanals und einer Prädiktion des Rechts-Surround- Kanals ist.

31. Erfindung nach Anspruch 30, wobei die Links- Surround-Kanal-Prädiktion und die Rechts-Surround- Kanal-Prädiktion jeweils Funktionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.

32. Erfindung nach Anspruch 30, wobei die Links- Surround-Kanal-Prädiktion und die Rechts-Surround- Kanal-Prädiktion jeweils Funktionen wahrnehmungsbezogen codierter Versionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.

33. Erfindung nach Anspruch 29, wobei ein einzelner der gematrixten Kanäle Funktion der Summe des Links-Surround- und des Rechts-Surround-Kanals ist; und wobei ein weiterer der gematrixten Kanäle Funktion der Differenz zwischen dem Links- Surround- und dem Rechts-Surround-Kanal ist.

34. Erfindung nach Anspruch 29, wobei ein einzelner der gematrixten Kanäle Funktion eines Summen- Surround-Kanals und einer Prädiktion des Summen- Surround-Kanals ist; und wobei ein weiterer der gematrixten Kanäle Funktion eines Differenz- Surround-Kanals und einer Prädiktion des Differenz-Surround-Kanals ist; wobei der Summen- Surround-Kanal Funktion der Summe des Links- Surround-Kanals und des Rechts-Surround-Kanals ist und der Differenz-Surround-Kanal Funktion der Differenz zwischen dem Links-Surround-Kanal und dem Rechts-Surround-Kanal ist.

35. Erfindung nach Anspruch 34, wobei die Summen- Surround-Kanal-Prädiktion und die Differenz- Surround-Kanal-Prädiktion jeweils Funktionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.

36. Erfindung nach Anspruch 34, wobei die Summen- Surround-Kanal-Prädiktion und die Differenz- Surround-Kanal-Prädiktion jeweils Funktionen wahrnehmungsbezogen codierter Versionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.