DE69432012T2 - Wahrnehmungsgebundene Kodierung von Audiosignalen - Google Patents

Wahrnehmungsgebundene Kodierung von Audiosignalen

Info

Publication number
DE69432012T2
DE69432012T2 DE69432012T DE69432012T DE69432012T2 DE 69432012 T2 DE69432012 T2 DE 69432012T2 DE 69432012 T DE69432012 T DE 69432012T DE 69432012 T DE69432012 T DE 69432012T DE 69432012 T2 DE69432012 T2 DE 69432012T2
Authority
DE
Germany
Prior art keywords
channels
channel
matrixed
function
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69432012T
Other languages
English (en)
Other versions
DE69432012D1 (de
Inventor
James David Johnston
Deepen Sinha
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69432012D1 publication Critical patent/DE69432012D1/de
Application granted granted Critical
Publication of DE69432012T2 publication Critical patent/DE69432012T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Algebra (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    Allgemeiner Stand der Technik
  • Die vorliegende Erfindung betrifft die Verarbeitung von Informationssignalen und insbesondere Techniken zur effizienten Codierung von Audiosignalen, wie z. B. Audiosignalen, die Sprache und Musik darstellen.
  • Viele Bemühungen in den letzten Jahren haben sich mit der sogenannten wahrnehmungsbezogenen Audiocodierung oder PAC beschäftigt. Gemäß dieser Technik wird jeder einer Abfolge von Zeitbereichsblöcken eines Audiosignals im Frequenzbereich codiert. Genauer gesägt wird die Frequenzbereichsdarstellung jedes Blocks in Codiererbänder aufgeteilt, die jeweils einzeln auf der Grundlage psychoakustischer Kriterien dergestalt codiert werden, daß ein Audiosignal wesentlich "komprimiert" ist, daß also die Anzahl zur Darstellung des Audiosignals erforderlicher Bit wesentlich kleiner als bei dem Fall wäre, wenn das Audiosignal in einem simplistischeren digitalen Format, z. B. in Form von PCM-Wörtern, dargestellt werden würde.
  • Wenn das Audiosignal zwei oder mehr Eingangskanäle, wie z. B. Links- und Rechts-Kanäle von stereophonischer (Stereo-)Musik umfaßt, wird die oben beschriebene wahrnehmungsbezogene Codierung an einer gleichen Anzahl sogenannter gematrixter Kanäle ausgeführt. Bei der einfachsten Implementierung wird jeder gematrixte Kanal von einem jeweiligen Eingangskanal abgeleitet. Im Fall von Stereomusik würde dies also z. B. bedeuten, daß die wahrnehmungsbezogene Codierung die Frequenzbereichsdarstellung des linken Stereoeingangskanals über die Zeit hinweg, die hier als "L" bezeichnet wird, codiert und separat die Frequenzbereichsdarstellung des rechten Stereoeingangskanals über die Zeit hinweg, die hier als "R" bezeichnet wird. Es kann jedoch eine weitere Komprimierung erzielt werden, wenn die Eingangskanäle stark miteinander korreliert sind, wie z. B. fast immer bei Stereomusikkanälen der Fall ist, indem die für jedes Codiererband ausgeführte Codierung zwischen zwei Codierungsbetriebsarten umgeschaltet wird, bei denen verschiedene Mengen gematrixter Kanäle verwendet werden. Bei einer der Betriebsarten umfaßt die Menge zweier gematrixter Kanäle einfach die Eingangskanäle L und R. In der anderen Betriebsart umfaßt die Menge zweier gematrixter Kanäle S = (L + R)/2 und D = (L - R)/2. Die Kanäle S und D werden als Summen-/Differenzkanäle bezeichnet. Diese Technik wird in dem US-Patent 5,285,498, ausgegeben am 8. Februar 1994 an J. D. Johnston, das im folgenden als das "Patent von Johnston" bezeichnet wird, gelehrt.
  • In letzer Zeit wurde in der Technik die Aufmerksamkeit der wahrnehmungsbezogenen Codierung von Audiosignalen mit mehr als zwei Kanälen, wie z. B. Fünfkanal-Audio, gewidmet. (Wie für Fachleute im Verlauf dieser Beschreibung erkennbar werden wird, kann die Erfindung jedoch auch in einem System mit einer anderen Anzahl als fünf Kanälen implementiert werden.) Die Eingangskanäle eines Fünfkanal-Audiosystems umfassen in der Regel drei "Front"-Kanäle und zwei "Back"-Kanäle. Die Front-Kanäle enthalten die herkömmlichen Links- und Rechts-Stereokanäle plus einen Mittenkanal, dessen Frequenzbereichsdarstellung über die Zeit hinweg hier als C bezeichnet wird. Diese Kanäle sollen durch Lautsprecher wiedergegeben werden, die vor dem Zuhörer links, rechts bzw. direkt vor ihm positioniert sind. Die Back-Kanäle werden als "Links-Surround" und "Rechts-Surround" bezeichnet, deren Frequenzbereichsdarstellungen über die Zeit hinweg hier als LS und RS bezeichnet werden. Diese Kanäle sollen durch Lautsprecher wiedergegeben werden, die hinter dem Zuhörer links bzw. rechts angeordnet sind.
  • Kurze Darstellung der Erfindung
  • Die obenerwähnten Lehren des Patents von Johnston bezüglich des Umschaltens zwischen Codierungsbetriebsarten für die Codierung von Stereo-, d. h. Zweikanal- Audiosignalen, kann auch auf ein Fünfkanalsystem angewandt werden, um wiederum gegenüber der von der wahrnehmungsbezogenen Codierung selbst bereitgestellten, eine weitere Komprimierung bereitzustellen. Z. B. kann man die beiden Front-Kanäle zwischen zwei Betriebsarten und die Back-Kanäle zwischen zwei Betriebsarten umschalten. Die beiden Codierungsbetriebsarten für die Front-Kanäle wären a) eine Betriebsart, deren Menge gematrixter Kanäle L, R und C umfaßt, und b) eine Betriebsart, deren Menge gematrixter Kanäle S, D und C umfaßt. Ähnlich wären die beiden Codierungsbetriebsarten für die Back-Kanäle a) eine Betriebsart, deren Menge gematrixter Kanäle LS und RS umfaßt, und b) eine Betriebsart, deren Menge gematrixter Kanäle Back-Summen-/Differenzkanäle SS und SD umfaßt, die durch SS = (LS + RS)/2 und SD = (LS - RS)/2 gegeben werden.
  • Der Verfasser hat jedoch einen komplizierteren Betriebsartenumschaltungsansatz für die Codierung von mehr als zwei Kanälen, z. B. fünf Kanälen, erfunden. Gemäß der Erfindung läßt sich eine zusätzliche Komprimierung erreichen, indem zwischen mehreren Betriebsarten umgeschaltet wird, von denen mindestens eine in ihrer gematrixten Kanalmenge mindestens einen gematrixten Kanal enthält, der durch einen Eingangskanal oder einen Summen-/Differenzkanal gegeben wird, von dem eine Prädiktion von sich selbst subtrahiert wurde. Wenn eine Prädiktion eine "gute" Prädiktion ist, d. h. gut mit dem vorhergesagten Kanal übereinstimmt, dann ist die Anzahl zur Darstellung ihrer Differenz notwendiger Bit wesentlich kleiner als die zur direkten Darstellung des vorhergesagten Kanals erforderliche, so daß die obenerwähnte zusätzliche Komprimierung bereitgestellt wird.
  • Ein Beispiel für eine solche Betriebsart für die Front- Kanäle umfaßt die folgende Menge dreier gematrixter Kanäle:
  • wobei und vorhergesagte Werte der Eingangskanäle L bzw. R sind, wie später ausführlicher beschrieben werden wird. Ein anderes Beispiel für eine solche Betriebsart für die Back-Kanäle umfaßt die folgende Menge zweier gematrixter Kanäle:
  • wobei
  • vorhergesagte Werte für Summen-/Differenzkanäle SS bzw. SD sind.
  • Wie aus den obigen Beispielen ersichtlich wird, wird bei bevorzugten Ausführungsformen die Prädiktion für einen bestimmten Eingangskanal oder Summen-/Differenzkanal von mindestens einem anderen "vorhersagenden" Kanal abgeleitet. Für die Front-Kanäle gibt es beispielsweise insgesamt sechs Codierungsbetriebsarten (die explizit in der nachfolgenden ausführlichen Beschreibung dargelegt werden), in denen C beispielsweise als ein vorhersagender Kanal für L, R, S und D verwendet wird, während L und R zusammen als vorhersagende Kanäle für C verwendet werden. Für die Back-Kanäle gibt es beispielsweise insgesamt acht Codierungsbetriebsarten (die ebenfalls nachfolgend ausführlich dargelegt werden), in denen alle drei Front-Kanäle als vorhersagende Kanäle für LS, RS, SS und DS entweder für sich oder in verschiedenen Kombinationen verwendet werden. Prädiktionen basieren vorzugsweise auf den codierten Werten der vorhersagenden Kanäle, anstelle ihrer tatsächlichen Werte, z. B. auf anstelle von C. Dadurch können die Eingangskanäle ohne Einführung eines Quantisierungsartefakts decodiert werden.
  • Bei bevorzugten Ausführungsformen erfolgt die Auswahl, welche Codierungsbetriebsart für jedes Codiererband verwendet wird, durch Bestimmung, welche der Betriebsarten zu ihrer Codierung die wenigsten Bit erfordert.
  • Kurze Beschreibung der Zeichnung
  • Fig. 1 ist ein Blockschaltbild eines Systems, in dem die vorliegende Erfindung beispielhaft implementiert ist;
  • Fig. 2 ist ein Blockschaltbild des in dem System von Fig. 1 verwendeten wahrnehmungsbezogenen Audiocodierers;
  • Fig. 3 ist ein Flußdiagramm eines in dem die Prinzipien der Erfindung implementierenden wahrnehmungsbezogenen Audiocodierers durchgeführten Prozesses;
  • Fig. 4-6 zeigen einen neuartigen Aspekt des wahrnehmungsbezogenen Audiocodierers, der mit der Verwendung einer globalen Maskierungsschwelle zusammenhängt;
  • Fig. 7 zeigt das Format der PAC-codierten Audiosignale; und
  • Fig. 8 ist ein Blockschaltbild des in dem System von Fig. 1 verwendeten wahrnehmungsbezogenen Audiodecodierers.
  • Ausführliche Beschreibung
  • Um die vorliegende Offenlegung zu vereinfachen, liefern die folgenden Patente und Veröffentlichungen nützliche Hintergrundinformationen: US-Patent 5,040,217, ausgegeben am 13. August 1991, von K. Brandenburg et al. US-Patent 5,341,457, ausgegeben am 23. Aug. 1994, an J. L. Hall et al.; J. D. Johnston, Transform Coding of Audio Signals Using Perceptual Nolse Criteria, IEEE Journal on Selected Areas in Communications, Bd. 6, Nr. 2 (Februar 1988); International Patent Application (PCT) WO 88/01811, eingereicht am 10. März 1988; Aspec: Adaptive Spectral Entropy Coding of High Quality Music Signals, AES 90th Convention (1991); Johnston, J., Estimation of Perceptual Entropy Using Noise Masking Criteria, ICASSP, (1988); J. D. Johnston, Perceptual Transform Coding of Wideband Stereo Signals, ICASSP (1989); E. F. Schroeder und J. J. Platte, "'MSC'": Stereo Audio Coding with CD-Quality and 256 kBIT/SEC," IEEE Trans. on Consumer Electronics, Bd. CE-33, Nr. 4, November 1987; und Johnston, Transform Coding of Audio Signals Using Noise Criteria, Bd. 6, Nr. 2, IEEE J.S.C.A. (Februar 1988).
  • Der Klarheit halber wird die beispielhafte Ausführungsform der vorliegenden Erfindung als einzelne Funktionsblöcke umfassend dargestellt (einschließlich als "Prozessoren" benannte Funktionsblöcke). Die von diesen Blöcken dargestellten Funktionen können entweder durch Verwendung gemeinsam benutzter oder eigener Hardware bereitgestellt werden, darunter u. a. Hardware, die Software ausführen kann. Beispielhafte Ausführungsformen können Hardware für digitale Signalverarbeitung (DSP) und die nachfolgenden Operationen durchführende Software umfassen. Außerdem können höchstintegrierte (VLSI-)Hardwareausführungsformen der vorliegenden Erfindung sowie hybride DSP/VLSI- Ausführungformen bereitgestellt werden.
  • Fig. 1 zeigt ein Gesamtblockschaltbild eines Systems, in dem die vorliegende Erfindung implementiert ist. In Fig. 1 wird ein analoges Audiosignal auf der Leitung 101 einem Vorprozessor 102 zugeführt und dort abgetastet (in der Regel mit 48 KHz) und auf standardmäßige Weise in ein digitales PCM-Signal (Pulse Code Modulation) mit 16 Bit pro Abtastwert auf der Leitung 103 umgesetzt. Das PCM-Signal wird einem wahrnehmungsbezogenen Audiocodierer ("PAC") 104 zugeführt, der das PCM-Signal komprimiert und das komprimierte PAC-Signal auf der Leitung 105 entweder an einen Kommunikationskanal oder an ein Speichermedium 106 ausgibt. Bei letzterem kann es sich z. B. um ein Magnetband, eine Compact Disk oder ein anderes Speichermedium handeln. Aus dem Kommunikationskanal oder dem Speichermedium wird das komprimierte PAC- codierte Signal auf der Leitung 107 einem wahrnehmungsbezogenen Audiodecodierer 108 zugeführt, der das komprimierte PAC-codierte Signal dekomprimiert und auf der Leitung 109 ein PCM-Signal ausgibt, das eine digitale Darstellung des ursprünglichen Analogsignals ist. Aus dem wahrnehmungsbezogenen Audiodecodierer wird das PCM-Signal auf der Leitung 108 einem Nachprozessor 110 zugeführt, der eine analoge Darstellung erzeugt.
  • Eine beispielhafte Ausführungsform des wahrnehmungsbezogenen Audiocodierers 104 ist in Fig. 2 als Blockschaltbild gezeigt. Der wahrnehmungsbezogene Audiocodierer von Fig. 2 kann vorteilhafterweise als eine Analysefilterbank 202, einen wahrnehmungsbezogenen Modellprozessor 204, einen zusammengesetzten Codierer 205, einen Quantisierer/Ratenschleifenprozessor 206 und einen Entropiecodierer 208 umfassend betrachtet werden.
  • Die Struktur und Funktionsweise der verschiedenen Komponenten des wahrnehmungsbezogenen Audiocodierers 104 gleichen im allgemeinen der Struktur und Funktionsweise gleicher Komponenten in Fig. 2 des Patents von Johnston bei der Verarbeitung von Stereosignalen und werden deshalb hier nur soweit ausführlich beschrieben, wie es für eine Erläuterung der vorliegenden Erfindung notwendig ist. Dazu gehört eine Beschreibung des zusammengesetzten Codierers 205, für den in Fig. 2 kein explizites Gegenstück des Patents von Johnston gezeigt ist (obwohl seine Funktionalität in bezug auf das Umschalten zwischen Codierungsbetriebsarten implizit in der Analysefilterbank 202 des Patents von Johnston ausgeführt wird).
  • Nunmehr also mit Bezug auf Fig. 2 ist das analoge Audioeingangssignal auf der Leitung 103 beispielsweise ein Fünfkanalsignal, das im Zeitbereich PCM-Abtastwerte einer Menge von Eingangskanälen umfaßt, wobei es sich dabei um die Kanäle Links, Rechts und Mitte-Front und Links-Surround und Rechts-Surround-Back handelt, mit den Bezeichnungen l(t), r(t), c(t), ls(t) bzw. rs(t). Die Analysefilterbank 202 empfängt diese Abtastwerte und teilt sie in Zeitbereichsblöcke auf. Genauer gesagt schaltet die Filterbank 202 zwischen zwei Fensterlängen für die Blöcke um: einem "kurzen" Fenster mit 128 Zeitabtastwerten und einem "langen" Fenster mit 1024 Zeitabtastwerten. Für jeden Block führt die Filterbank 202 eine modifizierte diskrete Cosinustransformation getrennt an jedem der fünf Kanäle durch, um eine Frequenzbereichsdarstellung jedes Kanals für den fraglichen Block bereitzustellen. Die Frequenzbereichsdarstellung jedes Kanals enthält 1024 gleichförmig beabstandete Frequenzspektrumlinien, die für die Blöcke mit langer Fensterlänge in 49 Codiererbänder aufgeteilt werden, und für die Blöcke mit kurzer Fensterlänge 128 gleichförmig beabstandete Frequenzspektrumlinien, die in 14 Codiererbänder aufgeteilt werden. Die Frequenzbereichsdarstellungen der Eingangskanäle Links, Rechts, Mitte, Links-Surround und Rechts-Surround werden in den Figur als L(f), R(f), C(f), LS(f) und RS(f) bezeichnet, werden hier aber der Einfachheit halber im folgenden als L, R, C, LS und RS bezeichnet.
  • Die Ausgangssignale der Analysefilterbank 202 werden an einen zusammengesetzten Codierer 205 angelegt, der auf eine nachfolgend beschriebene Weise fünf gematrixte Kanäle M&sub1;(f)-M&sub5;(f) erzeugt, die an den Quantisierer/Ratenschleifenprozessor 206 angelegt werden. Dieser codiert die gematrixten Kanäle durch: a) Erzeugung binärer Daten, die den vorzeichenbehafteten Betrag jeder der Frequenzspektrumlinien jedes gematrixten Kanals für einen gegebenen Block darstellen, und b) Formatieren dieser Daten zusammen mit anderen Informationen, die der Decodierer benötigt. Zu diesen Daten gehören verschiedene Elemente von "Verwaltungs"-Daten, die in dem Patent von Johnston und auch im folgenden beschrieben werden, sowie Daten, die im Verlauf der Implementierung der vorliegenden Erfindung erzeugt werden, darunter z. B. eine Anzeige, welche Codierungsbetriebsart zur Codierung jedes Codiererbands in einem gegebenen Block verwendet wurde, wie nachfolgend beschrieben wird, sowie die Werte bestimmter Prädiktionskoeffizienten, die ebenfalls später beschrieben werden.
  • Das Ausgangssignal des Quantisierers/Ratenschleifenprozessors 206 wird an den Entropiecodierer 208 angelegt. Letzterer wirkt in Verbindung mit ersterem, um eine noch weitere Komprimierung zu erzielen.
  • Wie bereits erwähnt, umfaßt das Ausgangssignal des zusammengesetzten Codierers 205 fünf gematrixte Kanäle. Der zusammengesetzte Codierer 205 besitzt eine Anzahl von Codierungsbetriebsarten, die jeweils durch eine verschiedene Menge gematrixter Kanäle gekennzeichnet sind, wobei die verschiedenen Codierungsbetriebsarten einzeln für jedes Codiererband auf noch zu beschreibende Weise aufgerufen werden. Ein Teil der gematrixten Kanäle in einem Teil der Betriebsarten sind die Eingangskanäle L, R, C, LS und RS. Andere der gematrixten Kanäle sind die sogenannten Summen-/Differenzkanäle S = (L + R)/2, D = (L - R)/2, SS = (LS + RS/2 und SD = (LS - RS)/2.
  • Gemäß der vorliegenden Erfindung umfaßt jedoch mindestens eine der Betriebsarten mindestens einen gematrixten Kanal, der durch einen Eingangskanal oder einen Summen-/Differenzkanal gegeben wird, von dem eine Prädiktion von sich selbst subtrahiert wurde. Bei der vorliegenden beispielhaften Ausführungsform werden zur Codierung der Front-Kanäle sechs Betriebsarten bereitgestellt. Drei, bei denen die Front-Eingangskanäle L, R und C direkt auftreten, lauten
  • Die anderen drei, bei denen die Front- Summen-/Differenzkanäle S und D auftreten, lauten
  • Für die Back-Kanäle werden acht Betriebsarten bereitgestellt. Vier, bei denen die Back-Kanäle LS und RS direkt auftreten, lauten
  • Die anderen vier, bei denen die Back-Summen-/Differenzkanäle SS und DS auftreten, lauten
  • Bei den obigen Codierungsbetriebsarten sind die Terme, die von den Eingangs- und Summen-/Differenzkanälen L, R, C, S, D, LS, RS, SS und DS subtrahiert werden, tatsächlich vorhergesagte Werte davon. Genauer gesagt wird, wie ersichtlich ist, die Prädiktion für einen bestimmten Eingangskanal oder Summen-/Differenzkanal von mindestens einem anderen "vorhersagenden" Kanal abgeleitet. Für die Front-Kanäle wird beispielsweise C als ein vorhersagender Kanal für L, R, S und D verwendet, während L und R zusammen als vorhersagende Kanäle für C verwendet werden. Für Back-Kanäle werden alle drei Front-Kanäle beispielsweise als vorhersagende Kanäle für LS, RS, SS und SD verwendet, und zwar entweder für sich oder in verschiedenen Kombinationen. Das "^" über den vorhersagenden Kanälen, z. B. , bedeutet, daß die Prädiktionen auf den codierten Werten der vorhersagenden Kanäle basieren, die durch den Quantisierer/Ratenschleifenprozessor 206 erzeugt und über die Leitung 216 zu dem zusammengesetzten Codierer 205 zurückgeführt werden, anstatt auf der Grundlage ihrer tatsächlichen Werte. Der Grund dafür ist wie folgt: Erstens dient der codierte vorhersagende Kanal praktisch genauso gut als Prädiktor wie der uncodierte Kanal, so daß dadurch kein Schaden entsteht. Es wird jedoch angemerkt, daß der vorhergesagte Wert jedes codierten Kanals in dem Decodierer zurückaddiert werden muß. Das heißt, L wird aus dem gesendeten L - durch Addieren von zu dem empfangenen wiederhergestellt. Im Decodierer ist nur und nicht C verfügbar. Man kann somit dem empfangenen codierten Kanal in dem Decodierer das zurückaddieren, was von ihm im Codierer subtrahiert wurde. Wenn im Codierer der uncodierte vorhersagende Kanal verwendet werden würde, würde nachteilhafterweise im Decodierer ein Quantisierungsrauschartefakt eingeführt.
  • Die skalaren Prädiktionskoeffizienten , usw. können mit vielfältigen verschiedenen Kriterien berechnet werden. Bei der einfachsten Implementierung können diese alle auf "1" oder eine beliebige andere Konstante, die kleiner als "1" ist, gesetzt werden. Tatsächlich könnte ein Teil dieser Koeffizienten auf Null gesetzt werden, wenn die Prädiktion, von der sie ein Teil sind, erwartungsgemäß sehr klein sein wird. Dies wäre z. B. für die Prädiktion eines Differenzgematrixten Kanals, wie z. B. D oder DS, der Fall, da diese gematrixten Kanäle selbst erwartungsgemäß Werte um Null aufweisen werden.
  • Bei einem etwas komplexeren System können die Prädiktionskoeffizienten für jeden Block (obwohl nur eine Koeffizientenmenge für alle Codiererbänder berechnet wird) mit einem Kriterium des minimalen mittleren quadratischen Fehlers (mmse) oder einem wahrnehmungsbezogen gewichteten mmse-Kriterium berechnet und als Teil des Bitstroms, der von dem Quantisierer/Ratenschleifenprozessor 206 ausgegeben wird, übertragen werden (wobei die Entscheidung über die zusammengesetzte Codierung immer noch für jedes der Codiererbände unabhängig ist). Der Grund für die Notation der Koeffizienten mit einem "^", z. B. , besteht darin, daß, wenn ihre Werte berechnet werden, diese Werte, anstatt Konstanten zu sein, notwendigerweise codiert, d. h. quantisiert, werden, wenn sie gespeichert oder in digitaler Form gesendet werden, wobei die Notation "^" dies anzeigt. Bei einem noch komplexeren System werden die Prädiktionskoeffizienten für jedes der Codiererbänder getrennt abgeschätzt. Ein solches Schema ist attraktiv, wenn der Prädiktionsgewinn aufgrund von Zeitverzögerungen zwischen verschiedenen Kanälen gering ist. Das Senden von Prädiktionskoeffizienten für jedes der Codiererbänder kann jedoch relativ kostspielig sein. Zum Glück legen Experimente nahe, daß Koeffizienten aus dem vorherigen Block mit relativ geringem Verlust an Prädiktionsgewinn verwendet werden können. Die Prädiktionskoeffizienten können bei einem solchen System deshalb sowohl im Codierer als auch im Decodierer im Rückwärtsverfahren aus den decodierten Werten des vorherigen Blocks berechnet werden.
  • Wie aus den obigen Gleichungen (1), (2), (3) und (4) hervorgeht, werden Summen-/Differenzkanäle nur zwischen Paaren von Front-Kanälen oder Paaren von Back-Kanälen gebildet. Komplexere Kombinationen oder "Basistransformationen", bei denen vielleicht drei oder mehr Eingangskanäle und/oder vielleicht Summen und Differenzen zwischen Front- und Back-Kanälen auftreten, könnten sich vom Komprimierungsstandpunkt aus gesehen als vorteilhaft erweisen. Es wird jedoch bevorzugt, solche komplexen Basistransformationen auszuschließen, da man dann sicherstellt, daß die Quantisierungsrauschmaskierung, die ein Antriebsprinzip der wahrnehmungsbezogenen Codierung ist, nicht nur in einer Hörraumumgebung mit fünf Lautsprechern effektiv ist, sondern auch im Fall einer sogenannten Stereo-Herabmischung der fünf Eingangskanäle zu zwei Kanälen zum Beispiel zur Kopfhörerwiedergabe. Die komplexeren Basistransformationen erfordern jedoch gewöhnlich die Verwendung niedrigerer Rauschschwellen (nachfolgend besprochen) für die Codierung, wodurch weniger Komprimierung erzielt werden kann.
  • Es werden nun die folgenden Fragen behandelt: a) wie wird die Codierung der fünf gematrixten Kanäle einer bestimmten Codierungsbetriebsart ausgeführt und b) wie wird entschieden, welche Betriebsart verwendet werden soll, um ein bestimmtes Codiererband für einen gegebenen Block zu codieren.
  • Insbesondere beschreibt das Patent von Johnston, wie für jeden Block der wahrnehmungsbezogene Modellprozessor für jedes Codiererband eine Rauschschwelle für jeden gematrixten Kanal erzeugt, wobei diese Schwelle ein kritischer Parameter für den Quantisierer/Ratenschleifenprozessor bei seiner Codierung des jeweiligen gematrixten Kanals ist. Für jedes Codiererband für ein zweikanaliges System sind dann vier Rauschschwellen verfügbar, und zwar jeweils eine für L, R, S und D. Die Rauschschwellen werden über die Leitung 214 durch den wahrnehmungsbezogenen Modellprozessor 204 dem zusammengesetzten Codierer 205 zugeführt. Wenn L und R die codierten Kanäle für ein bestimmtes Codiererband während einer Codierungsbetriebsart des Patents von Johnston sind, werden ihre jeweiligen Schwellen zur Codierung dieser Kanäle verwendet. Ähnlich werden, wenn S und D die codierten Kanäle während der anderen Codierungsbetriebsart sind, ihre jeweiligen Schwellen zur Codierung dieser Kanäle verwendet.
  • Bei der vorliegenden beispielhaften Ausführungsform sind neun Schwellen pro Codiererband verfügbar. Sie sind die Schwellen, die den fünf Eingangskanälen L, R, C, LS und RS und den vier Summen-/Differenzkanälen S, D, SS und DS entsprechen. Wenn die gewählte Codierungsbetriebsart einen Eingangskanal oder Summen-/Differenzkanal als einen der gematrixten Kanäle enthält, wird offensichtlich die entsprechende Schwelle verwendet. Zusätzlich soll die Schwelle, die einem bestimmten Eingangs-- oder Summen-/Differenzkanal zugeordnet ist, zur Codierung jedes gematrixten Kanals verwendet werden, der eine Prädiktion dieses Eingangs- oder Summen-/Differenzkanals enthält. Zum Beispiel wird die Schwelle für L auch für den gematrixten Kanal L - verwendet. Die Art und Weise der Erzeugung der neun Schwellen für jedes Codiererband während jedes Blocks ist eine einfache Anwendung der Techniken, die in dem Patent von Johnston für die Erzeugung seiner vier Schwellen beschrieben werden, und eine weitere Erläuterung dieses Punkts ist also nicht notwendig.
  • Die Art und Weise der Auswahl der bestimmten Codierungsbetriebsart ist durch das Flußdiagramm von Fig. 3 dargestellt. Das Flußdiagramm stellt die Verarbeitung dar, die diesbezüglich für die Front- Kanäle und für ein bestimmtes Codiererband ausgeführt wird. Sowohl für die Front- als auch die Back-Kanäle für jedes der Codiererbänder wird einzeln eine ähnliche Verareitung ausgeführt. Genauer gesagt betreffen die Elemente in [] die Verarbeitung, die für die Back- Kanäle ausgeführt wird.
  • Zu Anfang werden die oben erwähnten neun Schwellen durch den wahrnehmungsbezogenen Modellprozessor 204 (Block 301) erzeugt. In dem zusammengesetzten Codierer 205 wird dann entschieden, ob die Codierungsbetriebsart für die Front-Kanäle von einem Typ sein sollte, bei dem Eingangskanäle oder Summen-/Differenzkanäle auftreten, d. h. eine der Betriebsarten (1) oder eine der Betriebsarten (2). Ein Kriterium, das beim Treffen dieser Entscheidung verwendet werden kann, besteht darin, die Schwellen für L und R zu vergleichen (Block 303). Wenn sie sich um mehr als einen vorbestimmten Betrag, wie z. B. 2 dB, unterscheiden, wird Eingangskanalcodierung verwendet, d. h. eine der drei Betriebsarten in (1) (Block 311). Wenn sie sich nicht um mehr als den vorbestimmten Betrag unterscheiden, besteht ein Ansatz, der hier nicht implementiert wird, darin, sofort Summen-/Differenzcodierung, d. h. eine der drei Betriebsarten in (2), zu wählen. Hier wird jedoch ein komplizierterer Ansatz verwendet. Insbesondere wird erkannt, daß die Verwendung von gematrixten Summen-/Differenzkanälen erwünscht ist, wenn L und R stark korreliert sind, und zwar nicht nur a) weil sich in diesem Fall ein hoher Komprimierungsgrad erzielen läßt, sondern auch b) weil dadurch die sogenannte Rauschlokalisierung gesteuert wird. Die Rauschlokalisierungssteuerung kann jedoch auch durch geeignetes Senken der Schwellen für L und R erzielt werden, und es zeigt sich, daß eine Codierung von L und R mit diesen gesenkten Schwellen manchmal weniger Bit als eine Codierung von S und D erfordert. Man kann also z. B. ein Kriterium der "wahrnehmungsbezogenen Entropie" verwenden, das im Stand der Technik gelehrt wird, um zu bestimmen, welcher Ansatz (Codierung von L und R mit gesenkten Schwellen oder Codierung von S und D) weniger Bit erfordert. Nachdem die Codierungsbetriebsart auf eine von (1) oder (2) verschmälert wurde (Block 307), wird die bestimmte zu verwendende Codierungsbetriebsart einfach dadurch ausgewählt, daß wieder unter Verwendung des obenerwähnten Kriteriums der wahrnehmungsbezogenen Entropie die Betriebsart identifiziert wird, die die wenigsten Bit erfordert (Block 309 oder Block 314). Ein ähnlicher Prozeß wird in bezug auf die Back-Kanäle ausgeführt, und eine Anzeige, welche Codierungsbetriebsart sowohl für die Front- als auch die Back- Kanäle verwendet wurde, wird gespeichert und zusammen mit den codierten Kanälen selbst gesendet.
  • Ein weiteres neuartiges Merkmal des Codierers 104 von Fig. 2 betrifft die Erzeugung der Schwellen für die fünf Eingangskanäle und die vier Summen-/Differenzkanäle. Dieses Merkmal des Codierers, das eine sogenannte globale Maskierungsschwelle verwendet, nutzt die Maskierungsfähigkeit der Signalkomponente in dem gematrixten Kanal aus, dessen Signalkomponente die stärkste ist, um das Rauschen in den anderen gematrixten Kanälen zu maskieren.
  • Um die Verwendung dieses Merkmals zu verstehen, kann man mit der Betrachtung beginnen, daß in dem Codierer 104, wie bei den im Stand der Technik bekannten Codierern, ein sogenanntes "Bitreservoir" aufrechterhalten wird, das im Prinzip ein Zählwert der in Bit gemessenen überschüssigen Kanalkapazität ist. Dieser Zählwert ist im wesentlichen ein Maß für die Differenz zwischen a) der Anzahl von Bitübertragungsschlitzen, die in der Vergangenheit bei der mittleren Ausgangsbitrate verfügbar sind, und b) der Anzahl von Bit, die tatsächlich codiert wurden. Die maximale Größe des Zählwerts in dem Bitreservoir hängt von der Menge an Pufferung (Latenz) ab, die in dem System zugelassen wird. Mit dieser ungenutzten Kapazität kann man den Umstand behandeln, daß zukünftige Blöcke möglicherweise eine Anzahl von Bit zur Darstellung des Inhalts dieser Blöcke erfordern, die höher als die mittlere Anzahl ist. Somit kann eine relativ konstante Ausgangsbitrate unterstützt werden, obwohl die Anzahl von für jeden Block erzeugten codierten Bit von Block zu Block variiert und im allgemeinen etwas größer als diese Rate (auf der Grundlage von pro/Sekunde-Mittelung) und manchmal niedriger ist. In der Regel beträgt die Bitreservoirkapazität das fünffache der mittleren Bitrate pro Block.
  • Wenn das Bitreservoir seine maximale Kapazität erreicht, ist dies ein Hinweis, daß die Bitanforderung beständig kleiner als die mittlere Ausgangsbitrate war, und zwar zu einem solchen Grad, daß es vorteilhaft ist, diese überschüssige Kapazität durch Senken der Rauschschwellen aufzubrauchen, wodurch eine feinere Quantisierung durchgeführt wird. Dies ist insofern vorteilhaft, als es eine qualitativ hochwertigere Wiedergabe liefert. Es ist jedoch wahlweise, wobei die Alternative darin besteht, einfach Markierungs- oder andere, keine Informationen tragenden Bit zu senden.
  • Eine Technik muß jedoch definitiv den Fall behandeln, daß das Bitreservoir leer wird, da an diesem Punkt, solange keine Abhilfeschritte unternommen werden, die Pufferkapazität des Systems vollständig aufgebraucht wurde, und codierte Bit anfangen, verloren zu gehen. Der Stand der Technik behandelt dieses Problem durch Umschalten auf eine gröbere Quantisierung, wenn folgendes eintritt: a) das Bitreservoir ist aufgebraucht und b) zusätzlich übersteigt die Bitanforderung für den aktuellen Block die mittlere Ausgangsbitrate pro Block zu diesem Zeitpunkt. Bezüglich der Implementierung wird dies durch iteratives Multiplizieren jeder der Rauschschwellen mit einer Reihe zunehmender konstanter Werte von mehr als 1 und Neuberechnung der Bitanforderung, bis die Bitanforderung für den aktuellen Block erfüllt werden kann, bewirkt. Sobald die Bitanforderungen zukünftiger Blöcke unter die mittlere Rate fallen, können die normalen Schwellenwerte wieder verwendet werden, und das Bitreservoir beginnt, sich wieder aufzufüllen.
  • Obwohl dieser vorbekannte Ansatz das Problem des Leerwerdens des Bitreservoirs effektiv behandelt, kann er zu starken Artefakten in dem decodierten Signal führen, da der Mechanismus zum Erhöhen der Schwellen über die Codiererbänder hinweg deterministisch ist, anstatt, wie vom Verfasser als vorteilhaft festgestellt wurde, auf psychoakustischen Betrachtungen zu basieren.
  • Zusätzlich zu dem obenerwähnten neuartigen Merkmal des Codierers wird ein Ansatz für das Leerwerden des Bitreservoirs verwendet, das psychoakustische Betrachtungen berücksichtigt. Dieser Ansatz legt eine "globale Maskierungsschwelle" für jedes Codiererband fest, die über alle fünf gematrixten Kanäle hinweg konstant ist. Der Wert des globalen Maskierungsschwellenwerts wird wie nachfolgend beschrieben berechnet. Einstweilen reicht es aus, zu bemerken, daß sie den maximalen Rauschpegel in beliebigen der Kanäle darstellt, der von einem Zuhörer in einer Hörraumumgebung wahrgenommen wird.
  • Die Art und Weise der Verwendung der globalen Maskierungsschwelle zur Steuerung der Rauschschwellenwerte im Fall eines anstehenden Leerwerdens des Bitreservoirs ist in Fig. 4-6 dargestellt. Insbesondere zeigt Fig. 4 den Schwellenpegel z. B. für die ersten vier Codiererbänder von L, sowie die für jedes der Bänder festgelegte globale Maskierungsschwelle. (Für jeden der anderen Kanäle kann eine ähnliche Darstellung durchgeführt werden.) Es wird angenommen, daß zu dem durch Fig. 4 dargestellten Zeitpunkt das Bitreservoir knapp unter einem Pegel von 80% leer liegt. Somit werden die Standard-Schwellenwerte verwendet. Sobald der Leerpegel 80% erreicht, wird jedoch eine untere Schranke für jede der Schwellen von beispielsweise 50% der globalen Maskierungsschwelle verwendet, so daß jede Schwelle, die kleiner als die untere Schranke ist, vergrößert wird, so daß sie ihr gleich wird. Da für jedes Codiererband eine andere globale Maskierungsschwelle festgelegt wird und die Rauschschwelle für jedes Band verschieden ist, heißt dies, daß ein Teil der Schwellen mehr als andere erhöht wird, und daß bestimmte Schwellen möglicherweise überhaupt nicht erhöht werden. Dies ist in Fig. 5 dargestellt, in der zu sehen ist, daß die Schwelle für die Codiererbänder 1 und 3 nicht erhöht wurden, während die für die Codiererbänder 2 und 4 erhöht wurden. Dieser Ansatz ist insofern vorteilhaft, daß zwar als Folge des Erhöhens der Schwellen zusätzliches Rauschen eingeführt wird, dieses zusätzliche Rauschen aber in Codiererbändern eingeführt wird, in denen die Möglichkeit, daß es vom Zuhörer erkannt wird, am niedrigsten ist. Der Wirkmechanismus wird hier zu einem besseren Zeitpunkt nachfolgend erläutert.
  • Wenn zu einem späteren Zeitpunkt beobachtet wird, daß das Bitreservoir einen sogar noch bedenklicheren Zustand des Leerwerdens erreicht, wird ein höherer Prozentsatz der globalen Maskierungsschwelle, z. B. 75%, als die untere Schranke festgelegt, wodurch eine weitere Zunahme der verschiedenen der Schwellen verursacht wird. Wenn ultimativ die untere Schranke auf die volle globale Maskierungsschwelle festgelegt werden muß und das Bitreservoir weiter leerer wird, dann wird jede der Schwellen weiter bis auf einen Wert erhöht, der durch eine Konstante > 1, multipliziert mit dem relevanten globalen Maskierungsschwellenwert, gegeben wird, so daß weiter psychoakustische Betrachtungen bei der Einstellung der Schwellen implementiert werden (zumindest bis zu einem gewissen Grad). Dies ist in Fig. 6 dargestellt. Nachdem sich das Bitreservoir wieder aufbaut, werden immer niedrigere Prozentsätze der globalen Maskierungsschwelle zur Bestimmung der unteren Schranken der Rauschschwelle wirksam, bis am 80%-Punkt die Schwellen zu ihren Standardwerten zurückkehren.
  • Der tatsächliche Wert der globalen Maskierungsschwelle für jedes Codiererband wird als das Maximum der fünf Eingangskanalschwellen für dieses Band, minus einer Sicherheitsreserve, angenommen. Die Sicherheitsreserve wird wiederum als frequenzabhängige binaurale Maskierungspegeldifferenz oder MLD, die in dem Patent von Johnston definiert wird, plus einer Konstante von 4-5 dB angenommen.
  • Da nun der Wert der globalen Maskierungsschwelle auf diese Weise bestimmt wird, ist man nun in der Lage, zu verstehen, warum der oben beschriebene Ansatz effektiv ist. Es geschieht folgendes: die Technik nutzt die Maskierungsfähigkeit der Signalkomponente in dem gematrixten Kanal aus, dessen Signalkomponente die stärkste zur Maskierung des Rauschens in den anderen gematrixten Kanälen ist.
  • Es gibt mindestens zwei Gründe für die anfängliche Verwendung nur eines Prozentsatzes der globalen Maskierungsschwelle zur Festlegung der unteren Schranken der Rauschschwelle, anstatt des vollen Werts (solange dieser nicht wie oben beschrieben ultimativ benötigt wird). Ein Grund besteht darin, daß, wenn eine volle globale Schwelle verwendet wird, dann das Rauschen möglicherweise nicht für alle Zuhörer in einer Hörraumumgebung vollständig maskiert wird, insbesondere für Zuhörer, die sich in der Nähe der Lautsprecher befinden. Der andere besteht darin, daß die Wahrscheinlichkeit, daß Rauschen in den obenerwähnten heruntergemischten Stereo-Kanälen nicht vollständig maskiert wird, mit zunehmendem Prozentsatz der globalen Maskierungsschwelle, der zur Festlegung der obenerwähnten unteren Schranken verwendet wird, zunimmt.
  • Fig. 7 zeigt einen Teil eines Speichermediums 700 (beispielsweise eines Magnetbands), auf dem gemäß der Erfindung erzeugte PAC-codierte Daten gespeichert werden und aus dem sie nachfolgend gelesen, decodiert und an Zuhörer wie oben in Fig. 1 besprochen präsentiert werden können. Die Daten werden in Rahmen ..., Fi-1, Fi, Fi+1, ... gespeichert, die jeweils einem Block des Eingangssignals entsprechen. Die Rahmen werden sequenziell auf dem Speichermedium gespeichert, um einem vorbestimmten Format zu entsprechen, das sehr ähnlich dem Format ist, das im Stand der Technik für Zweikanal-PAC gelehrt wird. Als Beispiel wird der vollständige Rahmen Fi explizit in der Figur gezeigt. Er weist die folgenden Felder auf: das Sync-Wort 701, das den Start des Rahmens definiert; das Kanal-Flag 702, das die Anzahl von Kanälen in dem Eingangssignal angibt (in diesem Beispiel fünf); das Fenstertyp-Flag 704, das angibt, ob der Rahmen ein langes oder ein kurzes Fenster darstellt; Codierungsbetriebsarten-Flags 706, die angeben, welche der vierzehn Codierungsbetriebsarten zur Codierung des fraglichen Blocks in jedem der Codiererbänder verwendet wurden, wobei die Flags 706 unter Verwendung eines vordefinierten Kodebuchs in Huffman-codierter Form dargestellt werden; dc-Werte 709, die einen jeweiligen dc-Wert für jeden der fünf gematrixten Kanäle darstellen; ein Prädiktorkoeffizienten-Flag 710, dessen Wert, wenn er "1" ist, angibt, daß die Prädiktionskoeffizienten explizit in dem Rahmen spezifiziert werden, und in diesem Fall werden sie in dem Prädiktionskoeffizientenfeld 713 bereitgestellt, und daß, wenn er "0" ist, entweder angibt, daß alle Prädiktionskoeffizienten den Wert 1,0 aufweisen, oder daß sie auf die oben beschriebene Weise im Decodierer berechnet werden sollen, wobei die Wahl zwischen diesen beiden Möglichkeiten beim Entwurf des Systems vorbestimmt wird; und PAC-Datenfelder 714-718, die jeweils die codierten Daten für einen jeweiligen der (in diesem Fall) fünf gematrixten Kanäle M&sub1;(f) bis M&sub5;(f) enthalten. Wie im Stand der Technik (Zweikanal- PAC-Systeme) werden die PAC-codierten Daten in jedem einzelnen der Felder 714-718 der Reihe nach in Huffman- codierter Form dargestellt. Zur Codierung der Daten für die verschiedenen Codiererbänder in jedem Kanal werden verschiedene Huffman-Kode-Kodebücher verwendet, und deshalb enthalten die Daten in jedem der Felder 714-718 außerdem Informationen, die identifizieren, welche Kodebücher zur Codierung welcher Codiererbänder des fraglichen gematrixten Kanals verwendet wurden.
  • Es versteht sich, daß das in Fig. 7 gezeigte Format genauso gut zum Speichern der PAC-Rahmen in anderen Arten von Speichermedien, wie z. B. Compact Disk, optische Platte, Halbleiterspeicher, usw., dienen könnte.
  • Fig. 8 ist eine beispielhafte Ausführungsform des PAC-Decodierers 109 von Fig. 1. Der als eine Sequenz von Rahmen formatierte ankommende Bitstrom (siehe Fig. 7) wird durch den Bitstromanalysierer 801 zu seinen verschiedenen Komponenten analysiert. Obwohl es in der Figur nicht explizit gezeigt ist, führt der Analysierer 801 nicht nur die PAC-codierten Daten dem nächsten Funktionsblock in dem Decodierer (dem Entropiedecodierer 804) zu, sondern führt auch die verschiedenen Flags und anderen Werte, die oben in Verbindung mit Fig. 7 beschrieben wurden, jeder der verschiedenen Komponenten des Decodierers, die diese benötigen, zu. (Ähnlich versteht sich, daß, obwohl es in Fig. 2 nicht explizit gezeigt ist, die Flags und anderen Werte, die möglicherweise durch verschiedene Komponenten des Codierers 104 erzeugt worden sind, soweit sie nicht innerhalb des Quantisierers/Ratenschleifenprozessors 106 selbst erzeugt werden, diesem zugeführt werden, um in das Format jedes Rahmens integriert werden zu können.)
  • Weiter mit Bezug auf die durch den Decodierer 109 ausgeführte Verarbeitung führt der Entropiedecodierer 804 die umgekehrte Funktion des Entropiedecodierers 208 durch und liefert als seine Ausgangssignale die fünf gematrixten Kanäle M&sub1;(f) ... M&sub5;(f). Der Dematrixer 807 stellt aus den gematrixten Kanälen die Frequenzbereichs-Eingangskanäle L, R, C, LS und RS wieder her, die in Fig. 2 als L(f), R(f), C(f), LS(f) und RS(f) bezeichnet werden. Letztere werden dann durch einen Prozessor 808 für inverse modifizierte diskrete Cosinustransformation (Inverse MDCT) verarbeitet, um fünf Zeitbereichskanäle l(t), r(t), c(t), ls(t) und rs(t) zu erzeugen.
  • Die von jedem der in Fig. 8 gezeigten Elemente durchgeführte Verarbeitung, die gerade beschrieben wurde, kann unkompliziert implementiert werden und muß deshalb nicht ausführlich hier beschrieben werden. Tatsächlich ähnelt diese Verarbeitung sehr der im Stand der Technik für Zweikanal-PAC ausgeführten.

Claims (36)

1. Verfahren zum wahrnehmungsbezogenen Codieren eines Audiosignals (101) mit einer Menge von Eingangskanälen (103), mit den folgenden Schritten:
Erzeugen einer Menge von gematrixten Kanälen als Reaktion auf die Eingangskanäle (202, 204, 205) und
wahrnehmungsbezogenes Codieren der gematrixten Kanäle (202, 205, 206, 208), wobei der Schritt des wahrnehmungsbezogenen Codierens das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt;
dadurch gekennzeichnet, daß mindestens ein einzelner der gematrixten Kanäle der Menge, von gematrixten Kanälen Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.
2. Erfindung nach Anspruch 1, mit dem weiteren Schritt des abwechselnden Anlegens a) der wahrnehmungsbezogen codierten gematrixten Kanäle und b) einer wahrnehmungsbezogenen Codierung der Eingangskanäle an einen Ausgang.
3. Erfindung nach Anspruch 1, mit dem weiteren Schritt des abwechselnden Anlegens a) der wahrnehmungsbezogen codierten gematrixten Kanäle und b) einer wahrnehmungsbezogenen Codierung der Eingangskanäle an einen Kommunikationskanal oder ein Speichermedium.
4. Erfindung nach Anspruch 1, wobei in dem Audiosignal die Eingangskanäle im Frequenzbereich dargestellt sind und wobei der Erzeugungsschritt den Schritt des Erzeugens der Menge von gematrixten Kanälen aus den Eingangskanälen dergestalt, daß für jeden einer Reihe von Zeitbereichsblöcken jeder der gematrixten Kanäle durch Frequenzspektrumlinien dargestellt wird, umfaßt.
5. Erfindung nach Anspruch 4, wobei die Frequenzspektrumlinien in mehrere Codiererbänder aufgeteilt werden und wobei die Beträge der Frequenzspektrumlinien jedes Codiererbands durch Werte dargestellt werden, die als Funktion einer diesem Codiererband zugeordneten Rauschschwelle quantisiert werden.
6. Vorrichtung zur Verarbeitung eines Audiosignals (101) mit einer Menge von Eingangskanälen (103), wobei die Vorrichtung folgendes umfaßt:
ein Mittel zum wahrnehmungsbezogenen Codieren (202, 205, 206, 208) einer aus einer vorbestimmten Vielzahl von Mengen von gematrixten Kanälen, die als Reaktion auf die Eingangskanäle erzeugt werden, wobei das Mittel zum wahrnehmungsbezogenen Codieren das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt; und
ein Mittel zum Anlegen (206, 208) der wahrnehmungsbezogen codierten gematrixten Kanäle wahlweise a) an einen Kommunikationskanal (106) oder b) an ein Speichermedium (106),
dadurch gekennzeichnet, daß die Kanäle einer einzelnen der Mengen von gematrixten Kanälen die Eingangskanäle sind und die Kanäle von anderen der Mengen von gematrixten Kanälen mindestens ein einzelnes Element der folgenden Gruppe enthalten: eine Summe von oder eine Differenz zwischen zwei dieser und b) eine Prädiktion von a).
7. Erfindung nach Anspruch 6, wobei in dem Audiosignal die Eingangskanäle für jeden einer Reihe von Zeitbereichsblöcken durch Frequenzspektrumlinien dargestellt werden, die in mehrere Codiererbänder aufgeteilt werden, wobei die Beträge der Frequenzspektrumlinien jedes Codiererbands durch Werte dargestellt werden, die als Funktion einer diesem Codiererband zugeordneten Rauschschwelle quantisiert werden.
8. Verfahren zur Verarbeitung eines wahrnehmungsbezogen codierten Audiosignals, wobei das wahrnehmungsbezogen codierte Audiosignal durch Erzeugen einer Menge von gematrixten Kanälen als Reaktion auf eine Menge von Eingangskanälen (103) erzeugt wurde; unter wahrnehmungsbezogener Codierung der gematrixten Kanäle (202, 205, 206, 208), wobei das wahrnehmungsbezogene Codieren das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt; und unter Anlegen (206) der wahrnehmungsbezogen codierten gematrixten Kanäle an einen Kommunikationskanal (106) oder an ein Speichermedium (106),
mit den folgenden Schritten:
Empfangen (801) der wahrnehmungsbezogen codierten gematrixten Kanäle aus dem Kommunikationskanal (106) oder dem Speichermedium (106),
Decodieren (804) der empfangenen wahrnehmungsbezogen codierten gematrixten Kanäle und
Wiederherstellen der Eingangskanäle (807) aus den decodierten gematrixten Kanälen und Bestimmen, wie die Menge von gematrixten Kanälen als Reaktion auf die Menge von Eingangskanälen erzeugt wurde,
dadurch gekennzeichnet, daß die Menge von gematrixten Kanälen ein gewähltes Element der folgenden Gruppe umfaßt: i) die Eingangskanäle und ii) eine Menge von gematrixten Kanälen, bei der mindestens ein einzelner der gematrixten Kanäle Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.
9. Erfindung nach Anspruch 8, wobei der Schritt des Wiederherstellens den Schritt des Bestimmens, wie die Menge von gematrixten Kanälen als Reaktion auf die Menge von Eingangskanälen erzeugt wurde, umfaßt.
10. Vorrichtung zur Verarbeitung eines wahrnehmungsbezogen codierten Audiosignals, wobei das wahrnehmungsbezogen codierte Audiosignal durch Erzeugen einer Menge von gematrixten Kanälen (202, 204, 205) als Reaktion auf eine Menge von Eingangskanälen (103) erzeugt wurde; unter wahrnehmungsbezogener Codierung der gematrixten Kanäle, wobei das wahrnehmungsbezogene Codieren das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt; und unter Anlegen der wahrnehmungsbezogen codierten gematrixten Kanäle an einen Kommunikationskanal (106) oder an ein Speichermedium (106);
wobei die Vorrichtung folgendes umfaßt:
ein Mittel (801) zum Empfangen der wahrnehmungsbezogen codierten gematrixten Kanäle aus dem Kommunikationskanal (206) oder dem Speichermedium (106),
ein Mittel (804) zum Decodieren der empfangenen wahrnehmungsbezogen codierten gematrixten Kanäle und
ein Mittel (807) zum Wiederherstellen der Eingangskanäle (103) aus den decodierten gematrixten Kanälen;
dadurch gekennzeichnet, daß mindestens ein einzelner der gematrixten Kanäle der Menge von gematrixten Kanälen Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.
11. Erfindung nach Anspruch 10, wobei das Mittel zum Wiederherstellen bestimmt, wie die Menge von gematrixten Kanälen als Reaktion auf die Menge von Eingangskanälen erzeugt wurde.
12. Vorrichtung, in der Informationen gespeichert sind, die ein wahrnehmungsbezogen codiertes Audiosignal mit einer Menge von Eingangskanälen (103) darstellen, wobei das wahrnehmungsbezogen codierte Audiosignal durch die folgenden Schritte erzeugt wurde:
Erzeugen einer Menge von gematrixten Kanälen als Reaktion auf die Eingangskanäle (202, 204, 205) und
wahrnehmungsbezogenes Codieren der gematrixten Kanäle (202, 205, 206, 208), wobei der Schritt des wahrnehmungsbezogenen Codierens das Auswählen von Rauschschwellenwerten auf der Grundlage von Rauschmaskierungskriterien und das Verwenden der Rauschschwellenwerte zur Steuerung der Grobheit der Quantisierung des Audiosignals während der Codierung umfaßt;
dadurch gekennzeichnet, daß mindestens ein einzelner der gematrixten Kanäle der Menge von gematrixten Kanälen Funktion a) eines einzelnen der Eingangskanäle oder ihrer Summe oder der Differenz zwischen zwei von ihnen und b) einer Prädiktion von a) ist.
13. Erfindung nach Anspruch 12, wobei das wahrnehmungsbezogen codierte Audiosignal durch den weiteren Schritt des abwechselnden wahrnehmungsbezogenen Codierens der Eingangskanäle und der gematrixten Kanäle erzeugt wurde.
14. Erfindung nach Anspruch 1 oder Anspruch 6 oder Anspruch 10 oder Anspruch 12, wobei der einzelne der gematrixten Kanäle Funktion der Differenz zwischen a) und b) ist.
15. Erfindung nach Anspruch 1, wobei die Menge von Eingangskanälen einen Links-, einen Rechts- und einen Mittenkanal umfaßt.
16. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle Funktion des Links-Kanals und einer Prädiktion des Links-Kanals ist; wobei ein zweiter der gematrixten Kanäle Funktion des Rechts-Kanals und einer Prädiktion des Rechts- Kanals ist; und wobei ein dritter der gematrixten Kanäle der Mittenkanal ist; wobei jede der Prädiktionen Funktion des Mittenkanals ist.
17. Erfindung nach Anspruch 16, wobei jede der Prädiktionen Funktion einer wahrnehmungsbezogen codierten Version des Mittenkanals ist.
18. Erfindung nach Anspruch 16, wobei jede der Prädiktionen Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Mittenkanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.
19. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle der Links-Kanal ist; wobei ein zweiter der gematrixten Kanäle der Rechts-Kanal ist; und wobei ein dritter der gematrixten Kanäle Funktion des Mittenkanals und einer Prädiktion des Mittenkanals ist, wobei diese Prädiktion Funktion des Links- und des Rechts-Kanals ist.
20. Erfindung nach Anspruch 19, wobei die Prädiktion Funktion von wahrnehmungsbezogen codierten Versionen des Links- und des Rechts-Kanals ist.
21. Erfindung nach Anspruch 19, wobei die Prädiktion Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Links-Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist und weiterhin Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Rechts- Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.
22. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle Funktion der Summe des Links- und des Rechts-Kanals ist; wobei ein zweiter der gematrixten Kanäle Funktion der Differenz zwischen dem Links- und dem Rechts-Kanal ist; und wobei ein dritter der gematrixten Kanäle der Mittenkanal ist.
23. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle Funktion eines Summenkanals und einer Prädiktion des Summenkanals ist; wobei ein zweiter der gematrixten Kanäle Funktion eines Differenzkanals und einer Prädiktion des Differenzkanals ist; und wobei ein dritter der gematrixten Kanäle der Mittenkanal ist; wobei der Summenkanal Funktion der Summe des Links- und des Rechts-Kanals ist, wobei der Differenzkanal Funktion der Differenz zwischen dem Links- und dem Rechts-Kanal ist und jede der Prädiktionen Funktion des Mittenkanals ist.
24. Erfindung nach Anspruch 23, wobei jede der Prädiktionen Funktion einer wahrnehmungsbezogen codierten Version des Mittenkanals ist.
25. Erfindung nach Anspruch 23, wobei jede der Prädiktionen Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Mittenkanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.
26. Erfindung nach Anspruch 15, wobei ein erster der gematrixten Kanäle ein Summenkanal ist; wobei ein zweiter der gematrixten Kanäle ein Differenzkanal ist; und wobei ein dritter der gematrixten Kanäle Funktion des Mittenkanals und einer Prädiktion des Mittenkanals ist; wobei der Summenkanal Funktion der Summe des Links- und des Rechts-Kanals ist, wobei der Differenzkanal Funktion der Differenz zwischen dem Links- und dem Rechts-Kanal ist und die Prädiktion Funktion des Links- und des Rechts- Kanals ist.
27. Erfindung nach Anspruch 26, wobei die Prädiktion Funktion wahrnehmungsbezogen codierter Versionen des Links- und des Rechts-Kanals ist.
28. Erfindung nach Anspruch 26, wobei die Prädiktion Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Links-Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist und weiterhin Funktion des Produkts a) einer wahrnehmungsbezogen codierten Version des Rechts- Kanals mit b) einem jeweiligen Prädiktionskoeffizienten ist.
29. Erfindung nach Anspruch 15, wobei die Menge von Eingangskanälen weiterhin einen Links-Surround- und einen Rechts-Surround-Kanal enthält.
30. Erfindung nach Anspruch 29, wobei ein einzelner der gematrixten Kanäle Funktion des Links- Surround-Kanals und einer Prädiktion des Links- Surround-Kanals ist und wobei ein weiterer der gematrixten Kanäle Funktion des Rechts-Surround- Kanals und einer Prädiktion des Rechts-Surround- Kanals ist.
31. Erfindung nach Anspruch 30, wobei die Links- Surround-Kanal-Prädiktion und die Rechts-Surround- Kanal-Prädiktion jeweils Funktionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.
32. Erfindung nach Anspruch 30, wobei die Links- Surround-Kanal-Prädiktion und die Rechts-Surround- Kanal-Prädiktion jeweils Funktionen wahrnehmungsbezogen codierter Versionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.
33. Erfindung nach Anspruch 29, wobei ein einzelner der gematrixten Kanäle Funktion der Summe des Links-Surround- und des Rechts-Surround-Kanals ist; und wobei ein weiterer der gematrixten Kanäle Funktion der Differenz zwischen dem Links- Surround- und dem Rechts-Surround-Kanal ist.
34. Erfindung nach Anspruch 29, wobei ein einzelner der gematrixten Kanäle Funktion eines Summen- Surround-Kanals und einer Prädiktion des Summen- Surround-Kanals ist; und wobei ein weiterer der gematrixten Kanäle Funktion eines Differenz- Surround-Kanals und einer Prädiktion des Differenz-Surround-Kanals ist; wobei der Summen- Surround-Kanal Funktion der Summe des Links- Surround-Kanals und des Rechts-Surround-Kanals ist und der Differenz-Surround-Kanal Funktion der Differenz zwischen dem Links-Surround-Kanal und dem Rechts-Surround-Kanal ist.
35. Erfindung nach Anspruch 34, wobei die Summen- Surround-Kanal-Prädiktion und die Differenz- Surround-Kanal-Prädiktion jeweils Funktionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.
36. Erfindung nach Anspruch 34, wobei die Summen- Surround-Kanal-Prädiktion und die Differenz- Surround-Kanal-Prädiktion jeweils Funktionen wahrnehmungsbezogen codierter Versionen eines oder mehrerer der Kanäle Links, Rechts und Mitte sind.
DE69432012T 1993-11-23 1994-11-16 Wahrnehmungsgebundene Kodierung von Audiosignalen Expired - Lifetime DE69432012T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/156,495 US5488665A (en) 1993-11-23 1993-11-23 Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels

Publications (2)

Publication Number Publication Date
DE69432012D1 DE69432012D1 (de) 2003-02-20
DE69432012T2 true DE69432012T2 (de) 2003-11-06

Family

ID=22559816

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69432012T Expired - Lifetime DE69432012T2 (de) 1993-11-23 1994-11-16 Wahrnehmungsgebundene Kodierung von Audiosignalen

Country Status (6)

Country Link
US (2) US5488665A (de)
EP (1) EP0655876B1 (de)
JP (1) JP3970342B2 (de)
KR (1) KR100351219B1 (de)
CA (1) CA2117829C (de)
DE (1) DE69432012T2 (de)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
DE4405659C1 (de) * 1994-02-22 1995-04-06 Fraunhofer Ges Forschung Verfahren zum kaskadierten Codieren und Decodieren von Audiodaten
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
KR0174085B1 (ko) * 1995-08-09 1999-04-01 조백제 다채널 오디오 복호화기의 복합 디코딩장치
KR100346734B1 (ko) * 1995-09-22 2002-11-23 삼성전자 주식회사 고속분석필터및합성필터를구비한오디오부호화기및복호화기
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5734729A (en) * 1996-01-17 1998-03-31 Compaq Computer Corporation Apparatus for eliminating audio noise when power is cycled to a computer
ATE232030T1 (de) * 1996-04-10 2003-02-15 Koninkl Philips Electronics Nv Kodiervorrichtung zum kodieren einer vielzahl von informationssignalen
KR100472402B1 (ko) * 1996-04-10 2005-07-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 복수의정보신호의부호화장치및방법
CN1106085C (zh) * 1996-04-26 2003-04-16 德国汤姆逊-布朗特公司 对数字音频信号编码的方法和装置
EP0803989B1 (de) * 1996-04-26 1999-06-16 Deutsche Thomson-Brandt Gmbh Verfahren und Apparat zur Kodierung eines digitalen Audiosignals
DE19628292B4 (de) 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
JP3215053B2 (ja) * 1996-09-11 2001-10-02 富士通株式会社 移動通信装置
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
TW429700B (en) * 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6266419B1 (en) * 1997-07-03 2001-07-24 At&T Corp. Custom character-coding compression for encoding and watermarking media content
US6111844A (en) * 1997-07-03 2000-08-29 At&T Corp. Quality degradation through compression/decompression
JP3279228B2 (ja) * 1997-08-09 2002-04-30 日本電気株式会社 符号化音声復号装置
US6091773A (en) * 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
US6405338B1 (en) * 1998-02-11 2002-06-11 Lucent Technologies Inc. Unequal error protection for perceptual audio coders
US6141645A (en) * 1998-05-29 2000-10-31 Acer Laboratories Inc. Method and device for down mixing compressed audio bit stream having multiple audio channels
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
US20060265091A1 (en) * 1998-08-14 2006-11-23 Bruce Mihura Audio entertainment system for storing and playing audio information
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
JP4831115B2 (ja) * 1998-10-13 2011-12-07 日本ビクター株式会社 音声符号化方法及び音声復号方法
US6931372B1 (en) * 1999-01-27 2005-08-16 Agere Systems Inc. Joint multiple program coding for digital audio broadcasting and other applications
US6735561B1 (en) * 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
ATE387044T1 (de) * 2000-07-07 2008-03-15 Nokia Siemens Networks Oy Verfahren und vorrichtung für die perzeptuelle tonkodierung von einem mehrkanal tonsignal mit verwendung der kaskadierten diskreten cosinustransformation oder der modifizierten diskreten cosinustransformation
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
AU2002325063B2 (en) * 2001-07-19 2007-11-01 Personal Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
US6987889B1 (en) 2001-08-10 2006-01-17 Polycom, Inc. System and method for dynamic perceptual coding of macroblocks in a video frame
US6975774B2 (en) * 2002-03-18 2005-12-13 Tektronix, Inc. Quantifying perceptual information and entropy
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
KR100718132B1 (ko) * 2005-06-24 2007-05-14 삼성전자주식회사 오디오 신호의 비트스트림 생성 방법 및 장치, 그를 이용한부호화/복호화 방법 및 장치
US7917176B2 (en) * 2006-02-14 2011-03-29 Nec Laboratories America, Inc. Structured codebook and successive beamforming for multiple-antenna systems
WO2008045846A1 (en) * 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
US8041042B2 (en) * 2006-11-30 2011-10-18 Nokia Corporation Method, system, apparatus and computer program product for stereo coding
EP2250641B1 (de) * 2008-03-04 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum mischen mehrerer eingabedatenströme
RU2497204C2 (ru) * 2008-05-23 2013-10-27 Конинклейке Филипс Электроникс Н.В. Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
FR2943867A1 (fr) * 2009-03-31 2010-10-01 France Telecom Traitement d'egalisation de composantes spatiales d'un signal audio 3d
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
EP2830053A1 (de) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mehrkanaliger Audiodecodierer, mehrkanaliger Audiocodierer, Verfahren und Computerprogramm mit restsignalbasierter Anpassung einer Beteiligung eines dekorrelierten Signals
EP2830051A3 (de) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer, Audiodecodierer, Verfahren und Computerprogramm mit gemeinsamen codierten Restsignalen

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
GB8913758D0 (en) * 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5377051A (en) * 1993-01-13 1994-12-27 Hitachi America, Ltd. Digital video recorder compatible receiver with trick play image enhancement
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels

Also Published As

Publication number Publication date
JPH07199993A (ja) 1995-08-04
JP3970342B2 (ja) 2007-09-05
EP0655876B1 (de) 2003-01-15
KR100351219B1 (ko) 2003-01-24
CA2117829A1 (en) 1995-05-24
DE69432012D1 (de) 2003-02-20
EP0655876A1 (de) 1995-05-31
KR950016011A (ko) 1995-06-17
US5717764A (en) 1998-02-10
CA2117829C (en) 1998-06-30
US5488665A (en) 1996-01-30

Similar Documents

Publication Publication Date Title
DE69432012T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
EP1687809B1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
EP0750811B1 (de) Verfahren zum codieren mehrerer audiosignale
EP0667063B2 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
EP0910928B1 (de) Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion
DE69834010T2 (de) Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69326492T2 (de) Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen
DE4111131C2 (de) Verfahren zum Übertragen digitalisierter Tonsignale
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
DE69311569T2 (de) Adaptive Rematrixierung von matrixförmigen Audiosignalen
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
DE60110679T2 (de) Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE60117471T2 (de) Breitband-signalübertragungssystem
DE102005014477A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
EP0611516B1 (de) Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE19742655C2 (de) Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE69106580T2 (de) Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition