DE69432012T2 - Wahrnehmungsgebundene Kodierung von Audiosignalen - Google Patents
Wahrnehmungsgebundene Kodierung von AudiosignalenInfo
- Publication number
- DE69432012T2 DE69432012T2 DE69432012T DE69432012T DE69432012T2 DE 69432012 T2 DE69432012 T2 DE 69432012T2 DE 69432012 T DE69432012 T DE 69432012T DE 69432012 T DE69432012 T DE 69432012T DE 69432012 T2 DE69432012 T2 DE 69432012T2
- Authority
- DE
- Germany
- Prior art keywords
- channels
- channel
- matrixed
- function
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims description 30
- 230000000873 masking effect Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 8
- 206010042602 Supraventricular extrasystoles Diseases 0.000 description 15
- 238000013459 approach Methods 0.000 description 9
- 239000002131 composite material Substances 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Algebra (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
- Die vorliegende Erfindung betrifft die Verarbeitung von Informationssignalen und insbesondere Techniken zur effizienten Codierung von Audiosignalen, wie z. B. Audiosignalen, die Sprache und Musik darstellen.
- Viele Bemühungen in den letzten Jahren haben sich mit der sogenannten wahrnehmungsbezogenen Audiocodierung oder PAC beschäftigt. Gemäß dieser Technik wird jeder einer Abfolge von Zeitbereichsblöcken eines Audiosignals im Frequenzbereich codiert. Genauer gesägt wird die Frequenzbereichsdarstellung jedes Blocks in Codiererbänder aufgeteilt, die jeweils einzeln auf der Grundlage psychoakustischer Kriterien dergestalt codiert werden, daß ein Audiosignal wesentlich "komprimiert" ist, daß also die Anzahl zur Darstellung des Audiosignals erforderlicher Bit wesentlich kleiner als bei dem Fall wäre, wenn das Audiosignal in einem simplistischeren digitalen Format, z. B. in Form von PCM-Wörtern, dargestellt werden würde.
- Wenn das Audiosignal zwei oder mehr Eingangskanäle, wie z. B. Links- und Rechts-Kanäle von stereophonischer (Stereo-)Musik umfaßt, wird die oben beschriebene wahrnehmungsbezogene Codierung an einer gleichen Anzahl sogenannter gematrixter Kanäle ausgeführt. Bei der einfachsten Implementierung wird jeder gematrixte Kanal von einem jeweiligen Eingangskanal abgeleitet. Im Fall von Stereomusik würde dies also z. B. bedeuten, daß die wahrnehmungsbezogene Codierung die Frequenzbereichsdarstellung des linken Stereoeingangskanals über die Zeit hinweg, die hier als "L" bezeichnet wird, codiert und separat die Frequenzbereichsdarstellung des rechten Stereoeingangskanals über die Zeit hinweg, die hier als "R" bezeichnet wird. Es kann jedoch eine weitere Komprimierung erzielt werden, wenn die Eingangskanäle stark miteinander korreliert sind, wie z. B. fast immer bei Stereomusikkanälen der Fall ist, indem die für jedes Codiererband ausgeführte Codierung zwischen zwei Codierungsbetriebsarten umgeschaltet wird, bei denen verschiedene Mengen gematrixter Kanäle verwendet werden. Bei einer der Betriebsarten umfaßt die Menge zweier gematrixter Kanäle einfach die Eingangskanäle L und R. In der anderen Betriebsart umfaßt die Menge zweier gematrixter Kanäle S = (L + R)/2 und D = (L - R)/2. Die Kanäle S und D werden als Summen-/Differenzkanäle bezeichnet. Diese Technik wird in dem US-Patent 5,285,498, ausgegeben am 8. Februar 1994 an J. D. Johnston, das im folgenden als das "Patent von Johnston" bezeichnet wird, gelehrt.
- In letzer Zeit wurde in der Technik die Aufmerksamkeit der wahrnehmungsbezogenen Codierung von Audiosignalen mit mehr als zwei Kanälen, wie z. B. Fünfkanal-Audio, gewidmet. (Wie für Fachleute im Verlauf dieser Beschreibung erkennbar werden wird, kann die Erfindung jedoch auch in einem System mit einer anderen Anzahl als fünf Kanälen implementiert werden.) Die Eingangskanäle eines Fünfkanal-Audiosystems umfassen in der Regel drei "Front"-Kanäle und zwei "Back"-Kanäle. Die Front-Kanäle enthalten die herkömmlichen Links- und Rechts-Stereokanäle plus einen Mittenkanal, dessen Frequenzbereichsdarstellung über die Zeit hinweg hier als C bezeichnet wird. Diese Kanäle sollen durch Lautsprecher wiedergegeben werden, die vor dem Zuhörer links, rechts bzw. direkt vor ihm positioniert sind. Die Back-Kanäle werden als "Links-Surround" und "Rechts-Surround" bezeichnet, deren Frequenzbereichsdarstellungen über die Zeit hinweg hier als LS und RS bezeichnet werden. Diese Kanäle sollen durch Lautsprecher wiedergegeben werden, die hinter dem Zuhörer links bzw. rechts angeordnet sind.
- Die obenerwähnten Lehren des Patents von Johnston bezüglich des Umschaltens zwischen Codierungsbetriebsarten für die Codierung von Stereo-, d. h. Zweikanal- Audiosignalen, kann auch auf ein Fünfkanalsystem angewandt werden, um wiederum gegenüber der von der wahrnehmungsbezogenen Codierung selbst bereitgestellten, eine weitere Komprimierung bereitzustellen. Z. B. kann man die beiden Front-Kanäle zwischen zwei Betriebsarten und die Back-Kanäle zwischen zwei Betriebsarten umschalten. Die beiden Codierungsbetriebsarten für die Front-Kanäle wären a) eine Betriebsart, deren Menge gematrixter Kanäle L, R und C umfaßt, und b) eine Betriebsart, deren Menge gematrixter Kanäle S, D und C umfaßt. Ähnlich wären die beiden Codierungsbetriebsarten für die Back-Kanäle a) eine Betriebsart, deren Menge gematrixter Kanäle LS und RS umfaßt, und b) eine Betriebsart, deren Menge gematrixter Kanäle Back-Summen-/Differenzkanäle SS und SD umfaßt, die durch SS = (LS + RS)/2 und SD = (LS - RS)/2 gegeben werden.
- Der Verfasser hat jedoch einen komplizierteren Betriebsartenumschaltungsansatz für die Codierung von mehr als zwei Kanälen, z. B. fünf Kanälen, erfunden. Gemäß der Erfindung läßt sich eine zusätzliche Komprimierung erreichen, indem zwischen mehreren Betriebsarten umgeschaltet wird, von denen mindestens eine in ihrer gematrixten Kanalmenge mindestens einen gematrixten Kanal enthält, der durch einen Eingangskanal oder einen Summen-/Differenzkanal gegeben wird, von dem eine Prädiktion von sich selbst subtrahiert wurde. Wenn eine Prädiktion eine "gute" Prädiktion ist, d. h. gut mit dem vorhergesagten Kanal übereinstimmt, dann ist die Anzahl zur Darstellung ihrer Differenz notwendiger Bit wesentlich kleiner als die zur direkten Darstellung des vorhergesagten Kanals erforderliche, so daß die obenerwähnte zusätzliche Komprimierung bereitgestellt wird.
- Ein Beispiel für eine solche Betriebsart für die Front- Kanäle umfaßt die folgende Menge dreier gematrixter Kanäle:
- wobei und vorhergesagte Werte der Eingangskanäle L bzw. R sind, wie später ausführlicher beschrieben werden wird. Ein anderes Beispiel für eine solche Betriebsart für die Back-Kanäle umfaßt die folgende Menge zweier gematrixter Kanäle:
- wobei
- vorhergesagte Werte für Summen-/Differenzkanäle SS bzw. SD sind.
- Wie aus den obigen Beispielen ersichtlich wird, wird bei bevorzugten Ausführungsformen die Prädiktion für einen bestimmten Eingangskanal oder Summen-/Differenzkanal von mindestens einem anderen "vorhersagenden" Kanal abgeleitet. Für die Front-Kanäle gibt es beispielsweise insgesamt sechs Codierungsbetriebsarten (die explizit in der nachfolgenden ausführlichen Beschreibung dargelegt werden), in denen C beispielsweise als ein vorhersagender Kanal für L, R, S und D verwendet wird, während L und R zusammen als vorhersagende Kanäle für C verwendet werden. Für die Back-Kanäle gibt es beispielsweise insgesamt acht Codierungsbetriebsarten (die ebenfalls nachfolgend ausführlich dargelegt werden), in denen alle drei Front-Kanäle als vorhersagende Kanäle für LS, RS, SS und DS entweder für sich oder in verschiedenen Kombinationen verwendet werden. Prädiktionen basieren vorzugsweise auf den codierten Werten der vorhersagenden Kanäle, anstelle ihrer tatsächlichen Werte, z. B. auf anstelle von C. Dadurch können die Eingangskanäle ohne Einführung eines Quantisierungsartefakts decodiert werden.
- Bei bevorzugten Ausführungsformen erfolgt die Auswahl, welche Codierungsbetriebsart für jedes Codiererband verwendet wird, durch Bestimmung, welche der Betriebsarten zu ihrer Codierung die wenigsten Bit erfordert.
- Fig. 1 ist ein Blockschaltbild eines Systems, in dem die vorliegende Erfindung beispielhaft implementiert ist;
- Fig. 2 ist ein Blockschaltbild des in dem System von Fig. 1 verwendeten wahrnehmungsbezogenen Audiocodierers;
- Fig. 3 ist ein Flußdiagramm eines in dem die Prinzipien der Erfindung implementierenden wahrnehmungsbezogenen Audiocodierers durchgeführten Prozesses;
- Fig. 4-6 zeigen einen neuartigen Aspekt des wahrnehmungsbezogenen Audiocodierers, der mit der Verwendung einer globalen Maskierungsschwelle zusammenhängt;
- Fig. 7 zeigt das Format der PAC-codierten Audiosignale; und
- Fig. 8 ist ein Blockschaltbild des in dem System von Fig. 1 verwendeten wahrnehmungsbezogenen Audiodecodierers.
- Um die vorliegende Offenlegung zu vereinfachen, liefern die folgenden Patente und Veröffentlichungen nützliche Hintergrundinformationen: US-Patent 5,040,217, ausgegeben am 13. August 1991, von K. Brandenburg et al. US-Patent 5,341,457, ausgegeben am 23. Aug. 1994, an J. L. Hall et al.; J. D. Johnston, Transform Coding of Audio Signals Using Perceptual Nolse Criteria, IEEE Journal on Selected Areas in Communications, Bd. 6, Nr. 2 (Februar 1988); International Patent Application (PCT) WO 88/01811, eingereicht am 10. März 1988; Aspec: Adaptive Spectral Entropy Coding of High Quality Music Signals, AES 90th Convention (1991); Johnston, J., Estimation of Perceptual Entropy Using Noise Masking Criteria, ICASSP, (1988); J. D. Johnston, Perceptual Transform Coding of Wideband Stereo Signals, ICASSP (1989); E. F. Schroeder und J. J. Platte, "'MSC'": Stereo Audio Coding with CD-Quality and 256 kBIT/SEC," IEEE Trans. on Consumer Electronics, Bd. CE-33, Nr. 4, November 1987; und Johnston, Transform Coding of Audio Signals Using Noise Criteria, Bd. 6, Nr. 2, IEEE J.S.C.A. (Februar 1988).
- Der Klarheit halber wird die beispielhafte Ausführungsform der vorliegenden Erfindung als einzelne Funktionsblöcke umfassend dargestellt (einschließlich als "Prozessoren" benannte Funktionsblöcke). Die von diesen Blöcken dargestellten Funktionen können entweder durch Verwendung gemeinsam benutzter oder eigener Hardware bereitgestellt werden, darunter u. a. Hardware, die Software ausführen kann. Beispielhafte Ausführungsformen können Hardware für digitale Signalverarbeitung (DSP) und die nachfolgenden Operationen durchführende Software umfassen. Außerdem können höchstintegrierte (VLSI-)Hardwareausführungsformen der vorliegenden Erfindung sowie hybride DSP/VLSI- Ausführungformen bereitgestellt werden.
- Fig. 1 zeigt ein Gesamtblockschaltbild eines Systems, in dem die vorliegende Erfindung implementiert ist. In Fig. 1 wird ein analoges Audiosignal auf der Leitung 101 einem Vorprozessor 102 zugeführt und dort abgetastet (in der Regel mit 48 KHz) und auf standardmäßige Weise in ein digitales PCM-Signal (Pulse Code Modulation) mit 16 Bit pro Abtastwert auf der Leitung 103 umgesetzt. Das PCM-Signal wird einem wahrnehmungsbezogenen Audiocodierer ("PAC") 104 zugeführt, der das PCM-Signal komprimiert und das komprimierte PAC-Signal auf der Leitung 105 entweder an einen Kommunikationskanal oder an ein Speichermedium 106 ausgibt. Bei letzterem kann es sich z. B. um ein Magnetband, eine Compact Disk oder ein anderes Speichermedium handeln. Aus dem Kommunikationskanal oder dem Speichermedium wird das komprimierte PAC- codierte Signal auf der Leitung 107 einem wahrnehmungsbezogenen Audiodecodierer 108 zugeführt, der das komprimierte PAC-codierte Signal dekomprimiert und auf der Leitung 109 ein PCM-Signal ausgibt, das eine digitale Darstellung des ursprünglichen Analogsignals ist. Aus dem wahrnehmungsbezogenen Audiodecodierer wird das PCM-Signal auf der Leitung 108 einem Nachprozessor 110 zugeführt, der eine analoge Darstellung erzeugt.
- Eine beispielhafte Ausführungsform des wahrnehmungsbezogenen Audiocodierers 104 ist in Fig. 2 als Blockschaltbild gezeigt. Der wahrnehmungsbezogene Audiocodierer von Fig. 2 kann vorteilhafterweise als eine Analysefilterbank 202, einen wahrnehmungsbezogenen Modellprozessor 204, einen zusammengesetzten Codierer 205, einen Quantisierer/Ratenschleifenprozessor 206 und einen Entropiecodierer 208 umfassend betrachtet werden.
- Die Struktur und Funktionsweise der verschiedenen Komponenten des wahrnehmungsbezogenen Audiocodierers 104 gleichen im allgemeinen der Struktur und Funktionsweise gleicher Komponenten in Fig. 2 des Patents von Johnston bei der Verarbeitung von Stereosignalen und werden deshalb hier nur soweit ausführlich beschrieben, wie es für eine Erläuterung der vorliegenden Erfindung notwendig ist. Dazu gehört eine Beschreibung des zusammengesetzten Codierers 205, für den in Fig. 2 kein explizites Gegenstück des Patents von Johnston gezeigt ist (obwohl seine Funktionalität in bezug auf das Umschalten zwischen Codierungsbetriebsarten implizit in der Analysefilterbank 202 des Patents von Johnston ausgeführt wird).
- Nunmehr also mit Bezug auf Fig. 2 ist das analoge Audioeingangssignal auf der Leitung 103 beispielsweise ein Fünfkanalsignal, das im Zeitbereich PCM-Abtastwerte einer Menge von Eingangskanälen umfaßt, wobei es sich dabei um die Kanäle Links, Rechts und Mitte-Front und Links-Surround und Rechts-Surround-Back handelt, mit den Bezeichnungen l(t), r(t), c(t), ls(t) bzw. rs(t). Die Analysefilterbank 202 empfängt diese Abtastwerte und teilt sie in Zeitbereichsblöcke auf. Genauer gesagt schaltet die Filterbank 202 zwischen zwei Fensterlängen für die Blöcke um: einem "kurzen" Fenster mit 128 Zeitabtastwerten und einem "langen" Fenster mit 1024 Zeitabtastwerten. Für jeden Block führt die Filterbank 202 eine modifizierte diskrete Cosinustransformation getrennt an jedem der fünf Kanäle durch, um eine Frequenzbereichsdarstellung jedes Kanals für den fraglichen Block bereitzustellen. Die Frequenzbereichsdarstellung jedes Kanals enthält 1024 gleichförmig beabstandete Frequenzspektrumlinien, die für die Blöcke mit langer Fensterlänge in 49 Codiererbänder aufgeteilt werden, und für die Blöcke mit kurzer Fensterlänge 128 gleichförmig beabstandete Frequenzspektrumlinien, die in 14 Codiererbänder aufgeteilt werden. Die Frequenzbereichsdarstellungen der Eingangskanäle Links, Rechts, Mitte, Links-Surround und Rechts-Surround werden in den Figur als L(f), R(f), C(f), LS(f) und RS(f) bezeichnet, werden hier aber der Einfachheit halber im folgenden als L, R, C, LS und RS bezeichnet.
- Die Ausgangssignale der Analysefilterbank 202 werden an einen zusammengesetzten Codierer 205 angelegt, der auf eine nachfolgend beschriebene Weise fünf gematrixte Kanäle M&sub1;(f)-M&sub5;(f) erzeugt, die an den Quantisierer/Ratenschleifenprozessor 206 angelegt werden. Dieser codiert die gematrixten Kanäle durch: a) Erzeugung binärer Daten, die den vorzeichenbehafteten Betrag jeder der Frequenzspektrumlinien jedes gematrixten Kanals für einen gegebenen Block darstellen, und b) Formatieren dieser Daten zusammen mit anderen Informationen, die der Decodierer benötigt. Zu diesen Daten gehören verschiedene Elemente von "Verwaltungs"-Daten, die in dem Patent von Johnston und auch im folgenden beschrieben werden, sowie Daten, die im Verlauf der Implementierung der vorliegenden Erfindung erzeugt werden, darunter z. B. eine Anzeige, welche Codierungsbetriebsart zur Codierung jedes Codiererbands in einem gegebenen Block verwendet wurde, wie nachfolgend beschrieben wird, sowie die Werte bestimmter Prädiktionskoeffizienten, die ebenfalls später beschrieben werden.
- Das Ausgangssignal des Quantisierers/Ratenschleifenprozessors 206 wird an den Entropiecodierer 208 angelegt. Letzterer wirkt in Verbindung mit ersterem, um eine noch weitere Komprimierung zu erzielen.
- Wie bereits erwähnt, umfaßt das Ausgangssignal des zusammengesetzten Codierers 205 fünf gematrixte Kanäle. Der zusammengesetzte Codierer 205 besitzt eine Anzahl von Codierungsbetriebsarten, die jeweils durch eine verschiedene Menge gematrixter Kanäle gekennzeichnet sind, wobei die verschiedenen Codierungsbetriebsarten einzeln für jedes Codiererband auf noch zu beschreibende Weise aufgerufen werden. Ein Teil der gematrixten Kanäle in einem Teil der Betriebsarten sind die Eingangskanäle L, R, C, LS und RS. Andere der gematrixten Kanäle sind die sogenannten Summen-/Differenzkanäle S = (L + R)/2, D = (L - R)/2, SS = (LS + RS/2 und SD = (LS - RS)/2.
- Gemäß der vorliegenden Erfindung umfaßt jedoch mindestens eine der Betriebsarten mindestens einen gematrixten Kanal, der durch einen Eingangskanal oder einen Summen-/Differenzkanal gegeben wird, von dem eine Prädiktion von sich selbst subtrahiert wurde. Bei der vorliegenden beispielhaften Ausführungsform werden zur Codierung der Front-Kanäle sechs Betriebsarten bereitgestellt. Drei, bei denen die Front-Eingangskanäle L, R und C direkt auftreten, lauten
- Die anderen drei, bei denen die Front- Summen-/Differenzkanäle S und D auftreten, lauten
- Für die Back-Kanäle werden acht Betriebsarten bereitgestellt. Vier, bei denen die Back-Kanäle LS und RS direkt auftreten, lauten
- Die anderen vier, bei denen die Back-Summen-/Differenzkanäle SS und DS auftreten, lauten
- Bei den obigen Codierungsbetriebsarten sind die Terme, die von den Eingangs- und Summen-/Differenzkanälen L, R, C, S, D, LS, RS, SS und DS subtrahiert werden, tatsächlich vorhergesagte Werte davon. Genauer gesagt wird, wie ersichtlich ist, die Prädiktion für einen bestimmten Eingangskanal oder Summen-/Differenzkanal von mindestens einem anderen "vorhersagenden" Kanal abgeleitet. Für die Front-Kanäle wird beispielsweise C als ein vorhersagender Kanal für L, R, S und D verwendet, während L und R zusammen als vorhersagende Kanäle für C verwendet werden. Für Back-Kanäle werden alle drei Front-Kanäle beispielsweise als vorhersagende Kanäle für LS, RS, SS und SD verwendet, und zwar entweder für sich oder in verschiedenen Kombinationen. Das "^" über den vorhersagenden Kanälen, z. B. , bedeutet, daß die Prädiktionen auf den codierten Werten der vorhersagenden Kanäle basieren, die durch den Quantisierer/Ratenschleifenprozessor 206 erzeugt und über die Leitung 216 zu dem zusammengesetzten Codierer 205 zurückgeführt werden, anstatt auf der Grundlage ihrer tatsächlichen Werte. Der Grund dafür ist wie folgt: Erstens dient der codierte vorhersagende Kanal praktisch genauso gut als Prädiktor wie der uncodierte Kanal, so daß dadurch kein Schaden entsteht. Es wird jedoch angemerkt, daß der vorhergesagte Wert jedes codierten Kanals in dem Decodierer zurückaddiert werden muß. Das heißt, L wird aus dem gesendeten L - durch Addieren von zu dem empfangenen wiederhergestellt. Im Decodierer ist nur und nicht C verfügbar. Man kann somit dem empfangenen codierten Kanal in dem Decodierer das zurückaddieren, was von ihm im Codierer subtrahiert wurde. Wenn im Codierer der uncodierte vorhersagende Kanal verwendet werden würde, würde nachteilhafterweise im Decodierer ein Quantisierungsrauschartefakt eingeführt.
- Die skalaren Prädiktionskoeffizienten , usw. können mit vielfältigen verschiedenen Kriterien berechnet werden. Bei der einfachsten Implementierung können diese alle auf "1" oder eine beliebige andere Konstante, die kleiner als "1" ist, gesetzt werden. Tatsächlich könnte ein Teil dieser Koeffizienten auf Null gesetzt werden, wenn die Prädiktion, von der sie ein Teil sind, erwartungsgemäß sehr klein sein wird. Dies wäre z. B. für die Prädiktion eines Differenzgematrixten Kanals, wie z. B. D oder DS, der Fall, da diese gematrixten Kanäle selbst erwartungsgemäß Werte um Null aufweisen werden.
- Bei einem etwas komplexeren System können die Prädiktionskoeffizienten für jeden Block (obwohl nur eine Koeffizientenmenge für alle Codiererbänder berechnet wird) mit einem Kriterium des minimalen mittleren quadratischen Fehlers (mmse) oder einem wahrnehmungsbezogen gewichteten mmse-Kriterium berechnet und als Teil des Bitstroms, der von dem Quantisierer/Ratenschleifenprozessor 206 ausgegeben wird, übertragen werden (wobei die Entscheidung über die zusammengesetzte Codierung immer noch für jedes der Codiererbände unabhängig ist). Der Grund für die Notation der Koeffizienten mit einem "^", z. B. , besteht darin, daß, wenn ihre Werte berechnet werden, diese Werte, anstatt Konstanten zu sein, notwendigerweise codiert, d. h. quantisiert, werden, wenn sie gespeichert oder in digitaler Form gesendet werden, wobei die Notation "^" dies anzeigt. Bei einem noch komplexeren System werden die Prädiktionskoeffizienten für jedes der Codiererbänder getrennt abgeschätzt. Ein solches Schema ist attraktiv, wenn der Prädiktionsgewinn aufgrund von Zeitverzögerungen zwischen verschiedenen Kanälen gering ist. Das Senden von Prädiktionskoeffizienten für jedes der Codiererbänder kann jedoch relativ kostspielig sein. Zum Glück legen Experimente nahe, daß Koeffizienten aus dem vorherigen Block mit relativ geringem Verlust an Prädiktionsgewinn verwendet werden können. Die Prädiktionskoeffizienten können bei einem solchen System deshalb sowohl im Codierer als auch im Decodierer im Rückwärtsverfahren aus den decodierten Werten des vorherigen Blocks berechnet werden.
- Wie aus den obigen Gleichungen (1), (2), (3) und (4) hervorgeht, werden Summen-/Differenzkanäle nur zwischen Paaren von Front-Kanälen oder Paaren von Back-Kanälen gebildet. Komplexere Kombinationen oder "Basistransformationen", bei denen vielleicht drei oder mehr Eingangskanäle und/oder vielleicht Summen und Differenzen zwischen Front- und Back-Kanälen auftreten, könnten sich vom Komprimierungsstandpunkt aus gesehen als vorteilhaft erweisen. Es wird jedoch bevorzugt, solche komplexen Basistransformationen auszuschließen, da man dann sicherstellt, daß die Quantisierungsrauschmaskierung, die ein Antriebsprinzip der wahrnehmungsbezogenen Codierung ist, nicht nur in einer Hörraumumgebung mit fünf Lautsprechern effektiv ist, sondern auch im Fall einer sogenannten Stereo-Herabmischung der fünf Eingangskanäle zu zwei Kanälen zum Beispiel zur Kopfhörerwiedergabe. Die komplexeren Basistransformationen erfordern jedoch gewöhnlich die Verwendung niedrigerer Rauschschwellen (nachfolgend besprochen) für die Codierung, wodurch weniger Komprimierung erzielt werden kann.
- Es werden nun die folgenden Fragen behandelt: a) wie wird die Codierung der fünf gematrixten Kanäle einer bestimmten Codierungsbetriebsart ausgeführt und b) wie wird entschieden, welche Betriebsart verwendet werden soll, um ein bestimmtes Codiererband für einen gegebenen Block zu codieren.
- Insbesondere beschreibt das Patent von Johnston, wie für jeden Block der wahrnehmungsbezogene Modellprozessor für jedes Codiererband eine Rauschschwelle für jeden gematrixten Kanal erzeugt, wobei diese Schwelle ein kritischer Parameter für den Quantisierer/Ratenschleifenprozessor bei seiner Codierung des jeweiligen gematrixten Kanals ist. Für jedes Codiererband für ein zweikanaliges System sind dann vier Rauschschwellen verfügbar, und zwar jeweils eine für L, R, S und D. Die Rauschschwellen werden über die Leitung 214 durch den wahrnehmungsbezogenen Modellprozessor 204 dem zusammengesetzten Codierer 205 zugeführt. Wenn L und R die codierten Kanäle für ein bestimmtes Codiererband während einer Codierungsbetriebsart des Patents von Johnston sind, werden ihre jeweiligen Schwellen zur Codierung dieser Kanäle verwendet. Ähnlich werden, wenn S und D die codierten Kanäle während der anderen Codierungsbetriebsart sind, ihre jeweiligen Schwellen zur Codierung dieser Kanäle verwendet.
- Bei der vorliegenden beispielhaften Ausführungsform sind neun Schwellen pro Codiererband verfügbar. Sie sind die Schwellen, die den fünf Eingangskanälen L, R, C, LS und RS und den vier Summen-/Differenzkanälen S, D, SS und DS entsprechen. Wenn die gewählte Codierungsbetriebsart einen Eingangskanal oder Summen-/Differenzkanal als einen der gematrixten Kanäle enthält, wird offensichtlich die entsprechende Schwelle verwendet. Zusätzlich soll die Schwelle, die einem bestimmten Eingangs-- oder Summen-/Differenzkanal zugeordnet ist, zur Codierung jedes gematrixten Kanals verwendet werden, der eine Prädiktion dieses Eingangs- oder Summen-/Differenzkanals enthält. Zum Beispiel wird die Schwelle für L auch für den gematrixten Kanal L - verwendet. Die Art und Weise der Erzeugung der neun Schwellen für jedes Codiererband während jedes Blocks ist eine einfache Anwendung der Techniken, die in dem Patent von Johnston für die Erzeugung seiner vier Schwellen beschrieben werden, und eine weitere Erläuterung dieses Punkts ist also nicht notwendig.
- Die Art und Weise der Auswahl der bestimmten Codierungsbetriebsart ist durch das Flußdiagramm von Fig. 3 dargestellt. Das Flußdiagramm stellt die Verarbeitung dar, die diesbezüglich für die Front- Kanäle und für ein bestimmtes Codiererband ausgeführt wird. Sowohl für die Front- als auch die Back-Kanäle für jedes der Codiererbänder wird einzeln eine ähnliche Verareitung ausgeführt. Genauer gesagt betreffen die Elemente in [] die Verarbeitung, die für die Back- Kanäle ausgeführt wird.
- Zu Anfang werden die oben erwähnten neun Schwellen durch den wahrnehmungsbezogenen Modellprozessor 204 (Block 301) erzeugt. In dem zusammengesetzten Codierer 205 wird dann entschieden, ob die Codierungsbetriebsart für die Front-Kanäle von einem Typ sein sollte, bei dem Eingangskanäle oder Summen-/Differenzkanäle auftreten, d. h. eine der Betriebsarten (1) oder eine der Betriebsarten (2). Ein Kriterium, das beim Treffen dieser Entscheidung verwendet werden kann, besteht darin, die Schwellen für L und R zu vergleichen (Block 303). Wenn sie sich um mehr als einen vorbestimmten Betrag, wie z. B. 2 dB, unterscheiden, wird Eingangskanalcodierung verwendet, d. h. eine der drei Betriebsarten in (1) (Block 311). Wenn sie sich nicht um mehr als den vorbestimmten Betrag unterscheiden, besteht ein Ansatz, der hier nicht implementiert wird, darin, sofort Summen-/Differenzcodierung, d. h. eine der drei Betriebsarten in (2), zu wählen. Hier wird jedoch ein komplizierterer Ansatz verwendet. Insbesondere wird erkannt, daß die Verwendung von gematrixten Summen-/Differenzkanälen erwünscht ist, wenn L und R stark korreliert sind, und zwar nicht nur a) weil sich in diesem Fall ein hoher Komprimierungsgrad erzielen läßt, sondern auch b) weil dadurch die sogenannte Rauschlokalisierung gesteuert wird. Die Rauschlokalisierungssteuerung kann jedoch auch durch geeignetes Senken der Schwellen für L und R erzielt werden, und es zeigt sich, daß eine Codierung von L und R mit diesen gesenkten Schwellen manchmal weniger Bit als eine Codierung von S und D erfordert. Man kann also z. B. ein Kriterium der "wahrnehmungsbezogenen Entropie" verwenden, das im Stand der Technik gelehrt wird, um zu bestimmen, welcher Ansatz (Codierung von L und R mit gesenkten Schwellen oder Codierung von S und D) weniger Bit erfordert. Nachdem die Codierungsbetriebsart auf eine von (1) oder (2) verschmälert wurde (Block 307), wird die bestimmte zu verwendende Codierungsbetriebsart einfach dadurch ausgewählt, daß wieder unter Verwendung des obenerwähnten Kriteriums der wahrnehmungsbezogenen Entropie die Betriebsart identifiziert wird, die die wenigsten Bit erfordert (Block 309 oder Block 314). Ein ähnlicher Prozeß wird in bezug auf die Back-Kanäle ausgeführt, und eine Anzeige, welche Codierungsbetriebsart sowohl für die Front- als auch die Back- Kanäle verwendet wurde, wird gespeichert und zusammen mit den codierten Kanälen selbst gesendet.
- Ein weiteres neuartiges Merkmal des Codierers 104 von Fig. 2 betrifft die Erzeugung der Schwellen für die fünf Eingangskanäle und die vier Summen-/Differenzkanäle. Dieses Merkmal des Codierers, das eine sogenannte globale Maskierungsschwelle verwendet, nutzt die Maskierungsfähigkeit der Signalkomponente in dem gematrixten Kanal aus, dessen Signalkomponente die stärkste ist, um das Rauschen in den anderen gematrixten Kanälen zu maskieren.
- Um die Verwendung dieses Merkmals zu verstehen, kann man mit der Betrachtung beginnen, daß in dem Codierer 104, wie bei den im Stand der Technik bekannten Codierern, ein sogenanntes "Bitreservoir" aufrechterhalten wird, das im Prinzip ein Zählwert der in Bit gemessenen überschüssigen Kanalkapazität ist. Dieser Zählwert ist im wesentlichen ein Maß für die Differenz zwischen a) der Anzahl von Bitübertragungsschlitzen, die in der Vergangenheit bei der mittleren Ausgangsbitrate verfügbar sind, und b) der Anzahl von Bit, die tatsächlich codiert wurden. Die maximale Größe des Zählwerts in dem Bitreservoir hängt von der Menge an Pufferung (Latenz) ab, die in dem System zugelassen wird. Mit dieser ungenutzten Kapazität kann man den Umstand behandeln, daß zukünftige Blöcke möglicherweise eine Anzahl von Bit zur Darstellung des Inhalts dieser Blöcke erfordern, die höher als die mittlere Anzahl ist. Somit kann eine relativ konstante Ausgangsbitrate unterstützt werden, obwohl die Anzahl von für jeden Block erzeugten codierten Bit von Block zu Block variiert und im allgemeinen etwas größer als diese Rate (auf der Grundlage von pro/Sekunde-Mittelung) und manchmal niedriger ist. In der Regel beträgt die Bitreservoirkapazität das fünffache der mittleren Bitrate pro Block.
- Wenn das Bitreservoir seine maximale Kapazität erreicht, ist dies ein Hinweis, daß die Bitanforderung beständig kleiner als die mittlere Ausgangsbitrate war, und zwar zu einem solchen Grad, daß es vorteilhaft ist, diese überschüssige Kapazität durch Senken der Rauschschwellen aufzubrauchen, wodurch eine feinere Quantisierung durchgeführt wird. Dies ist insofern vorteilhaft, als es eine qualitativ hochwertigere Wiedergabe liefert. Es ist jedoch wahlweise, wobei die Alternative darin besteht, einfach Markierungs- oder andere, keine Informationen tragenden Bit zu senden.
- Eine Technik muß jedoch definitiv den Fall behandeln, daß das Bitreservoir leer wird, da an diesem Punkt, solange keine Abhilfeschritte unternommen werden, die Pufferkapazität des Systems vollständig aufgebraucht wurde, und codierte Bit anfangen, verloren zu gehen. Der Stand der Technik behandelt dieses Problem durch Umschalten auf eine gröbere Quantisierung, wenn folgendes eintritt: a) das Bitreservoir ist aufgebraucht und b) zusätzlich übersteigt die Bitanforderung für den aktuellen Block die mittlere Ausgangsbitrate pro Block zu diesem Zeitpunkt. Bezüglich der Implementierung wird dies durch iteratives Multiplizieren jeder der Rauschschwellen mit einer Reihe zunehmender konstanter Werte von mehr als 1 und Neuberechnung der Bitanforderung, bis die Bitanforderung für den aktuellen Block erfüllt werden kann, bewirkt. Sobald die Bitanforderungen zukünftiger Blöcke unter die mittlere Rate fallen, können die normalen Schwellenwerte wieder verwendet werden, und das Bitreservoir beginnt, sich wieder aufzufüllen.
- Obwohl dieser vorbekannte Ansatz das Problem des Leerwerdens des Bitreservoirs effektiv behandelt, kann er zu starken Artefakten in dem decodierten Signal führen, da der Mechanismus zum Erhöhen der Schwellen über die Codiererbänder hinweg deterministisch ist, anstatt, wie vom Verfasser als vorteilhaft festgestellt wurde, auf psychoakustischen Betrachtungen zu basieren.
- Zusätzlich zu dem obenerwähnten neuartigen Merkmal des Codierers wird ein Ansatz für das Leerwerden des Bitreservoirs verwendet, das psychoakustische Betrachtungen berücksichtigt. Dieser Ansatz legt eine "globale Maskierungsschwelle" für jedes Codiererband fest, die über alle fünf gematrixten Kanäle hinweg konstant ist. Der Wert des globalen Maskierungsschwellenwerts wird wie nachfolgend beschrieben berechnet. Einstweilen reicht es aus, zu bemerken, daß sie den maximalen Rauschpegel in beliebigen der Kanäle darstellt, der von einem Zuhörer in einer Hörraumumgebung wahrgenommen wird.
- Die Art und Weise der Verwendung der globalen Maskierungsschwelle zur Steuerung der Rauschschwellenwerte im Fall eines anstehenden Leerwerdens des Bitreservoirs ist in Fig. 4-6 dargestellt. Insbesondere zeigt Fig. 4 den Schwellenpegel z. B. für die ersten vier Codiererbänder von L, sowie die für jedes der Bänder festgelegte globale Maskierungsschwelle. (Für jeden der anderen Kanäle kann eine ähnliche Darstellung durchgeführt werden.) Es wird angenommen, daß zu dem durch Fig. 4 dargestellten Zeitpunkt das Bitreservoir knapp unter einem Pegel von 80% leer liegt. Somit werden die Standard-Schwellenwerte verwendet. Sobald der Leerpegel 80% erreicht, wird jedoch eine untere Schranke für jede der Schwellen von beispielsweise 50% der globalen Maskierungsschwelle verwendet, so daß jede Schwelle, die kleiner als die untere Schranke ist, vergrößert wird, so daß sie ihr gleich wird. Da für jedes Codiererband eine andere globale Maskierungsschwelle festgelegt wird und die Rauschschwelle für jedes Band verschieden ist, heißt dies, daß ein Teil der Schwellen mehr als andere erhöht wird, und daß bestimmte Schwellen möglicherweise überhaupt nicht erhöht werden. Dies ist in Fig. 5 dargestellt, in der zu sehen ist, daß die Schwelle für die Codiererbänder 1 und 3 nicht erhöht wurden, während die für die Codiererbänder 2 und 4 erhöht wurden. Dieser Ansatz ist insofern vorteilhaft, daß zwar als Folge des Erhöhens der Schwellen zusätzliches Rauschen eingeführt wird, dieses zusätzliche Rauschen aber in Codiererbändern eingeführt wird, in denen die Möglichkeit, daß es vom Zuhörer erkannt wird, am niedrigsten ist. Der Wirkmechanismus wird hier zu einem besseren Zeitpunkt nachfolgend erläutert.
- Wenn zu einem späteren Zeitpunkt beobachtet wird, daß das Bitreservoir einen sogar noch bedenklicheren Zustand des Leerwerdens erreicht, wird ein höherer Prozentsatz der globalen Maskierungsschwelle, z. B. 75%, als die untere Schranke festgelegt, wodurch eine weitere Zunahme der verschiedenen der Schwellen verursacht wird. Wenn ultimativ die untere Schranke auf die volle globale Maskierungsschwelle festgelegt werden muß und das Bitreservoir weiter leerer wird, dann wird jede der Schwellen weiter bis auf einen Wert erhöht, der durch eine Konstante > 1, multipliziert mit dem relevanten globalen Maskierungsschwellenwert, gegeben wird, so daß weiter psychoakustische Betrachtungen bei der Einstellung der Schwellen implementiert werden (zumindest bis zu einem gewissen Grad). Dies ist in Fig. 6 dargestellt. Nachdem sich das Bitreservoir wieder aufbaut, werden immer niedrigere Prozentsätze der globalen Maskierungsschwelle zur Bestimmung der unteren Schranken der Rauschschwelle wirksam, bis am 80%-Punkt die Schwellen zu ihren Standardwerten zurückkehren.
- Der tatsächliche Wert der globalen Maskierungsschwelle für jedes Codiererband wird als das Maximum der fünf Eingangskanalschwellen für dieses Band, minus einer Sicherheitsreserve, angenommen. Die Sicherheitsreserve wird wiederum als frequenzabhängige binaurale Maskierungspegeldifferenz oder MLD, die in dem Patent von Johnston definiert wird, plus einer Konstante von 4-5 dB angenommen.
- Da nun der Wert der globalen Maskierungsschwelle auf diese Weise bestimmt wird, ist man nun in der Lage, zu verstehen, warum der oben beschriebene Ansatz effektiv ist. Es geschieht folgendes: die Technik nutzt die Maskierungsfähigkeit der Signalkomponente in dem gematrixten Kanal aus, dessen Signalkomponente die stärkste zur Maskierung des Rauschens in den anderen gematrixten Kanälen ist.
- Es gibt mindestens zwei Gründe für die anfängliche Verwendung nur eines Prozentsatzes der globalen Maskierungsschwelle zur Festlegung der unteren Schranken der Rauschschwelle, anstatt des vollen Werts (solange dieser nicht wie oben beschrieben ultimativ benötigt wird). Ein Grund besteht darin, daß, wenn eine volle globale Schwelle verwendet wird, dann das Rauschen möglicherweise nicht für alle Zuhörer in einer Hörraumumgebung vollständig maskiert wird, insbesondere für Zuhörer, die sich in der Nähe der Lautsprecher befinden. Der andere besteht darin, daß die Wahrscheinlichkeit, daß Rauschen in den obenerwähnten heruntergemischten Stereo-Kanälen nicht vollständig maskiert wird, mit zunehmendem Prozentsatz der globalen Maskierungsschwelle, der zur Festlegung der obenerwähnten unteren Schranken verwendet wird, zunimmt.
- Fig. 7 zeigt einen Teil eines Speichermediums 700 (beispielsweise eines Magnetbands), auf dem gemäß der Erfindung erzeugte PAC-codierte Daten gespeichert werden und aus dem sie nachfolgend gelesen, decodiert und an Zuhörer wie oben in Fig. 1 besprochen präsentiert werden können. Die Daten werden in Rahmen ..., Fi-1, Fi, Fi+1, ... gespeichert, die jeweils einem Block des Eingangssignals entsprechen. Die Rahmen werden sequenziell auf dem Speichermedium gespeichert, um einem vorbestimmten Format zu entsprechen, das sehr ähnlich dem Format ist, das im Stand der Technik für Zweikanal-PAC gelehrt wird. Als Beispiel wird der vollständige Rahmen Fi explizit in der Figur gezeigt. Er weist die folgenden Felder auf: das Sync-Wort 701, das den Start des Rahmens definiert; das Kanal-Flag 702, das die Anzahl von Kanälen in dem Eingangssignal angibt (in diesem Beispiel fünf); das Fenstertyp-Flag 704, das angibt, ob der Rahmen ein langes oder ein kurzes Fenster darstellt; Codierungsbetriebsarten-Flags 706, die angeben, welche der vierzehn Codierungsbetriebsarten zur Codierung des fraglichen Blocks in jedem der Codiererbänder verwendet wurden, wobei die Flags 706 unter Verwendung eines vordefinierten Kodebuchs in Huffman-codierter Form dargestellt werden; dc-Werte 709, die einen jeweiligen dc-Wert für jeden der fünf gematrixten Kanäle darstellen; ein Prädiktorkoeffizienten-Flag 710, dessen Wert, wenn er "1" ist, angibt, daß die Prädiktionskoeffizienten explizit in dem Rahmen spezifiziert werden, und in diesem Fall werden sie in dem Prädiktionskoeffizientenfeld 713 bereitgestellt, und daß, wenn er "0" ist, entweder angibt, daß alle Prädiktionskoeffizienten den Wert 1,0 aufweisen, oder daß sie auf die oben beschriebene Weise im Decodierer berechnet werden sollen, wobei die Wahl zwischen diesen beiden Möglichkeiten beim Entwurf des Systems vorbestimmt wird; und PAC-Datenfelder 714-718, die jeweils die codierten Daten für einen jeweiligen der (in diesem Fall) fünf gematrixten Kanäle M&sub1;(f) bis M&sub5;(f) enthalten. Wie im Stand der Technik (Zweikanal- PAC-Systeme) werden die PAC-codierten Daten in jedem einzelnen der Felder 714-718 der Reihe nach in Huffman- codierter Form dargestellt. Zur Codierung der Daten für die verschiedenen Codiererbänder in jedem Kanal werden verschiedene Huffman-Kode-Kodebücher verwendet, und deshalb enthalten die Daten in jedem der Felder 714-718 außerdem Informationen, die identifizieren, welche Kodebücher zur Codierung welcher Codiererbänder des fraglichen gematrixten Kanals verwendet wurden.
- Es versteht sich, daß das in Fig. 7 gezeigte Format genauso gut zum Speichern der PAC-Rahmen in anderen Arten von Speichermedien, wie z. B. Compact Disk, optische Platte, Halbleiterspeicher, usw., dienen könnte.
- Fig. 8 ist eine beispielhafte Ausführungsform des PAC-Decodierers 109 von Fig. 1. Der als eine Sequenz von Rahmen formatierte ankommende Bitstrom (siehe Fig. 7) wird durch den Bitstromanalysierer 801 zu seinen verschiedenen Komponenten analysiert. Obwohl es in der Figur nicht explizit gezeigt ist, führt der Analysierer 801 nicht nur die PAC-codierten Daten dem nächsten Funktionsblock in dem Decodierer (dem Entropiedecodierer 804) zu, sondern führt auch die verschiedenen Flags und anderen Werte, die oben in Verbindung mit Fig. 7 beschrieben wurden, jeder der verschiedenen Komponenten des Decodierers, die diese benötigen, zu. (Ähnlich versteht sich, daß, obwohl es in Fig. 2 nicht explizit gezeigt ist, die Flags und anderen Werte, die möglicherweise durch verschiedene Komponenten des Codierers 104 erzeugt worden sind, soweit sie nicht innerhalb des Quantisierers/Ratenschleifenprozessors 106 selbst erzeugt werden, diesem zugeführt werden, um in das Format jedes Rahmens integriert werden zu können.)
- Weiter mit Bezug auf die durch den Decodierer 109 ausgeführte Verarbeitung führt der Entropiedecodierer 804 die umgekehrte Funktion des Entropiedecodierers 208 durch und liefert als seine Ausgangssignale die fünf gematrixten Kanäle M&sub1;(f) ... M&sub5;(f). Der Dematrixer 807 stellt aus den gematrixten Kanälen die Frequenzbereichs-Eingangskanäle L, R, C, LS und RS wieder her, die in Fig. 2 als L(f), R(f), C(f), LS(f) und RS(f) bezeichnet werden. Letztere werden dann durch einen Prozessor 808 für inverse modifizierte diskrete Cosinustransformation (Inverse MDCT) verarbeitet, um fünf Zeitbereichskanäle l(t), r(t), c(t), ls(t) und rs(t) zu erzeugen.
- Die von jedem der in Fig. 8 gezeigten Elemente durchgeführte Verarbeitung, die gerade beschrieben wurde, kann unkompliziert implementiert werden und muß deshalb nicht ausführlich hier beschrieben werden. Tatsächlich ähnelt diese Verarbeitung sehr der im Stand der Technik für Zweikanal-PAC ausgeführten.
Claims (36)
1. Verfahren zum wahrnehmungsbezogenen Codieren eines
Audiosignals (101) mit einer Menge von
Eingangskanälen (103), mit den folgenden Schritten:
Erzeugen einer Menge von gematrixten Kanälen als
Reaktion auf die Eingangskanäle (202, 204, 205)
und
wahrnehmungsbezogenes Codieren der gematrixten
Kanäle (202, 205, 206, 208), wobei der Schritt des
wahrnehmungsbezogenen Codierens das Auswählen von
Rauschschwellenwerten auf der Grundlage von
Rauschmaskierungskriterien und das Verwenden der
Rauschschwellenwerte zur Steuerung der Grobheit
der Quantisierung des Audiosignals während der
Codierung umfaßt;
dadurch gekennzeichnet, daß mindestens ein
einzelner der gematrixten Kanäle der Menge, von
gematrixten Kanälen Funktion a) eines einzelnen
der Eingangskanäle oder ihrer Summe oder der
Differenz zwischen zwei von ihnen und b) einer
Prädiktion von a) ist.
2. Erfindung nach Anspruch 1, mit dem weiteren
Schritt des abwechselnden Anlegens a) der
wahrnehmungsbezogen codierten gematrixten Kanäle
und b) einer wahrnehmungsbezogenen Codierung der
Eingangskanäle an einen Ausgang.
3. Erfindung nach Anspruch 1, mit dem weiteren
Schritt des abwechselnden Anlegens a) der
wahrnehmungsbezogen codierten gematrixten Kanäle
und b) einer wahrnehmungsbezogenen Codierung der
Eingangskanäle an einen Kommunikationskanal oder
ein Speichermedium.
4. Erfindung nach Anspruch 1, wobei in dem
Audiosignal die Eingangskanäle im Frequenzbereich
dargestellt sind und wobei der Erzeugungsschritt
den Schritt des Erzeugens der Menge von
gematrixten Kanälen aus den Eingangskanälen
dergestalt, daß für jeden einer Reihe von
Zeitbereichsblöcken jeder der gematrixten Kanäle
durch Frequenzspektrumlinien dargestellt wird,
umfaßt.
5. Erfindung nach Anspruch 4, wobei die
Frequenzspektrumlinien in mehrere Codiererbänder
aufgeteilt werden und wobei die Beträge der
Frequenzspektrumlinien jedes Codiererbands durch
Werte dargestellt werden, die als Funktion einer
diesem Codiererband zugeordneten Rauschschwelle
quantisiert werden.
6. Vorrichtung zur Verarbeitung eines Audiosignals
(101) mit einer Menge von Eingangskanälen (103),
wobei die Vorrichtung folgendes umfaßt:
ein Mittel zum wahrnehmungsbezogenen Codieren
(202, 205, 206, 208) einer aus einer vorbestimmten
Vielzahl von Mengen von gematrixten Kanälen, die
als Reaktion auf die Eingangskanäle erzeugt
werden, wobei das Mittel zum wahrnehmungsbezogenen
Codieren das Auswählen von Rauschschwellenwerten
auf der Grundlage von Rauschmaskierungskriterien
und das Verwenden der Rauschschwellenwerte zur
Steuerung der Grobheit der Quantisierung des
Audiosignals während der Codierung umfaßt; und
ein Mittel zum Anlegen (206, 208) der
wahrnehmungsbezogen codierten gematrixten Kanäle
wahlweise a) an einen Kommunikationskanal (106)
oder b) an ein Speichermedium (106),
dadurch gekennzeichnet, daß die Kanäle einer
einzelnen der Mengen von gematrixten Kanälen die
Eingangskanäle sind und die Kanäle von anderen der
Mengen von gematrixten Kanälen mindestens ein
einzelnes Element der folgenden Gruppe enthalten:
eine Summe von oder eine Differenz zwischen zwei
dieser und b) eine Prädiktion von a).
7. Erfindung nach Anspruch 6, wobei in dem
Audiosignal die Eingangskanäle für jeden einer
Reihe von Zeitbereichsblöcken durch
Frequenzspektrumlinien dargestellt werden, die in mehrere
Codiererbänder aufgeteilt werden, wobei die
Beträge der Frequenzspektrumlinien jedes
Codiererbands durch Werte dargestellt werden, die als
Funktion einer diesem Codiererband zugeordneten
Rauschschwelle quantisiert werden.
8. Verfahren zur Verarbeitung eines
wahrnehmungsbezogen codierten Audiosignals, wobei das
wahrnehmungsbezogen codierte Audiosignal durch
Erzeugen einer Menge von gematrixten Kanälen als
Reaktion auf eine Menge von Eingangskanälen (103)
erzeugt wurde; unter wahrnehmungsbezogener
Codierung der gematrixten Kanäle (202, 205, 206,
208), wobei das wahrnehmungsbezogene Codieren das
Auswählen von Rauschschwellenwerten auf der
Grundlage von Rauschmaskierungskriterien und das
Verwenden der Rauschschwellenwerte zur Steuerung
der Grobheit der Quantisierung des Audiosignals
während der Codierung umfaßt; und unter Anlegen
(206) der wahrnehmungsbezogen codierten
gematrixten Kanäle an einen Kommunikationskanal
(106) oder an ein Speichermedium (106),
mit den folgenden Schritten:
Empfangen (801) der wahrnehmungsbezogen codierten
gematrixten Kanäle aus dem Kommunikationskanal
(106) oder dem Speichermedium (106),
Decodieren (804) der empfangenen
wahrnehmungsbezogen codierten gematrixten Kanäle und
Wiederherstellen der Eingangskanäle (807) aus den
decodierten gematrixten Kanälen und Bestimmen, wie
die Menge von gematrixten Kanälen als Reaktion auf
die Menge von Eingangskanälen erzeugt wurde,
dadurch gekennzeichnet, daß die Menge von
gematrixten Kanälen ein gewähltes Element der
folgenden Gruppe umfaßt: i) die Eingangskanäle und
ii) eine Menge von gematrixten Kanälen, bei der
mindestens ein einzelner der gematrixten Kanäle
Funktion a) eines einzelnen der Eingangskanäle
oder ihrer Summe oder der Differenz zwischen zwei
von ihnen und b) einer Prädiktion von a) ist.
9. Erfindung nach Anspruch 8, wobei der Schritt des
Wiederherstellens den Schritt des Bestimmens, wie
die Menge von gematrixten Kanälen als Reaktion auf
die Menge von Eingangskanälen erzeugt wurde,
umfaßt.
10. Vorrichtung zur Verarbeitung eines
wahrnehmungsbezogen codierten Audiosignals, wobei
das wahrnehmungsbezogen codierte Audiosignal durch
Erzeugen einer Menge von gematrixten Kanälen (202,
204, 205) als Reaktion auf eine Menge von
Eingangskanälen (103) erzeugt wurde; unter
wahrnehmungsbezogener Codierung der gematrixten
Kanäle, wobei das wahrnehmungsbezogene Codieren
das Auswählen von Rauschschwellenwerten auf der
Grundlage von Rauschmaskierungskriterien und das
Verwenden der Rauschschwellenwerte zur Steuerung
der Grobheit der Quantisierung des Audiosignals
während der Codierung umfaßt; und unter Anlegen
der wahrnehmungsbezogen codierten gematrixten
Kanäle an einen Kommunikationskanal (106) oder an
ein Speichermedium (106);
wobei die Vorrichtung folgendes umfaßt:
ein Mittel (801) zum Empfangen der
wahrnehmungsbezogen codierten gematrixten Kanäle aus dem
Kommunikationskanal (206) oder dem Speichermedium
(106),
ein Mittel (804) zum Decodieren der empfangenen
wahrnehmungsbezogen codierten gematrixten Kanäle
und
ein Mittel (807) zum Wiederherstellen der
Eingangskanäle (103) aus den decodierten
gematrixten Kanälen;
dadurch gekennzeichnet, daß mindestens ein
einzelner der gematrixten Kanäle der Menge von
gematrixten Kanälen Funktion a) eines einzelnen
der Eingangskanäle oder ihrer Summe oder der
Differenz zwischen zwei von ihnen und b) einer
Prädiktion von a) ist.
11. Erfindung nach Anspruch 10, wobei das Mittel zum
Wiederherstellen bestimmt, wie die Menge von
gematrixten Kanälen als Reaktion auf die Menge von
Eingangskanälen erzeugt wurde.
12. Vorrichtung, in der Informationen gespeichert
sind, die ein wahrnehmungsbezogen codiertes
Audiosignal mit einer Menge von Eingangskanälen (103)
darstellen, wobei das wahrnehmungsbezogen codierte
Audiosignal durch die folgenden Schritte erzeugt
wurde:
Erzeugen einer Menge von gematrixten Kanälen als
Reaktion auf die Eingangskanäle (202, 204, 205)
und
wahrnehmungsbezogenes Codieren der gematrixten
Kanäle (202, 205, 206, 208), wobei der Schritt des
wahrnehmungsbezogenen Codierens das Auswählen von
Rauschschwellenwerten auf der Grundlage von
Rauschmaskierungskriterien und das Verwenden der
Rauschschwellenwerte zur Steuerung der Grobheit
der Quantisierung des Audiosignals während der
Codierung umfaßt;
dadurch gekennzeichnet, daß mindestens ein
einzelner der gematrixten Kanäle der Menge von
gematrixten Kanälen Funktion a) eines einzelnen
der Eingangskanäle oder ihrer Summe oder der
Differenz zwischen zwei von ihnen und b) einer
Prädiktion von a) ist.
13. Erfindung nach Anspruch 12, wobei das
wahrnehmungsbezogen codierte Audiosignal durch den
weiteren Schritt des abwechselnden
wahrnehmungsbezogenen Codierens der Eingangskanäle und der
gematrixten Kanäle erzeugt wurde.
14. Erfindung nach Anspruch 1 oder Anspruch 6 oder
Anspruch 10 oder Anspruch 12, wobei der einzelne
der gematrixten Kanäle Funktion der Differenz
zwischen a) und b) ist.
15. Erfindung nach Anspruch 1, wobei die Menge von
Eingangskanälen einen Links-, einen Rechts- und
einen Mittenkanal umfaßt.
16. Erfindung nach Anspruch 15, wobei ein erster der
gematrixten Kanäle Funktion des Links-Kanals und
einer Prädiktion des Links-Kanals ist; wobei ein
zweiter der gematrixten Kanäle Funktion des
Rechts-Kanals und einer Prädiktion des Rechts-
Kanals ist; und wobei ein dritter der gematrixten
Kanäle der Mittenkanal ist; wobei jede der
Prädiktionen Funktion des Mittenkanals ist.
17. Erfindung nach Anspruch 16, wobei jede der
Prädiktionen Funktion einer wahrnehmungsbezogen
codierten Version des Mittenkanals ist.
18. Erfindung nach Anspruch 16, wobei jede der
Prädiktionen Funktion des Produkts a) einer
wahrnehmungsbezogen codierten Version des
Mittenkanals mit b) einem jeweiligen
Prädiktionskoeffizienten ist.
19. Erfindung nach Anspruch 15, wobei ein erster der
gematrixten Kanäle der Links-Kanal ist; wobei ein
zweiter der gematrixten Kanäle der Rechts-Kanal
ist; und wobei ein dritter der gematrixten Kanäle
Funktion des Mittenkanals und einer Prädiktion des
Mittenkanals ist, wobei diese Prädiktion Funktion
des Links- und des Rechts-Kanals ist.
20. Erfindung nach Anspruch 19, wobei die Prädiktion
Funktion von wahrnehmungsbezogen codierten
Versionen des Links- und des Rechts-Kanals ist.
21. Erfindung nach Anspruch 19, wobei die Prädiktion
Funktion des Produkts a) einer wahrnehmungsbezogen
codierten Version des Links-Kanals mit b) einem
jeweiligen Prädiktionskoeffizienten ist und
weiterhin Funktion des Produkts a) einer
wahrnehmungsbezogen codierten Version des Rechts-
Kanals mit b) einem jeweiligen
Prädiktionskoeffizienten ist.
22. Erfindung nach Anspruch 15, wobei ein erster der
gematrixten Kanäle Funktion der Summe des Links-
und des Rechts-Kanals ist; wobei ein zweiter der
gematrixten Kanäle Funktion der Differenz zwischen
dem Links- und dem Rechts-Kanal ist; und wobei ein
dritter der gematrixten Kanäle der Mittenkanal
ist.
23. Erfindung nach Anspruch 15, wobei ein erster der
gematrixten Kanäle Funktion eines Summenkanals und
einer Prädiktion des Summenkanals ist; wobei ein
zweiter der gematrixten Kanäle Funktion eines
Differenzkanals und einer Prädiktion des
Differenzkanals ist; und wobei ein dritter der
gematrixten Kanäle der Mittenkanal ist; wobei der
Summenkanal Funktion der Summe des Links- und des
Rechts-Kanals ist, wobei der Differenzkanal
Funktion der Differenz zwischen dem Links- und dem
Rechts-Kanal ist und jede der Prädiktionen
Funktion des Mittenkanals ist.
24. Erfindung nach Anspruch 23, wobei jede der
Prädiktionen Funktion einer wahrnehmungsbezogen
codierten Version des Mittenkanals ist.
25. Erfindung nach Anspruch 23, wobei jede der
Prädiktionen Funktion des Produkts a) einer
wahrnehmungsbezogen codierten Version des
Mittenkanals mit b) einem jeweiligen
Prädiktionskoeffizienten ist.
26. Erfindung nach Anspruch 15, wobei ein erster der
gematrixten Kanäle ein Summenkanal ist; wobei ein
zweiter der gematrixten Kanäle ein Differenzkanal
ist; und wobei ein dritter der gematrixten Kanäle
Funktion des Mittenkanals und einer Prädiktion des
Mittenkanals ist; wobei der Summenkanal Funktion
der Summe des Links- und des Rechts-Kanals ist,
wobei der Differenzkanal Funktion der Differenz
zwischen dem Links- und dem Rechts-Kanal ist und
die Prädiktion Funktion des Links- und des Rechts-
Kanals ist.
27. Erfindung nach Anspruch 26, wobei die Prädiktion
Funktion wahrnehmungsbezogen codierter Versionen
des Links- und des Rechts-Kanals ist.
28. Erfindung nach Anspruch 26, wobei die Prädiktion
Funktion des Produkts a) einer wahrnehmungsbezogen
codierten Version des Links-Kanals mit b) einem
jeweiligen Prädiktionskoeffizienten ist und
weiterhin Funktion des Produkts a) einer
wahrnehmungsbezogen codierten Version des Rechts-
Kanals mit b) einem jeweiligen
Prädiktionskoeffizienten ist.
29. Erfindung nach Anspruch 15, wobei die Menge von
Eingangskanälen weiterhin einen Links-Surround-
und einen Rechts-Surround-Kanal enthält.
30. Erfindung nach Anspruch 29, wobei ein einzelner
der gematrixten Kanäle Funktion des Links-
Surround-Kanals und einer Prädiktion des Links-
Surround-Kanals ist und wobei ein weiterer der
gematrixten Kanäle Funktion des Rechts-Surround-
Kanals und einer Prädiktion des Rechts-Surround-
Kanals ist.
31. Erfindung nach Anspruch 30, wobei die Links-
Surround-Kanal-Prädiktion und die Rechts-Surround-
Kanal-Prädiktion jeweils Funktionen eines oder
mehrerer der Kanäle Links, Rechts und Mitte sind.
32. Erfindung nach Anspruch 30, wobei die Links-
Surround-Kanal-Prädiktion und die Rechts-Surround-
Kanal-Prädiktion jeweils Funktionen
wahrnehmungsbezogen codierter Versionen eines oder mehrerer
der Kanäle Links, Rechts und Mitte sind.
33. Erfindung nach Anspruch 29, wobei ein einzelner
der gematrixten Kanäle Funktion der Summe des
Links-Surround- und des Rechts-Surround-Kanals
ist; und wobei ein weiterer der gematrixten Kanäle
Funktion der Differenz zwischen dem Links-
Surround- und dem Rechts-Surround-Kanal ist.
34. Erfindung nach Anspruch 29, wobei ein einzelner
der gematrixten Kanäle Funktion eines Summen-
Surround-Kanals und einer Prädiktion des Summen-
Surround-Kanals ist; und wobei ein weiterer der
gematrixten Kanäle Funktion eines Differenz-
Surround-Kanals und einer Prädiktion des
Differenz-Surround-Kanals ist; wobei der Summen-
Surround-Kanal Funktion der Summe des Links-
Surround-Kanals und des Rechts-Surround-Kanals ist
und der Differenz-Surround-Kanal Funktion der
Differenz zwischen dem Links-Surround-Kanal und
dem Rechts-Surround-Kanal ist.
35. Erfindung nach Anspruch 34, wobei die Summen-
Surround-Kanal-Prädiktion und die Differenz-
Surround-Kanal-Prädiktion jeweils Funktionen eines
oder mehrerer der Kanäle Links, Rechts und Mitte
sind.
36. Erfindung nach Anspruch 34, wobei die Summen-
Surround-Kanal-Prädiktion und die Differenz-
Surround-Kanal-Prädiktion jeweils Funktionen
wahrnehmungsbezogen codierter Versionen eines oder
mehrerer der Kanäle Links, Rechts und Mitte sind.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/156,495 US5488665A (en) | 1993-11-23 | 1993-11-23 | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69432012D1 DE69432012D1 (de) | 2003-02-20 |
| DE69432012T2 true DE69432012T2 (de) | 2003-11-06 |
Family
ID=22559816
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69432012T Expired - Lifetime DE69432012T2 (de) | 1993-11-23 | 1994-11-16 | Wahrnehmungsgebundene Kodierung von Audiosignalen |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US5488665A (de) |
| EP (1) | EP0655876B1 (de) |
| JP (1) | JP3970342B2 (de) |
| KR (1) | KR100351219B1 (de) |
| CA (1) | CA2117829C (de) |
| DE (1) | DE69432012T2 (de) |
Families Citing this family (61)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
| US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
| DE4405659C1 (de) * | 1994-02-22 | 1995-04-06 | Fraunhofer Ges Forschung | Verfahren zum kaskadierten Codieren und Decodieren von Audiodaten |
| JP2842276B2 (ja) * | 1995-02-24 | 1998-12-24 | 日本電気株式会社 | 広帯域信号符号化装置 |
| KR0174085B1 (ko) * | 1995-08-09 | 1999-04-01 | 조백제 | 다채널 오디오 복호화기의 복합 디코딩장치 |
| KR100346734B1 (ko) * | 1995-09-22 | 2002-11-23 | 삼성전자 주식회사 | 고속분석필터및합성필터를구비한오디오부호화기및복호화기 |
| US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
| US5734729A (en) * | 1996-01-17 | 1998-03-31 | Compaq Computer Corporation | Apparatus for eliminating audio noise when power is cycled to a computer |
| ATE232030T1 (de) * | 1996-04-10 | 2003-02-15 | Koninkl Philips Electronics Nv | Kodiervorrichtung zum kodieren einer vielzahl von informationssignalen |
| KR100472402B1 (ko) * | 1996-04-10 | 2005-07-25 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 복수의정보신호의부호화장치및방법 |
| CN1106085C (zh) * | 1996-04-26 | 2003-04-16 | 德国汤姆逊-布朗特公司 | 对数字音频信号编码的方法和装置 |
| EP0803989B1 (de) * | 1996-04-26 | 1999-06-16 | Deutsche Thomson-Brandt Gmbh | Verfahren und Apparat zur Kodierung eines digitalen Audiosignals |
| DE19628292B4 (de) | 1996-07-12 | 2007-08-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten |
| JP3215053B2 (ja) * | 1996-09-11 | 2001-10-02 | 富士通株式会社 | 移動通信装置 |
| US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
| US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
| US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
| US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
| US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
| US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
| US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
| TW429700B (en) * | 1997-02-26 | 2001-04-11 | Sony Corp | Information encoding method and apparatus, information decoding method and apparatus and information recording medium |
| US5946352A (en) * | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
| US6266419B1 (en) * | 1997-07-03 | 2001-07-24 | At&T Corp. | Custom character-coding compression for encoding and watermarking media content |
| US6111844A (en) * | 1997-07-03 | 2000-08-29 | At&T Corp. | Quality degradation through compression/decompression |
| JP3279228B2 (ja) * | 1997-08-09 | 2002-04-30 | 日本電気株式会社 | 符号化音声復号装置 |
| US6091773A (en) * | 1997-11-12 | 2000-07-18 | Sydorenko; Mark R. | Data compression method and apparatus |
| US6405338B1 (en) * | 1998-02-11 | 2002-06-11 | Lucent Technologies Inc. | Unequal error protection for perceptual audio coders |
| US6141645A (en) * | 1998-05-29 | 2000-10-31 | Acer Laboratories Inc. | Method and device for down mixing compressed audio bit stream having multiple audio channels |
| US6122619A (en) * | 1998-06-17 | 2000-09-19 | Lsi Logic Corporation | Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor |
| US20060265091A1 (en) * | 1998-08-14 | 2006-11-23 | Bruce Mihura | Audio entertainment system for storing and playing audio information |
| SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
| JP4831115B2 (ja) * | 1998-10-13 | 2011-12-07 | 日本ビクター株式会社 | 音声符号化方法及び音声復号方法 |
| US6931372B1 (en) * | 1999-01-27 | 2005-08-16 | Agere Systems Inc. | Joint multiple program coding for digital audio broadcasting and other applications |
| US6735561B1 (en) * | 2000-03-29 | 2004-05-11 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
| ATE387044T1 (de) * | 2000-07-07 | 2008-03-15 | Nokia Siemens Networks Oy | Verfahren und vorrichtung für die perzeptuelle tonkodierung von einem mehrkanal tonsignal mit verwendung der kaskadierten diskreten cosinustransformation oder der modifizierten diskreten cosinustransformation |
| US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
| AU2002325063B2 (en) * | 2001-07-19 | 2007-11-01 | Personal Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
| AUPR647501A0 (en) * | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
| US6987889B1 (en) | 2001-08-10 | 2006-01-17 | Polycom, Inc. | System and method for dynamic perceptual coding of macroblocks in a video frame |
| US6975774B2 (en) * | 2002-03-18 | 2005-12-13 | Tektronix, Inc. | Quantifying perceptual information and entropy |
| US7283968B2 (en) * | 2003-09-29 | 2007-10-16 | Sony Corporation | Method for grouping short windows in audio encoding |
| US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
| US7426462B2 (en) * | 2003-09-29 | 2008-09-16 | Sony Corporation | Fast codebook selection method in audio encoding |
| US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
| DE102004009954B4 (de) * | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
| DE102005010057A1 (de) | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
| KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
| US7418394B2 (en) * | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
| KR100718132B1 (ko) * | 2005-06-24 | 2007-05-14 | 삼성전자주식회사 | 오디오 신호의 비트스트림 생성 방법 및 장치, 그를 이용한부호화/복호화 방법 및 장치 |
| US7917176B2 (en) * | 2006-02-14 | 2011-03-29 | Nec Laboratories America, Inc. | Structured codebook and successive beamforming for multiple-antenna systems |
| WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
| US8041042B2 (en) * | 2006-11-30 | 2011-10-18 | Nokia Corporation | Method, system, apparatus and computer program product for stereo coding |
| EP2250641B1 (de) * | 2008-03-04 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung zum mischen mehrerer eingabedatenströme |
| RU2497204C2 (ru) * | 2008-05-23 | 2013-10-27 | Конинклейке Филипс Электроникс Н.В. | Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер |
| US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
| JP5446258B2 (ja) * | 2008-12-26 | 2014-03-19 | 富士通株式会社 | オーディオ符号化装置 |
| FR2943867A1 (fr) * | 2009-03-31 | 2010-10-01 | France Telecom | Traitement d'egalisation de composantes spatiales d'un signal audio 3d |
| US20130253923A1 (en) * | 2012-03-21 | 2013-09-26 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry | Multichannel enhancement system for preserving spatial cues |
| EP2830053A1 (de) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Mehrkanaliger Audiodecodierer, mehrkanaliger Audiocodierer, Verfahren und Computerprogramm mit restsignalbasierter Anpassung einer Beteiligung eines dekorrelierten Signals |
| EP2830051A3 (de) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiocodierer, Audiodecodierer, Verfahren und Computerprogramm mit gemeinsamen codierten Restsignalen |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
| US5341457A (en) * | 1988-12-30 | 1994-08-23 | At&T Bell Laboratories | Perceptual coding of audio signals |
| GB8913758D0 (en) * | 1989-06-15 | 1989-08-02 | British Telecomm | Polyphonic coding |
| US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
| JPH0451200A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化方式 |
| CA2090052C (en) * | 1992-03-02 | 1998-11-24 | Anibal Joao De Sousa Ferreira | Method and apparatus for the perceptual coding of audio signals |
| US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
| US5377051A (en) * | 1993-01-13 | 1994-12-27 | Hitachi America, Ltd. | Digital video recorder compatible receiver with trick play image enhancement |
| US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
-
1993
- 1993-11-23 US US08/156,495 patent/US5488665A/en not_active Expired - Lifetime
-
1994
- 1994-10-11 CA CA002117829A patent/CA2117829C/en not_active Expired - Fee Related
- 1994-11-16 EP EP94308470A patent/EP0655876B1/de not_active Expired - Lifetime
- 1994-11-16 DE DE69432012T patent/DE69432012T2/de not_active Expired - Lifetime
- 1994-11-17 KR KR1019940030147A patent/KR100351219B1/ko not_active Expired - Lifetime
- 1994-11-22 JP JP28702794A patent/JP3970342B2/ja not_active Expired - Lifetime
-
1995
- 1995-09-06 US US08/524,198 patent/US5717764A/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07199993A (ja) | 1995-08-04 |
| JP3970342B2 (ja) | 2007-09-05 |
| EP0655876B1 (de) | 2003-01-15 |
| KR100351219B1 (ko) | 2003-01-24 |
| CA2117829A1 (en) | 1995-05-24 |
| DE69432012D1 (de) | 2003-02-20 |
| EP0655876A1 (de) | 1995-05-31 |
| KR950016011A (ko) | 1995-06-17 |
| US5717764A (en) | 1998-02-10 |
| CA2117829C (en) | 1998-06-30 |
| US5488665A (en) | 1996-01-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69432012T2 (de) | Wahrnehmungsgebundene Kodierung von Audiosignalen | |
| DE69323106T2 (de) | Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen | |
| DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
| EP1687809B1 (de) | Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür | |
| EP0750811B1 (de) | Verfahren zum codieren mehrerer audiosignale | |
| EP0667063B2 (de) | Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle | |
| EP0910928B1 (de) | Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion | |
| DE69834010T2 (de) | Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür | |
| EP0954909B1 (de) | Verfahren zum codieren eines audiosignals | |
| DE69326492T2 (de) | Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen | |
| DE4111131C2 (de) | Verfahren zum Übertragen digitalisierter Tonsignale | |
| DE69431622T2 (de) | Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren | |
| EP0931386B1 (de) | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals | |
| DE69534140T2 (de) | Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren | |
| DE69311569T2 (de) | Adaptive Rematrixierung von matrixförmigen Audiosignalen | |
| DE69833834T2 (de) | Skalierbares Audiokodier-und Dekodierverfahren und Gerät | |
| DE69401512T2 (de) | Hybride adaptive bitzuteilung für audiokoder und -dekoder | |
| DE60110679T2 (de) | Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion | |
| DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
| DE60117471T2 (de) | Breitband-signalübertragungssystem | |
| DE102005014477A1 (de) | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung | |
| EP0611516B1 (de) | Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle | |
| DE69932861T2 (de) | Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung | |
| DE19742655C2 (de) | Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals | |
| DE69106580T2 (de) | Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition |