DE602005006385T2 - Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals - Google Patents

Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals Download PDF

Info

Publication number
DE602005006385T2
DE602005006385T2 DE602005006385T DE602005006385T DE602005006385T2 DE 602005006385 T2 DE602005006385 T2 DE 602005006385T2 DE 602005006385 T DE602005006385 T DE 602005006385T DE 602005006385 T DE602005006385 T DE 602005006385T DE 602005006385 T2 DE602005006385 T2 DE 602005006385T2
Authority
DE
Germany
Prior art keywords
channel
channels
original
signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005006385T
Other languages
English (en)
Other versions
DE602005006385D1 (de
Inventor
Jürgen HERRE
Christof Faller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Agere Systems LLC
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34750329&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE602005006385(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Agere Systems LLC filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of DE602005006385D1 publication Critical patent/DE602005006385D1/de
Application granted granted Critical
Publication of DE602005006385T2 publication Critical patent/DE602005006385T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Radio Relay Systems (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Logic Circuits (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zum Verarbeiten eines Mehrkanalaudiosignals und insbesondere auf eine Vorrichtung und ein Verfahren zum Verarbeiten eines Mehrkanalaudiosignals auf eine stereokompatible Weise.
  • Hintergrund der Erfindung und Stand der Technik
  • In letzter Zeit wird die Mehrkanalaudiowiedergabetechnik immer wichtiger. Dies kann von der Tatsache herrühren, dass Audiokomprimierungs-/Codierungstechniken, wie beispielsweise die gut bekannte mp3-Technik, ermöglicht haben, Audioaufzeichnungen über das Internet oder andere Übertragungskanäle zu verteilen, die eine begrenzte Bandbreite aufweisen. Die mp3-Codiertechnik ist auf Grund der Tatsache so bekannt geworden, dass dieselbe eine Verteilung aller Aufzeichnungen in einem Stereoformat ermöglicht, d. h. eine digitale Darstellung der Audiaufzeichnung einschließlich eines ersten oder Links-Stereokanals und eines zweiten oder Rechts-Stereokanals.
  • Dennoch gibt es grundlegende Mängel herkömmlicher Zweikanal-Klangsysteme. Deshalb wurde die Surroundtechnik entwickelt. Eine empfohlene Mehrkanal-Surrounddarstellung umfasst zusätzlich zu den zwei Stereokanälen L und R einen zusätzlichen Mitte-Kanal C und zwei Surround-Kanäle Ls, Rs. Dieses Referenzklangformat wird auch als Drei/Zwei-Stereo bezeichnet, was drei Front-Kanäle und zwei Surround-Kanäle bedeutet. Im Allgemeinen sind fünf Übertragungskanäle erforderlich. In einer Abspielumgebung werden zumindest fünf Lautsprecher an den jeweiligen fünf unterschiedlichen Plätzen benötigt, um einen optimalen Sweet Spot bei einem bestimmten Abstand von den fünf gut platzierten Lautsprechern zu bekommen.
  • Auf dem Gebiet sind mehrere Techniken zum Reduzieren der Menge an Daten bekannt, die für eine Übertragung eines Mehrkanalaudiosignals erforderlich ist. Derartige Techniken werden gemeinsame Stereotechniken (Joint Stereo Techniques) genannt. Zu diesem Zweck sei Bezug auf 10 genommen, die eine gemeinsame Stereovorrichtung 60 zeigt. Diese Vorrichtung kann eine Vorrichtung sein, die z. B. Intensitätsstereo (IS = Intensity Stereo) oder eine Binaural-Hinweis-Codierung (BCC = Binaural Cue Coding) implementiert. Eine derartige Vorrichtung empfängt im Allgemeinen – als eine Eingabe – zumindest zwei Kanäle (CH1, CH2, ... CHn) und gibt einen einzigen Trägerkanal und Parameterdaten aus. Die Parameterdaten sind definiert, derart, dass bei einem Decodierer eine Näherung eines ursprünglichen Kanals (CH1, CH2, ... CHn) berechnet werden kann.
  • Normalerweise umfasst der Trägerkanal Subbandabtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte etc., die eine vergleichsweise feine Darstellung des zugrundeliegenden Signals liefern, während die Parameterdaten derartige Abtastwerte von Spektralkoeffizienten nicht umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus umfassen, wie beispielsweise ein Gewichten durch eine Multiplikation, eine Zeitverschiebung, eine Frequenzverschiebung, ... Die Parameterdaten umfassen deshalb lediglich eine vergleichsweise grobe Darstellung des Signals oder des zugeordneten Kanals. In Zahlen angegeben, wird die Menge an Daten, die durch einen Trägerkanal benötigt wird, in dem Bereich von 60–70 kbit/s liegen, während die Menge an Daten, die durch Parameterseiteninformationen für einen Kanal benötigt wird, in dem Bereich von 1,5–2,5 kbit/s liegen wird. Ein Beispiel für Parameterdaten sind die gut bekannten Skalierungsfaktoren, Intensitätsstereoinformationen oder Binaural-Hinweis-Parameter, wie es unten beschrieben wird.
  • Intensitätsstereocodierung ist in ASS Preprint 3799, „Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, Februar 1994, Amsterdam, beschrieben. Im Allgemeinen basiert das Konzept von Intensität-Stereo auf einer Hauptachsentransformation, die auf die Daten von beiden stereophonen Audiokanälen angewandt werden soll. Falls die meisten der Datenpunkte um die erste Hauptachse herum konzentriert sind, kann eine Codierverstärkung durch ein Drehen beider Signale um einen bestimmten Winkel vor einem Codieren erreicht werden. Dies ist jedoch bei realen stereophonen Erzeugungstechniken nicht immer wahr. Deshalb wird diese Technik durch ein Ausschließen der zweiten orthogonalen Komponente von einer Übertragung in dem Bitstrom modifiziert. Somit bestehen die rekonstruierten Signale für den Links- und den Rechts-Kanal aus unterschiedlich gewichteten oder skalierten Versionen des gleichen übertragenen Signals. Dennoch unterscheiden sich die rekonstruierten Signale in einer Amplitude derselben, aber sind hinsichtlich der Phaseninformationen derselben identisch. Die Energie-Zeit-Hüllkurven von beiden ursprünglichen Audiokanälen werden jedoch mittels der selektiven Skalierungsoperation bewahrt, die typischerweise auf eine frequenzselektive Weise wirksam ist. Dies entspricht der menschlichen Wahrnehmung von Ton bei hohen Frequenzen, wo die dominanten räumlichen Hinweise durch die Energiehüllkurven bestimmt sind.
  • Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d. h. das Trägersignal, aus dem Summensignal des Links-Kanals und des Rechts-Kanals erzeugt, anstelle eines Drehens beider Komponenten. Ferner wird diese Verarbeitung, d. h. Erzeugen von Intensitätsstereoparametern zum Durchführen der Skalierungsoperation, frequenzselektiv durchgeführt, d. h. unabhängig für jedes Skalierungsfaktorband, d. h. Codiererfrequenzpartition. Vorzugsweise werden beide Kanäle kombiniert, um einen kombinierten oder „Träger"-Kanal zu bilden, und zusätzlich zu dem kombinierten Kanal werden die Intensitätsstereoin formationen bestimmt, die von der Energie des ersten Kanals, der Energie des zweiten Kanals oder der Energie des kombinierten Kanals abhängen.
  • Die BCC-Technik ist in dem AES Convention Paper 5574, „Binaural cue coding applied to stereo and multi-channel audio compression", C. Faller, F. Baumgarte, Mai 2002, München, beschrieben. Bei einer BCC-Codierung wird eine Anzahl von Audioeingangskanälen unter Verwendung einer DFT-basierten Transformation mit überlappenden Fenstern in eine Spektraldarstellung umgewandelt. Das resultierende einheitliche Spektrum wird in nicht überlappende Partitionen geteilt, die jeweils einen Index aufweisen. Jede Partition weist eine Bandbreite auf, die proportional zu der äquivalenten rechteckigen Bandbreite (ERB = Equivalent Rectangular Bandwidth) ist. Die Zwischenkanalpegelunterschiede (ICLD = Inter-Channel Level Differences) und die Zwischenkanalzeitunterschiede (ICTD = Inter-Channel Time Differences) werden für jede Partition für jeden Rahmen k geschätzt. Die ICLD und ICTD werden quantisiert und codiert, was in einem BCC-Bitstrom resultiert. Die Zwischenkanalpegelunterschiede und Zwischenkanalzeitunterschiede sind für jeden Kanal relativ zu einem Referenzkanal gegeben. Dann werden die Parameter gemäß vorgeschriebenen Formeln berechnet, die von den bestimmten Partitionen des Signals abhängen, das verarbeitet werden soll.
  • Auf einer Decodiererseite empfängt der Decodierer ein Monosignal und den BCC-Bitstrom. Das Monosignal wird in den Frequenzbereich transformiert und in einen Raumsyntheseblock eingegeben, der ebenfalls decodierte ICLD- und ICTD-Werte empfängt. Bei dem Raumsyntheseblock werden die Werte der BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um die Mehrkanalsignale zu generieren, die nach einer Frequenz/Zeit-Umwandlung eine Rekonstruktion des ursprünglichen Mehrkanalaudiosignals darstellen.
  • Im Fall von BCC ist das gemeinsame Stereomodul 60 (Joint-Stereo-Module) wirksam, um die Kanalseiteninformationen auszugeben, derart, dass die Parameterkanaldaten quantisierte und codierte ICLD- oder ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als der Referenzkanal zum Codieren der Kanalseiteninformationen verwendet wird.
  • Normalerweise ist das Trägersignal aus der Summe der teilnehmenden ursprünglichen Kanäle gebildet.
  • Natürlich liefern die obigen Techniken lediglich eine Monodarstellung für einen Decodierer, der lediglich den Trägerkanal verarbeiten kann, aber nicht in der Lage ist, die Parameterdaten zum Erzeugen einer oder mehrerer Näherungen von mehr als einem Eingangskanal zu verarbeiten.
  • Die Audiocodiertechnik, die als Binaural-Hinweis-Codierung (BCC) bekannt ist, ist auch in den Patentanmeldungsveröffentlichungen der Vereinigten Staaten US 2003, 0219130 A1 , 2003/0026441 A1 und 2003/0035553 A1 gut beschrieben. Zusätzlicher Bezug wird auch auf „Binaural Cue Coding. Part II: Schemes and Applications", C. faller und F. Baumgarte, IEEE Trans. On Audio and Speech Proc., Bd. 11, Nr. 6, Nov. 2993 genommen.
  • Im Folgenden wird ein typisches allgemeines BCC-Schema für eine Mehrkanalaudiocodierung mit Bezug auf 11 bis 13 detaillierter dargelegt. 11 zeigt ein derartiges allgemeines Binaural-Hinweis-Codierungsschema für eine Codierung/Übertragung von Mehrkanalaudiosignalen. Das Mehrkanalaudioeingangssignal an einem Eingang 110 eines BCC-Codierers 112 wird in einem Herunterumsetzblock 114 herunterumgesetzt. Bei dem vorliegenden Beispiel ist das ursprüngliche Mehrkanalsignal an dem Eingang 110 ein 5-Kanal-Surround-Signal mit einem Vorne-Links-Kanal, einem Vorne-Rechts-Kanal, einem Links-Surround-Kanal, einem Rechts-Surround-Kanal und einem Mitte-Kanal. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung erzeugt der Herunterumsetzblock 114 ein Summensignal durch eine einfache Addition dieser fünf Kanäle in ein Monosignal. Andere Herunterumsetzschemata sind auf dem Gebiet bekannt, derart, dass unter Verwendung eines Mehrkanaleingangssignals ein Herunterumsetzkanal mit einem einzigen Kanal erhalten werden kann. Dieser einzige Kanal wird auf einer Summensignalleitung 115 ausgegeben. Eine Seiteninformation, die durch einen BCC-Analyseblock 116 erhalten wird, wird auf einer Seiteninformationsleitung 117 ausgegeben. In dem BCC-Analyseblock werden Zwischenkanalpegeldifferenzen (ICLD, ICLD = inter-channel level differences) und Zwischenkanalzeitdifferenzen (ICTD, ICTD = inter-channel time differences) berechnet, wie es oben umrissen wurde. Kürzlich wurde der BCC-Analyseblock 116 verbessert, um auch Zwischenkanalkorrelationswerte (ICC-Werte, ICC = interchannel correlation) zu berechnen. Das Summensignal und die Seiteninformationen werden vorzugsweise in quantisierter und codierter Form zu einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene Summensignal in eine Anzahl von Subbändern und wendet eine Skalierung, Verzögerungen und eine andere Verarbeitung an, um die Subbänder der ausgegebenen Mehrkanalaudiosignale zu erzeugen. Diese Verarbeitung wird durchgeführt, derart, dass ICLD, ICTD und ICC-Parameter (Hinweise) eines rekonstruierten Mehrkanalsignals an einem Ausgang 121 ähnlich den jeweiligen Hinweisen für das ursprüngliche Mehrkanalsignal an dem Eingang 110 in den BCC-Codierer 112 sind. Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC-Syntheseblock 122 und einen Seiteninformationsverarbeitungsblock 123.
  • Im Folgenden wird der innere Aufbau des BCC-Syntheseblocks 122 mit Bezug auf 12 erläutert. Das Summensignal an der Leitung 115 wird in eine Zeit/Frequenz-Umwandlungseinheit oder Filterbank FB 125 eingegeben. An dem Ausgang des Blocks 125 gibt es eine Anzahl N von Subbandsignalen oder, in einem Extremfall, einen Block von Spektralkoeffizienten, wenn die Audiofilterbank 125 eine 1:1-Transformation durchführt, d. h. eine Transformation, die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten erzeugt.
  • Der BCC-Syntheseblock 122 weist ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe 127, eine Korrelationsverarbeitungsstufe 128 und eine Inversfilterbankstufe IFB 129 auf. An dem Ausgang der Stufe 129 kann das rekonstruierte Mehrkanalaudiosignal mit beispielsweise fünf Kanälen in dem Fall eines 5-Kanal-Surround-Systems an einen Satz von Lautsprechern 124 ausgegeben werden, wie es in 11 dargestellt ist.
  • Wie es in 12 gezeigt ist, wird das Eingangssignal s(n) mittels des Elements 125 in den Frequenzbereich oder Filterbankbereich umgewandelt. Das Signal, das durch das Element 125 ausgegeben wird, wird multipliziert, derart, dass mehrere Versionen des gleichen Signals erhalten werden, wie es durch den Multiplikationsknoten 130 dargestellt ist. Die Anzahl von Versionen des ursprünglichen Signals ist gleich der Anzahl von Ausgangskanälen in dem Ausgangssignal, das rekonstruiert werden soll. Dann wird im Allgemeinen jede Version des ursprünglichen Signals an dem Knoten 130 einer bestimmten Verzögerung d1, d2, ..., di, ..., dN unterzogen. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock 123 in 11 berechnet und werden durch den BCC-Analyseblock 116 von den Zwischenkanalzeitdifferenzen abgeleitet, die bestimmt wurden.
  • Das gleiche gilt für die Multiplikationsparameter a1, a2, ..., ai, ... aN, die ebenfalls durch den Seiteninformationsverarbeitungsblock 123 basierend auf den Zwischenkanalpegeldifferenzen berechnet werden, die durch den BCC-Analyseblock 116 berechnet wurden.
  • Die ICC-Parameter, die durch den BCC-Analyseblock 116 berechnet werden, werden zum Steuern der Funktionalität des Blocks 128 verwendet, derart, dass bestimmte Korrelationen zwischen den verzögerten und pegelmanipulierten Signalen an den Ausgängen des Blocks 128 erhalten werden. Es ist hier zu beachten, dass die Reihenfolge der Stufen 126, 127, 128 von dem in 12 gezeigten Fall unterschiedlich sein kann.
  • Es ist hier zu beachten, dass bei einer rahmenweisen Verarbeitung eines Audiosignals die BCC-Analyse rahmenseise, d. h. zeitvariant, und auch frequenzweise durchgeführt wird. Dies bedeutet, dass für jedes Spektralband die BCC-Parameter erhalten werden. Dies bedeutet, dass in dem Fall, dass die Audiofilterbank 125 das Eingangssignal beispielsweise in 32 Bandpasssignale zerlegt, der BCC-Analyseblock einen Satz von BCC-Parametern für jedes der 32 Bänder erhält. Natürlich führt der BCC-Syntheseblock 122 aus 11, der in 12 detailliert gezeigt ist, eine Rekonstruktion durch, die ebenfalls auf den 32 Bändern bei dem Beispiel basiert.
  • Im Folgenden wird Bezug auf 13 genommen, die einen Aufbau zeigt, um bestimmte BCC-Parameter zu bestimmen. Normalerweise können ICLD-, ICTD- und ICC-Parameter zwischen Paaren von Kanälen definiert werden. Es ist jedoch bevorzugt, ICLD- und ICTD-Parameter zwischen einem Referenzkanal und einem anderen Kanal zu bestimmen. Dies ist in 13A dargestellt.
  • ICC-Parameter können auf unterschiedliche Weisen definiert werden. Am allgemeinsten könnte man ICC-Parameter bei dem Codierer zwischen allen möglichen Kanalpaaren schätzen, wie es in 13B angegeben ist. In diesem Fall würde ein Decodierer eine ICC generieren (synthetisieren), derart, dass dieselbe näherungsweise die gleiche wie bei dem ursprünglichen Mehrkanalsignal ist, und zwar zwischen allen möglichen Kanalpaaren. Es wurde jedoch vorgeschlagen, lediglich ICC-Parameter zwischen den stärksten zwei Kanälen zu jeder Zeit zu schätzen. Dieses Schema ist in 13C dargestellt, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 2 geschätzt wird und zu einem anderen Zeitpunkt ein ICC-Parameter zwischen Kanälen 1 und 5 berechnet wird. Der Decodierer generiert dann die Zwischenkanalkorrelation zwischen den stärksten Kanälen in dem Decodierer und wendet eine gewisse heuristische Regel zum Berechnen und Generieren der Zwischenkanalkohärenz für die verbleibenden Kanalpaare an.
  • Hinsichtlich der Berechnung von beispielsweise den Multiplikationsparametern a1, aN basierend auf übertragenen ICLD-Parametern wird auf das oben angegebene AES Convention Paper 5574 verwiesen. Die ICLD-Parameter stellen eine Energieverteilung bei einem ursprünglichen Mehrkanalsignal dar. Ohne einen Verlust an Allgemeinheit ist in 13A gezeigt, dass es vier ICLD-Parameter gibt, die die Energiedifferenz zwischen allen anderen Kanälen und dem Vorne-Links-Kanal zeigen. Bei dem Seiteninformationsverarbeitungsblock 123 werden die Multiplikationsparameter a1, ..., aN von den ICLD-Parametern abgeleitet, derart, dass die Gesamtenergie aller rekonstruierter Ausgangskanäle die gleiche wie die Energie des übertragenen Summensignals (oder proportional zu derselben) ist. Eine einfache Weise zum Bestimmen dieser Parameter ist ein 2-stufiger Prozess, bei dem in einer ersten Stufe der Multiplikationsfaktor für den Links-Vorne-Kanal auf Eins gesetzt wird, während Multiplikationsfaktoren für die anderen Kanäle in 13A auf die übertragenen ICLD-Werte gesetzt werden. Dann wird in einer zweiten Stufe die Energie aller fünf Kanäle berechnet und mit der Energie des übertragenen Summensignals verglichen. Dann werden alle Kanäle unter Verwendung eines Herunterskalierungsfaktors herunterskaliert, der für alle Kanäle gleich ist, wobei der Herunterskalierungsfaktor ausgewählt ist, derart, dass die Gesamtenergie aller rekonstruierten Ausgangskanäle nach einer Herunterskalierung gleich der Gesamtenergie des übertragenen Summensignals ist.
  • Natürlich gibt es andere Verfahren zum Berechnen der Multiplikationsfaktoren, die sich nicht auf den 2-stufigen Prozess stützen, sondern die lediglich einen 1-stufigen Prozess benötigen.
  • Hinsichtlich der Verzögerungsparameter ist zu beachten, dass die Verzögerungsparameter ICTD, die von einem BCC-Codierer übertragen werden, direkt verwendet werden können, wenn der Verzögerungsparameter d1 für den Links-Vorne-Kanal auf Null gesetzt ist. Es muss hier keine Neuskalierung vorgenommen werden, da eine Verzögerung die Energie des Signals nicht ändert.
  • Hinsichtlich des Zwischenkanalkohärenzmaßes ICC, das von dem BCC-Codierer zu dem BCC-Decodierer übertragen wird, ist hier zu beachten, dass eine Kohärenzmanipulation durch ein Modifizieren der Multiplikationsfaktoren a1, ..., an vorgenommen werden kann, wie beispielsweise durch ein Multiplizieren der Gewichtungsfaktoren aller Subbänder mit Zufallszahlen mit Werten zwischen 20log10 (–6) und 20log10 (6). Die Pseudozufallssequenz ist vorzugsweise gewählt, derart, dass die Varianz für alle kritischen Bänder näherungsweise konstant ist und der Durchschnitt innerhalb jedes kritischen Bands Null ist. Die gleiche Sequenz wird auf die Spektralkoeffizienten für jeden unterschiedlichen Rahmen angewandt. Somit ist die Hörbildbreite durch ein Modifizieren der Varianz der Pseudozufallssequenz gesteuert. Eine größere Varianz erzeugt eine größere Bildbreite.
  • Die Varianzmodifikation kann in einzelnen Bändern durchgeführt werden, die ein kritisches Band breit sind. Dies ermöglicht die simultane Existenz mehrerer Objekte in einer Hörszene, wobei jedes Objekt eine unterschiedliche Bildbreite aufweist. Eine geeignete Amplitudenverteilung für die Pseudozufallssequenz ist eine einheitliche Verteilung auf einer logarithmischen Skala, wie es in der US-Patentanmeldungsveröffentlichung 2003/0219130 A1 umrissen ist. Dennoch ist die ganze BCC-Syntheseverarbeitung auf einen einzigen Eingangskanal bezogen, der als das Summensignal von dem BCC-Codierer an den BCC-Decodierer übertragen wird, wie es in 11 gezeigt ist.
  • Um die fünf Kanäle in einer kompatiblen Weise, d. h. in einem Bitstromformat, zu übertragen, die auch für einen normalen Stereodecodierer verständlich ist, wurde die sogenannte Matrizierungstechnik verwendet, wie es in „MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3", G. Theile und G. Stoll, AES Preprint 3403, Oktober 1992, San Francisco, beschrieben ist. Die fünf Eingangskanäle L, R, C, Ls und Rs werden in eine Matrizierungsvorrichtung eingespeist, die eine Matrizierungsoperation durchführt, um die grundlegenden oder kompatiblen Stereokanäle Lo, Ro aus den fünf Kanälen zu berechnen. Insbesondere werden diese grundlegenden Stereokanäle Lo/Ro berechnet, wie es unten dargelegt ist: Lo = L + xC + yLs Ro = R + xC + yRsx und y sind Konstanten. Die anderen drei Kanäle C, Ls, Rs werden so wie sie sind in einer Erweiterungsschicht zusätzlich zu einer grundlegenden Stereoschicht übertragen, die eine codierte Version der grundlegenden Stereosignale Lo/Ro umfasst. Mit Bezug auf den Bitstrom umfasst diese grundlegende Lo/Ro-Stereoschicht einen Kopfblock, Informationen wie beispielsweise Skalierungsfaktoren, und Subbandabtastwerte. Die Mehrkanalerweitungsschicht, d. h. der Mitte-Kanal und die zwei Surround-Kanäle sind in dem Mehrkanalerweiterungsfeld enthalten, das auch ein Zusatzdatenfeld genannt wird.
  • Auf einer Decodiererseite wird eine inverse Matrizierungsoperation durchgeführt, um Rekonstruktionen des Links- und des Rechts-Kanals in der Fünfkanaldarstellung unter Verwendung der grundlegenden Stereokanäle Lo, Ro und der drei zusätzlichen Kanäle zu bilden. Zusätzlich werden die drei zusätzlichen Kanäle aus den Zusatzinformationen decodiert, um eine decodierte Fünfkanal- oder Surround-Darstellung des ursprünglichen Audiosignals zu erhalten.
  • Ein anderer Ansatz für eine Mehrkanalcodierung ist in der Veröffentlichung „Improved MPEG-2 audio multi-channel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller, AES Preprint 3865, Februar 1994, Amsterdam, beschrieben, in der rückwärtskompatible Modi betrachtet werden, um eine Rückwärtskompatibilität zu erhalten. Zu diesem Zweck wird eine Kompatibilitätsmatrix verwendet, um zwei so genannte Herunterumsetzkanäle Lc, Rc aus den ursprünglichen fünf Eingangskanälen zu erhalten. Ferner ist es möglich, die drei Zusatzkanäle, die als Zusatzdaten übertragen werden, dynamisch auszuwählen.
  • Um eine Stereoirrelevanz auszunutzen, wird eine gemeinsame Stereotechnik auf Gruppen von Kanälen angewandt, z. B. die drei Front-Kanäle, d. h. für den Links-Kanal, den Rechts-Kanal und den Mitte-Kanal. Zu diesem Zweck werden die drei Kanäle kombiniert, um einen kombinierten Kanal zu erhalten. Dieser kombinierte Kanal wird quantisiert und in den Bitstrom gepackt. Dann wird dieser kombinierte Kanal zusammen mit den entsprechenden gemeinsamen Stereoinformationen in ein gemeinsames Stereodecodiermodul eingegeben, um decodierte gemeinsame Stereokanäle zu erhalten, d. h. einen decodierten gemeinsamen Stereo-Links-Kanal, einen decodierten gemeinsamen Stereo-Rechts-Kanal und einen decodierten gemeinsamen Stereo-Mitte-Kanal. Diese decodierten gemeinsamen Stereokanäle werden zusammen mit dem Links-Surround-Kanal und dem Rechts-Surround-Kanal in einen Kompatibilitätsmatrixblock eingegeben, um den ersten und den zweiten Herunterumsetzkanal Lc, Rc zu bilden. Dann werden quantisierte Versionen von beiden Herunterumsetzkanälen und eine quantisierte Version des kombinierten Kanals zusammen mit gemeinsamen Stereocodierparametern in den Bitstrom gepackt.
  • Unter Verwendung einer Intensitätsstereocodierung wird deshalb eine Gruppe von unabhängigen ursprünglichen Kanalsignalen innerhalb eines einzigen Abschnitts von „Träger"-Daten übertragen. Der Decodierer rekonstruiert dann die betroffenen Signale als identische Daten, die gemäß den ursprünglichen Energie-Zeit-Hüllkurven derselben reskaliert werden. Folglich wird eine lineare Kombination der übertragenen Kanäle zu Ergebnissen führen, die ziemlich unterschiedlich von der ursprünglichen Herunterumsetzung sind. Dies gilt für eine jegliche Art einer gemeinsamen Stereocodierung, die auf dem Intensitätsstereokonzept basiert. Für ein Codiersystem, das kompatible Herunterumsetzkanäle liefert, gibt es eine direkte Folge: Die Rekonstruktion durch eine Dematrizierung, wie es in der vorigen Veröffentlichung beschrieben ist, leidet unter Artefakten, die durch die unvollkommene Rekonstruktion bewirkt sind. Unter Verwendung eines sogenannten gemeinsamen Stereovorverzerrungsschemas, bei dem eine gemeinsame Stereocodierung des Links-, des Rechts- und des Mitte-Kanals vor einer Matrizierung in dem Codierer durchgeführt wird, erleichtert dieses Problem. Auf diese Weise bringt das Dematrizierungsschema für eine Rekonstruktion weniger Artefakte ein, da auf der Codiererseite die decodierten gemeinsamen Stereosignale zum Erzeugen der Herunterumsetzkanäle verwendet wurden. Somit wird der unvollkommene Rekonstruktionsprozess in die kompatiblen Herunterumsetzkanäle Lc und Rc verschoben, wo es viel wahrscheinlicher ist, dass derselbe durch das Audiosignal selbst maskiert wird.
  • Obwohl ein derartiges System auf Grund einer Dematrizierung auf der Decodiererseite in weniger Artefakten resultiert hat, weist dasselbe dennoch einige Mängel auf. Ein Mangel besteht darin, dass die stereokompatiblen Herunterumsetzkanäle Lc und Rc nicht von den ursprünglichen Kanälen sondern von codierten/decodierten Intensitätsstereoversionen der ursprünglichen Kanäle abgeleitet sind. Deshalb sind Datenverluste auf Grund des Intensitätsstereocodiersystems in den kompatiblen Herunterumsetzkanälen enthalten. Ein Nur- Stereo-Decodierer, der lediglich die kompatiblen Kanäle und nicht die Verbesserung-Intensität-Stereocodierten Kanäle (Enhancement Intensity Stereo Encoded Channels) decodiert, liefert deshalb ein Ausgangssignal, das durch von intensitätsstereobewirkten Datenverlusten beeinflusst ist.
  • Zusätzlich muss neben den zwei Herunterumsetzkanälen ein vollständiger zusätzlicher Kanal übertragen werden. Dieser Kanal ist der kombinierte Kanal, der mittels einer gemeinsamen Stereocodierung des Links-Kanals, des Rechts-Kanals und des Mitte-Kanals gebildet ist. Zu dem Decodierer müssen zusätzlich auch die Intensitätsstereoinformationen übertragen werden, um die ursprünglichen Kanäle L, R, C aus dem kombinierten Kanal zu rekonstruieren. Bei dem Decodierer wird eine inverse Matrizierung, d. h. eine Dematrizierungsoperation durchgeführt, um die Surround-Kanäle von den zwei Herunterumsetzkanälen abzuleiten. Zusätzlich werden die ursprünglichen Links-, Rechts- und Mitte-Kanäle durch eine gemeinsame Stereodecodierung unter Verwendung des übertragenen kombinierten Kanals und der übertragenen gemeinsamen Stereoparameter angenähert. Es ist zu beachten, dass die ursprünglichen Links-, Rechts- und Mittenkanäle durch eine gemeinsame Stereodecodierung des kombinierten Kanals abgeleitet sind.
  • Es wurde herausgefunden, dass in dem Fall von Intensitätsstereotechniken, wenn dieselben in Kombination mit Mehrkanalsignalen verwendet werden, lediglich vollständig kohärente Ausgangssignale, die auf dem gleichen Basiskanal basieren, erzeugt werden können.
  • Bei BCC-Techniken ist es ziemlich aufwändig, die Zwischenkanalkohärenz bei einem rekonstruierten Mehrkanalausgangssignal zu verringern, da ein Pseudozufallszahlengenerator zum Beeinflussen der Gewichtungssektoren erforderlich ist. Zusätzlich wurde gezeigt, dass diese Art der Verarbeitung dahingehend problematisch ist, dass Artefakte aufgrund eines zufälligen Manipulierens von Multiplikationsfaktoren oder Zeitverzögerungsfaktoren eingebracht werden können, die unter bestimmen Umständen hörbar werden können und deshalb die Qualität des rekonstruierten Mehrkanalausgangssignals verschlechtern.
  • Als ein weiteres Beispiel des Stands der Technik wird das Dokument US 5912976 zitiert, das ein Audioverbesserungssystem offenbart, das eine Gruppe von Mehrkanalaudiosignalen empfängt und eine simulierte Surround-Klangumgebung durch eine Wiedergabe von lediglich zwei Ausgangssignalen liefert.
  • Zusammenfassung der Erfindung
  • Es ist deshalb eine Aufgabe der vorliegenden Erfindung, ein Konzept für eine biteffiziente und artefaktreduzierte Verarbeitung oder inverse Verarbeitung eines Mehrkanalaudiosignals zu schaffen.
  • Gemäß dem ersten Aspekt der vorliegenden Erfindung wird diese Aufgabe durch eine Vorrichtung zum Aufbauen eines Mehrkanalausgangssignals unter Verwendung eines Eingangssignals und von Parameterseiteninformationen erreicht, wobei das Eingangssignal einen ersten Eingangskanal und einen zweiten Eingangskanal umfasst, die von einem ursprünglichen Mehrkanalsignal abgeleitet sind, wobei das ursprüngliche Mehrkanalsignal eine Mehrzahl von Kanälen aufweist, wobei die Mehrzahl von Kanälen zumindest zwei ursprüngliche Kanäle umfasst, die als auf einer Seite einer angenommenen Zuhörerposition positioniert definiert sind, wobei ein erster ursprünglicher Kanal ein erster der zumindest zwei ursprünglichen Kanäle ist und wobei ein zweiter ursprünglicher Kanal ein zweiter der zumindest zwei ursprünglichen Kanäle ist und die Parameterseiteninformationen Beziehungen zwischen ursprünglichen Kanälen des ursprünglichen Mehrkanalsignals beschreiben, mit folgenden Merkmalen: einem ursprünglichen Mehrkanalsignal; einer Einrichtung zum Bestimmen eines ersten Basiskanals durch ein Auswählen von einem des ersten und des zweiten Eingangskanals oder einer Kombination des ersten und des zweiten Eingangskanals und zum Bestimmen eines zweiten Basiskanals durch ein Auswählen des anderen des ersten und des zweiten Eingangskanals oder einer unterschiedlichen Kombination des ersten und des zweiten Eingangskanals, derart, dass der zweite Basiskanal sich von dem ersten Basiskanal unterscheidet; und einer Einrichtung zum Generieren (Synthetisieren) eines ersten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des ersten Basiskanals, um einen ersten generierten (synthetisierten) Ausgangskanal zu erhalten, der eine reproduzierte Version des ersten ursprünglichen Kanals ist, der auf der einen Seite der angenommenen Zuhörerposition positioniert ist, und zum Generieren eines zweiten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des zweiten Basiskanals, wobei der zweite Ausgangskanal eine reproduzierte Version des zweiten ursprünglichen Kanals ist, der auf der gleichen Seite der angenommenen Zuhörerposition positioniert ist.
  • Gemäß dem zweiten Aspekt der vorliegenden Erfindung wird diese Aufgabe durch ein Verfahren zum Aufbauen eines Mehrkanalausgangssignals unter Verwendung eines Eingangssignals und von Parameterseiteninformationen gelöst, wobei das Eingangssignal einen ersten Eingangskanal und einen zweiten Eingangskanal umfasst, die von einem ursprünglichen Mehrkanalsignal abgeleitet sind, wobei das ursprüngliche Mehrkanalsignal eine Mehrzahl von Kanälen aufweist, wobei die Mehrzahl von Kanälen zumindest zwei ursprüngliche Kanäle umfasst, die als auf einer Seite einer angenommenen Zuhörerposition positioniert definiert sind, wobei ein erster ursprünglicher Kanal ein erster der zumindest zwei ursprünglichen Kanäle ist und wobei ein zweiter ursprünglicher Kanal ein zweiter der zumindest zwei ursprünglichen Kanäle ist und die Parameterseiteninformationen Beziehungen zwischen ursprünglichen Kanälen des ursprünglichen Mehrka nalsignals beschreiben, mit folgenden Schritten: Bestimmen eines ersten Basiskanals durch ein Auswählen von einem des ersten und des zweiten Eingangskanals oder einer Kombination des ersten und des zweiten Eingangskanals und zum Bestimmen eines zweiten Basiskanals durch ein Auswählen des anderen des ersten und des zweiten Eingangskanals oder einer unterschiedlichen Kombination des ersten und des zweiten Eingangskanals, derart, dass der zweite Basiskanal sich von dem ersten Basiskanal unterscheidet; und Generieren (Synthetisieren) eines ersten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des ersten Basiskanals, um einen ersten generierten (synthetisierten) Ausgangskanal zu erhalten, der eine reproduzierte Version des ersten ursprünglichen Kanals ist, der auf der einen Seite der angenommenen Zuhörerposition positioniert ist, und zum Generieren eines zweiten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des zweiten Basiskanals, wobei der zweite Ausgangskanal eine reproduzierte Version des zweiten ursprünglichen Kanals ist, der auf der gleichen Seite der angenommenen Zuhörerposition positioniert ist.
  • Gemäß dem dritten Aspekt der vorliegenden Erfindung wird diese Aufgabe durch eine Vorrichtung zum Erzeugen eines Herunterumsetzsignals aus einem ursprünglichen Mehrkanalsignal gelöst, wobei das Herunterumsetzsignal eine Anzahl von Kanälen aufweist, die geringer als eine Anzahl von ursprünglichen Kanälen ist, mit folgenden Merkmalen: einer Einrichtung zum Berechnen eines ersten Herunterumsetzkanals und eines zweiten Herunterumsetzkanals unter Verwendung einer Herunterumsetzregel; einer Einrichtung zum Berechnen von Parameterpegelinformationen, die eine Energieverteilung unter den Kanälen in dem ursprünglichen Mehrkanalsignal darstellen; einer Einrichtung zum Bestimmen eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, wobei die zwei ursprünglichen Kanäle auf einer Seite einer angenommenen Zuhörerposition positioniert sind; und einer Einrichtung zum Bilden eines Ausgangssignals unter Verwendung des ersten und des zweiten Herunterumsetzkanals, der Parameterpegelinformationen und lediglich zumindest eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, die auf der einen Seite positioniert sind, oder eines Wertes, der von dem zumindest einen Kohärenzmaß abgeleitet ist, aber nicht unter Verwendung irgendeines Kohärenzmaßes zwischen Kanälen, die auf unterschiedlichen Seiten der angenommenen Zuhörerposition positioniert sind.
  • Gemäß einem vierten Aspekt der vorliegenden Erfindung wird diese Aufgabe durch ein Verfahren zum Erzeugen eines Herunterumsetzsignals aus einem ursprünglichen Mehrkanalsignal gelöst, wobei das Herunterumsetzsignal eine Anzahl von Kanälen aufweist, die geringer als eine Anzahl von ursprünglichen Kanälen ist, mit folgenden Schritten: Berechnen eines ersten Herunterumsetzkanals und eines zweiten Herunterumsetzkanals unter Verwendung einer Herunterumsetzregel; Berechnen von Parameterpegelinformationen, die eine Energieverteilung unter den Kanälen in dem ursprünglichen Mehrkanalsignal darstellen; Bestimmen eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, wobei die zwei ursprünglichen Kanäle auf einer Seite einer angenommenen Zuhörerposition positioniert sind; und Bilden eines Ausgangssignals unter Verwendung des ersten und des zweiten Herunterumsetzkanals, der Parameterpegelinformationen und lediglich zumindest eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, die auf der einen Seite positioniert sind, oder eines Wertes, der von dem zumindest einen Kohärenzmaß abgeleitet ist, aber nicht unter Verwendung irgendeines Kohärenzmaßes zwischen Kanälen, die auf unterschiedlichen Seiten der angenommenen Zuhörerposition positioniert sind.
  • Gemäß einem fünften Aspekt und einem sechsten Aspekt der vorliegenden Erfindung wird diese Aufgabe durch ein Computerprogramm gelöst, das das Verfahren zum Aufbauen des Mehrkanalausgangssignals oder das Verfahren zum Erzeugen eines Herunterumsetzsignals umfasst.
  • Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine effiziente und artefaktreduzierte Rekonstruktion eines Mehrkanalausgangssignals erhalten wird, wenn es zwei oder mehr Kanäle gibt, die von einem Codierer zu einem Decodierer übertragen werden können, wobei die Kanäle, die vorzugsweise ein Links- und ein Rechts-Stereokanal sind, einen bestimmten Grad einer Inkohärenz zeigen. Dies wird normalerweise der Fall sein, da der Links- und der Rechts-Stereokanal oder der links- und der rechtskompatible Stereokanal, die durch ein Herunterumsetzen eines Mehrkanalsignals erhalten werden, für gewöhnlich einen bestimmten Grad einer Inkohärenz zeigen, d. h. nicht vollständig kohärent oder vollständig korreliert sind.
  • Gemäß der vorliegenden Erfindung sind die rekonstruierten Ausgangskanäle des Mehrkanalausgangssignals durch ein Bestimmen unterschiedlicher Basiskanäle für unterschiedlichen Ausgangskanäle voneinander dekorreliert, wobei die unterschiedlichen Basiskanäle durch ein Verwenden variierender Grade der unkorrelierten übertragenen Kanäle erhalten werden.
  • Anders ausgedrückt wäre ein rekonstruierter Ausgangskanal mit beispielsweise dem übertragenen Links-Eingangskanal als einem Basiskanal – in dem BCC-Subbandbereich – vollständig mit einem anderen rekonstruierten Ausgangskanal korreliert, der den gleichen z. B. Links-Kanal als den Basiskanal aufweist, unter der Annahme keiner zusätzlichen „Korrelationssynthese". In diesem Zusammenhang ist zu beachten, dass deterministische Verzögerungs- und Pegeleinstellungen eine Kohärenz zwischen diesen Kanälen nicht verringern. Gemäß der vorliegenden Erfindung wird die Kohärenz zwischen diesen Kanälen, die bei dem obigen Beispiel 100% beträgt, durch ein Verwenden eines ersten Basiskanals zum Aufbauen des ersten Ausgangskanals und ein Verwenden eines zweiten Basiskanals zum Aufbauen des zweiten Ausgangskanals auf einen gewissen Kohärenzgrad oder ein gewisses Kohärenzmaß verringert, wobei der erste und der zweite Basiskanal unterschiedliche „Abschnitte" der zwei übertragenen (dekorrelierten) Kanäle aufweisen. Dies bedeutet, dass der erste Basiskanal stärker durch den ersten übertragenen Kanal beeinflusst ist oder sogar identisch mit demselben ist, verglichen mit dem zweiten Basiskanal, der durch den ersten Kanal weniger beeinflusst ist, d. h. der durch den zweiten übertragenen Kanal mehr beeinflusst ist.
  • Gemäß der vorliegenden Erfindung wird eine inhärente Dekorrelation zwischen den übertragenen Kanälen zum Liefern dekorrelierter Kanäle in einem Mehrkanalausgangssignal verwendet.
  • Bei einem bevorzugten Ausführungsbeispiel wird ein Kohärenzmaß zwischen jeweiligen Kanalpaaren, wie beispielsweise Vorne-Links und Links-Surround oder Vorne-Rechts und Rechts-Surround bei einem Codierer auf eine zeitabhängige und frequenzabhängige Weise bestimmt und als Seiteninformationen an einen erfindungsgemäßen Decodierer übertragen, derart, dass eine dynamische Bestimmung von Basiskanälen und deshalb eine dynamische Manipulation einer Kohärenz zwischen den rekonstruierten Ausgangskanälen erhalten werden kann.
  • Verglichen mit dem oben erwähnten Fall des Stands der Technik, bei dem lediglich ein ICC-Hinweis für die zwei stärksten Kanäle übertragen wird, ist das erfindungsgemäße System einfacher zu steuern und liefert eine Rekonstruktion besserer Qualität, da keine Bestimmung der stärksten Kanäle bei einem Codierer oder einem Decodierer nötig ist, da das erfindungsgemäße Kohärenzmaß sich immer auf das gleiche Kanalpaar bezieht, ungeachtet der Tatsache, ob dieses Kanalpaar die stärksten Kanäle umfasst oder nicht. Eine höhere Qualität verglichen mit den Systemen des Stands der Technik wird dahingehend erhalten, dass zwei herunterumgesetzte Kanäle von einem Codierer zu einem Decodierer übertragen werden, derart, dass die Links/Rechts-Kohärenzbeziehung automatisch übertragen wird, derart, dass keine zusätzlichen Informationen über eine Links/Rechts-Kohärenz erforderlich sind.
  • Ein weiterer Vorteil der vorliegenden Erfindung ist in der Tatsache zu sehen, dass die decodiererseitige Rechenarbeitslast verringert werden kann, da die normale Dekorrelationsverarbeitungslast verringert oder sogar vollständig beseitigt werden kann.
  • Vorzugsweise werden Parameterkanalseiteninformationen für einen oder mehrere der ursprünglichen Kanäle abgeleitet, derart, dass dieselben sich auf einen der Herunterumsetzkanäle beziehen, und nicht, wie bei dem Stand der Technik auf einen zusätzlichen „kombinierten" gemeinsamen Stereokanal. Dies bedeutet, dass die Parameterkanalseiteninformationen berechnet werden, derart, dass auf einer Decodiererseite ein Kanalrekonstruierer die Kanalseiteninformationen und einen der Herunterumsetzkanäle oder eine Kombination der Herunterumsetzkanäle verwendet, um eine Näherung des ursprünglichen Audiokanals zu rekonstruieren, dem die Kanalseiteninformationen zugewiesen sind.
  • Dieses Konzept ist dahingehend vorteilhaft, dass dasselbe eine biteffiziente Mehrkanalerweiterung bereitstellt, derart, dass ein Mehrkanalaudiosignal an einem Decodierer abgespielt werden kann.
  • Zusätzlich ist das Konzept rückwärtskompatibel, da ein einfacherer Decodierer, der lediglich für eine Zweikanalverarbeitung angepasst ist, die Erweiterungsinformationen, d. h. die Kanalseiteninformationen, einfach ignorieren kann. Der einfachere Decodierer kann lediglich die zwei Herunterumsetzkanäle abspielen, um eine Stereodarstellung des ursprünglichen Mehrkanalaudiosignals zu erhalten. Ein komplizierterer Decodierer, der für einen Mehrkanalbetrieb freigegeben ist, kann jedoch die übertragenen Kanalseiteninformationen verwenden, um Näherungen der ursprünglichen Kanäle zu rekonstruieren.
  • Die vorliegende Erfindung ist dahingehend vorteilhaft, dass dieselbe biteffizient ist, da im Gegensatz zu dem Stand der Technik kein zusätzlicher Trägerkanal über den ersten und den zweiten Herunterumsetzkanal Lc, Rc hinaus erforderlich ist. Anstelle dessen sind die Kanalseiteninformationen auf einen oder beide Herunterumsetzkanäle bezogen. Dies bedeutet, dass die Herunterumsetzkanäle selbst als ein Trägerkanal dienen, zu dem die Kanalseiteninformationen kombiniert werden, um ein ursprüngliches Audiosignal zu rekonstruieren. Dies bedeutet, dass die Kanalseiteninformationen vorzugsweise Parameterseiteninformationen sind, d. h. Informationen, die keine Subbandabtastwerte oder Spektralkoeffizienten umfassen. Anstelle dessen sind die Parameterseiteninformationen Informationen, die zum Gewichten (in Zeit und/oder Frequenz) des jeweiligen Herunterumsetzkanals oder der Kombination von den jeweiligen Herunterumsetzkanälen verwendet werden, um eine rekonstruierte Version eines ausgewählten ursprünglichen Kanals zu erhalten.
  • Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine rückwärtskompatible Codierung eines Mehrkanalsignals basierend auf einem kompatiblen Stereosignal erhalten. Vorzugsweise wird das kompatible Stereosignal (Herunterumsetzsignal) unter Verwendung einer Matrizierung der ursprünglichen Kanäle des Mehrkanalaudiosignals erzeugt.
  • Vorzugsweise werden Kanalseiteninformationen für einen ausgewählten ursprünglichen Kanal basierend auf gemeinsamen Stereotechniken erhalten, wie beispielsweise einer Intensitätsstereocodierung oder einer Binaural-Hinweis-Codierung. Auf der Decodiererseite muss somit keine Dematrizierungsoperation durchgeführt werden. Die Probleme, die einer Dematrizierung zugeordnet sind, d. h. bestimmte Artefakte, die auf eine unerwünschte Verteilung von Quantisierungsrauschen bei Dematrizierungsoperationen bezogen sind, werden vermieden. Dies rührt von der Tatsache her, dass der Decodierer einen Kanalrekonstruierer verwendet, der ein ur sprüngliches Signal durch ein Verwenden eines der Herunterumsetzkanäle oder einer Kombination der Herunterumsetzkanäle und der übertragenen Kanalseiteninformationen rekonstruiert.
  • Vorzugsweise wird das erfindungsgemäße Konzept auf ein Mehrkanalaudiosignal mit fünf Kanälen angewandt. Diese fünf Kanäle sind ein Links-Kanal L, ein Rechts-Kanal R, ein Mitte-Kanal C, ein Links-Surround-Kanal Ls und ein Rechts-Surround-Kanal Rs. Vorzugsweise sind Herunterumsetzkanäle stereokompatible Herunterumsetzkanäle Ls und Rs, die eine Stereodarstellung des ursprünglichen Mehrkanalaudiosignals bereitstellen.
  • Gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden für jeden ursprünglichen Kanal Kanalseiteninformationen auf einer Codiererseite berechnet, die in Ausgangsdaten gepackt werden. Kanalseiteninformationen für den ursprünglichen Links-Kanal werden unter Verwendung des Links-Herunterumsetzkanals abgeleitet. Kanalseiteninformationen für den ursprünglichen Links-Surround-Kanal werden unter Verwendung des Links-Herunterumsetzkanals abgeleitet. Kanalseiteninformationen für den ursprünglichen Rechts-Kanal werden von dem Rechts-Herunterumsetzkanal abgeleitet. Kanalseiteninformationen für den ursprünglichen Rechts-Surround-Kanal werden von dem Rechts-Herunterumsetzkanal abgeleitet.
  • Gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden Kanalinformationen für den ursprünglichen Mitte-Kanal unter Verwendung des ersten Herunterumsetzkanals sowie des zweiten Herunterumsetzkanals abgeleitet, d. h. unter Verwendung einer Kombination der zwei Herunterumsetzkanäle. Diese Kombination ist vorzugsweise eine Summierung.
  • Somit sind die Gruppierungen, d. h. die Beziehung zwischen den Kanalseiteninformationen und dem Trägersignal, d. h. dem verwendeten Herunterumsetzkanal zum Bereitstellen von Kanalseiteninformationen für einen ausgewählten ursprünglichen Kanal, derart, dass für eine optimale Qualität ein bestimmter Herunterumsetzkanal ausgewählt wird, der die höchstmögliche relative Größe des jeweiligen ursprünglichen Mehrkanalsignals enthält, das mittels Kanalseiteninformationen dargestellt ist. Als ein derartiges gemeinsames Stereoträgersignal werden der erste und der zweite Herunterumsetzkanal verwendet. Vorzugsweise kann ebenfalls die Summe des ersten und des zweiten Herunterumsetzkanals verwendet werden. Natürlich kann die Summe des ersten und des zweiten Herunterumsetzkanals zum Berechnen von Kanalseiteninformationen für jeden der ursprünglichen Kanäle verwendet werden. Vorzugsweise jedoch wird die Summe der Herunterumsetzkanäle zum Berechnen der Kanalseiteninformationen des ursprünglichen Mitte-Kanals in einer Surround-Umgebung verwendet, wie beispielsweise Fünfkanal-Surround, Siebenkanal-Surround, 5.1-Surround oder 7.1-Surround. Ein Verwenden der Summe des ersten und des zweiten Herunterumsetzkanals ist besonders vorteilhaft, da kein zusätzlicher Übertragungsmehraufwand durchgeführt werden muss. Dies rührt von der Tatsache her, dass beide Herunterumsetzkanäle an dem Decodierer vorhanden sind, derart, dass ein Summieren dieser Herunterumsetzkanäle ohne weiteres an dem Decodierer durchgeführt werden kann, ohne irgendwelche zusätzlichen Übertragungsbits zu benötigen.
  • Vorzugsweise werden die Kanalseiteninformationen, die die Mehrkanalerweiterung bilden, in den Ausgangsdatenbitstrom in einer kompatiblen Weise eingegeben, derart, dass ein einfacherer Decodierer die Mehrkanalerweiterungsdaten einfach ignoriert und lediglich eine Stereodarstellung des Mehrkanalaudiosignals liefert. Dennoch verwendet ein komplizierterer Codierer nicht nur zwei Herunterumsetzkanäle, sondern setzt zusätzlich die Kanalseiteninformationen ein, um eine vollständige Mehrkanaldarstellung des ursprünglichen Audiosignals zu rekonstruieren.
  • Kurze Beschreibung der Zeichnungen
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend durch Bezugnahme auf die beigefügten Zeichnungen beschrieben, in denen:
  • 1A ein Blockdiagramm eines bevorzugten Ausführungsbeispiels des erfindungsgemäßen Codierers ist;
  • 1B ein Blockdiagramm eines erfindungsgemäßen Codierers zum Liefern eines Kohärenzmaßes für jeweilige Eingangskanalpaare ist.
  • 2A ein Blockdiagramm eines bevorzugten Ausführungsbeispiels des erfindungsgemäßen Decodierers ist;
  • 2B ein Blockdiagramm eines erfindungsgemäßen Decodierers ist, der unterschiedliche Basiskanäle für unterschiedliche Ausgangskanäle aufweist;
  • 2C ein Blockdiagramm eines bevorzugten Ausführungsbeispiels der Einrichtung zum Generieren (Synthetisieren) von 2B ist;
  • 2D ein Blockdiagramm eines bevorzugten Ausführungsbeispiels der in 2C gezeigten Vorrichtung für ein 5-Kanal-Surround-System ist;
  • 2E eine schematische Darstellung einer Einrichtung zum Bestimmen eines Kohärenzmaßes bei einem erfindungsgemäßen Codierer ist;
  • 2F eine schematische Darstellung eines bevorzugten Beispiels zum Bestimmen eines Gewichtungsfaktors zum Berechnen eines Basiskanals mit einem bestimmten Kohärenzmaß bezüglich eines anderen Basiskanals ist;
  • 2G ein schematisches Diagramm einer bevorzugten Weise zum Erhalten eines rekonstruierten Ausgangskanals basierend auf einem bestimmten Gewichtungsfaktor ist, der durch das in 2F gezeigte Schema berechnet ist;
  • 3A ein Blockdiagramm für eine bevorzugte Implementierung der Einrichtung zum Berechnen ist, um frequenzselektive Kanalseiteninformationen zu erhalten;
  • 3B ein bevorzugtes Ausführungsbeispiel einer Berechnungseinrichtung ist, die eine gemeinsame Stereoverarbeitung (joint stereo processing) implementiert, wie beispielsweise eine Intensitätscodierung oder Binaural-Hinweis-Codierung;
  • 4 ein weiteres bevorzugtes Ausführungsbeispiel der Einrichtung zum Berechnen von Kanalseiteninformationen darstellt, bei dem die Kanalseiteninformationen Verstärkungsfaktoren sind;
  • 5 ein bevorzugtes Ausführungsbeispiel einer Implementierung des Decodierers darstellt, wenn der Codierer wie in 4 implementiert ist;
  • 6 eine bevorzugte Implementierung der Einrichtung zum Liefern der Herunterumsetzkanäle darstellt;
  • 7 Gruppierungen von ursprünglichen und Herunterumsetzkanälen zum Berechnen der Kanalseiteninformationen für die jeweiligen ursprünglichen Kanäle darstellt;
  • 8 ein weiteres bevorzugten Ausführungsbeispiel eines erfindungsgemäßen Codierers darstellt;
  • 9 eine weitere Implementierung eines erfindungsgemäßen Decodierers darstellt; und
  • 10 einen Joint-Stereo-Codierer des Stands der Technik darstellt.
  • 11 eine Blockdiagrammdarstellung einer BCC-Codierer/Decodierer-Kette des Stands der Technik ist?;
  • 12 ein Blockdiagramm einer Implementierung eines BCC-Syntheseblocks des Stands der Technik von 11 ist;
  • 13 eine Darstellung eines gut bekannten Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern ist;
  • 14A eine schematische Darstellung des Schemas zum Zuschreiben unterschiedlicher Basiskanäle für die Reproduktion unterschiedlicher Ausgangskanäle ist;
  • 14B eine Darstellung der Kanalpaare ist, die zum Bestimmen von ICC- und ICTD-Parametern nötig sind;
  • 15A eine schematische Darstellung einer ersten Auswahl von Basiskanälen zum Aufbauen eines 5-Kanal-Ausgangssignals; und
  • 15B eine schematische Darstellung einer zweiten Auswahl von Basiskanälen zum Aufbauen eines 5-Kanal-Ausgangssignals.
  • Detaillierte Beschreibung bevorzugter Ausführungsbeispiele
  • 1A zeigt eine Vorrichtung zum Verarbeiten eines Mehrkanalaudiosignals 10, das zumindest drei ursprüngliche Kanäle aufweist, wie beispielsweise R, L und C. Vorzugsweise weist das ursprüngliche Audiosignal mehr als drei Kanäle auf, wie beispielsweise fünf Kanäle in der Surround-Umgebung, was in 1A dargestellt ist. Die fünf Kanäle sind der Links-Kanal L, der Rechts-Kanal R, der Mitte-Kanal C, der Links-Surround-Kanal Ls und der Rechts-Surround-Kanal Rs. Die erfindungsgemäße Vorrichtung umfasst eine Einrichtung 12 zum Bereitstellen eines ersten Herunterumsetzkanals Lc und eines zweiten Herunterumsetzkanals Rc, wobei der erste und der zweite Herunterumsetzkanal von den ursprünglichen Kanälen abgeleitet sind. Zum Ableiten der Herunterumsetzkanäle von den ursprünglichen Kanälen bestehen mehrere Möglichkeiten. Eine Möglichkeit besteht darin, die Herunterumsetzkanäle Lc und Rc mittels einer Matrizierung der ursprünglichen Kanäle unter Verwendung einer Matrizierungsoperation abzuleiten, wie es in 6 dargestellt ist. Diese Matrizierungsoperation wird in dem Zeitbereich durchgeführt.
  • Die Matrizierungsparameter a, b und t sind ausgewählt, derart, dass dieselben kleiner oder gleich 1 sind. Vorzugsweise betragen a und b 0,7 oder 0,5. Der Gesamtgewichtungsparameter t ist vorzugsweise gewählt, derart, dass ein Kanalabschneiden vermieden ist.
  • Alternativ, wie es in 1A angegeben ist, können die Herunterumsetzkanäle Lc und Rc auch extern zugeführt werden. Dies kann vorgenommen werden, wenn die Herunterumsetzkanäle Lc und Rc das Ergebnis einer „Handmisch"-Operation sind. Bei diesem Szenario mischt ein Tontechniker die Herunterumsetzkanäle selbst anstelle unter Verwendung eine automatischen Matrizierungsoperation. Der Tontechniker führt ein kreatives Mischen durch, um optimierte Herunterumsetzkanäle Lc und Rc zu erhalten, die die bestmögliche Stereodarstellung des ursprünglichen Mehrkanalaudiosignals ergeben.
  • In dem Fall einer externen Zuführung der Herunterumsetzkanäle führt die Einrichtung zum Bereitstellen keine Matrizierungsoperation durch, sondern leitet die extern zugeführten Herunterumsetzkanäle einfach an eine nachfolgende Berechnungseinrichtung 14 weiter.
  • Die Berechnungseinrichtung 14 ist wirksam, um die Kanalseiteninformationen, wie beispielsweise li, lsi, ri oder rsi für ausgewählte ursprüngliche Kanäle, wie beispielsweise L, Ls, R bzw. Rs zu berechnen. Insbesondere ist die Einrichtung 14 zum Berechnen wirksam, um die Kanalseiteninformationen zu berechnen, derart, dass ein Herunterumsetzkanal, wenn derselbe unter Verwendung der Kanalseiteninformationen gewichtet ist, in einer Näherung des ausgewählten ursprünglichen Kanals resultiert.
  • Alternativ oder zusätzlich ist die Einrichtung zum Berechnen von Kanalseiteninformationen ferner wirksam, um die Kanalseiteninformationen für einen ausgewählten ursprünglichen Kanal zu berechnen, derart, dass ein kombinierter Herunterumsetzkanal, der eine Kombination des ersten und des zweiten Herunterumsetzkanals umfasst, wenn derselbe unter Verwendung der berechneten Kanalseiteninformationen gewichtet ist, in einer Näherung des ausgewählten ursprünglichen Kanals resultiert. Um dieses Merkmal in der Figur zu zeigen, sind ein Addierer 14a und eine Berechnungseinrichtung 14b von kombinierten Kanalseiteninformationen gezeigt.
  • Fachleuten auf dem Gebiet ist klar, dass diese Elemente nicht als gesonderte Elemente implementiert sein müssen. Anstelle dessen kann die ganze Funktionalität der Blöcke 14, 14a und 14b mittels eines bestimmten Prozessors implementiert sein, der ein Universalprozessor oder irgendeine andere Einrichtung zum Durchführen der erforderlichen Funktionalität sein kann.
  • Zusätzlich ist hier zu beachten, dass Kanalsignale, die Subbandabtastwerte oder Frequenzbereichswerte sind, in Großbuchstaben angegeben sind. Kanalseiteninformationen sind im Gegensatz zu den Kanälen selbst durch Kleinbuchstaben angegeben. Die Kanalseiteninformationen ci sind deshalb die Kanalseiteninformationen für den ursprünglichen Mitte-Kanal C.
  • Die Kanalseiteninformationen sowie die Herunterumsetzkanäle Lc und Rc oder eine codierte Version Lc' und Rc', die durch einen Audiocodierer 16 erzeugt werden, werden in einen Ausgangsdatenformatierer 18 eingegeben. Im Allgemeinen wirkt der Ausgangsdatenformatierer 18 als eine Einrichtung zum Erzeugen von Ausgangsdaten, wobei die Ausgangsdaten die Kanalseiteninformationen für zumindest einen ursprünglichen Kanal, den ersten Herunterumsetzkanal oder ein Signal, das von dem ersten Herunterumsetzkanal abgeleitet ist (wie beispielsweise eine codierte Version desselben), und den zweiten Herunterumsetzkanal oder ein Signal umfassen, das von dem zweiten Herunterumsetzkanal abgeleitet ist (wie beispielsweise eine codierte Version desselben).
  • Der Ausgangsdaten- oder Ausgangsbitstrom 20 kann dann zu einem Bitstromdecodierer übertragen werden oder kann gespeichert oder verteilt werden. Vorzugsweise ist der Ausgangsbitstrom 20 ein kompatibler Bitstrom, der auch durch einen einfacheren Decodierer gelesen werden kann, der keine Mehrkanalerweiterungsfähigkeit aufweist. Derartige einfachere Codierer, wie beispielsweise die meisten existierenden, normalen mp3-Decodierer des neusten technischen Stands, ignorieren einfach die Mehrkanalerweiterungsdaten, d. h. die Kanalseiteninformationen. Dieselben decodieren lediglich den ersten und den zweiten Herunterumsetzkanal, um eine Stereoausgabe zu erzeugen. Kompliziertere Decodierer, wie beispielsweise mehrkanalfähige Decodierer, lesen die Kanalseiteninformationen und erzeugen dann eine Näherung der ursprünglichen Audiokanäle, derart, dass ein Mehrkanalaudioeindruck erhalten wird.
  • 8 zeigt ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung in der Umgebung von Fünfkanal-Surround/mp3. Hier ist es bevorzugt, die Surround-Verbesserung-Daten (Surround Enhancement Data) (in das Zusatzdatenfeld in der standardisierte mp3-Bitstromsyntax zu schreiben, derart, dass ein „mp3-Surround"-Bitstrom erhalten wird.
  • 1B stellt eine detailliertere Darstellung des Elements 14 in 1A dar. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung umfasst eine Berechnungseinrichtung 14 eine Einrichtung 141 zum Berechnen von Parameterpegelinformationen, die eine Energieverteilung unter den Kanälen in dem ursprünglichen Mehrkanalsignal darstellen, das bei 10 in 1A gezeigt ist. Das Element 141 ist deshalb in der Lage, Ausgangspegelinformationen für alle ursprünglichen Kanäle zu erzeugen. Bei einem bevorzugten Ausführungsbeispiel umfassen diese Pegelinformationen ICLD-Parameter, die durch eine reguläre BCC-Synthese erhalten werden, wie es in Verbindung mit 10 bis 13 beschrieben wurde.
  • Das Element 14 weist ferner eine Einrichtung 142 zum Bestimmen eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen auf, die auf einer Seite einer angenommenen Zuhörerposition positioniert sind. In dem Fall des in 1A gezeigten 5-Kanal-Surround-Beispiels umfasst ein derartiges Kanalpaar den Rechts-Kanal R und den Rechts-Surround-Kanal Rs oder alternativ oder zusätzlich den Links-Kanal L und den Links-Surround-Kanal Ls. Das Element 14 weist ferner alternativ eine Einrichtung 143 zum Berechnen der Zeitdifferenz für ein derartiges Kanalpaar auf, d. h. ein Kanalpaar mit Kanälen, die auf einer Seite einer angenommenen Zuhörerposition positioniert sind.
  • Der Ausgangsdatenformatierer 18 aus 1A ist wirksam, um in den Datenstrom bei 20 die Pegelinformationen, die eine Energieverteilung unter den Kanälen in dem ursprünglichen Mehrkanalsignal darstellen, und ein Kohärenzmaß lediglich für das Links- und Links-Surround-Kanal-Paar und/oder das Rechts- und Rechts-Surround-Kanal-Paar einzugeben. Der Ausgangsdatenformatierer ist jedoch wirksam, um keine anderen Kohärenzmaße oder optional Zeitdifferenzen in das Ausgangssignal einzuschließen, derart, dass die Menge an Seiteninformationen verglichen mit dem Schema des Stands der Technik, bei dem ICC-Hinweise für alle möglichen Kanalpaare übertragen wurden, verringert ist.
  • Um den erfindungsgemäßen Codierer, der in 1B gezeigt ist, detaillierter darzustellen, wird auf 14A und 14B Bezug genommen. In 14A ist eine Anordnung von Kanallautsprechern für ein exemplarisches 5-Kanal-System mit Bezug auf eine Position einer angenommenen Zuhörerposition gegeben, die an dem Mittelpunkt eines Kreises positioniert ist, auf dem die jeweiligen Lautsprecher platziert sind. Wie es oben umrissen ist, umfasst das 5-Kanal-System einen Links-Surround-Kanal, einen Links-Kanal, einen Mitte-Kanal, einen Rechts-Kanal und einen Rechts-Surround-Kanal. Natürlich kann ein derartiges System auch einen Subwoofer-Kanal umfassen, der in 14 nicht gezeigt ist.
  • Es ist hier zu beachten, dass der Links-Surround-Kanal auch als „Hinten-Links-Kanal" bezeichnet sein kann. Das gleiche gilt für den Rechts-Surround-Kanal. Dieser Kanal ist auch als der Hinten-Rechts-Kanal bekannt.
  • Im Gegensatz zu einer BCC des Stands der Technik mit einem Übertragungskanal, bei dem der gleiche Basiskanal, d. h. das übertragene Monosignal, das in 11 gezeigt ist, zum Erzeugen von jedem der N Ausgangskanäle verwendet wird, verwendet das erfindungsgemäße System als Basiskanal einen der N übertragenen Kanäle oder eine lineare Kombination derselben als Basiskanal für jeden der N Ausgangskanäle.
  • Deshalb zeigt 14 ein NzuM-Schema, d. h. ein Schema, bei dem N ursprüngliche Kanäle zu zwei Herunterumsetzkanä len herunterumgesetzt werden. Bei dem Beispiel von 14 ist N gleich 5, während M gleich 2 ist. Für die Rekonstruktion des Vorne-Links-Kanals insbesondere wird der übertragene Links-Kanal L verwendet. Analog wird für die Rekonstruktion des Vorne-Rechts-Kanals der zweite übertragene Kanal Rc als der Basiskanal verwendet. Zusätzlich wird eine gleiche Kombination von Lc und Rc als Basiskanal zum Rekonstruieren des Mitte-Kanals verwendet. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden zusätzlich Korrelationsmaße von einem Codierer zu einem Decodierer übertragen. Deshalb wird für den Links-Surround-Kanal nicht nur der übertragene Links-Kanal Lc, sondern der übertragene Kanal Lc + α1Rc verwendet, derart, dass der Basiskanal zum Rekonstruieren des Links-Surround-Kanals nicht vollständig kohärent mit dem Basiskanal zum Rekonstruieren des Vorne-Links-Kanals ist. Analog wird die gleiche Prozedur für die rechte Seite (mit Bezug auf die angenommene Zuhörerposition) durchgeführt, bei der der Basiskanal zum Rekonstruieren des Rechts-Surround-Kanals zu dem Basiskanal zum Rekonstruieren des Vorne-Rechts-Kanals unterschiedlich ist, wobei die Differenz von dem Kohärenzmaß α2 abhängt, das vorzugsweise von einem Codierer zu einem Decodierer als Seiteninformationen übertragen wird.
  • Der erfindungsgemäße Prozess ist deshalb dahingehend einzigartig, dass für die Reproduktion vorzugsweise jedes Ausgangskanals ein unterschiedlicher Basiskanal verwendet wird, wobei die Basiskanäle gleich den übertragenen Kanälen oder einer linearen Kombination derselben sind. Diese lineare Kombination kann von den übertragenen Basiskanälen zu variierenden Graden abhängen, wobei diese Grade von Kohärenzmaßen abhängen, die von dem ursprünglichen Mehrkanalsignal abhängen.
  • Der Prozess eines Erhaltens der N Basiskanäle, die M übertragenen Kanäle vorausgesetzt, wird „Heraufumsetzen" genannt. Dieses Heraufumsetzen kann durch ein Multiplizieren eines Vektors mit den übertragenen Kanälen mit einer N×M- Matrix implementiert werden, um N Basiskanäle zu erzeugen. Dadurch werden lineare Kombinationen von übertragenen Signalkanälen gebildet, um die Basissignale für die Ausgangskanalsignale zu erzeugen. Ein spezifisches Beispiel zum Heraufumsetzen ist in 14A gezeigt, das ein 5-zu-2-Schema ist, das zum Erzeugen eines 5-Kanal-Surround-Ausgangssignals mit einer 2-Kanal-Stereoübertragung angewandt wird. Vorzugsweise ist der Basiskanal für einen zusätzlichen Subwoofer-Ausgangskanal der gleiche wie der Mitte-Kanal L + R. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird ein zeitvariantes und – optional – frequenzvariantes Kohärenzmaß geliefert, derart, dass eine zeitadaptive Heraufumsetzmatrix, die – optional – auch frequenzselektiv ist, erhalten wird.
  • Im Folgenden wird Bezug auf 14B genommen, die einen Hintergrund für die Implementierung des erfindungsgemäßen Codierers zeigt, der in 1B dargestellt ist. In diesem Zusammenhang ist zu beachten, dass ICC- und ICTD-Hinweise zwischen Links und Rechts und Links-Surround und Rechts-Surround die gleichen wie bei dem übertragenen Stereosignal sind. Somit gibt es gemäß der vorliegenden Erfindung keinen Bedarf zum Verwenden von ICC- und ICTD-Hinweisen zwischen Links und Rechts und Links-Surround und Rechts-Surround zum Generieren oder Rekonstruieren eines Ausgangssignals. Ein weiterer Grund dafür, ICC- und ICTD-Hinweise zwischen Links und Rechts und Links-Surround und Rechts-Surround nicht zu generieren, ist das allgemeine Ziel, das besagt, dass die Basiskanäle so wenig wie möglich modifiziert werden müssen, um eine maximale Signalqualität beizubehalten. Eine jegliche Signalmodifikation bringt möglicherweise Artefakte oder eine Unnatürlichkeit ein.
  • Deshalb ist lediglich eine Pegeldarstellung des ursprünglichen Mehrkanalsignals vorgesehen, die durch ein Liefern der ICLD-Hinweise erhalten wird, während gemäß der vorliegenden Erfindung ICC- und ICTD-Parameter lediglich berechnet und für Kanalpaare zu einer Seite der angenommenen Zuhörerposi tion übertragen werden. Dies ist durch die gepunktete Linie 144 für die linke Seite und die gepunktete Linie 145 für die rechte Seite in 14B dargestellt. Im Gegensatz zu ICC und ICTD ist eine ICLD-Synthese hinsichtlich Artefakten und einer Unnatürlichkeit ziemlich unproblematisch, weil dieselbe lediglich ein Skalieren von Subbandsignalen betrifft. Somit werden ICLDs so allgemein wie bei einer regulären BCC generiert, d. h. zwischen einem Referenzkanal und allen anderen Kanälen. Allgemeiner gesagt werden bei einem N 2 M-Schema ICLDs zwischen Kanalpaaren ähnlich einer regulären BCC geniert. ICC- und ICTD-Hinweise jedoch werden gemäß der vorliegenden Erfindung lediglich zwischen Kanalpaaren generiert, die bezüglich der angenommenen Zuhörerposition auf der gleichen Seite sind, d. h. für das Kanalpaar, das den Vorne-Links- und den Links-Surround-Kanal umfasst, oder das Kanalpaar, das den Vorne-Rechts- und den Rechts-Surround-Kanal umfasst.
  • Im Fall von 7-Kanal- oder höheren Surround-Systemen, bei denen es drei Kanäle auf der linken Seite und drei Kanäle auf der rechten Seite gibt, kann das gleiche Schema angewandt werden, wobei lediglich für mögliche Kanalpaare auf der linken Seite oder der rechten Seite Kohärenzparameter zum Liefern unterschiedlicher Basiskanäle für die Rekonstruktion der unterschiedlichen Ausgangskanäle auf einer Seite der angenommenen Zuhörerposition übertragen werden. Der erfindungsgemäße NzuM-Codierer, wie derselbe in 1A und 1B gezeigt ist, ist deshalb dahingehend einzigartig, dass die Eingangssignale nicht zu einem einzigen Kanal, sondern zu M Kanälen herunterumgesetzt werden und dass ICTD- und ICC-Hinweise lediglich zwischen den Kanalpaaren, für die dies nötig ist, geschätzt und übertragen werden.
  • Bei einem 5-Kanal-Surround-System ist die Situation in 14B gezeigt, aus der deutlich wird, dass zumindest ein Kohärenzmaß zwischen Links und Links-Surround übertragen werden muss. Dieses Kohärenzmaß kann auch zum Liefern einer Dekorrelation zwischen Rechts und Rechts-Surround verwendet werden. Dies ist eine Implementierung von wenig Seiteninformationen. Falls man mehr verfügbare Kanalkapazität aufweist, kann man auch ein getrenntes Kohärenzmaß zwischen dem Rechts- und dem Rechts-Surround-Kanal erzeugen und übertragen, derart, dass bei einem erfindungsgemäßen Decodierer auch unterschiedliche Dekorrelationsgrade auf der linken Seite und auf der rechten Seite erhalten werden können.
  • 2A zeigt eine Darstellung eines erfindungsgemäßen Decodierers, der als eine Vorrichtung zum inversen Verarbeiten von Eingangsdaten wirkt, die an einem Eingangsdatentor 22 empfangen werden. Die Daten, die an dem Eingangsdatentor 22 empfangen werden, sind die gleichen Daten, die an dem Ausgangsdatentor 20 in 1A ausgegeben werden. Wenn alternativ die Daten nicht über einen verdrahteten Kanal, sondern über einen drahtlosen Kanal übertragen werden, sind die Daten, die an dem Dateneingangstor 22 empfangen werden, Daten, die von den ursprünglichen Daten abgeleitet sind, die durch den Codierer erzeugt werden.
  • Die Decodierereingangsdaten werden in einen Bitstromleser 24 zum Lesen der Eingangsdaten eingegeben, um schließlich die Kanalseiteninformationen 26 und den Links-Herunterumsetzkanal 28 sowie den Rechts-Herunterumsetzkanal 30 zu erhalten. In dem Fall, dass die Eingangsdaten codierte Versionen der Herunterumsetzkanäle umfassen, was dem Fall entspricht, bei dem der Audiocodierer 16 in 1A vorhanden ist, umfasst der Datenstromleser 24 ferner einen Audiodecodierer, der an den Audiocodierer angepasst ist, der zum Codieren der Herunterumsetzkanäle verwendet wird. In diesem Fall ist der Audiodecodierer, der ein Teil des Datenstromlesers 24 ist, wirksam um den ersten Herunterumsetzkanal Lc und den zweiten Herunterumsetzkanal Rc zu erzeugen, oder genauer gesagt eine decodierte Version dieser Kanäle. Für eine einfache Beschreibung wird eine Unterscheidung zwi schen Signalen und decodierten Versionen derselben lediglich gemacht, wo es explizit angegeben ist.
  • Die Kanalseiteninformationen 26 und der Links- und der Rechts-Herunterumsetzkanal 28 und 30, die durch den Datenstromleser 24 ausgegeben werden, werden in einen Mehrkanalrekonstruierer 32 zum Bereitstellen einer rekonstruierten Version 34 der ursprünglichen Audiosignale eingespeist, die mittels eines Mehrkanalspielers abgespielt werden kann. In dem Fall, dass der Mehrkanalrekonstruierer in dem Frequenzbereich wirksam ist, empfängt der Mehrkanalspieler 36 Frequenzbereichseingangsdaten, die auf eine bestimmte Weise decodiert werden müssen, wie beispielsweise in den Zeitbereich umgewandelt werden müssen, bevor dieselben abgespielt werden. Zu diesem Zweck kann der Mehrkanalspieler 36 ferner Decodiereinrichtungen umfassen.
  • Es ist hier zu beachten, dass ein einfacherer Decodierer lediglich den Datenstromleser 24 aufweisen wird, der lediglich den Links- und den Rechts-Herunterumsetzkanal 28 und 30 zu einem Stereoausgang 38 ausgibt. Ein verbesserter erfindungsgemäßer Decodierer extrahiert die Kanalseiteninformationen 26 und verwendet diese Seiteninformationen und die Herunterumsetzkanäle 28 und 30 zum Rekonstruieren rekonstruierter Versionen 34 der ursprünglichen Kanäle unter Verwendung des Mehrkanalrekonstruierers 32.
  • 2B zeigt eine erfindungsgemäße Implementierung des Mehrkanalrekonstruierers 32 von 2A. Deshalb zeigt 2B eine Vorrichtung zum Aufbauen eines Mehrkanalausgangssignals unter Verwendung eines Eingangssignals und von Parameterseiteninformationen, wobei das Eingangssignal einen ersten Eingangskanal und einen zweiten Eingangskanal umfasst, die von einem ursprünglichen Mehrkanalsignal abgeleitet sind, und die Parameterseiteninformationen Beziehungen zwischen Kanälen des ursprünglichen Mehrkanalsignals beschreiben. Die in 2B gezeigte erfindungsgemäße Vorrichtung umfasst eine Einrichtung 320 zum Liefern eines Kohärenzmaßes abhängig von einem ersten ursprünglichen Kanal und einem zweiten ursprünglichen Kanal, wobei der erste ursprüngliche Kanal und der zweite ursprüngliche Kanal in dem ursprünglichen Mehrkanalsignal enthalten sind. Falls das Kohärenzmaß in den Parameterseiteninformationen enthalten ist, werden die Parameterseiteninformationen in die Einrichtung 320 eingegeben, wie es in 2B dargestellt ist. Das Kohärenzmaß, das durch die Einrichtung 320 geliefert wird, wird in eine Einrichtung 322 zum Bestimmen von Basiskanälen eingegeben. Insbesondere ist die Einrichtung 322 wirksam zum Bestimmen eines ersten Basiskanals durch ein Auswählen eines des ersten und des zweiten Eingangskanals oder einer vorbestimmten Kombination des ersten und des zweiten Eingangskanals. Die Einrichtung 322 ist ferner wirksam, um einen zweiten Basiskanal unter Verwendung des Kohärenzmaßes zu bestimmen, derart, dass der zweite Basiskanal von dem ersten Basiskanal aufgrund des Kohärenzmaßes unterschiedlich ist. Bei dem in 2B gezeigten Beispiel, das auf das 5-Kanal-Surround-System bezogen ist, ist der erste Eingangskanal der Links-kompatible Stereokanal Lc; und ist der zweite Eingangskanal der Rechts-kompatible Stereokanal Rc. Die Einrichtung 322 ist wirksam, um die Basiskanäle zu bestimmen, die bereits in Verbindung mit 14A beschrieben wurden. Somit wird an dem Ausgang der Einrichtung 322 ein getrennter Basiskanal für jeden der Ausgangskanäle, die rekonstruiert werden sollen, erhalten, wobei vorzugsweise die Basiskanäle, die durch die Einrichtung 322 ausgegeben werden, alle voneinander unterschiedlich sind, d. h. ein Kohärenzmaß zwischen denselben aufweisen, das für jedes Paar unterschiedlich ist.
  • Die Basiskanäle, die durch die Einrichtung 322 ausgegeben werden, und Parameterseiteninformationen, wie beispielsweise ICLD, ICTD oder Intensitätsstereoinformationen, werden in eine Einrichtung 324 zum Generieren (Synthetisieren) des ersten Ausgangskanals, wie beispielsweise L, unter Verwendung der Parameterseiteninformationen und des ersten Basis kanals, um einen ersten generierten Ausgangskanal L zu erhalten, der eine reproduzierte Version des entsprechenden ersten ursprünglichen Kanals ist, und zum Generieren eines zweiten Ausgangskanals, wie beispielsweise Ls, unter Verwendung der Parameterseiteninformationen und des zweiten Basiskanals, wobei der zweite Ausgangskanal eine reproduzierte Version des zweiten ursprünglichen Kanals ist, eingegeben. Zusätzlich ist die Einrichtung 324 zum Generieren wirksam, um den Rechts-Kanal R und den Rechts-Surround-Kanal Rs unter Verwendung eines anderen Paars von Basiskanälen zu reproduzieren, wobei die Basiskanäle bei diesem anderen Paar aufgrund des Kohärenzmaßes oder aufgrund eines zusätzlichen Kohärenzmaßes, das für das Rechts/Rechts-Surround-Kanalpaar abgeleitet wurde, voneinander unterschiedlich sind.
  • Eine detaillierte Implementierung des erfindungsgemäßen Decodierers ist in 2C gezeigt. Es ist zu erkennen, dass bei dem bevorzugten Ausführungsbeispiel, das in 2C gezeigt ist, die allgemeine Struktur ähnlich der Struktur ist, die bereits in Verbindung mit 12 für einen BCC-Decodierer gemäß dem Stand der Technik beschrieben wurde. Entgegen der 12 umfasst das erfindungsgemäße Schema, das in 2C gezeigt ist, zwei Audiofilterbänke, d. h. eine Filterbank für jedes Eingangssignal. Natürlich ist auch eine einzige Filterbank ausreichend. In diesem Fall ist eine Steuerung erforderlich, die die Eingangssignale in einer sequentiellen Reihenfolge in die einzige Filterbank eingibt. Die Filterbänke sind durch Blöcke 319a und 319b dargestellt. Die Funktionalität der Elemente 320 und 322 – die in 2B dargestellt sind – ist in einem Heraufumsetzblock 323 in 2C enthalten.
  • An dem Ausgang des Heraufumsetzblocks 323 werden Basiskanäle erhalten, die voneinander unterschiedlich sind. Dies steht im Gegensatz zu 12, bei der die Basiskanäle an dem Knoten 130 miteinander identisch sind. Die Generiereinrichtung 324, die in 2B gezeigt ist, umfasst vorzugs weise eine Verzögerungsstufe 324a, eine Pegelmodifikationsstufe 324b und in einigen Fällen eine Verarbeitungsstufe zum Durchführen zusätzlicher Verarbeitungsaufgaben 324c, sowie eine jeweilige Anzahl von Inversaudiofilterbänken 324d. Bei einem Ausführungsbeispiel kann die Funktionalität der Elemente 324a, 324b, 324c und 324d die gleiche wie bei der Vorrichtung des Stands der Technik sein, die in Verbindung mit 12 beschrieben wurde.
  • 2D zeigt ein detaillierteres Beispiel von 2C für einen 5-Kanal-Surround-Aufbau, bei dem 2 Eingangskanäle y1 und y2 eingegeben und fünf aufgebaute Ausgangskanäle erhalten werden, wie es in 2D gezeigt ist. Im Gegensatz zu 2C ist ein detaillierterer Entwurf des Heraufumsetzblocks 322 gegeben. Insbesondere ist eine Summierungsvorrichtung 330 zum Liefern der Basiskanäle zum Rekonstruieren eines Mitte-Ausgangskanals gezeigt. Zusätzlich sind zwei Blöcke 331, 332 mit dem Titel „W" in 2D gezeigt. Diese Blöcke führen die gewichtete Kombination der zwei Eingangskanäle basierend auf dem Kohärenzmaß K durch, das an einem Kohärenzmaßeingang 334 eingegeben wird. Vorzugsweise führt der Gewichtungsblock 331 oder 332 auch jeweilige Nachverarbeitungsoperationen für die Basiskanäle durch, wie beispielsweise ein zeitliches und frequenzmäßiges Glätten, wie es unten umrissen wird. Somit ist 2C ein allgemeiner Fall von 2D, wobei 2C darstellt, wie die N Ausgangskanäle erzeugt werden, die M Eingangskanäle des Decodierers vorausgesetzt. Die übertragenen Signale werden in einen Subbandbereich transformiert.
  • Der Prozess eines Berechnens der Basiskanäle für jeden Ausgangskanal wird Heraufumsetzen genannt, weil jeder Basiskanal vorzugsweise eine lineare Kombination der übertragenen Kanäle ist. Das Heraufumsetzen kann in dem Zeitbereich oder in dem Subband- oder Frequenzbereich durchgeführt werden.
  • Zum Berechnen jedes Basiskanals kann eine bestimmte Verarbeitung angewandt werden, um Aufhebungs-/Verstärkungswirkungen zu verringern, wenn die übertragenen Kanäle außer Phase oder in Phase sind. ICTD werden durch ein Auferlegen von Verzögerungen auf die Subbandsignale generiert und ICLD werden durch ein Skalieren der Subbandsignale generiert. Unterschiedliche Techniken können zum Generieren von ICC verwendet werden, wie beispielsweise Manipulieren der Verstärkungsfaktoren oder der Zeitverzögerungen mittels einer Zufallszahlensequenz. Es ist jedoch hier zu beachten, dass vorzugsweise keine Kohärenz-/Korrelationsverarbeitung zwischen Ausgangskanälen durchgeführt wird, außer der erfindungsgemäßen Bestimmung der unterschiedlichen Basiskanäle für jeden Ausgangskanal. Deshalb verarbeitet eine bevorzugte erfindungsgemäße Vorrichtung ICC-Hinweise, die von einem Codierer empfangen werden, zum Aufbauen der Basiskanäle und ICTD- und ICLD-Hinweise, die von einem Codierer empfangen werden, zum Manipulieren des bereits aufgebauten Basiskanals. Somit werden ICC-Hinweise oder – allgemeiner ausgedrückt – Kohärenzmaße nicht zum Manipulieren eines Basiskanals verwendet, sondern werden zum Aufbauen des Basiskanals verwendet, der später manipuliert wird.
  • Bei dem in 2D gezeigten spezifischen Beispiel wird ein 5-Kanal-Surround-Signal aus einer 2-Kanal-Stereoübertragung decodiert. Ein übertragenes 2-Kanal-Stereosignal wird in einen Subbandbereich umgewandelt. Dann wird ein Heraufumsetzen angewandt, um fünf vorzugsweise unterschiedliche Basiskanäle zu erzeugen. ICTD-Hinweise werden lediglich zwischen Links und Links-Surround sowie Rechts und Rechts-Surround durch ein Anwenden von Verzögerungen di(k) generiert, wie es in Verbindung mit 14B erörtert wurde. Auch werden die Kohärenzmaße zum Aufbauen der Basiskanäle (Blöcke 331 und 332) in 2D anstatt zum Vornehmen irgendeiner Nachverarbeitung bei einem Block 324c verwendet.
  • Erfindungsgemäß werden die ICC- und ICTD-Hinweise zwischen Links und Rechts und Links-Surround und Rechts-Surround wie bei dem übertragenen Stereosignal beibehalten. Deshalb sind ein einziger ICC-Hinweis und ein einziger ICTD-Hinweis-Parameter ausreichend und werden deshalb von einem Codierer zu einem Decodierer übertragen.
  • Bei einem anderen Ausführungsbeispiel können ICC-Hinweise und ICTD-Hinweise für beide Seiten in einem Codierer berechnet werden. Diese zwei Werte können von einem Codierer zu einem Decodierer übertragen werden. Alternativ kann der Codierer einen sich ergebenden ICC- oder ICTD-Hinweis durch ein Eingeben der Hinweise für beide Seiten in eine mathematische Funktion berechnen, wie beispielsweise eine Mittelungsfunktion etc., zum Ableiten des sich ergebenden Werts aus den zwei Kohärenzmaßen.
  • Im Folgenden wird Bezug auf 15A und 15B genommen, um eine wenig komplexe Implementierung des erfindungsgemäßen Konzepts zu zeigen. Während eine hoch komplexe Implementierung eine codiererseitige Bestimmung des Kohärenzmaßes zumindest zwischen einem Kanalpaar auf einer Seite der angenommenen Zuhörerposition und ein Übertragen dieses Kohärenzmaßes vorzugsweise in quantisierter und entropiecodierter Form erfordert, erfordert die wenig komplexe Version keine Kohärenzmaßbestimmung auf der Codiererseite und keine Übertragung derartiger Informationen von dem Codierer zu dem Decodierer. Um dennoch eine gute subjektive Qualität des rekonstruierten Mehrkanalausgangssignals zu erhalten, wird ein vorbestimmtes Kohärenzmaß, oder anders ausgedrückt werden vorbestimmte Verstärkungsfaktoren zum Bestimmen einer gewichteten Kombination der übertragenen Eingangskanäle unter Verwendung eines vorbestimmten Verstärkungsfaktors durch die Einrichtung 324 in 2D geliefert. Es bestehen mehrere Möglichkeiten, um eine Kohärenz in den Basiskanälen für die Rekonstruktion von Ausgangskanälen zu verringern. Ohne das erfindungsgemäße Maß wären die jeweiligen Ausgangskanäle bei einer Basisimplementierung, bei der ICC und ICTD nicht codiert und übertragen werden, vollständig kohärent. Deshalb wird eine jegliche Verwendung irgendeines vorbestimmten Kohärenzmaßes eine Kohärenz bei rekonstruierten Ausgangssignalen reduzieren, derart, dass die wiedergegebenen Ausgangssignale bessere Näherungen der entsprechenden ursprünglichen Kanäle sind.
  • Um deshalb zu verhindern, dass Basiskanäle vollständig kohärent sind, wird das Heraufumsetzen vorgenommen, wie es beispielsweise in 15A als einer Alternative oder 15B als einer anderen Alternative gezeigt ist. Die fünf Basiskanäle werden berechnet, derart, dass keine derselben vollständig kohärent sind, falls das übertragene Stereosignal ebenfalls nicht vollständig kohärent ist. Dies führt dazu, dass eine Zwischenkanalkohärenz zwischen dem Links-Kanal und dem Links-Surround-Kanal oder zwischen dem Rechts-Kanal und dem Rechts-Surround-Kanal automatisch verringert ist, wenn die Zwischenkanalkohärenz zwischen dem Links-Kanal und dem Rechts-Kanal reduziert ist. Für ein Audiosignal beispielsweise, das zwischen allen Kanälen unabhängig ist, wie beispielsweise ein Applaussignal, weist ein derartiges Heraufumsetzen den Vorteil auf, dass eine bestimmte Unabhängigkeit zwischen Links und Links-Surround sowie Rechts und Rechts-Surround erzeugt wird, ohne einen Bedarf nach einem expliziten Generieren (und Codieren) einer Zwischenkanalkohärenz. Natürlich kann diese zweite Version eines Heraufumsetzens mit einem Schema kombiniert sein, das ICC und ICTD immer noch generiert.
  • 15A zeigt ein Heraufumsetzen, das für Vorne-Links und Vorne-Rechts optimiert ist, bei dem die meiste Unabhängigkeit zwischen Vorne-Links und Vorne-Rechts beibehalten wird.
  • 15B zeigt ein weiteres Beispiel, bei dem Vorne-Links und Vorne-Rechts einerseits und Links-Surround und Rechts-Surround andererseits auf die gleiche Weise dahingehend behandelt werden, dass der Grad an Unabhängigkeit der Vorne- und Hinten-Kanäle der gleiche ist. Dies ist in 15B an der Tatsache zu erkennen, dass ein Winkel zwischen Vorne-Links/Rechts der gleiche wie der Winkel zwischen Links-Surround/Rechts ist.
  • Gemäß dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird ein dynamisches Heraufumsetzen anstelle einer statischen Auswahl verwendet. Zu diesem Zweck bezieht sich die Erfindung auch auf einen verbesserten Algorithmus, der in der Lage ist, die Heraufumsetzmatrix dynamisch anzupassen, um eine dynamische Leistungsfähigkeit zu optimieren. Bei dem unten dargestellten Beispiel kann die Heraufumsetzmatrix für die Hinten-Kanäle gewählt sein, derart, dass eine optimale Wiedergabe einer Vorne-Hinten-Kohärenz möglich wird. Der erfindungsgemäße Algorithmus weist die folgenden Schritte auf:
    Für die Vorne-Kanäle wird eine einfache Zuweisung von Basiskanälen verwendet, wie diese, die in 14A oder 15A beschrieben ist. Durch diese einfache Wahl wird eine Kohärenz der Kanäle entlang der Links/Rechts-Achse bewahrt.
  • In dem Codierer werden die Vorne-Hinten-Kohärenzwerte wie beispielsweise ICC-Hinweise zwischen Links/Links-Surround- und vorzugsweise zwischen Rechts/Rechts-Surround-Paaren gemessen.
  • In dem Decodierer werden die Basiskanäle für den Links-Hinten- und den Rechts-Hinten-Kanal durch ein Bilden linearer Kombinationen der übertragenen Kanalsignale, d. h. eines übertragenen Links-Kanals und eines übertragenen Rechts-Kanals, bestimmt. Genau gesagt werden Heraufumsetzkoeffizienten bestimmt, derart, dass die tatsächliche Kohärenz zwischen Links und Links-Surround sowie Rechts und Rechts-Surround die bei dem Codierer gemessenen Werte erreicht. Zu praktischen Zwecken kann dies erreicht werden, wenn die übertragenen Kanalsignale ausreichende Dekorrela tionen zeigen, was normalerweise bei gewöhnlichen 5-Kanal-Szenarien der Fall ist.
  • Bei dem bevorzugten Ausführungsbeispiel eines dynamischen Heraufumsetzens wird ein Beispiel einer Implementierung, die als der beste Modus zum Ausführen der vorliegenden Erfindung betrachtet wird, mit Bezug auf 2E hinsichtlich einer Codiererimplementierung und 2F und 2G mit Bezug auf eine Decodiererimplementierung abgegeben. 2E zeigt ein Beispiel zum Messen von Vorne/Hinten-Kohärenzwerten (ICC-Werten) zwischen dem Links- und dem Links-Surround-Kanal oder zwischen dem Rechts- und dem Rechts-Surround-Kanal, d. h. zwischen einem Kanalpaar, das auf einer Seite bezüglich einer angenommenen Zuhörerposition positioniert ist.
  • Die in dem Kasten in 2E gezeigte Gleichung gibt ein Kohärenzmaß cc zwischen dem ersten Kanal x und dem zweiten Kanal y an. In einem Fall ist der erste Kanal x der Links-Kanal, während der zweite Kanal y der Links-Surround-Kanal ist. In einem anderen Fall ist der erste Kanal x der Rechts-Kanal, während der zweite Kanal y der Rechts-Surround-Kanal ist. xi steht für einen Abtastwert des jeweiligen Kanals x zu dem Zeitpunkt i, während yi für einen Abtastwert bei einem Zeitpunkt des anderen ursprünglichen Kanals y steht. Es ist hier zu beachten, dass das Kohärenzmaß vollständig in dem Zeitbereich berechnet werden kann. In diesem Fall läuft der Summierungsindex i von einer unteren Grenze zu einer oberen Grenze, wobei die andere Grenze normalerweise die gleiche wie die Anzahl von Abtastwerten in einem Rahmen in einem Fall einer rahmenweisen Verarbeitung ist.
  • Alternativ können Kohärenzmaße auch zwischen Bandpasssignalen berechnet werden, d. h. Signalen mit verringerten Bandbreiten mit Bezug auf das ursprüngliche Audiosignal. In dem letzteren Fall ist das Kohärenzmaß nicht nur zeitabhängig, sondern auch frequenzabhängig. Die sich ergebenden Vorne/Hinten-ICC-Hinweise, d. h. CCl für die Links-Vorne/Hinten-Kohärenz und CCr für die Rechts-Vorne/Hinten-Kohärenz werden als Parameterseiteninformationen vorzugsweise in quantisierter und codierter Form zu einem Decodierer übertragen.
  • Im Folgenden wird Bezug auf 2F zum Zeigen eines bevorzugten Decodiererheraufumsetzschemas genommen. Bei dem dargestellten Fall wird der Links-Kanal als der Basiskanal für den Links-Ausgangskanal behalten. Um den Basiskanal für den Links-Hinten-Ausgangskanal abzuleiten, wird eine lineare Kombination zwischen dem übertragenen Kanal für Links (l) und für Rechts (r), d. h. l + αr, bestimmt. Der Gewichtungsfaktor α ist bestimmt, derart, dass die Kreuzkorrelation zwischen l und l + αr gleich dem übertragenen erwünschten Wert CCl für die linke Seite und CCr für die rechte Seite oder allgemein dem Kohärenzmaß k ist.
  • Die Berechnung des geeigneten Werts α ist in 2F beschrieben. Insbesondere ist eine normierte Kreuzkorrelation von zwei Signalen l und r definiert, wie es in der Gleichung in dem Block von 2E gezeigt ist.
  • Zwei übertragene Signale l und r vorausgesetzt, muss der Verstärkungsfaktor α bestimmt sein, derart, dass die normierte Kreuzkorrelation des Signals l und l + αr gleich einem erwünschten Wert k ist, d. h. dem Kohärenzmaß. Dieses Maß ist zwischen –1 und +1 definiert.
  • Unter Verwendung der Definition der Kreuzkorrelation für die zwei Kanäle erhält man die in 2F gegebene Gleichung für den Wert k. Durch ein Verwenden mehrerer Abkürzungen, die unten in 2F gegeben sind, kann die Bedingung für k als eine quadratische Funktion umgeschrieben werden, deren Lösung den Verstärkungsfaktor α ergibt.
  • Es kann gezeigt werden, dass die Gleichung immer realwertige Lösungen aufweist, d. h. dass die Diskriminante garantiert nicht negativ ist.
  • Abhängig von der grundlegenden Kreuzkorrelation des Signals l und r und von der erwünschten Kreuzkorrelation k kann eine von beiden gelieferten Lösungen in der Tat zu dem Negativen des erwünschten Kreuzkorrelationswerts führen und wird deshalb für die ganze weitere Berechnung verworfen.
  • Nach dem Berechnen des Basiskanalsignals einer linearen Kombination des l-Signals und des r-Signals wird das sich ergebende Signal auf die ursprüngliche Signalenergie des übertragenen l- oder r-Kanal-Signals normiert (reskaliert).
  • Auf ähnliche Weise kann das Basiskanalsignal für den Rechts-Ausgangskanal durch ein Vertauschen der Rolle des Links- und des Rechts-Kanals, d. h. ein Betrachten der Kreuzkorrelation zwischen r und r + αl abgeleitet werden.
  • In der Praxis ist es bevorzugt, die Ergebnisse des Berechnungsprozesses für den α-Wert über Zeit und Frequenz zu glätten, um eine maximale Signalqualität zu erhalten. Auch andere Vorne/Hinten-Korrelationsmessungen als Links/Links-Hinten und Rechts/Rechts-Hinten können verwendet werden, um eine Signalqualität weiter zu maximieren.
  • Nachfolgend wird eine Schritt-für-Schritt-Beschreibung der Funktionalität, die durch den Mehrkanalrekonstruierer 32 aus 2A durchgeführt wird, mit Bezug auf 2G abgegeben.
  • Vorzugsweise wird ein Verstärkungsfaktor α basierend auf einem dynamischen Kohärenzmaß, das von einem Codierer zu einem Decodierer geliefert wird, oder basierend auf einer statischen Bereitstellung eines Kohärenzmaßes, wie es in Verbindung mit 15A und 15B beschrieben ist, berechnet (200). Dann wird der Gewichtungsfaktor über Zeit und/oder Frequenz geglättet (Schritt 202), um einen geglätteten Gewichtungsfaktor αs zu erhalten. Dann wird ein Basiskanal b berechnet, um beispielsweise l + αsr zu betragen (Schritt 204). Der Basiskanal b wird dann zusammen mit anderen Basiskanälen verwendet, um rohe Ausgangssignale zu berechnen.
  • Wie es aus einem Kasten 206 deutlich wird, sind die Pegeldarstellung ICLD sowie die Verzögerungsdarstellung ICTD zum Berechnen von rohen Ausgangssignalen erforderlich. Dann werden die rohen Ausgangssignale skaliert, um die gleiche Energie wie eine Summe der einzelnen Energien des Links- und des Rechts-Eingangskanals aufzuweisen. Anders ausgedrückt werden die rohen Ausgangssignale mittels eines Skalierungsfaktors skaliert, derart, dass eine Summe der einzelnen Energien der skalierten rohen Ausgangssignale die gleiche wie die Summe der einzelnen Energien des übertragenen Links- und Rechts-Eingangskanals ist.
  • Alternativ könnte man auch die Summe des übertragenen Links- und Rechts-Kanals berechnen und die Energie des sich ergebenden Signals verwenden. Zusätzlich könnte man auch ein Summensignal durch ein abtastwertweises Summieren der rohen Ausgangssignale berechnen und die Energie des sich ergebenden Signals zu Skalierungszwecken verwenden.
  • Dann werden an einem Ausgang eines Kastens 208 die rekonstruierten Ausgangskanäle erhalten, die dahingehend einzigartig sind, dass keiner der rekonstruierten Ausgangskanäle vollständig mit einem anderen der rekonstruierten Ausgangskanäle kohärent ist, derart, dass eine maximale Qualität des wiedergegebenen Ausgangssignals erhalten wird.
  • Um zusammenzufassen, ist das erfindungsgemäße Konzept dahingehend vorteilhaft, dass eine beliebige Anzahl von übertragenen Kanälen (M) und eine beliebige Anzahl von Ausgangskanälen (N) verwendet werden können.
  • Zusätzlich wird die Umwandlung zwischen den übertragenen Kanälen und den Basiskanälen für die Ausgangskanäle vorzugsweise über ein dynamisches Heraufumsetzen vorgenommen.
  • Bei einem bedeutsamen Ausführungsbeispiel besteht ein Heraufumsetzen aus einer Multiplikation mit einer Heraufumsetzmatrix, d. h. einem Bilden linearer Kombinationen der übertragenen Kanäle, wobei Vorne-Kanäle vorzugsweise durch ein Verwenden der entsprechenden übertragenen Basiskanäle als Basiskanälen generiert werden, wobei die Hinten-Kanäle aus einer linearen Kombination der übertragenen Kanäle bestehen, wobei der Grad einer linearen Kombination von einem Kohärenzmaß abhängt.
  • Zusätzlich wird dieser Heraufumsetzprozess vorzugsweise signaladaptiv auf eine zeitvariante Weise durchgeführt. Genau gesagt hängt der Heraufumsetzprozess vorzugsweise von einer Seiteninformation ab, die von einem BCC-Codierer übertragen wird, wie beispielsweise Zwischenkanalkohärenzhinweisen für eine Vorne/Hinten-Kohärenz.
  • Den Basiskanal für jeden Ausgangskanal vorausgesetzt, wird eine Verarbeitung ähnlich einer regulären Binaural-Hinweis-Codierung angewandt, um räumliche Hinweise zu generieren, d. h. ein Anwenden von Skalierungen und Verzögerungen bei Subbändern und ein Anwenden von Techniken, um eine Kohärenz zwischen Kanälen zu verringern, wobei ICC-Hinweise zusätzlich oder alternativ zum Aufbauen jeweiliger Basiskanäle verwendet werden, um eine optimale Wiedergabe einer Vorne/Hinten-Kohärenz zu erhalten.
  • 3A zeigt ein Ausführungsbeispiel der erfindungsgemäßen Berechnungseinrichtung 14 zum Berechnen der Kanalseiteninformationen, wobei ein Audiocodierer einerseits und die Kanalseiteninformationsberechnungseinrichtung andererseits an der gleichen Spektraldarstellung des Mehrkanalsignals wirksam sind. 1 zeigt jedoch die andere Alternative, bei der der Audiocodierer einerseits und die Kanalseitenin formationsberechnungseinrichtung andererseits an unterschiedlichen Spektraldarstellungen des Mehrkanalsignals wirksam sind. Wenn Rechenressourcen nicht so wichtig wie eine Audioqualität sind, wird die Alternative von 1 bevorzugt, da Filterbänke, die einzeln für eine Audiocodierung und eine Seiteninformationsberechnung optimiert sind, verwendet werden können. Wenn jedoch Rechenressourcen ein Problem sind, wird die Alternative von 3A bevorzugt, da diese Alternative auf Grund einer gemeinschaftlichen Nutzung von Elementen weniger Rechenleistung benötigt.
  • Die in 3A gezeigte Vorrichtung ist zum Empfangen von zwei Kanälen A, B wirksam. Die in 3A gezeigte Vorrichtung ist wirksam, um Seiteninformationen für den Kanal B zu berechnen, derart, dass unter Verwendung dieser Kanalseiteninformationen für den ausgewählten ursprünglichen Kanal B eine rekonstruierte Version des Kanals B aus dem Kanalsignal A berechnet werden kann. Zusätzlich ist die in 3A gezeigte Vorrichtung wirksam, um Frequenzbereich-Kanalseiteninformationen zu bilden, wie beispielsweise Parameter zum Gewichten von Spektralwerten und Subbandabtastwerten (durch ein Multiplizieren oder zeitliches Verarbeiten wie bei einer BCC-Codierung beispielsweise). Zu diesem Zweck umfasst die erfindungsgemäße Berechnungseinrichtung eine Fensterungs- und Zeit/Frequenz-Umwandlungseinrichtung 140a, um eine Frequenzdarstellung des Kanals A an einem Ausgang 140b oder eine Frequenzbereichsdarstellung des Kanals B an einem Ausgang 140c zu erhalten.
  • Bei dem bevorzugten Ausführungsbeispiel wird die Seiteninformationsbestimmung (mittels der Seiteninformationsbestimmungseinrichtung 140f) unter Verwendung quantisierter Spektralwerte durchgeführt. Dann ist ebenfalls ein Quantisierer 140d, der vorzugsweise unter Verwendung eines psychoakustischen Modells gesteuert ist, das einen Psychoakustisches-Modell-Steuereingang 140e aufweist. Dennoch ist ein Quantisierer nicht erforderlich, wenn die Seiteninformationsbestimmungseinrichtung 140c eine nicht quantisierte Darstellung des Kanals A zum Bestimmen der Kanalseiteninformationen für den Kanal B verwendet.
  • In dem Fall, dass die Kanalseiteninformationen für den Kanal B mittels einer Frequenzbereichsdarstellung des Kanals A und der Frequenzbereichsdarstellung des Kanals B berechnet werden, kann die Fensterungs- und Zeit/Frequenz-Umwandlungseinrichtung 140a die gleiche sein, die bei einem filterbankbasierten Audiocodierer verwendet wird. In diesem Fall, wenn AAC (ISO/IEC 13818-3) betrachtet wird, ist die Einrichtung 140a als eine MDCT-Filterbank (MDCT = Modified Discrete Cosine Transform) mit einer 50%-Überlapp-und-Addier-Funktionalität implementiert.
  • In einem derartigen Fall ist der Quantisierer 140d ein iterativer Quantisierer, wie derselbe beispielsweise verwendet wird, wenn mp3- oder AAC-codierte Audiosignale erzeugt werden. Die Frequenzbereichsdarstellung des Kanals A, die vorzugsweise bereits quantisiert ist, kann dann direkt für eine Entropiecodierung unter Verwendung eines Entropiecodierer 140g verwendet werden, der ein Huffmanbasierter Codierer oder ein Entropiecodierer sein kann, der eine arithmetische Codierung implementiert.
  • Verglichen mit 1 handelt es sich bei der Ausgabe der Vorrichtung in 3A um die Seiteninformationen, wie beispielsweise li, für einen ursprünglichen Kanal (entsprechend den Seiteninformationen für B an dem Ausgang der Vorrichtung 140f). Der entropiecodierte Bitstrom für den Kanal A entspricht z. B. dem codierten Links-Herunterumsetzkanal Lc' an dem Ausgang des Blocks 16 in 1. Aus 3A wird deutlich, dass das Element 14 (1), d. h. die Berechnungseinrichtung zum Berechnen der Kanalseiteninformationen, und der Audiocodierer 16 (1) als getrennte Einrichtungen implementiert sein können oder als eine gemeinschaftlich verwendete Version implementiert sein können, derart, dass beide Vorrichtungen mehrere Elemente gemeinschaftlich verwenden, wie beispiels weise die MDCT-Filterbank 140a, den Quantisierer 140e und den Entropiecodierer 140g. In dem Fall, dass man eine unterschiedliche Transformation etc. zum Bestimmen der Kanalseiteninformationen benötigt, werden dann natürlich der Codierer 16 und die Berechnungseinrichtung 14 (1) in unterschiedlichen Vorrichtungen implementiert sein, derart, dass beide Elemente die Filterbank, etc. nicht gemeinschaftlich verwenden.
  • Im Allgemeinen kann der tatsächliche Bestimmer zum Berechnen der Seiteninformationen (oder allgemein gesagt die Berechnungseinrichtung 14) als ein gemeinsames Stereomodul implementiert sein, wie es in 3B gezeigt ist, das gemäß irgendeiner der gemeinsamen Stereotechniken wirksam ist, wie beispielsweise einer Intensitätsstereocodierung oder einer Binaural-Hinweis-Codierung.
  • Im Gegensatz zu derartigen Intensitätsstereocodierern des Stands der Technik muss die erfindungsgemäße Bestimmungseinrichtung 140f den kombinierten Kanal nicht berechnen. Der „kombinierte Kanal" oder Trägerkanal, wie man sagen kann, existiert bereits und ist der kompatible Links-Herunterumsetzkanal Lc oder der kompatible Rechts-Herunterumsetzkanal Rc oder eine kombinierte Version dieser Herunterumsetzkanäle, wie beispielsweise Lc + Rc. Deshalb muss die erfindungsgemäße Vorrichtung 140f lediglich die Skalierungsinformationen zum Skalieren des jeweiligen Herunterumsetzkanals berechnen, derart, dass die Energie/Zeit-Hüllkurve des jeweiligen ausgewählten ursprünglichen Kanals erhalten wird, wenn der Herunterumsetzkanal unter Verwendung der Skalierungsinformationen oder, wie man sagen kann, der Intensitätsrichtungsinformationen gewichtet ist.
  • Deshalb ist das gemeinsame Stereomodul 140f in 3B dargestellt, derart, dass dasselbe als eine Eingabe den „kombinierten" Kanal A empfängt, der der erste oder der zweite Herunterumsetzkanal oder eine Kombination der Herun terumsetzkanäle ist, und den ursprünglichen ausgewählten Kanal empfängt. Dieses Modul gibt natürlich den „kombinierten" Kanal A und die gemeinsamen Stereoparameter als Kanalseiteninformationen aus, derart, dass unter Verwendung des kombinierten Kanals A und der gemeinsamen Stereoparameter eine Näherung des ursprünglichen ausgewählten Kanals B berechnet werden kann.
  • Alternativ kann das gemeinsame Stereomodul 140f zum Durchführen einer Binaural-Hinweis-Codierung implementiert sein.
  • In dem Fall von BCC ist das gemeinsame Stereomodul 140f wirksam, um die Kanalseiteninformationen auszugeben, derart, dass die Kanalseiteninformationen quantisierte und codierte ICLD- oder ICTD-Parameter sind, wobei der ausgewählte ursprüngliche Kanal als der eigentlich zu verarbeitende Kanal dient, während der jeweilige Herunterumsetzkanal, der zum Berechnen der Seiteninformationen verwendet wird, wie beispielsweise der erste, der zweite oder eine Kombination des ersten und des zweiten Herunterumsetzkanals, als der Referenzkanal im Sinn der BCC-Codier/Decodiertechnik verwendet wird.
  • Mit Bezug auf 4 ist eine einfache energiegerichtete Implementierung des Elements 104f gegeben. Diese Vorrichtung umfasst einen Frequenzbandselektor 44, der ein Frequenzband aus dem Kanal A und ein entsprechendes Frequenzband des Kanals B auswählt. Dann wird in beiden Frequenzbändern eine Energie mittels einer Energieberechnungseinrichtung 42 für jede Verzweigung berechnet. Die detaillierte Implementierung der Energieberechnungseinrichtung 42 hängt davon ab, ob das Ausgangssignal von dem Block 40 ein Subbandsignal ist oder Frequenzkoeffizienten ist. Bei anderen Implementierungen, bei denen Skalierungsfaktoren für Skalierungsfaktorbänder berechnet werden, kann man bereits Skalierungsfaktoren des ersten und des zweiten Kanals A, B als Energiewerte EA und EB oder zumindest als Schätzwerte der Energie verwenden. Bei einer Verstärkungs faktorberechnungsvorrichtung 44 wird ein Verstärkungsfaktor gB für das ausgewählte Frequenzband basierend auf einer bestimmten Regel bestimmt, wie beispielsweise der Verstärkungsbestimmungsregel, die bei einem Block 44 in 4 dargestellt ist. Hier kann der Verstärkungsfaktor gB direkt zum Gewichten von Zeitbereichsabtastwerten oder Frequenzkoeffizienten verwendet werden, wie es später in 5 beschrieben wird. Zu diesem Zweck wird der Verstärkungsfaktor gB, der für das ausgewählte Frequenzband gültig ist, als die Kanalseiteninformationen für den Kanal B als dem ausgewählten ursprünglichen Kanal verwendet. Dieser ausgewählte ursprüngliche Kanal B wird nicht zu einem Decodierer übertragen, sondern wird durch die Parameterkanalseiteninformationen dargestellt sein, die durch die Berechnungseinrichtung 14 in 1 berechnet werden.
  • Es ist hier zu beachten, dass es nicht notwendig ist, Verstärkungswerte als Kanalseiteninformationen zu übertragen. Es ist ferner ausreichend, frequenzabhängige Werte zu übertragen, die auf die absolute Energie des ausgewählten ursprünglichen Kanals bezogen sind. Dann muss der Decodierer die tatsächliche Energie des Herunterumsetzkanals und den Verstärkungsfaktor basierend auf der Herunterumsetzkanalenergie und der übertragenen Energie für den Kanal B berechnen.
  • 5 zeigt eine mögliche Implementierung eines Decodierers, der in Verbindung mit einem transformationsbasierten Wahrnehmungsaudiocodierer eingerichtet ist. Verglichen mit 2 sind die Funktionalitäten des Entropiedecodierers und des inversen Quantisierers 50 (5) in dem Block 24 von 2 enthalten. Die Funktionalität der Frequenz/Zeit-Umwandlungselemente 52a, 52b (5) ist jedoch in einem Element 36 von 2 implementiert. Ein Element 50 in 5 empfängt eine codierte Version des ersten oder des zweiten Herunterumsetzsignals Lc' oder Rc'. An dem Ausgang des Elements 50 liegt eine zumindest teilweise decodierte Version des ersten und des zweiten Herunterumsetzkanals vor, die nachfolgend Kanal A genannt wird. Der Kanal A wird in einem Frequenzbandselektor 54 zum Auswählen eines bestimmten Frequenzbands aus dem Kanal A eingegeben. Dieses ausgewählte Frequenzband wird unter Verwendung eines Multiplizierers 56 gewichtet. Der Multiplizierer 56 empfängt zu einem Multiplizieren einen bestimmten Verstärkungsfaktor gB, der dem ausgewählten Frequenzband zugewiesen ist, das durch den Frequenzbandselektor 54 ausgewählt ist, der dem Frequenzbandselektor 40 in 4 auf der Codiererseite entspricht. An dem Eingang des Frequenz-Zeit-Wandlers 52a existiert zusammen mit anderen Bändern eine Frequenzbereichsdarstellung des Kanals A. An dem Ausgang des Multiplizierers 56 und insbesondere an dem Eingang einer Frequenz/Zeit-Umwandlungseinrichtung 52b befindet sich eine rekonstruierte Frequenzbereichsdarstellung des Kanals B. Deshalb befindet sich an dem Ausgang des Elements 52a eine Zeitbereichsdarstellung für den Kanal A, während sich an dem Ausgang des Elements 52b eine Zeitbereichsdarstellung des rekonstruierten Kanals B befindet.
  • Es ist hier zu beachten, dass abhängig von der bestimmten Implementierung der decodierte Herunterumsetzkanal Lc oder Rc nicht in einem verbesserten Mehrkanaldecodierer abgespielt wird. Bei einem derartigen verbesserten Mehrkanaldecodierer werden die decodierten Herunterumsetzkanäle lediglich zu einem Rekonstruieren der ursprünglichen Kanäle verwendet. Die decodierten Herunterumsetzkanäle werden lediglich bei einfacheren Nur-Stereo-Decodierern abgespielt.
  • Zu diesem Zweck sei auf 9 verwiesen, die die bevorzugte Implementierung der vorliegenden Erfindung in einer Surround/mp3-Umgebung zeigt. Ein verbesserter mp3-Surround-Bitstrom wird in einen Standard-mp3-Decodierer 24 eingegeben, der decodierte Versionen der ursprünglichen Herunterumsetzkanäle ausgibt. Diese Herunterumsetzkanäle können dann mittels eines Decodierers auf niedriger Ebene direkt abgespielt werden. Alternativ werden diese zwei Kanäle in die Advanced-Joint-Stereo-Decodiervorrichtung 32 eingegeben, die ebenfalls die Mehrkanalerweiterungsdaten empfängt, die vorzugsweise in das Zusatzdatenfeld in einem mp3-konformen Bitstrom eingegeben werden.
  • Nachfolgend wird Bezug auf 7 genommen, die die Gruppierung des ausgewählten ursprünglichen Kanals und des jeweiligen Herunterumsetzkanals oder kombinierten Herunterumsetzkanals zeigt. In dieser Hinsicht entspricht die rechte Spalte der Tabelle in 7 dem Kanal A in 3A, 3B, 4 und 5, während die Spalte in der Mitte dem Kanal B in diesen Figuren entspricht. In der linken Spalte in 7, sind die jeweiligen Kanalseiteninformationen explizit angegeben. Gemäß der Tabelle von 7, werden die Kanalseiteninformationen li für den ursprünglichen Links-Kanal L unter Verwendung des Links-Herunterumsetzkanals Lc berechnet. Die Links-Surround-Kanalseiteninformationen lsi werden mittels des ursprünglichen ausgewählten Links-Surround-Kanals Ls und des Links-Herunterumsetzkanals Lc als dem Träger bestimmt. Die Rechts-Kanalseiteninformationen ri für den ursprünglichen Rechts-Kanal R werden unter Verwendung des Rechts-Herunterumsetzkanals Rc bestimmt. Zusätzlich werden die Kanalseiteninformationen für den Rechts-Surround-Kanal Rs unter Verwendung des Rechts-Herunterumsetzkanals Rc als dem Träger bestimmt. Die Kanalseiteninformationen ci für den Mitte-Kanal C schließlich werden unter Verwendung des kombinierten Herunterumsetzkanals bestimmt, der mittels einer Kombination des ersten und des zweiten Herunterumsetzkanals erhalten wird, die sowohl bei einem Codierer als auch einem Decodierer ohne weiteres berechnet werden kann und die keine zusätzlichen Bits für eine Übertragung benötigt.
  • Natürlich könnte man auch die Kanalseiteninformationen für den Links-Kanal z. B. basierend auf einem kombinierten Herunterumsetzkanal oder sogar einem Herunterumsetzkanal berechnen, der durch eine gewichtete Addition des ersten und des zweiten Herunterumsetzkanals erhalten wird, wie beispielsweise 0,7 Lc und 0,3 Rc, solange die Gewichtungsparameter einem Decodierer bekannt oder entsprechend übertragen sind. Für die meisten Anwendungen jedoch ist es bevorzugt, lediglich Kanalseiteninformationen für den Mitte-Kanal aus dem kombinierten Herunterumsetzkanal abzuleiten, d. h. aus einer Kombination des ersten und des zweiten Herunterumsetzkanals.
  • Um das Biteinsparungspotential der vorliegenden Erfindung zu zeigen, ist das folgende typische Beispiel gegeben. Im Fall eines Fünfkanalaudiosignals benötigt ein normaler Codierer eine Bitrate von 64 kbit/s für jeden Kanal, was sich auf eine Gesamtbitrate von 320 kbit/s für das Fünfkanalsignal beläuft. Das Links- und das Rechts-Stereosignal benötigen eine Bitrate von 128 kbit/s. Kanalseiteninformationen für einen Kanal liegen zwischen 1,5 und 2 kbit/s. Somit belaufen sich selbst in einem Fall, bei dem Kanalseiteninformationen für jeden der fünf Kanäle übertragen werden, diese zusätzlichen Daten auf lediglich 7,5 bis 10 kbit/s. Somit ermöglicht das erfindungsgemäße Konzept eine Übertragung eines Fünfkanalaudiosignals unter Verwendung einer Bitrate von 138 kbit/s (verglichen mit 320 (!) kbit/s) mit einer guten Qualität, da der Decodierer die problematische Dematrizierungsoperation nicht verwendet. Wahrscheinlich noch bedeutsamer ist die Tatsache, dass das erfindungsgemäße Konzept vollständig rückwärtskompatibel ist, da jeder der existierenden mp3-Spieler in der Lage ist, den ersten Herunterumsetzkanal und den zweiten Herunterumsetzkanal abzuspielen, um eine herkömmliche Stereoausgabe zu erzeugen.
  • Abhängig von der Anwendungsumgebung kann das erfindungsgemäße Verfahren zum Verarbeiten oder inversen Verarbeiten in einer Hardware oder in einer Software implementiert sein. Die Implementierung kann auf einem digitalen Speichermedium erfolgen, wie beispielsweise einer Platte oder einer CD mit elektronisch lesbaren Steuersignalen, die mit einem programmierbaren Computersystem zusammenwirken können, derart, dass das erfindungsgemäße Verfahren zum Verarbeiten oder inversen Verarbeiten ausgeführt wird. Allgemein gesagt bezieht sich die Erfindung deshalb ebenfalls auf ein Computerprogrammprodukt mit einem Programmcode, der auf einem maschinenlesbaren Träger gespeichert ist, wobei der Programmcode zum Durchführen des erfindungsgemäßen Verfahrens angepasst ist, wenn das Computerprogramm auf einem Computer läuft. Mit anderen Worten ausgedrückt bezieht sich die Erfindung deshalb auch auf ein Computerprogramm mit einem Programmcode zum Durchführen des Verfahrens, wenn das Computerprogramm auf einem Computer läuft.

Claims (25)

  1. Vorrichtung zum Aufbauen eines Mehrkanalausgangssignals unter Verwendung eines Eingangssignals und Parameterseiteninformationen, wobei das Eingangssignal einen ersten Eingangskanal (Lc) und einen zweiten Eingangskanal (Rc) umfasst, die von einem ursprünglichen Mehrkanalsignal abgeleitet sind, wobei das ursprüngliche Mehrkanalsignal eine Mehrzahl von Kanälen aufweist, wobei die Mehrzahl von Kanälen zumindest zwei ursprüngliche Kanäle umfasst, die als auf einer Seite einer angenommenen Zuhörerposition positioniert definiert sind, wobei ein erster ursprünglicher Kanal ein erster der zumindest zwei ursprünglichen Kanäle ist und wobei ein zweiter ursprünglicher Kanal ein zweiter der zumindest zwei ursprünglichen Kanäle ist und die Parameterseiteninformationen Beziehungen zwischen ursprünglichen Kanälen des ursprünglichen Mehrkanalsignals beschreiben, mit folgenden Merkmalen: einer Einrichtung (322) zum Bestimmen eines ersten Basiskanals durch ein Auswählen von einem des ersten und des zweiten Eingangskanals oder einer Kombination des ersten und des zweiten Eingangskanals und zum Bestimmen eines zweiten Basiskanals durch ein Auswählen des anderen des ersten und des zweiten Eingangskanals oder einer unterschiedlichen Kombination des ersten und des zweiten Eingangskanals, derart, dass der zweite Basiskanal sich von dem ersten Basiskanal unterscheidet; und einer Einrichtung (324) zum Synthetisieren eines ersten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des ersten Basiskanals, um einen ersten synthetisierten Ausgangskanal zu erhalten, der eine reproduzierte Version des ersten ursprünglichen Kanals ist, der auf der einen Seite der angenommenen Zuhörerposition positioniert ist, und zum Synthetisieren eines zweiten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des zweiten Basiskanals, wobei der zweite Ausgangskanal eine reproduzierte Version des zweiten ursprünglichen Kanals ist, der auf der gleichen Seite der angenommenen Zuhörerposition positioniert ist.
  2. Vorrichtung gemäß Anspruch 1, die ferner folgendes Merkmal aufweist: eine Einrichtung (320) zum Liefern eines Kohärenzmaßes, wobei das Kohärenzmaß von einer Kohärenz zwischen einem ersten ursprünglichen Kanal und einem zweiten ursprünglichen Kanal abhängt, wobei der erste und der zweite ursprüngliche Kanal in einem ursprünglichen Mehrkanalsignal enthalten sind; wobei die Einrichtung (322) zum Bestimmen wirksam ist, um den ersten und den zweiten Basiskanal, die unterschiedlich zueinander sind, basierend auf dem Kohärenzmaß zu bestimmen.
  3. Vorrichtung gemäß Anspruch 1, bei dem die zumindest zwei ursprünglichen Kanäle einen ursprünglichen Links-Kanal und einen ursprünglichen Links-Surround-Kanal oder einen ursprünglichen Rechts-Kanal und einen ursprünglichen Rechts-Surround-Kanal umfassen.
  4. Vorrichtung gemäß Anspruch 1, bei der eine Kombination des ersten und des zweiten Eingangskanals, die als der zweite Basiskanal bestimmt ist, derart ist, dass einer der zwei Eingangskanäle mehr als der andere Eingangskanal zu dem zweiten Basiskanal beiträgt.
  5. Vorrichtung gemäß Anspruch 2, bei der das Kohärenzmaß zeitlich veränderlich ist, derart, dass die Einrichtung (320) zum Bestimmen wirksam ist, um den zweiten Basiskanal als eine Kombination des ersten Eingangskanals und des zweiten Eingangskanals zu bestimmen, wobei die Kombination über die Zeit variabel ist.
  6. Vorrichtung gemäß Anspruch 2, bei der Parameterseiteninformationen das Kohärenzmaß umfassen, wobei das Kohärenzmaß unter Verwendung des ersten ursprünglichen Kanals und des zweiten ursprünglichen Kanals bestimmt ist, wobei die Einrichtung (320) zum Liefern wirksam ist, um das Kohärenzmaß aus den Parameterseiteninformationen zu extrahieren.
  7. Vorrichtung gemäß Anspruch 6, bei der das Eingangssignal eine Sequenz von Rahmen aufweist und die Parameterseiteninformationen eine Sequenz von Parametern umfassen, die das Kohärenzmaß umfassen, wobei die Parameter den Rahmen zugeordnet sind.
  8. Vorrichtung gemäß Anspruch 1, bei der das ursprüngliche Signal ferner einen Mitte-Kanal (C) umfasst und bei der die Einrichtung (322) zum Bestimmen ferner wirksam ist, um einen dritten Basiskanal unter Verwendung des ersten Eingangskanals und des zweiten Eingangskanals zu gleichen Teilen zu berechnen.
  9. Vorrichtung gemäß Anspruch 1, bei der die Parameterseiteninformationen frequenzabhängig sind und die Einrichtung (324) zum Synthetisieren wirksam ist, um eine frequenzabhängige Synthese durchzuführen.
  10. Vorrichtung gemäß Anspruch 1, bei der die Parameterseiteninformationen Binaural-Cue-Coding-Parameter (BCC-Parameter) umfassen, die Zwischenkanalpegeldifferenzparameter und Zwischenkanalzeitverzögerungsparameter umfassen, und bei der die Einrichtung zum Synthe tisieren wirksam ist, um eine BCC-Synthese unter Verwendung eines Basiskanals durchzuführen, der durch die Einrichtung zum Bestimmen bestimmt wird, wenn ein Ausgangskanal synthetisiert wird.
  11. Vorrichtung gemäß Anspruch 2, bei der die Einrichtung (322) zum Bestimmen wirksam ist, um den ersten Basiskanal als einen des ersten und des zweiten Eingangskanals zu bestimmen und um den zweiten Basiskanal als eine gewichtete Kombination des ersten und des zweiten Eingangskanals zu bestimmen, wobei ein Gewichtungsfaktor von dem Kohärenzmaß abhängt.
  12. Vorrichtung gemäß Anspruch 11, bei der der Gewichtungsfaktor wie folgt bestimmt ist:
    Figure 00620001
    wobei α der Gewichtungsfaktor ist und wobei A, B, C wie folgt bestimmt sind A = C2 – k2IR B = 2LC (1 – k2) C = L2(1 – k2)wobei L, R, C wie folgt bestimmt sind L = Σl2; R = Σz2; C = Σl·zund wobei k das Kohärenzmaß ist und wobei l der erste Eingangskanal ist und r der zweite Eingangskanal ist.
  13. Vorrichtung gemäß Anspruch 11, bei der das Kohärenzmaß für ein Frequenzband gegeben ist und bei der die Einrichtung zum Bestimmen wirksam ist, um den zweiten Basiskanal für das Frequenzband zu bestimmen.
  14. Vorrichtung gemäß Anspruch 11, bei der das Kohärenzmaß wie folgt bestimmt ist:
    Figure 00630001
    wobei cc(x, y) das Kohärenzmaß zwischen zwei ursprünglichen Kanälen x, y ist, wobei xi ein Abtastwert des ersten ursprünglichen Kanals zu einem Zeitpunkt i ist und wobei yi ein Abtastwert des zweiten ursprünglichen Kanals zu einem Zeitpunkt i ist.
  15. Vorrichtung gemäß Anspruch 1, bei der die Einrichtung (322) zum Bestimmen wirksam ist, um die Ausgangskanäle unter Verwendung von Leistungsmaßen zu skalieren, die von den ursprünglichen Kanälen abgeleitet sind, wobei die Leistungsmaße innerhalb der Parameterseiteninformationen übertragen werden.
  16. Vorrichtung gemäß Anspruch 11, bei der die Einrichtung (322) zum Bestimmen wirksam ist, um den Gewichtungsfaktor über Zeit und/oder Frequenz zu glätten.
  17. Vorrichtung gemäß Anspruch 1, bei der die Parameterseiteninformationen Pegelinformationen umfassen, die eine Energieverteilung der ursprünglichen Kanäle in dem ursprünglichen Signal darstellen, und bei der die Einrichtung (324) zum Synthetisieren wirksam ist, um die Ausgangskanäle zu skalieren, derart, dass eine Summe der Energien der Ausgangskanäle gleich einer Summe der Energien des ersten Eingangskanals und des zweiten Eingangskanals ist.
  18. Vorrichtung gemäß Anspruch 17, bei der die Einrichtung (324) zum Synthetisieren wirksam ist, um rohe Ausgangskanäle basierend auf bestimmten Basiskanälen und Pegelinformationen zu berechnen und um die rohen Aus gangskanäle zu skalieren, derart, dass eine Gesamtenergie von skalierten rohen Ausgangskanälen gleich einer Gesamtenergie des ersten und des zweiten Eingangskanals ist.
  19. Vorrichtung gemäß Anspruch 1, bei der das Eingangssignal einen Links-Kanal und einen Rechts-Kanal umfasst und der ursprüngliche Kanal einen Vorne-Links-Kanal, einen Links-Surround-Kanal, einen Vorne-Rechts-Kanal und einen Rechts-Surround-Kanal umfasst und bei der die Einrichtung (322) zum Bestimmen wirksam ist, um den Links-Kanal als den Basiskanal für eine Synthese des Vorne-Links-Kanals (L), den Rechts-Kanal als den Basiskanal für eine Synthese des Vorne-Rechts-Kanals (R), eine Kombination des Links-Kanals und des Rechts-Kanals als den Basiskanal für den Links-Surround-Kanal (Ls) oder den Rechts-Surround-Kanal (Rs) zu bestimmen.
  20. Vorrichtung gemäß Anspruch 1, bei der der Eingangskanal einen Links-Kanal und einen Rechts-Kanal umfasst und das ursprüngliche Signal einen Vorne-Links-Kanal, einen Links-Surround-Kanal, einen Vorne-Rechts-Kanal und einen Rechts-Surround-Kanal umfasst und bei der die Einrichtung zum Bestimmen wirksam ist, um den Links-Kanal als den Basiskanal für eine Synthese des Vorne-Links-Kanals, den Rechts-Kanal als den Basiskanal für eine Synthese des Vorne-Rechts-Kanals, und eine Kombination des ersten und des zweiten Eingangskanals als den Basiskanal für eine Synthese des Vorne-Rechts-Kanals oder des Links-Surround-Kanals zu bestimmen.
  21. Verfahren zum Aufbauen eines Mehrkanalausgangssignals unter Verwendung eines Eingangssignals und Parameterseiteninformationen, wobei das Eingangssignal einen ersten Eingangskanal (Lc) und einen zweiten Eingangskanal (Rc) umfasst, die von einem ursprünglichen Mehrkanalsignal abgeleitet sind, wobei das ursprüngliche Mehrkanalsignal eine Mehrzahl von Kanälen aufweist, wobei die Mehrzahl von Kanälen zumindest zwei ursprüngliche Kanäle umfasst, die als auf einer Seite einer angenommenen Zuhörerposition positioniert definiert sind, wobei ein erster ursprünglicher Kanal ein erster der zumindest zwei ursprünglichen Kanäle ist und wobei ein zweiter ursprünglicher Kanal ein zweiter der zumindest zwei ursprünglichen Kanäle ist und die Parameterseiteninformationen Beziehungen zwischen ursprünglichen Kanälen des ursprünglichen Mehrkanalsignals beschreiben, mit folgenden Schritten: Bestimmen (322) eines ersten Basiskanals durch ein Auswählen von einem des ersten und des zweiten Eingangskanals oder einer Kombination des ersten und des zweiten Eingangskanals und zum Bestimmen eines zweiten Basiskanals durch ein Auswählen des anderen des ersten und des zweiten Eingangskanals oder einer unterschiedlichen Kombination des ersten und des zweiten Eingangskanals, derart, dass der zweite Basiskanal sich von dem ersten Basiskanal unterscheidet; und Synthetisieren (324) eines ersten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des ersten Basiskanals, um einen ersten synthetisierten Ausgangskanal zu erhalten, der eine reproduzierte Version des ersten ursprünglichen Kanals ist, der auf der einen Seite der angenommenen Zuhörerposition positioniert ist, und zum Synthetisieren eines zweiten Ausgangskanals unter Verwendung der Parameterseiteninformationen und des zweiten Basiskanals, wobei der zweite Ausgangskanal eine reproduzierte Version des zweiten ursprünglichen Kanals ist, der auf der gleichen Seite der angenommenen Zuhörerposition positioniert ist.
  22. Vorrichtung zum Erzeugen eines Herunterumsetzsignals aus einem ursprünglichen Mehrkanalsignal, wobei das Herunterumsetzsignal eine Anzahl von Kanälen aufweist, die geringer als eine Anzahl von ursprünglichen Kanälen ist, mit folgenden Merkmalen: einer Einrichtung (12) zum Berechnen eines ersten Herunterumsetzkanals und eines zweiten Herunterumsetzkanals unter Verwendung einer Herunterumsetzregel; einer Einrichtung (14) zum Berechnen von Parameterpegelinformationen, die eine Energieverteilung unter den Kanälen in dem ursprünglichen Mehrkanalsignal darstellen; einer Einrichtung (142) zum Bestimmen eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, wobei die zwei ursprünglichen Kanäle auf einer Seite einer angenommenen Zuhörerposition positioniert sind; und einer Einrichtung (18) zum Bilden eines Ausgangssignals unter Verwendung des ersten und des zweiten Herunterumsetzkanals, der Parameterpegelinformationen und lediglich zumindest eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, die auf der einen Seite positioniert sind, oder eines Wertes, der von dem zumindest einen Kohärenzmaß abgeleitet ist, aber nicht unter Verwendung irgendeines Kohärenzmaßes zwischen Kanälen, die auf unterschiedlichen Seiten der angenommenen Zuhörerposition positioniert sind.
  23. Vorrichtung gemäß Anspruch 22, die ferner eine Einrichtung (143) zum Bestimmen von Zeitverzögerungsinformationen zwischen zwei ursprünglichen Kanälen aufweist, die auf einer Seite der angenommenen Zuhörerposition positioniert sind; und wobei die Einrichtung (18) zum Bilden wirksam ist, um lediglich Zeitpegelinformationen zwischen zwei ursprünglichen Kanälen, die auf einer Seite der angenommenen Zuhörerposition positioniert sind, aber nicht Zeitpegelinformationen zwischen zwei ursprünglichen Kanälen, die auf unterschiedlichen Seiten der angenommenen Zuhörerposition positioniert sind, zu umfassen.
  24. Verfahren zum Erzeugen eines Herunterumsetzsignals aus einem ursprünglichen Mehrkanalsignal, wobei das Herunterumsetzsignal eine Anzahl von Kanälen aufweist, die geringer als eine Anzahl von ursprünglichen Kanälen ist, mit folgenden Schritten: Berechnen (12) eines ersten Herunterumsetzkanals und eines zweiten Herunterumsetzkanals unter Verwendung einer Herunterumsetzregel; Berechnen (14) von Parameterpegelinformationen, die eine Energieverteilung unter den Kanälen in dem ursprünglichen Mehrkanalsignal darstellen; Bestimmen (142) eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, wobei die zwei ursprünglichen Kanäle auf einer Seite einer angenommenen Zuhörerposition positioniert sind; und Bilden (18) eines Ausgangssignals unter Verwendung des ersten und des zweiten Herunterumsetzkanals, der Parameterpegelinformationen und lediglich zumindest eines Kohärenzmaßes zwischen zwei ursprünglichen Kanälen, die auf der einen Seite positioniert sind, oder eines Wertes, der von dem zumindest einen Kohärenzmaß abgeleitet ist, aber nicht unter Verwendung irgendeines Kohärenzmaßes zwischen Kanälen, die auf unterschiedlichen Seiten der angenommenen Zuhörerposition positioniert sind.
  25. Computerprogramm, das einen Programmcode zum Durchführen des Verfahrens zum Aufbauen eines Mehrkanals gemäß Anspruch 21 oder des Verfahrens zum Erzeugen eines Herunterumsetzsignals gemäß Anspruch 24 aufweist.
DE602005006385T 2004-01-20 2005-01-17 Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals Active DE602005006385T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US762100 1985-08-02
US10/762,100 US7394903B2 (en) 2004-01-20 2004-01-20 Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
PCT/EP2005/000408 WO2005069274A1 (en) 2004-01-20 2005-01-17 Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal

Publications (2)

Publication Number Publication Date
DE602005006385D1 DE602005006385D1 (de) 2008-06-12
DE602005006385T2 true DE602005006385T2 (de) 2009-05-28

Family

ID=34750329

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005006385T Active DE602005006385T2 (de) 2004-01-20 2005-01-17 Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals

Country Status (17)

Country Link
US (1) US7394903B2 (de)
EP (1) EP1706865B1 (de)
JP (1) JP4574626B2 (de)
KR (1) KR100803344B1 (de)
CN (1) CN1910655B (de)
AT (1) ATE393950T1 (de)
AU (1) AU2005204715B2 (de)
BR (1) BRPI0506533B1 (de)
CA (1) CA2554002C (de)
DE (1) DE602005006385T2 (de)
ES (1) ES2306076T3 (de)
IL (1) IL176776A (de)
MX (1) MXPA06008030A (de)
NO (1) NO337395B1 (de)
PT (1) PT1706865E (de)
RU (1) RU2329548C2 (de)
WO (1) WO2005069274A1 (de)

Families Citing this family (197)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454257B2 (en) * 2001-02-08 2008-11-18 Warner Music Group Apparatus and method for down converting multichannel programs to dual channel programs using a smart coefficient generator
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7929708B2 (en) * 2004-01-12 2011-04-19 Dts, Inc. Audio spatial environment engine
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
JP5032977B2 (ja) * 2004-04-05 2012-09-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネル・エンコーダ
DK3561810T3 (da) * 2004-04-05 2023-05-01 Koninklijke Philips Nv Fremgangsmåde til kodning af venstre og højre audioindgangssignaler, tilsvarende koder, afkoder og computerprogramprodukt
ES2426917T3 (es) * 2004-04-05 2013-10-25 Koninklijke Philips N.V. Aparato codificador, aparato decodificador, sus métodos y sistema de audio asociado
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US20050273324A1 (en) * 2004-06-08 2005-12-08 Expamedia, Inc. System for providing audio data and providing method thereof
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR101283525B1 (ko) * 2004-07-14 2013-07-15 돌비 인터네셔널 에이비 오디오 채널 변환
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
TWI497485B (zh) * 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
US20080255832A1 (en) * 2004-09-28 2008-10-16 Matsushita Electric Industrial Co., Ltd. Scalable Encoding Apparatus and Scalable Encoding Method
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7853022B2 (en) * 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
US20060093164A1 (en) * 2004-10-28 2006-05-04 Neural Audio, Inc. Audio spatial environment engine
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
KR101183859B1 (ko) * 2004-11-04 2012-09-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 다중채널 오디오 신호들의 인코딩 및 디코딩
BRPI0517949B1 (pt) * 2004-11-04 2019-09-03 Koninklijke Philips Nv dispositivo de conversão para converter um sinal dominante, método de conversão de um sinal dominante, e meio não transitório legível por computador
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1817767B1 (de) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametrische raumtonkodierung mit objektbasierten nebeninformationen
US7761304B2 (en) * 2004-11-30 2010-07-20 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (de) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametrische kombinierte Kodierung von Audio-Quellen
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
DE602006002501D1 (de) * 2005-03-30 2008-10-09 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2006118179A1 (ja) * 2005-04-28 2006-11-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
EP1905004A2 (de) * 2005-05-26 2008-04-02 LG Electronics Inc. Verfahren zum codieren und decodieren eines audiosignals
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2006126844A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
KR101251426B1 (ko) * 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
WO2007004831A1 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US8082157B2 (en) * 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101248483B (zh) * 2005-07-19 2011-11-23 皇家飞利浦电子股份有限公司 多声道音频信号的生成
US20070055510A1 (en) 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP5108767B2 (ja) * 2005-08-30 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
JP5173811B2 (ja) * 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
EP1761110A1 (de) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Methode zur Generation eines Multikanalaudiosignals aus Stereosignalen
US8019614B2 (en) * 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
WO2007032648A1 (en) 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
BRPI0616057A2 (pt) * 2005-09-14 2011-06-07 Lg Electronics Inc método e aparelho para decodificar um sinal de aúdio
WO2007037613A1 (en) * 2005-09-27 2007-04-05 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
TWI450603B (zh) * 2005-10-04 2014-08-21 Lg Electronics Inc 音頻訊號處理方法及其系統與電腦可讀取媒體
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
ES2478004T3 (es) * 2005-10-05 2014-07-18 Lg Electronics Inc. Método y aparato para decodificar una señal de audio
US7696907B2 (en) * 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
KR100857111B1 (ko) * 2005-10-05 2008-09-08 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
CN101278598B (zh) * 2005-10-07 2011-05-25 松下电器产业株式会社 音频信号处理装置以及音频信号处理方法
US8019611B2 (en) * 2005-10-13 2011-09-13 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
WO2007043845A1 (en) * 2005-10-13 2007-04-19 Lg Electronics Inc. Method and apparatus for processing a signal
WO2007046659A1 (en) * 2005-10-20 2007-04-26 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
KR100891688B1 (ko) * 2005-10-26 2009-04-03 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US8027485B2 (en) * 2005-11-21 2011-09-27 Broadcom Corporation Multiple channel audio system supporting data channel replacement
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US7752053B2 (en) * 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
TWI329462B (en) * 2006-01-19 2010-08-21 Lg Electronics Inc Method and apparatus for processing a media signal
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
JP4966981B2 (ja) * 2006-02-03 2012-07-04 韓國電子通信研究院 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
JP5054035B2 (ja) * 2006-02-07 2012-10-24 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
ES2339888T3 (es) 2006-02-21 2010-05-26 Koninklijke Philips Electronics N.V. Codificacion y decodificacion de audio.
CA2636330C (en) * 2006-02-23 2012-05-29 Lg Electronics Inc. Method and apparatus for processing an audio signal
KR100773562B1 (ko) 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
EP1853092B1 (de) * 2006-05-04 2011-10-05 LG Electronics, Inc. Verbesserung von Stereo-Audiosignalen mittels Neuabmischung
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US20090313029A1 (en) * 2006-07-14 2009-12-17 Anyka (Guangzhou) Software Technologiy Co., Ltd. Method And System For Backward Compatible Multi Channel Audio Encoding and Decoding with the Maximum Entropy
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
WO2008032255A2 (en) * 2006-09-14 2008-03-20 Koninklijke Philips Electronics N.V. Sweet spot manipulation for a multi-channel signal
KR100891666B1 (ko) 2006-09-29 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
WO2008039041A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101652810B (zh) * 2006-09-29 2012-04-11 Lg电子株式会社 用于处理混合信号的装置及其方法
EP2084901B1 (de) * 2006-10-12 2015-12-09 LG Electronics Inc. Vorrichtung zum verarbeiten eines mischsignals und verfahren dafür
CN101692703B (zh) * 2006-10-30 2012-09-26 深圳创维数字技术股份有限公司 一种实现数字电视中图文电子节目指南信息的方法及装置
WO2008060111A1 (en) * 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5450085B2 (ja) * 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
KR101062353B1 (ko) * 2006-12-07 2011-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
CN101627425A (zh) * 2007-02-13 2010-01-13 Lg电子株式会社 用于处理音频信号的装置和方法
ATE548727T1 (de) * 2007-03-02 2012-03-15 Ericsson Telefon Ab L M Nachfilter für geschichtete codecs
US7933372B2 (en) * 2007-03-08 2011-04-26 Freescale Semiconductor, Inc. Successive interference cancellation based on the number of retransmissions
JP5213339B2 (ja) * 2007-03-12 2013-06-19 アルパイン株式会社 オーディオ装置
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
JP5021809B2 (ja) * 2007-06-08 2012-09-12 ドルビー ラボラトリーズ ライセンシング コーポレイション アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出
EP2278582B1 (de) * 2007-06-08 2016-08-10 LG Electronics Inc. Verfahren und vorrichtung zum verarbeiten eines audiosignals
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
US8170218B2 (en) * 2007-10-04 2012-05-01 Hurtado-Huyssen Antoine-Victor Multi-channel audio treatment system and method
EP2046076B1 (de) * 2007-10-04 2010-03-03 Antoine-Victor Hurtado-Huyssen Multikanal-Audioverarbeitungssystem und -verfahren
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
US8548615B2 (en) * 2007-11-27 2013-10-01 Nokia Corporation Encoder
WO2009075511A1 (en) * 2007-12-09 2009-06-18 Lg Electronics Inc. A method and an apparatus for processing a signal
KR101439205B1 (ko) 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
ES2387869T3 (es) * 2008-07-30 2012-10-03 FRANCE TéLéCOM Reconstrucción de datos de audio multicanal
WO2010012478A2 (en) * 2008-07-31 2010-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal generation for binaural signals
AU2015207815B2 (en) * 2008-07-31 2016-10-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Signal generation for binaural signals
EP2154911A1 (de) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zur Bestimmung eines räumlichen Mehrkanalausgangsaudiosignals
TWI559786B (zh) 2008-09-03 2016-11-21 杜比實驗室特許公司 增進多聲道之再生
EP2175670A1 (de) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaurale Aufbereitung eines Mehrkanal-Audiosignals
JP5522920B2 (ja) * 2008-10-23 2014-06-18 アルパイン株式会社 オーディオ装置及びオーディオ処理方法
ES2963744T3 (es) * 2008-10-29 2024-04-01 Dolby Int Ab Protección de recorte de señal usando metadatos de ganancia de audio preexistentes
EP2214162A1 (de) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aufwärtsmischer, Verfahren und Computerprogramm zur Aufwärtsmischung eines Downmix-Tonsignals
ES2452569T3 (es) * 2009-04-08 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase
US20120045065A1 (en) * 2009-04-17 2012-02-23 Pioneer Corporation Surround signal generating device, surround signal generating method and surround signal generating program
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
WO2011000409A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Positional disambiguation in spatial audio
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
ES2793958T3 (es) * 2009-08-14 2020-11-17 Dts Llc Sistema para trasmitir adaptativamente objetos de audio
JP2011048101A (ja) * 2009-08-26 2011-03-10 Renesas Electronics Corp 画素回路および表示装置
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
EP2309781A3 (de) * 2009-09-23 2013-12-18 Iosono GmbH Vorrichtung und Verfahren zur Berechnung der Filterkoeffizienten für vordefinierte Lautsprecheranordnung
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
TWI413110B (zh) * 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
EP2323130A1 (de) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametrische Kodierung- und Dekodierung
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
FR2954640B1 (fr) * 2009-12-23 2012-01-20 Arkamys Procede d'optimisation de la reception stereo pour radio analogique et recepteur de radio analogique associe
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US20120155650A1 (en) * 2010-12-15 2012-06-21 Harman International Industries, Incorporated Speaker array for virtual surround rendering
US9462387B2 (en) * 2011-01-05 2016-10-04 Koninklijke Philips N.V. Audio system and method of operation therefor
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
EP2523472A1 (de) * 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren und Computerprogramm zur Erzeugung eines Stereoausgabesignals zur Bereitstellung zusätzlicher Ausgabekanäle
RU2559038C1 (ru) 2011-07-04 2015-08-10 Хуавэй Текнолоджиз Ко., Лтд. Радиочастотный модуль, поддерживающий несколько несущих, базовая станция и способ распределения несущих
JP5737077B2 (ja) * 2011-08-30 2015-06-17 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
US9183842B2 (en) * 2011-11-08 2015-11-10 Vixs Systems Inc. Transcoder with dynamic audio channel changing
WO2013073810A1 (ko) * 2011-11-14 2013-05-23 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
US8711013B2 (en) * 2012-01-17 2014-04-29 Lsi Corporation Coding circuitry for difference-based data transformation
US9131313B1 (en) * 2012-02-07 2015-09-08 Star Co. System and method for audio reproduction
EP2862370B1 (de) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Darstellung und wiedergabe von raumklangaudio mit verwendung von kanalbasierenden audiosystemen
US9363603B1 (en) 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
WO2014165806A1 (en) 2013-04-05 2014-10-09 Dts Llc Layered audio coding and transmission
IN2015MN02784A (de) 2013-04-05 2015-10-23 Dolby Int Ab
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
RU2630754C2 (ru) 2013-05-24 2017-09-12 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
JP6248186B2 (ja) 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
EP3005353B1 (de) 2013-05-24 2017-08-16 Dolby International AB Effiziente codierung von multimediaszenen mit audioobjekten
EP2973551B1 (de) 2013-05-24 2017-05-03 Dolby International AB Rekonstruktion von audioszenen aus einem downmix
EP2830335A3 (de) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Zuordnung eines ersten und eines zweiten Eingabekanals an mindestens einen Ausgabekanal
EP2830052A1 (de) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodecodierer, Audiocodierer, Verfahren zur Bereitstellung von mindestens vier Audiokanalsignalen auf Basis einer codierten Darstellung, Verfahren zur Bereitstellung einer codierten Darstellung auf Basis von mindestens vier Audiokanalsignalen und Computerprogramm mit Bandbreitenerweiterung
EP2830053A1 (de) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mehrkanaliger Audiodecodierer, mehrkanaliger Audiocodierer, Verfahren und Computerprogramm mit restsignalbasierter Anpassung einer Beteiligung eines dekorrelierten Signals
EP2854133A1 (de) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines Abwärtsmischsignals
KR20160072131A (ko) * 2013-10-02 2016-06-22 슈트로밍스위스 게엠베하 다채널 신호의 다운믹스 및 다운믹스 신호의 업믹스 방법 및 장치
KR101805327B1 (ko) 2013-10-21 2017-12-05 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
KR20240116835A (ko) 2014-01-08 2024-07-30 돌비 인터네셔널 에이비 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치
WO2015104447A1 (en) 2014-01-13 2015-07-16 Nokia Technologies Oy Multi-channel audio signal classifier
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
EP2980789A1 (de) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Verbesserung eines Audiosignals, Tonverbesserungssystem
WO2016066743A1 (en) * 2014-10-31 2016-05-06 Dolby International Ab Parametric encoding and decoding of multichannel audio signals
US20160171987A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for compressed audio enhancement
EP3107097B1 (de) * 2015-06-17 2017-11-15 Nxp B.V. Verbesserte sprachverständlichkeit
EP3369257B1 (de) * 2015-10-27 2021-08-18 Ambidio, Inc. Vorrichtung und verfahren zur klangraumverbesserung
WO2017125559A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
DE102018127071B3 (de) * 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
US11356791B2 (en) * 2018-12-27 2022-06-07 Gilberto Torres Ayala Vector audio panning and playback system
CN111615044B (zh) * 2019-02-25 2021-09-14 宏碁股份有限公司 声音信号的能量分布修正方法及其系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428939T2 (de) * 1993-06-22 2002-04-04 Deutsche Thomson-Brandt Gmbh Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
JP4478220B2 (ja) * 1997-05-29 2010-06-09 ソニー株式会社 音場補正回路
JP3657120B2 (ja) * 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000214887A (ja) * 1998-11-16 2000-08-04 Victor Co Of Japan Ltd 音声符号化装置、光記録媒体、音声復号装置、音声伝送方法及び伝送媒体
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
EP1410686B1 (de) * 2001-02-07 2008-03-26 Dolby Laboratories Licensing Corporation Audiokanalübersetzung
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
KR100752482B1 (ko) * 2001-07-07 2007-08-28 엘지전자 주식회사 멀티채널 스트림 기록 재생장치 및 방법
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
TW569551B (en) * 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
ES2268340T3 (es) * 2002-04-22 2007-03-16 Koninklijke Philips Electronics N.V. Representacion de audio parametrico de multiples canales.
EP2879299B1 (de) * 2002-05-03 2017-07-26 Harman International Industries, Incorporated Mehrkanalige Abwärtsmischungsvorrichtung
JP2003333699A (ja) * 2002-05-10 2003-11-21 Pioneer Electronic Corp マトリックス・サラウンドデコード装置
KR20040043743A (ko) * 2002-11-19 2004-05-27 주식회사 디지털앤디지털 멀티채널 검색장치와 방법
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치

Also Published As

Publication number Publication date
US20050157883A1 (en) 2005-07-21
ATE393950T1 (de) 2008-05-15
KR100803344B1 (ko) 2008-02-13
JP2007519349A (ja) 2007-07-12
CN1910655A (zh) 2007-02-07
IL176776A (en) 2010-11-30
KR20060132867A (ko) 2006-12-22
IL176776A0 (en) 2008-03-20
MXPA06008030A (es) 2007-03-07
BRPI0506533A (pt) 2007-02-27
EP1706865B1 (de) 2008-04-30
JP4574626B2 (ja) 2010-11-04
WO2005069274A1 (en) 2005-07-28
NO20063722L (no) 2006-10-19
ES2306076T3 (es) 2008-11-01
AU2005204715A1 (en) 2005-07-28
DE602005006385D1 (de) 2008-06-12
EP1706865A1 (de) 2006-10-04
RU2006129940A (ru) 2008-02-27
NO337395B1 (no) 2016-04-04
AU2005204715B2 (en) 2008-08-21
US7394903B2 (en) 2008-07-01
CN1910655B (zh) 2010-11-10
PT1706865E (pt) 2008-08-12
RU2329548C2 (ru) 2008-07-20
CA2554002C (en) 2013-12-03
CA2554002A1 (en) 2005-07-28
BRPI0506533B1 (pt) 2018-11-06

Similar Documents

Publication Publication Date Title
DE602005006385T2 (de) Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals
DE602004004168T2 (de) Kompatible mehrkanal-codierung/-decodierung
EP1854334B1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
DE602006000239T2 (de) Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
DE60318835T2 (de) Parametrische darstellung von raumklang
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
EP1763870B1 (de) Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
DE69214523T2 (de) Dekodierer für variable anzahl von kanaldarstellungen mehrdimensionaler schallfelder
DE602005002942T2 (de) Verfahren zur darstellung von mehrkanal-audiosignalen
DE69210689T2 (de) Kodierer/dekodierer für mehrdimensionale schallfelder
DE602005006424T2 (de) Stereokompatible mehrkanal-audiokodierung
DE102006050068B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP1687809B1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
EP1774515B1 (de) Vorrichtung und verfahren zum erzeugen eines mehrkanaligen ausgangssignals
DE69827775T2 (de) Tonkanalsmischung
US20110058679A1 (en) Method, Device, Encoder Apparatus, Decoder Apparatus and Audio System
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
DE112019003358T5 (de) Verfahren und vorrichtung zum codieren und/oder decodieren immersiver audiosignale
EP1719128A1 (de) Vorrichtung und verfahren zum beschreiben einer audio-cd und audio-cd
DE112021004444T5 (de) Stereobasierte immersive codierung (stic)
WO2015128379A1 (de) Kodierung und dekodierung eines niederfrequenten kanals in einem audiomultikanalsignal
DE102017121876A1 (de) Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition