DE102004043521A1

DE102004043521A1 - Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes

Info

Publication number: DE102004043521A1
Application number: DE102004043521A
Authority: DE
Inventors: Ralph Sperschneider; Jürgen Dr. Herre; Johannes Hilpert; Christian Ertel; Stefan Geyersberger
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-09-08
Filing date: 2004-09-08
Publication date: 2006-03-23
Also published as: BRPI0515651B1; CA2579114A1; EP1687809B1; CA2579114C; KR20070065314A; RU2355046C2; RU2007112943A; CN101014999B; JP4601669B2; EP1687809A1; IL181743A0; NO20071132L; CN101014999A; AU2005281966A1; NO338932B1; ES2314706T3; US20070206690A1; JP2008512708A; ATE409938T1; WO2006027079A1

Abstract

Für eine flexible Signalisierung eines synchronen Modus oder eines asynchronen Modus bei der Multikanalparameterrekonstruktion wird im Datenstrom ein Parameterkonfigurationshinweis eingebracht, der vor einer Konfigurationseinrichtung auf Seiten eines Multikanaldecodierers verwendet wird, um eine Multikanalrekonstruktionseinrichtung zu konfigurieren. Hat der Parameterkonfigurationshinweis eine erste Bedeutung, so wird die Konfigurationseinrichtung in ihren Eingangsdaten nach weiteren Konfigurationsinformationen suchen, während dann, wenn der Parameterkonfigurationshinweis eine andere Bedeutung hat, die Konfigurationseinrichtung aufgrund von Informationen über einen Codieralgorithmus, mit dem Übertragungskanaldaten codiert worden sind, eine Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung vornimmt, so dass einerseits effizient und andererseits flexibel sichergestellt wird, dass immer eine korrekte Zuordnung zwischen Parameterdaten und decodierten Übertragungskanaldaten erhalten wird.

Description

Die vorliegende Erfindung bezieht sich auf parametrische Multikanal-Verarbeitungstechniken und insbesondere auf Encoder/Decoder zum Erzeugen bzw. Lesen einer flexiblen Datensyntax und zum Zuordnen von Parameterdaten zu den Daten der Downmix- bzw. Übertragungskanäle.
Eine empfohlene Multikanal-Surround-Darstellung umfasst zusätzlich zu den beiden Stereokanälen einen Mitten-Kanal oder Center-Kanal C und zwei Surround-Kanäle, nämlich den Left-Surround-Kanal Ls und den Right-Surround-Kanal Rs, und außerdem gegebenenfalls einen Subwoofer-Kanal, der auch als LFE-Kanal (LFE = Low Frequency Enhancement) bezeichnet wird. Dieses Referenztonformat wird auch als 3/2-(plus LFE) Stereo und in jüngerer Zeit auch als 5.1 Multikanal bezeichnet, was bedeutet, dass es drei vordere Kanäle und zwei Surround-Kanäle gibt. Allgemein werden fünf oder sechs Übertragungskanäle benötigt. In einer Wiedergabeumgebung werden zumindest fünf Lautsprecher in den jeweiligen fünf unterschiedlichen Positionen benötigt, um einen optimalen sogenannten Sweet-Spot in einem bestimmten Abstand von den fünf korrekt platzierten Lautsprechern zu erhalten. Der Subwoofer ist im Hinblick auf seine Positionierung dagegen relative beliebig einsetzbar.

Es gibt mehrere Techniken zur Reduktion der Datenmenge, die nötig ist, um ein Multikanalaudiosignal zu übertragen. Solche Techniken werden auch Joint-Stereo-Techniken genannt. Zu diesem Zweck wird auf 5 Bezug genommen. 5 zeigt ein Joint-Stereo-Gerät 60. Dieses Gerät kann ein Gerät sein, das beispielsweise die Intensity-Stereo-Technik (IS-Technik) oder die Binaural-Cue-Codierungs-Technik (BCC-Technik) implementiert. Eine solche Vorrichtung empfängt allgemein als Eingangssignal wenigstens zwei Kanäle (CH1, CH2, ...... CHn) und gibt wenigsten einen einzigen Trägerkanal (Downmix) und parametrische Daten, also einen oder mehrere Parametersätze, aus. Die parametrischen Daten sind so definiert, dass in einem Decodierer eine Approximation eines jeden ursprünglichen Kanals (CH1, CH2, ..... CHn) berechnet werden kann.

Normalerweise wird der Trägerkanal Subband-Abtastwerte, Spektralkoeffizienten oder Zeitbereichsabtastwerte etc. umfassen, die eine vergleichsweise feine Darstellung des zugrundeliegenden Signals liefern, während die parametrischen Daten bzw. Parametersätze keine solchen Abtastwerte oder Spektralkoeffizienten umfassen. Stattdessen umfassen die parametrischen Daten Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus, wie beispielsweise Gewichten durch Multiplikation, zeitliches Verschieben, frequenzmäßiges Verschieben, ...... Die parametrischen Daten umfassen daher nur eine vergleichsweise grobe Darstellung des Signals oder des zugeordneten Kanals. In Zahlen ausgedrückt, wird die Menge an Daten, die von einem (komprimierten, d. h. z. B. mittels AAC codierten) Trägerkanal benötigt wird, im Bereich von 60 bis 70 kBit/s liegen, während die Menge an Daten, die von parametrischen Seiteninformationen benötigt wird, für einen Kanal in der Größenordnung ab 1,5 kBit/s liegen wird. Ein Beispiel für parametrische Daten sind die bekannten Skalierungsfaktoren, Intensity-Stereoinformationen oder Binaural-Cue-Parameter, wie es noch beschrieben wird.

Die Intensity-Stereo-Codiertechnik ist in dem AES-Preprint 3799 mit dem Titel "Intensity stereo coding" J. Herre, K. H. Brandenburg, D. Lederer, Februar 1994, Amsterdam, beschrieben. Im Allgemeinen basiert das Konzept von Intensity-Stereo auf einer Hauptachsentransformation, die auf Daten der beiden stereophonen Audiokanäle anzuwenden ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum platziert sind, kann ein Codiergewinn erreicht werden, indem beide Signale um einen bestimmten Winkel vor der Codie rung gedreht werden. Dies gilt jedoch nicht immer für reelle stereophone Reproduktionstechniken. Die rekonstruierten Signale für den linken und rechten Kanal bestehen aus unterschiedlich gewichteten oder skalierten Versionen desselben übertragenen Signals. Dennoch unterscheiden sich die rekonstruierten Signale in ihrer Amplitude, sind jedoch im Hinblick auf Ihre Phaseninformationen identisch. Die Energie-Zeit-Hüllkurven beider ursprünglicher Audiokanäle werden jedoch mittels der selektiven Skalieroperation beibehalten, die typischerweise auf Frequenz-selektive Art und Weise arbeitet. Dies entspricht der menschlichen Schallwahrnehmung bei hohen Frequenzen, wo die dominanten räumlichen Hinweise oder Cues durch die Energie-Hüllkurven bestimmt werden.

Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d.h. der Trägerkanal, aus dem Summensignal des linken Kanals und des rechten Kanals gebildet, anstatt dass beide Komponenten gedreht werden. Ferner wird diese Verarbeitung, d. h. das Erzeugen der Intensity-Stereo-Parameter zum Durchführen der Skalierungsoperation, frequenzselektiv durchgeführt, d. h. unabhängig voneinander für jedes Skalenfaktorband, d. h. für jede Codiererfrequenzpartition. Vorzugsweise werden beide Kanäle kombiniert, um einen kombinierten oder "Träger"-Kanal zu bilden. Zusätzlich zum kombinierten Kanal werden die Intensity-Stereo-Informationen bestimmt, die von der Energie des ersten Kanals, der Energie des zweiten Kanals und der Energie des kombinierten bzw. Summenkanals abhängen.

Die BCC-Technik ist in dem AES-Convention-Paper 5574 mit dem Titel "Binaural cue coding applied to stereo and multichannel audio compression", C. Faller, F. Baumgarte, Mai 2002, München, beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audio-Eingangskanälen in eine spektrale Darstellung unter Verwendung einer DFT-basierten Transformation mit überlappenden Fenstern umgewandelt. Das resultierende Spektrum wird in nicht-überlappende Partitionen aufgeteilt.

Jede Partition hat eine Bandbreite, die proportional zu einer äquivalenten rechtwinkeligen Bandbreite (ERB) ist. Sogenannte Zwischenkanal-Pegeldifferenzen (ICLD = Inter-Channel Level Differences) sowie sogenannte Zwischenkanal-Zeitdifferenzen (ICTD; ICTD = Interchannel Time Differences) werden für jede Partition, also für jedes Band und für jeden Frame k, also einen Block von zeitlichen Absatzwerten berechnet. Die ICLD- und ICDT-Parameter werden quantisiert und codiert, um einen BCC-Bitstrom zu erhalten. Die Zwischenkanal-Pegeldifferenzen und die Zwischenkanal-Zeitdifferenzen sind für jeden Kanal bezüglich eines Referenzkanals gegeben. Insbesondere werden die Parameter gemäß vorbestimmter Formeln berechnet, die von den bestimmten Aufteilungen des zu verarbeitenden Signals abhängen.

Auf Decodiererseite empfängt der Decodierer ein Monosignal und den BCC-Bitstrom, also pro Frame einen ersten Parametersatz für die Zwischenkanal-Zeitdifferenzen und einen zweiten Parametersatz für die Zwischenkanal-Pegeldifferenzen. Das Monosignal wird in den Frequenzbereich transformiert und in einen Synthese-Block eingegeben, der ebenfalls decodierte ICLD- und ICTD-Werte empfängt. In dem Synthese-Block bzw. Rekonstruktionsblock werden die BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um das Multikanalsignal zu rekonstruieren, das dann, nach einer Frequenz/Zeit-Umwandlung eine Rekonstruktion des ursprünglichen Multikanal-Audiosignals darstellt.

Im Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um die Kanalseiteninformationen so auszugeben, dass die parametrischen Kanaldaten quantisierte und codierte ICLD- und ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als Referenzkanal zum Codieren der Kanalseiteninformationen verwendet werden kann. Normalerweise wird der Trägerkanal aus der Summe der teilnehmenden Ursprungskanäle gebildet.

Natürlich liefert die obige Technik nur eine Monodarstellung für einen Decodierer, der nur den Trägerkanal decodieren kann, der jedoch nicht in der Lage ist, die Parameterdaten zum Erzeugen von einem oder mehreren Approximierungen von mehr als einem Eingangskanal zu erzeugen.

Die Audiocodiertechnik, die als BCC-Technik bezeichnet wird, ist ferner in den amerikanischen Patentanmeldungen US 2003/0219130 A1, 2003/0026441 A1 und 2003/0035553 A1 beschrieben. Zusätzlich wird ferner auf "Binaural Cue Coding. Part. II: Schemes and Applications", C. Faller und F. Baumgarte, IEEE: Transactions On Audio and Speech Proc., Bd. 11, Nr. 6, November 1993 verwiesen. Ferner wird auch auf C. Faller und F. Baumgarte „Binaural Cue Coding applied to Stereo and Multi-Channel Audio compression", Preprint, 112. Convention der Audio Engineering Society (AES), Mai 2002, sowie auf J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, C. Spenger "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio", 116. AES Convention, Berlin, 2004, Preprint 6049, verwiesen. Nachfolgend wird ein typisches allgemeines BCC-Schema für die Multikanalaudiocodierung detaillierter bezugnehmend auf die 6 bis 8 dargestellt. 6 zeigt ein allgemeines BCC-Codierschema zur Codierung/Übertragung von Multikanalaudiosignalen. Das Multikanalaudioeingangssignal wird an einem Eingang 110 eines BCC-Codierers 112 eingegeben und in einem sogenannten Downmix-Block 114 "herabgemischt", also in einen einzigen Summenkanal umgesetzt. Beim vorliegenden Beispiel ist das Signal an dem Eingang 110 ein 5-Kanal-Surround-Signal mit einem vorderen linken Kanal und einem vorderen rechten Kanal, einem linken Surround-Kanal und einem rechten Surround-Kanal, und einem Center-Kanal. Typischerweise erzeugt der Downmix-Block ein Summensignal durch einfache Addition dieser fünf Kanäle in ein Monosignal. Andere Downmix-Schemen sind aus der Technik bekannt, die alle dazu führen, dass unter Verwendung eines Multikanal-Eingangssignals ein Downmix-Signal mit einem einzigen Kanal oder aber mit einer Anzahl von Downmix-Kanälen erzeugt wird, die auf jeden Fall kleiner ist als die Anzahl von ursprünglichen Eingangskanälen. Beim vorliegenden Beispiel wäre bereits eine Downmix-Operation erreicht, wenn aus den fünf Eingangskanälen vier Trägerkanäle erzeugt werden würden. Der einzige Ausgangskanal bzw. die Anzahl von Ausgangskanälen wird an einer Summensignalleitung 115 ausgegeben.

Seiteninformationen, die durch einen BCC-Analyseblock 116 erhalten werden, werden an einer Seiteninformationsleitung 117 ausgegeben. Im BCC-Analyseblock können Zwischenkanal-Pegeldifferenzen (ICLD), Zwischenkanalzeitdifferenzen (ICTD) oder Zwischenkanal-Korrelationswerte (ICC-Werte; ICC = Interchannel correlation) berechnet werden. Zur Rekonstruktion im BCC-Syntheseblock 122 existieren somit drei unterschiedliche Parametersätze, nämlich die Zwischenkanal-Pegeldifferenzen (ICLD), die Zwischenkanal-Zeitdifferenzen (ICTD) und die Zwischenkanal-Korrelationswerte (ICC).

Das Summensignal sowie die Seiteninformationen mit den Parametersätzen werden typischerweise in einem quantisierten und codierten Format zu einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene (und im Fall einer codierten Übertragung decodierte) Summensignal in eine Anzahl von Subbändern und führt Skalierungen, Verzögerungen und weitere Verarbeitungen durch, um die Subbänder der mehreren Kanäle, die zu rekonstruieren sind, zu erzeugen. Diese Verarbeitung wird so durchgeführt, dass die ICLD-, ICTD- und ICC-Parameter (Cues) eines rekonstruierten Multikanalsignals am Ausgang 121 ähnlich zu den jeweiligen Cues für das ursprüngliche Multikanalsignal am Eingang 110 in den BCC-Codierer 112 sind. Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC-Syntheseblock 122 und einen Seiteninformationen-Verarbeitungsblock 123.

Nachfolgend wird der interne Aufbau des BCC-Syntheseblocks 122 bezugnehmend auf 7 dargestellt. Das Summensignal auf der Leitung 115 wird in einen Zeit/Frequenz- Umwandlungsblock, der typischerweise als Filterbank FB 125 ausgeführt ist, eingegeben. Am Ausgang des Blocks 125 existiert eine Anzahl N von Subbandsignalen oder, in einem extremen Fall ein Block von Spektralkoeffizienten, wenn die Audiofilterbank 125 eine Transformation durchführt, die N Spektralkoeffizienten aus N Zeitbereichs-Abtastwerten erzeugt.

Der BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe 127, eine Korrelationsverarbeitungsstufe 128 und eine Stufe IFB 129, die eine inverse Filterbank darstellt. Am Ausgang der Stufe 129 kann das rekonstruierte Multikanalaudiosignal mit beispielsweise fünf Kanälen im Falle eines 5-Kanal-Surround-Systems an einem Satz von Lautsprechern 124 ausgegeben werden, wie es in 6 dargestellt ist.

In 7 ist ferner dargestellt, dass das Eingangssignal s(n) in den Frequenzbereich oder Filterbankbereich mittels des Elements 125 umgesetzt wird. Das Signal, das durch das Element 125 ausgegeben wird, wird so vervielfacht, dass mehrere Versionen desselben Signals erhalten werden, wie es durch den Knoten 130 angedeutet ist. Die Anzahl der Versionen des Ursprungssignals ist gleich der Anzahl von Ausgangskanälen in dem Ausgangssignal, das zu rekonstruieren ist. Wenn jede Version des Ursprungssignals am Knoten 130 einer bestimmten Verzögerung d₁, d₂, ..... d_i, d_N unterzogen wird, ergibt sich die Situation am Ausgang der Blöcke 126, die die Versionen desselben Signals jedoch mit unterschiedlichen Verzögerungen umfasst. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock 123 in 6 berechnet und aus den Zwischenkanal-Zeitdifferenzen abgeleitet, wie sie durch den BCC-Analyseblock 116 bestimmt worden sind.

Das gleiche gilt für die Multiplikationsparameter a₁, a₂ ... a_i, a_N, die ebenfalls durch den Seiteninformationsverarbeitungsblock 123 basierend auf den Zwischenkanal- Pegeldifferenzen berechnet werden, die durch den BCC-Analyseblock 116 ermittelt werden.

Die ICC-Parameter werden durch den BCC-Analyseblock 116 berechnet und zum Steuern der Funktionalität des Blocks 128 verwendet, so dass bestimmte Korrelationswerte zwischen den verzögerten und pegelmanipulierten Signalen am Ausgang des Blocks 128 erhalten werden. Es sei darauf hingewiesen, dass die Reihenfolge der Stufen 126, 127, 128 anders sein kann, als sie in 7 dargestellt ist.

Es sei ferner darauf hingewiesen, dass in einer blockweisen Verarbeitung des Audiosignals die BCC-Analyse ebenfalls blockweise durchgeführt wird. Ferner wird die BCC-Analyse auch frequenzweise, also frequenzselektiv durchgeführt. Dies bedeutet, dass es für jeden Block für jedes spektrale Band einen ICLD-Parameter, einen ICTD-Parameter und einen ICC-Parameter gibt. Die ICTD-Parameter für wenigstens einen Block für wenigstens einen Kanal über alle Bänder stellen somit den ICTD-Parametersatz dar. Dasselbe gilt für den ICLD-Parametersatz, der sämtliche ICLD-Parameter für wenigstens einen Block für alle Frequenzbänder zur Rekonstruktion wenigstens eines Ausgangskanals darstellt. Dasselbe gilt wiederum für den ICC-Parametersatz, der wieder für wenigstens einen Block mehrere einzelne ICC-Parameter für verschiedene Bänder zur Rekonstruktion wenigstens eines Ausgangskanals auf der Basis des Eingangskanals bzw. Summen-Kanals umfasst.

Nachfolgend wird auf 8 Bezug genommen, die eine Situation zeigt, aus der die Bestimmung von BCC-Parametern ersichtlich ist. Normalerweise können die ICLD-, ICTD- und ICC-Parameter zwischen beliebigen Kanalpaaren definiert werden. Typischweise wird eine Bestimmung der ICLD- und der ICTD-Parameter zwischen einem Referenzkanal und jedem anderen Eingangskanal durchgeführt, so dass es für jeden der Eingangskanäle mit Ausnahme des Referenzkanals einen eige nen Parametersatz gibt. Dies ist auch in 8A dargestellt.

Die ICC-Parameter können dagegen unterschiedlich definiert werden. Allgemein kann man ICC-Parameter im Encodierer zwischen allen möglichen Kanalpaaren erzeugen, wie es auch in 8B schematisch dargestellt ist. In diesem Fall würde ein Decodierer eine ICC-Synthese dahingehend durchführen, dass etwa dasselbe Ergebnis erhalten wird, wie es im ursprünglichen Signal zwischen allen möglichen Kanalpaaren vorgelegen hat. Es wurde jedoch vorgeschlagen, nur ICC-Parameter zwischen den zwei stärksten Kanälen zu jedem Zeitpunkt, also für jeden zeitlichen Frame zu berechnen. Dieses Schema ist in 8C dargestellt, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 2 berechnet und übertragen wird, und bei dem zu einem anderen Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 5 berechnet wird. Der Decodierer synthetisiert dann die Zwischenkanal-Korrelation zwischen den beiden stärksten Kanälen in dem Decodierer und führt weitere typischerweise heuristische Regeln zum Synthetisieren der Zwischenkanal-Kohärenz für die restlichen Kanalpaare aus.

Bezugnehmend auf die Berechnung beispielsweise der Multiplikationsparameter a₁, ..., a_N basierend auf den übertragenen ICLD-Parametern wird auf das zitierte AES-Convention-Paper 5574 Bezug genommen. Die ICLD-Parameter stellen eine Energieverteilung in einem ursprünglichen Multikanalsignal dar. Ohne Verlust der Allgemeinheit ist in 8A gezeigt, dass es vier ICLD-Parameter gibt, die die Energiedifferenz zwischen allen anderen Kanälen und dem vorderen linken Kanal darstellen. In dem Seiteninformationenverarbeitungsblock 123 werden die Multiplikationsparameter a₁,..... a_N aus den ICLD-Parametern so abgeleitet, dass die gesamte Energie aller rekonstruierten Ausgangskanäle dieselbe Energie ist, wie sie für das übertragene Summensignal vorliegt, oder wenigstens proportional zu dieser Energie ist. Eine Art und Weise, um diese Parameter zu bestimmen, liegt in einem zweistufigen Prozess, bei dem in einer ersten Stufe der Multiplikationsfaktor für den linken vorderen Kanal auf 1 gesetzt wird, während Multiplikationsfaktoren für die anderen Kanäle in 8C auf die übertragenen ICLD-Werte gesetzt werden. Dann wird in einer zweiten Stufe die Energie aller fünf Kanäle berechnet und mit der Energie des übertragenen Summensignals verglichen. Dann werden alle Kanäle herunterskaliert, und zwar unter Verwendung eines Skalierungsfaktors, der für alle Kanäle gleich ist, wobei der Skalierungsfaktor so gewählt ist, dass die gesamte Energie aller rekonstruierten Ausgangskanäle nach der Skalierung gleich der Gesamtenergie des übertragenen Summensignals bzw. der übertragenen Summensignale ist.

Bezüglich des Zwischenkanal-Kohärenzmaßes ICC, das von dem BCC-Codierer zu dem BCC-Decodierer als weiterer Parametersatz übertragen wird, sei darauf hingewiesen, dass eine Kohärenzmanipulation durch Modifikation der Multiplikationsfaktoren, wie beispielsweise durch Multiplizieren der Gewichtungsfaktoren aller Subbänder mit Zufallszahlen mit Werten zwischen 20log10^–6 und 20log10⁶, durchgeführt werden könnte. Die Pseudozufallssequenz wird hierbei typischerweise so ausgewählt, dass die Varianz für alle kritischen Bänder etwa gleich ist und dass der Mittelwert innerhalb jeden kritischen Bandes Null ist. Dieselbe Sequenz wird für die Spektralkoeffizienten jedes unterschiedlichen Frames oder Blocks verwendet. Somit wird die Breite der Audioszene durch Modifikationen der Varianzen der Pseudozufallssequenz gesteuert. Eine größere Varianz erzeugt eine größere Hörbreite. Die Varianzmodifikation kann in individuellen Bändern durchgeführt werden, die eine Breite eines kritischen Bandes haben. Dies ermöglicht die gleichzeitige Existenz mehrerer Objekte in einer Hörszene, wobei jedes Objekt eine unterschiedliche Hörbreite hat. Eine geeignete Amplitudenverteilung für die Pseudozufallssequenz ist eine gleichmäßige Verteilung auf einer logarithmischen Skala, wie es beispielsweise in der US-Patentveröffentlichung 2002/0219130 A1 dargestellt ist.

Um die fünf Kanäle auf kompatible Art und Weise zu übertragen, beispielsweise in einem Bitstromformat, das ebenfalls für einen normalen Stereodecodierer geeignet ist, kann die sogenannte Matrizierungstechnik verwendet werden, die in "MUSICAM Surround: A universal multi-channel coding system compatible with ISO/IEC 11172-3", G. Theile und G. Stoll, AES Preprint, Oktober 1992, San Francisco, beschrieben ist.

Ferner wird auf weitere Multikanal-Codiertechniken verwiesen, die in der Publikation "Improved MPEG 2 Audio multichannel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Miller, AES-Preprint 3865, Februar 1994, Amsterdam, beschrieben ist, wobei eine Kompatibilitätsmatrix verwendet wird, um die Downmix-Kanäle aus den ursprünglichen Eingangskanälen zu erhalten.

Zusammenfassend kann daher gesagt werden, dass die BCC-Technik eine effiziente und auch rückwärtskompatible Codierung von Multikanal-Audiomaterial ermöglicht, wie es auch z. B. in der Fachveröffentlichung von E. Schuijer, J. Breebaart, H. Purnhagen, J. Engdegård mit dem Titel „Low-Complexity Parametric Stereo Coding", 119. AES Convention, Berlin, 2004, Preprint 6073, beschrieben ist. In diesem Zusammenhang sind auch der MPEG-4-Standard und insbesondere die Erweiterung auf parametrische Audiotechniken zu nennen, wobei dieser Standardteil auch unter der Kennung ISO/IEC 14496-3: 2001/FDAM 2 (Parametric Audio) bekannt ist. Hierbei ist insbesondere die Syntax in Tabelle 8.9 des MPEG-4-Standards mit dem Titel „Syntax der ps_data()" zu nennen. In diesem Beispiel sind die Syntax-Elemente „enable_icc" und „enable_ipdopd" zu nennen, wobei diese Syntaxelemente dazu verwendet werden, um eine Übertragung eines ICC-Parameters und einer Phase, die Zwischenkanal-Zeitdifferenzen entspricht, ein- und auszuschalten. Ferner wird auf die Syntaxelemente „icc_data()", „ipd_data()" und „opd_data()" verwiesen.

Zusammenfassend sei darauf hingewiesen, dass allgemein gesagt solche parametrischen Multikanaltechniken unter Verwendung von einem oder auch mehreren übertragenen Trägerkanälen eingesetzt werden, wobei also aus N Ursprungskanälen M übertragene Kanäle gebildet werden, um wieder die N Ausgangskanäle oder auch eine Anzahl K von Ausgangskanälen zu rekonstruieren, wobei K kleiner oder gleich der Anzahl der Ursprungskanäle N ist.

Aus 6 ist zu sehen, dass die BCC-Analyse eine typische getrennte Vorverarbeitung ist, um aus einem Multikanalsignal mit N Ursprungskanälen Parameterdaten einerseits und einen oder mehrere Übertragungskanäle (Downmix-Kanäle) andererseits zu erzeugen. Typischerweise werden diese Downmix-Kanäle dann, obgleich es in 6 nicht gezeigt ist, z. B. mittels eines typischen MP3- oder AAC-Stereo/Mono-Codierers komprimiert, so dass ausgangsseitig ein Bitstrom vorhanden ist, der die Übertragungskanaldaten in komprimierter Form darstellt, und dass ferner ein weiterer Bitstrom vorhanden ist, der die Parameterdaten darstellt. Die BCC-Analyse findet somit getrennt vom eigentlichen Audiocodieren der Downmix-Kanäle bzw. des Summensignals 115 von 6 statt.

Ähnlich ist es auf Decodierer-Seite. Ein Decodierer mit Multikanalfähigkeit wird zunächst je nach verwendetem Codieralgorithmus den Bitstrom, der das komprimierte Downmix-Signal umfasst, decodieren und ausgangsseitig wieder einen oder mehrere Übertragungskanäle liefern, und zwar typischerweise als zeitliche Folge von PCM-Daten (PCM = Pulse Code Modulation). Dann wird die BCC-Synthese als eigene separate und getrennte Nachverarbeitung stattfinden, die autark mit dem Parameterdatenstrom signalisiert und mit Daten versorgt wird, um ausgangsseitig aus dem audiodecodierten Downmix-Signal mehrere Ausgangskanäle, die vorzugsweise gleich der Anzahl der ursprünglichen Eingangskanäle sind, zu erzeugen.

So ist ein Vorteil der BCC-Analyse, dass sie beispielsweise eine eigene Filterbank zu Zwecken der BCC-Analyse und eine eigene Filterbank zu Zwecken der BCC-Synthese hat, dass sie also getrennt von der Filterbank des Audiocodierers/Decodierers ist, um keine Kompromisse eingehen zu müssen im Hinblick auf Audiokompression einerseits und Multikanalrekonstruktion andererseits. Allgemein gesagt, wird somit die Audiokompression getrennt von der Multikanal-Parameterverarbeitung durchgeführt, um für beide Anwendungsgebiete optimal ausgerüstet zu sein.

Nachteilig an diesem Konzept ist allerdings, dass eine komplette Signalisierung sowohl für die Multikanalrekonstruktion als auch für die Audiodecodierung übertragen werden muss. Das ist insbesondere dann nachteilhaft, wenn, wie es typischerweise der Fall sein wird, sowohl der Audiodecodierer als auch die Multikanalrekonstruktionseinrichtung dieselben oder ähnliche Schritte durchführen und damit gleiche bzw. voneinander abhängige Konfigurationseinstellungen benötigen. Aufgrund des vollständig getrennten Konzepts werden somit Signalisierungsdaten zweimal übertragen, was zu einer künstlichen „Aufblähung" der Datenmenge führt, was letztendlich darauf zurückzuführen ist, dass man sich für das getrennte Konzept zwischen Audiocodierung/Decodierung und Multikanalanalyse/Synthese entschieden hat.

Andererseits würde eine komplette „Anbindung" der Multikanalrekonstruktion an die Audiodecodierung die Flexibilität ganz erheblich einschränken, da dann wieder das eigentlich wichtige Ziel der Trennung beider Verarbeitungsschritte, um jeden Verarbeitungsschritt optimal durchführen zu können, aufgegeben werden müsste. So müsste dann insbesondere im Fall mehrerer aufeinanderfolgender Codier/Decodier-Stufen, die auch als „Tandem"-Codierung bezeichnet werden, erhebliche Qualitätseinbusen entstehen. Wenn eine vollständige An bindung der BCC-Daten an die codierten Audiodaten stattfindet, so muss mit jeder Decodierung eine Multikanalrekonstruktion durchgeführt werden, um dann, wenn erneut codiert wird, wieder eine Multikanalsynthese durchzuführen. Nachdem es ein Wesen jeder parametrischen Technik ist, dass sie verlustbehaftet ist, häufen sich die Verluste durch mehrmalige Analyse-Synthese-Analyse an, so dass mit jeder En/Decodiererstufe die wahrnehmbare Qualität des Audiosignals weiter abnimmt.

Ein Decodieren/Encodieren von Audiodaten ohne gleichzeitige Analyse/Synthese-Verarbeitung der Parameterdaten wäre in diesem Fall höchstens dann möglich, wenn jeder Audio-Codec in der Tandem-Kette identisch arbeitet, also die gleiche Abtastrate, Blocklänge, Vorschublänge, Fensterung, Transformation, ..., also allgemein die selbe Konfiguration aufweist und darüber hinaus auch die jeweiligen Blockgrenzen beibehalten würden. Ein solches Konzept würde jedoch die Flexibilität des gesamten Konzepts empfindlich einschränken. Diese Einschränkung ist insbesondere in Anbetracht der Tatsache um so schmerzlicher, da die parametrischen Multikanaltechniken dafür gedacht sind, bereits bestehende z. B. Stereodaten durch zusätzliche Parameterdaten zu ergänzen. Nachdem die bereits bestehenden Stereodaten von vielen verschiedenen Codierern stammen können, die alle unterschiedliche Blocklängen verwenden, oder die sogar überhaupt nicht im Frequenzbereich sondern im Zeitbereich arbeiten, etc., würde eine solche Einschränkung das Konzept der nachträglichen Ergänzung vor vorneherein ad absurdum führen.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein flexibles und effizientes Konzept zum Erzeugen eines Multikanalaudiosignals oder eines Rekonstruktionsparameterdatensatzes zu schaffen.

Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Multikanalsignals gemäß Patentanspruch 1, ein Verfahren zum Erzeugen eines Multikanalsignals gemäß Patentanspruch 14, eine Vorrichtung zum Erzeugen eines Parameterdatensatzes gemäß Patentanspruch 15, ein Verfahren zum Erzeugen einer Parameterdatenausgabe gemäß Patentanspruch 18, eine Vorrichtung zum Erzeugen einer Parameterdatenausgabe gemäß Patentanspruch 19, ein Verfahren zum Erzeugen einer Parameterdatenausgabe nach Patentanspruch 20 oder ein Computerprogramm gemäß Patentanspruch 21 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass einerseits Effizienz und andererseits Flexibilität dadurch erreicht werden können, dass im Datenstrom, der Übertragungskanaldaten und Parameterdaten umfassen kann, ein Parameterkonfigurationshinweis enthalten ist, der encodiererseitig eingebracht worden ist, und der decodiererseitig ausgewertet wird. Dieser Hinweis zeigt an, ob eine Multikanalrekonstruktionseinrichtung aus den Eingangsdaten, also aus den vom Encoder zum Decoder übertragenen Daten, konfiguriert wird, oder ob eine Multikanalrekonstruktionseinrichtung durch Hinweis auf einen Codieralgorithmus mit dem codierte Übertragungskanaldaten decodiert worden sind, konfiguriert wird. Die Multikanalrekonstruktionseinrichtung hat eine Konfigurationseinstellung, die identisch zu einer Konfigurationseinstellung des Audiodecodierers zum Decodieren der codierten Übertragungskanaldaten ist, oder zumindest von dieser Einstellung abhängig ist.

Stellt ein Decodierer die erste Situation fest, also hat der Parameterkonfigurationshinweis eine erste Bedeutung, so wird der Decodierer, um die Multikanalrekonstruktionseinrichtung richtig zu konfigurieren, in den erhaltenen Eingangsdaten nach weiteren Konfigurationsinformationen suchen, um diese dann zu verwenden, um eine Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung zu bewirken. Eine solche Konfigurationseinstellung könnte beispielsweise Blocklänge, Vorschub, Abtastfrequenz, Filterbanksteuerdaten, sog. Granule-Informationen (wie viele BCC-Blöcke sind in einem Frame), Kanalkonfigurationen (z. B. wird immer wenn „mp3" vorliegt, eine 5.1.-Ausgabe erzeugt), Informationen, welche Parameterdaten in einem skalierten Fall obligatorisch (z. B. ICLD) sind und welche nicht (ICTD), etc. sein.

Stellt der Decodierer dagegen fest, dass der Parameterkonfigurationshinweis eine zweite von der ersten Bedeutung abweichende Bedeutung hat, so wird die Multikanalrekonstruktionseinrichtung abhängig von Informationen über den Audiocodieralgorithmus, der der Codierung/Decodierung der Übertragungskanaldaten, also der Downmix-Kanäle zugrunde liegt, die Konfigurationseinstellung in der Multikanalrekonstruktionseinrichtung wählen.

Im Gegensatz zum getrennten Konzept der Parameterdaten einerseits und der komprimierten Downmix-Daten andererseits begeht die erfindungsgemäße Vorrichtung zum Erzeugen eines Multikanalaudiosignals zur Konfiguration der Multikanalrekonstruktionseinrichtung gewissermaßen einen „Diebstahl" bei den eigentlich komplett getrennten und in sich autark vorliegenden Audiodaten bzw. bei einem autark arbeitenden vorgeschalteten Audiodecodierer, um sich zu konfigurieren.

Das erfindungsgemäße Konzept ist bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung besonders mächtig, wenn verschiedene Audiocodieralgorithmen betrachtet werden. Hier wäre zur Erreichung eines synchronen Betriebs, also eines Betriebs, bei dem die Multikanalrekonstruktionseinrichtung synchron zum Audiodecodierer arbeitet, eine große Menge an expliziter Signalisierungsinformation zu übertragen, nämlich für jeden verschiedenen Codieralgorithmus die entsprechenden Vorschublängen, etc., damit der eigentlich selbstständige Multikanalrekonstruktionsalgorithmus synchron zum Audiodecodieralgorithmus läuft.

Erfindungsgemäß wird durch den Parameterkonfigurationshinweis, für den lediglich ein einziges Bit ausreicht, einem Decodierer signalisiert, dass er zum Zweck seiner Konfiguration schauen soll, welchem Audiocodierer er nachgeschal tet ist. Hierauf wird der Decodierer Informationen darüber erhalten, welcher Audiocodierer einer Anzahl von unterschiedlichen Audiocodierern gerade vorgeschaltet ist. Dann, wenn er diese Informationen erhalten hat, wird er mit dieser Audiocodieralgorithmusidentifikation vorzugsweise in eine in dem Multikanal-Decodierer hinterlegte Konfigurationstabelle gehen, um dort die für jeden der in Frage kommenden Audiocodieralgorithmen vordefinierten Konfigurationsinformationen wiederzugewinnen, um wenigstens eine Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung zu bewirken. Damit wird eine erhebliche Datenrateneinsparung im Vergleich zum Fall erreicht, bei dem im Datenstrom die Konfiguration explizit signalisiert wird, bei dem also keinerlei Rücksichtnahmen zwischen Multikanalrekonstruktionseinrichtung und Audiodecodierer stattfinden, und bei dem auch kein erfindungsgemäßer „Diebstahl" von Audiodecodiererdaten durch die Multikanalrekonstruktionseinrichtung auftritt.

Andererseits liefert das erfindungsgemäße Konzept nach wie vor die der expliziten Signalisierung von Konfigurationsinformationen inhärente hohe Flexibilität, da durch den Parameterkonfigurationshinweis, für den lediglich ein einziges Bit im Datenstrom genügt, die Möglichkeit bereitgestellt wird, bei Bedarf tatsächlich alle Konfigurationsinformationen im Datenstrom zu übertragen oder – als Mischform – wenigstens einen Teil der Parameterkonfigurationsinformationen im Datenstrom zu übertragen und einen anderen Teil von nötigen Informationen aus einem Satz von fest vereinbarten Informationen zu nehmen.

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung umfassen die vom Encodierer zum Decodierer übertragenen Daten ferner einen Fortsetzungshinweis, der einem Decodierer signalisiert, ob er überhaupt Konfigurationseinstellungen im Vergleich zu bereits existierenden oder vorher signalisierten Konfigurationseinstellungen ändern soll oder so wie gehabt fortfahren soll, oder ob als Reaktion auf eine bestimmte Einstellung des Fortsetzungshinweises damit begonnen wird, den Parameterkonfigurationshinweis einzulesen, um festzustellen, ob eine Anpassung („Alignment") der Multikanalrekonstruktionseinrichtung an den Audiodecodierer stattfinden soll, oder ob wenigstens teilweise explizite Informationen zur Konfiguration in den Übertragungsdaten enthalten sind.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Parameterdatensatzes, die auf Encodierer-Seite einsetzbar ist;

2 ein Blockschaltbild einer Vorrichtung zum Erzeugen eines Multikanalaudiosignals, die auf Decodierer-Seite eingesetzt wird;

3 ein Prinzipflussdiagramm der Funktionsweise der Konfigurationseinrichtung von 2 bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;

4a eine schematische Darstellung der Datenströme für einen synchronen Betrieb zwischen Audiodecodierer und Multikanalrekonstruktionseinrichtung;

4b eine schematische Darstellung der Datenströme für einen asynchronen Betriebe zwischen Audiodecodierer und Multikanalrekonstruktionseinrichtung;

4c eine bevorzugte Ausführungsform der Vorrichtung zum Erzeugen eines Multikanalaudiosignals in Syntaxform;

5 eine allgemeine Darstellung eines Multikanal-Codierers;

6 ein schematisches Blockdiagramm einer BCC-Codierer/BCC-Decodierer-Strecke;

7 ein Blockschaltbild des BCC-Syntheseblocks von 6; und

8A bis 8C eine Darstellung von typischen Szenarien zur Berechnung der Parametersätze ICLD, ICTD und ICC.

1 zeigt ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Parameterdatensatzes, wobei der Parameterdatensatz an einem Ausgang 10 der in 1 gezeigten Vorrichtung ausgebbar ist. Der Parameterdatensatz enthält Parameterdaten, die zusammen mit Übertragungskanaldaten, die in 1 nicht dargestellt sind, auf die jedoch noch später eingegangen wird, N Ursprungskanäle darstellen, wobei die Übertragungskanaldaten typischerweise M Übertragungskanäle umfassen werden, wobei die Anzahl M der Übertragungskanäle kleiner als die Anzahl N der Ursprungskanäle ist, und größer oder gleich 1 ist.
Die in 1 gezeigte Vorrichtung, die auf Encoder-Seite untergebracht sein wird, umfasst eine Multikanal-Parametereinrichtung 11, die ausgebildet ist, um z. B. eine BCC-Analyse oder eine Intensity-Stereo-Analyse oder etwas ähnliches durchzuführen. In diesem Fall wird die Multikanal-Parametereinrichtung 11 an einem Eingang 12 N Ursprungskanäle empfangen. Alternativ kann die Multikanal-Parametereinrichtung 11 jedoch auch als Transcodierereinrichtung ausgebildet sein, um unter Verwendung von existierenden Roh-Parameterdaten, die an einem Roh-Parametereingang 13 eingespeist werden, die Parameterdaten am Ausgang der Einrichtung 11 zu erzeugen. Falls die Parameterdaten einfache BCC-Daten sind, wie sie durch irgendeine BCC-Analyseeinrichtung geliefert werden, so wird die Verarbeitung der Multikanal-Parametereinrichtung 11 einfach in einer Kopierfunktion der Daten vom Eingang 13 in einen Ausgang der Einrichtung 11 bestehen. Die Multikanal-Parametereinrichtung 11 kann jedoch auch ausgebildet sein, um die Syntax des Roh-Parameterdatenstroms zu ändern, um z. B. Signalisierungsdaten hinzuzufügen, oder um aus den existierenden Roh-Parameterdaten Parametersätze, die zumindest teilweise unabhängig voneinander decodiert oder übergangen werden können, zu schreiben.
Die in 1 gezeigte Vorrichtung umfasst ferner eine Signalisierungseinrichtung 14 zum Ermitteln und Zuordnen eines Parameterkonfigurationshinweises PKH zu den Parameterdaten am Ausgang der Einrichtung 11. Insbesondere ist die Signalisierungseinrichtung ausgebildet, um den Parameterkonfigurationshinweis derart zu ermitteln, dass er eine erste Bedeutung hat, wenn für eine Multikanalrekonstruktion in dem Parameterdatensatz enthaltene Konfigurationsinformationen zu verwenden sind. Alternativ wird die Signalisierungseinrichtung 14 den Parameterkonfigurationshinweis derart ermitteln, dass er eine zweite Bedeutung hat, wenn für eine Multikanalrekonstruktion Konfigurationsdaten zu verwenden sind, die auf einen Codieralgorithmus zurückgehen, der zum Codieren der Übertragungskanaldaten einzusetzen ist bzw. eingesetzt worden ist.
Schließlich umfasst die erfindungsgemäße Vorrichtung von 1 eine Konfigurationsdatenschreibeinrichtung 15, die ausgebildet ist, um Konfigurationsinformationen den Parameterdaten und dem Parameterkonfigurationshinweis zuzuordnen, um schließlich den Parameterdatensatz am Ausgang 10 zu erhalten. Der Parameterdatensatz 10 umfasst somit die Parameterdaten von der Multikanal-Parametereinrichtung 11, den Parameterkonfigurationshinweis PKH von der Signalisierungseinrichtung 14 und ggf. Konfigurationsdaten von der Konfigurationsdatenschreibeinrichtung 15. Im Parameterdatensatz sind diese Elemente des Datensatzes gemäß einer bestimmten Syntax angeordnet und typischerweise zeitlich gemultiplext, wie es durch ein allgemein als Kombinationseinrichtung 16 bezeichnetes Element in 1 symbolisch dargestellt ist.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die Signalisierungseinrichtung 14 über eine Steuerleitung 17 mit der Konfigurationsdatenschreibeinrichtung 15 gekoppelt, um die Konfigurationsdatenschreibeeinrichtung 15 nur dann zu aktivieren, wenn der Parameterkonfigurationshinweis die erste Bedeutung hat, wenn also bei einer Multikanalrekonstruktion nicht auf beim Decodierer vorliegende Konfigurationsinformationen in irgendeiner Weise zugegriffen wird, sondern wenn explizit signalisiert wird, wenn also in dem Parameterdatensatz weitere Konfigurationsinformationen vorhanden sind. Im anderen Fall, in dem der Parameterkonfigurationshinweis die zweite Bedeutung hat, wird die Konfigurationsdatenschreibeinrichtung 15 nicht aktiviert, um Daten in dem Parameterdatensatz am Ausgang 10 einzubringen, da solche Daten von einem Decodierer nicht gelesen werden würden bzw. vom Decodierer nicht gebraucht werden würden, wie es später noch dargestellt wird. Im Falle einer gemischten Lösung wird im Datenstrom nicht alles signalisiert, sondern nur ein Teil der Konfiguration, während der Rest im Decodierer aus z. B. der Konfigurationstabelle genommen wird.
Die Signalisierungseinrichtung 14 umfasst einen Steuereingang 18, über den der Signalisierungseinrichtung 14 mitgeteilt wird, ob der Parameterkonfigurationshinweis die erste oder die zweite Bedeutung haben soll. Wie es noch Bezug nehmend auf die 4a und 4b dargestellt wird, wird es bevorzugt, im sogenannten „synchronen" Betrieb den Parameterkonfigurationshinweis so zu wählen, dass er die zweite Bedeutung hat, um in einem solchen Modus auf Decodierer-Seite Informationen über den Codieralgorithmus zu erhalten und davon abhängig Konfigurationseinstellungen in der Multikanalrekonstruktionseinrichtung auf Decodierer-Seite vorzunehmen. Im asynchronen Betrieb hingegen wird der Steuereingang 18 die Signalisierungseinrichtung derart ansteuern, dass sie die erste Bedeutung für den Parameterkonfigurationshinweis ermittelt, was von einem Decodierer derart interpretiert wird, dass in den Daten selbst Konfigurationsinformationen stehen und nicht auf einen den Übertragungskanaldaten zugrunde liegenden Audiocodieralgorithmus zurückgegriffen wird.
Es sei darauf hingewiesen, dass der Parameterdatensatz bzw. die Parameterdatenausgabe nicht in einer starren Form zueinander sein müssen. So müssen der Konfigurationshinweis, die Konfigurationsdaten und die Parameterdaten nicht unbedingt gemeinsam in einem Stream oder Paket übertragen werden, sondern können auch getrennt voneinander zum Decodierer geliefert werden.
Nachfolgend wird Bezug nehmend auf 4a der sogenannte „synchrone" Betrieb dargestellt. Zur Veranschaulichung sind in 4a die Parameterdaten als Folge von Frames 40 dargestellt, wobei der Folge von Frames 40 ein Header 41 vorausgeht, in dem der Parameterkonfigurationshinweis steht, der von der Signalisierungseinrichtung 14 erzeugt wird, und in dem ferner ggf. Konfigurationsinformationen stehen, die von der Konfigurationsdatenschreibeinrichtung 15 erzeugt werden. Die Parameterdaten am Ausgang der Einrichtung 11 sind in den Frames 1, 2, 3, 4 untergebracht, weshalb dieselben in 4a auch als Nutzdaten bezeichnet werden.
Der Fortsetzungshinweis FSH, der sowohl in 1 am Ausgang der Signalisierungseinrichtung 14 erwähnt ist, und der ferner auch für den Header 41 in 4a erwähnt wird, bewirkt, dass dann, wenn er eine bestimmte Bedeutung hat, ein Decodierer eine bereits vorher ihm übermittelte Konfigurationseinstellung beibehält, also fortsetzt, während dann, wenn der Fortsetzungshinweis FSH eine andere Bedeutung hat, auf der Basis des Parameterkonfigurationshinweises entschieden wird, ob aufgrund von Konfigurationsinformationen im Datenstrom oder aufgrund von durch Hinweis auf den Audiocodieralgorithmus auf Decodierer-Seite wiedergewonnen Konfigurationsdaten Konfigurationseinstellungen in der Multikanalrekonstruktionseinrichtung bewirkt werden.
In 4a ist ferner in zeitlicher Zuordnung eine Folge 42 von Blöcken von codierten Übertragungsdaten dargestellt, die ebenfalls vier Frames, Frame 1, Frame 2, Frame 3, Frame 4 haben. Die zeitliche Zuordnung der Parameterdaten zu den codierten Übertragungskanaldaten ist durch senkrechte Pfeile in 4a veranschaulicht. So wird sich ein Block von codierten Übertragungskanaldaten immer auf einen Block von Eingangsdaten beziehen bzw. wird, wenn überlappende Fenster eingesetzt werden, wenigstens der Vorschub, wie viele Daten in einem Block im Vergleich zum vorherigen Block neu verarbeitet werden, festgelegt sein und im synchronen Betrieb zu der Blocklänge bzw. dem Vorschub, bei dem die Parameterda ten gewonnen werden, synchron sein. Damit wird sichergestellt, dass nicht der Zusammenhang zwischen Rekonstruktionsparametern einerseits und Übertragungskanaldaten andererseits verloren geht.
Dies sei anhand eines kurzen Beispiels erläutert. Wenn von einem 5-Kanal-Eingangssignal ausgegangen wird, so wird dieses 5-Kanal-Eingangssignal fünf verschiedene Audiokanäle haben, die zeitliche Abtastwerte jeweils von einem Zeitpunkt x bis zu einem Zeitpunkt y umfassen. In der Downmix-Stufe 114 von 6 wird dann wenigstens ein Übertragungskanal erzeugt, der synchron zu den Multikanal-Eingangsdaten sein wird. Ein Abschnitt der Übertragungskanaldaten vom Zeitpunkt x zum Zeitpunkt y wird somit einem Abschnitt vom Zeitpunkt x zum Zeitpunkt y der jeweiligen Multikanal-Eingangsdaten entsprechen. Ferner erzeugt die BCC-Analyseeinrichtung 116 von 6 beispielsweise Parameterdaten, und wieder genau für den zeitlichen Ausschnitt der Übertragungskanaldaten vom Zeitpunkt x zum Zeitpunkt y, so dass auf Decodierer-Seite wieder aus den Übertragungskanaldaten vom Zeitpunkt x zum Zeitpunkt y und den Parameterdaten vom Zeitpunkt x zum Zeitpunkt y jeweilige Ausgangskanaldaten vom Zeitpunkt x zum Zeitpunkt y erzeugt werden können.
Ein synchroner Betrieb ist dann automatisch erreicht, wenn das Framing, mit dem die Parameterdaten erzeugt und geschrieben werden, gleich dem Framing ist, mit dem der Audiocodierer zum Komprimieren des einen oder der mehreren Übertragungskanäle arbeitet. Wenn sich also die Frames sowohl der Parameterdaten als auch der codierten Übertragungskanaldaten (40 und 42 in 4a) immer auf den selben zeitlichen Abschnitt beziehen, so kann ein Multikanal- Rekonstruktionsgerät ohne weiteres immer Daten, die einem Audio-Frame entsprechen, verarbeiten und gleichzeitig einen Parameter-Frame verarbeiten.
Im synchronen Betrieb ist somit die Frame-Länge des Audiocodierers, die für die Übertragung der Downmix-Daten verwendet wird, gleich der Frame-Länge, die von dem parametrischen Multikanalschema verwendet wird. Genauso existiert natürlich auch die Möglichkeit, dass ein ganzzahliges Verhältnis zwischen den Frame-Längen und der Parameterdaten und der codierten Übertragungskanaldaten existiert. In diesem Fall kann sogar die Seiteninformation zum parametrischen Multikanalcodieren in den codierten Bitstrom des Audio-Downmix-Signals gemultiplext werden, so dass ein einziger Bitstrom erzeugt werden kann. Im Fall des „Nachrüstens" von bereits existierenden Stereodaten würden dennoch zwei unterschiedliche Datenströme vorhanden sein. Es würde jedoch eine 1:1 bzw. m:1 oder m:n Beziehung zwischen den beiden Folgen von Frames existieren. Niemals würden sich die Framing-Raster gegeneinander verschieben. Somit existiert eine unzweideutige Zuordnung zwischen den Audiodaten-Frames und den entsprechenden parametrischen Seiteninformationsdaten-Frames. Dieser Modus kann für verschiedene Anwendungen günstig sein.
Erfindungsgemäß würde in einem solchen Fall der Parameterkonfigurationshinweis die erste Bedeutung haben. Damit würden keine oder nur ein Teil der Konfigurationsinformationen im Header 41 stehen, da sich die Multikanalrekonstruktionseinrichtung mit Informationen über den zugrunde liegenden Audiocodierer versorgt und davon abhängig ihre Konfigurationseinstellung wählt, nämlich beispielsweise die Anzahl von zeitlichen Abtastwerten zum Vorschub oder die Blocklänge etc.
Dagegen zeigt 4b einen asynchronen Betrieb. Ein asynchroner Betrieb existiert dann, wenn die Übertragungskanaldaten 42' z. B. keine Framestruktur haben sondern lediglich als Strom von PCM-Abtastwerten vorkommen. Alternativ würde eine solche asynchrone Situation auch entstehen, wenn der Audiocodierer eine unregelmäßige Frame-Struktur hat oder einfach eine Frame-Struktur mit einer Frame-Länge bzw. einem Frame-Raster, das von dem Frame-Raster der Parameterdaten 40 unterschiedlich ist. Hierbei werden also das parametrische Multikanalcodierungsschema und die Audiocodier- /Decodiereinrichtung als getrennte und separate Verarbeitungsstufen betrachtet, die nicht voneinander abhängen. Insbesondere ist dies günstig im Fall von so genannten Tandem-Codierszenarios, bei denen mehrere aufeinanderfolgende Stufen des Codierens/Decodierens existieren. Wären die Parameterdaten fest an die komprimierten Audiodaten gekoppelt, dann müsste bei jeder Codierung/Decodierung gleichzeitig eine Multikanalsynthese und eine anschließende Multikanalanalyse stattfinden. Da diese Operationen verlustbehaftet sind, würden sich die Verluste nach und nach akkumulieren, was zu einer immer stärkeren Verschlechterung des Multikanaleindrucks führen würde.
In einer solchen Tandem-Kette ermöglicht die Einstellung des Parameterkonfigurationshinweises auf die zweite Bedeutung und das Einschreiben von Konfigurationsinformationen in den Datenstrom eine Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung im Decodierer unabhängig von dem zugrunde liegenden Audiocodierer. Downmix-Daten können daher beliebig decodiert/codiert werden, ohne immer gleichzeitig eine Multikanalsynthese oder Multikanalanalyse durchführen zu müssen. Die Einbringung von Konfigurationsinformationen in den Datenstrom und vorzugsweise in den Parameterdatenstrom gemäß der Parameterdatensyntax ermöglicht es, dass gewissermaßen eine absolute Zuordnung der Parameterdaten zu zeitlichen Abtastwerten der decodierten Übertragungskanaldaten festgelegt wird, also eine Zuordnung, die in sich autark ist und nicht – wie im synchronen Betrieb – relativ zu einer Codierer-Frame-Verarbeitungsvorschrift gegeben ist.
In dem asynchronen Betrieb wird somit die Verschlechterung des Multikanalklangbildes verhindert, da nicht ständig eine Multikanalanalyse/-synthese durchgeführt wird. Nicht notwendigerweise muss hier also die Rahmengröße für die parametrische Multikanalcodierung/Decodierung mit der Rahmengröße des Audiocodierers im Zusammenhang stehen.
Die Vorrichtung aus 1 kann sowohl als Encodierer als auch als sogenannter „Hin-Transcodierer" implementiert sein. Im ersten Fall berechnet die Multikanalparametereinrichtung die Parameterdaten selbst. Im zweiten Fall erhält sie die Parameterdaten bereits in einer bestimmten Form und liefert die erfindungsgemäße Parameterdatenausgabe mit dem Parameterkonfigurationshinweis und zugehörigen Konfigurationsdaten. Der Hin-Transcodierer erzeugt also aus irgendeiner Datenausgabe die erfindungsgemäße Parameterdatenausgabe.
Die Umkehrung dieser Maßnahme bewirkt ein sogenannter „Rück-Transcodiererq", der aus der erfindungsgemäßen Parameterdatenausgabe irgendeine Ausgabe erzeugt, in der der Parameterkonfigurationshinweis nicht mehr enthalten ist, in der aber auch die Konfigurationsdaten vollständig enthalten sind, so dass kein Rückgriff auf einen Audiocodieralgorithmus bei der Multikanalrekonstruktion zu Zwecken der Konfiguration mehr erforderlich ist.
Der Rück-Transcodierer ist erfindungsgemäß als Vorrichtung zum Erzeugen einer Parameterdatenausgabe ausgebildet, die zusammen mit Übertragungskanaldaten, die M Übertragungskanäle umfassen, N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, unter Verwendung von Eingangsdaten, wobei die Eingangsdaten einen Parameterkonfigurationshinweis (41) aufweisen, der eine erste Bedeutung dahingehend hat, dass in den Eingangsdaten Konfigurationsinformationen für eine Multikanalrekonstruktionseinrichtung enthalten sind, oder eine zweite Bedeutung dahingehend hat, dass die Multikanalrekonstruktionseinrichtung Konfigurationsinformationen abhängig von einem Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, verwenden soll. Er enthält eine Schreibeinrichtung zum Schreiben von Konfigurationsdaten, wobei die Schreibeinrichtung ausgebildet ist, um zunächst die Eingangsdaten zu lesen, um den Parameterkonfigurationshinweis zu interpretieren (30), und um dann, wenn der Parameterkonfigurationshinweis die zweite Bedeutung hat, Informationen über einen Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, wiederzugewinnen und als die Konfigurationsdaten auszugeben.
Nachfolgend wird Bezug nehmend auf 2 ein Blockschaltbild einer Vorrichtung zum Erzeugen eines Multikanalaudiosignals gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung dargestellt. Zur Erzeugung des Multikanalaudiosignals werden Eingangsdaten verwendet, die Übertragungskanaldaten umfassen, die M Übertragungskanäle darstellen, und die ferner Parameterdaten 21 umfassen, um K Ausgangskanäle zu erhalten. Die M Übertragungskanäle und die Parameterdaten stellen zusammen N Ursprungskanäle dar, wobei M kleiner als N und größer oder gleich 1 ist, und wobei K größer als M ist. Ferner umfassen die Eingangsdaten einen Parameterkonfigurationshinweis PKH, wie es bereits ausgeführt worden ist, während die Übertragungskanaldaten 20 eine decodierte Version von gemäß einem Codieralgorithmus codierten Übertragungskanaldaten 22 sind. Bei dem in 2 gezeigten Ausführungsbeispiel wird der Decodieralgorithmus durch einen Audio-Decodierer 23 verwirklicht, der einen Codieralgorithmus hat, der beispielsweise nach dem MP3-Konzept oder nach MPEG-2 (AAC) oder nach irgendeinem anderen Codiererkonzept arbeitet.
Die in 2 gezeigte auf Decodierer-Seite zur verwendende Vorrichtung umfasst eine Multikanalrekonstruktionseinrichtung 24, die ausgebildet ist, um aus den Übertragungskanaldaten 20 und den Parameterdaten 21 die K Ausgangskanäle an einem Ausgang 25 zu erzeugen.
Ferner umfasst die in 2 gezeigte erfindungsgemäße Vorrichtung eine Konfigurationseinrichtung 26, die ausgebildet ist, um die Multikanalrekonstruktionseinrichtung 24 durch Signalisierung einer Konfigurationseinstellung über eine Signalisierungsleitung 27 zu konfigurieren. Die Konfigurationseinrichtung 26 erhält die Eingangsdaten und vorzugsweise die Parameterdaten 21, um den Parameterkonfigurationshinweis, den Fortsetzungshinweis FSH und ggf. vorhandene Konfigurationsdaten zu lesen und entsprechend zu verarbeiten. Ferner umfasst die Konfigurationseinrichtung einen Codieralgorithmussignalisierungseingang 28, um Informationen über den den decodierten Übertragungskanaldaten zugrunde liegenden Audiocodieralgorithmus, also den Codieralgorithmus, den der Audiocodierer 23 ausführt, zu erhalten. Die Informationen können auf verschiedene Arten und Weisen er halten werden, beispielsweise aus einer Betrachtung der decodierten Übertragungskanaldaten, falls denselben anzusehen ist, mit welchem Codieralgorithmus codiert/decodiert worden ist. Alternativ kann der Audiodecodierer 23 von sich aus seine Identität der Konfigurationseinrichtung 26 übermitteln. Wieder alternativ kann die Konfigurationseinrichtung 26 auch die codierten Übertragungskanaldaten 22 dahin gehend syntaktisch analysieren (parsen), um aus den codierten Übertragungskanaldaten einen Hinweis zu ermitteln, gemäß welchem Codieralgorithmus eine Codierung stattgefunden hat. Eine solche „Codieralgorithmusunterschrift" wird typischerweise in jedem Ausgangsdatenstrom eines Codierers enthalten sein.
Nachfolgend wird Bezug nehmend auf 3 eine bevorzugte Implementierung der Konfigurationseinrichtung anhand eines Blockdiagramms dargestellt. Die Konfigurationseinrichtung 26 ist ausgebildet, um aus den Eingangsdaten den Parameterkonfigurationshinweis PKH zu lesen und zu interpretieren, wie es in einem Block 30 dargestellt ist. Hat der Parameterkonfigurationshinweis eine erste Bedeutung, so wird die Konfigurationseinrichtung den Parameterdatenstrom weiter einlesen, um in dem Parameterdatenstrom Konfigurationsinformationen (oder wenigstens einen Teil der Konfigurationsinformationen) zu extrahieren, wie es in einem Block 31 dargestellt ist. Wird dagegen im Schritt 30 festgestellt, dass der Parameterkonfigurationshinweis PKH die zweite Bedeutung hat, so wird die Konfigurationseinrichtung in einem Schritt 32 Informationen über einen Codieralgorithmus erhalten, der den decodierten Übertragungskanaldaten zugrunde liegt.
Sofern mehrere prinzipiell mögliche Codieralgorithmen existieren, für die die erfindungsgemäße Vorrichtung zum Erzeugen des Multikanalsignals ausgebildet ist, folgt dem Schritt 32 ein nachfolgender Schritt 33, in dem die Multikanalrekonstruktionseinrichtung aufgrund von auf Decodierer-Seite vorhandenen Informationen eine Konfigurationseinstellung ermittelt (33). Dies kann beispielsweise in Form einer Nachschlagtabelle (LUT; LUT = Look Up Table) geschehen. Wird am Ende des Schritts 32 ein Audiocodierer-Identifikationshinweis erhalten, so wird in einem Schritt 33 unter Verwendung des Audiocodierer-Identifikationshinweises in eine Nachschlagtabelle gegangen, wobei der Audiocodierer-Identifikationshinweis als Index verwendet wird. Im Index zugeordnet finden sich verschiedene Konfigurationseinstellungen, wie beispielsweise Blocklänge, Abtastrate, Vorschub, etc., die einem solchen Audiocodierer zugeordnet sind.
Eine Konfigurationseinstellung wird dann in einem Schritt 34 auf die Multikanalrekonstruktionseinrichtung angewendet. Wird dagegen die erste Bedeutung des Parameterkonfigurationshinweises im Schritt 30 gewählt, so wird dieselbe Konfigurationseinsstellung aufgrund von in dem Parameterdatenstrom enthaltenen Konfigurationsinformationen bewirkt, wie es durch den Verbindungspfeil zwischen dem Block 31 und dem Block 34 in 3 dargestellt ist.
Das erfindungsgemäße Schema ist dahingehend flexibel, dass es sowohl explizite als auch implizite Konfigurationsinformationssignalisierungsverfahren unterstützt. Hierzu dient der Parameterkonfigurationshinweis PKH, der vorzugsweise als Flag eingeführt wird und im günstigsten Fall lediglich ein einziges Bit benötigt, um die Signalisierung der Konfi gurationsinformationen an sich anzuzeigen. Der parametrische Multikanal-Decodierer kann anschließend dieses Flag bewerten. Wenn die Verfügbarkeit von explizit erhältlichen Konfigurationsinformationen mit diesem Flag signalisiert wird, so werden diese Konfigurationsinformationen verwendet. Wenn andererseits eine implizite Signalisierung durch das Flag angezeigt wird, so wird der Decodierer die Informationen über das verwendete Audio- oder Sprachcodierverfahren verwenden und Konfigurationsinformationen basierend auf dem signalisierten Codierverfahren anwenden. Zu diesem Zweck hat der parametrische Multikanal-Decodierer bzw. die Multikanalrekonstruktionseinrichtung vorzugsweise eine Nachschlagtabelle, die die Standardkonfigurationsinformationen für eine bestimme Anzahl von Audio- oder Sprachcodierern enthält. Es existieren jedoch auch andere Möglichkeiten als eine Nachschlagtabelle, die z. B. festverdrahtete Lösungen etc. umfassen können. Allgemein ist der Decodierer in der Lage, mit bei ihm selbst vorliegenden vorbestimmten Informationen abhängig von der tatsächlich vorliegenden Codiereridentifikationsinformation die Konfigurationsinformationen zu liefern.
Dieses Konzept ist dahingehend besonders vorteilhaft, dass eine komplette Konfiguration des Parameterschemas mit minimalen Zusatzaufwand erreicht werden kann, wobei hier im Extremfall nur ein einziges Bit ausreichend sein wird, was im Gegensatz dazu steht, dass man sämtliche Konfigurationsinformationen mit einem wesentlich höheren Aufwand an Bits explizit in den Datenstrom selbst schreiben müsste.
Erfindungsgemäß kann die Signalisierung hin- und hergeschaltet werden. Dies ermöglicht eine einfache Multikanaldatenhandhabung, selbst wenn sich die Repräsentation der Übertragungskanaldaten ändert, wenn beispielsweise die Übertragungskanaldaten decodiert und später wieder codiert werden, wenn also eine Tandem-Codierungssituation vorliegt.
Das erfindungsgemäße Konzept ermöglicht somit einerseits die Einsparung von Signalisierungsbits im Fall einer Synchronoperation und andererseits ein Umschalten zum asynchronen Betrieb, wenn dies erforderlich ist, also eine effiziente bitsparende Implementierung und andererseits eine flexible Handhabung, die insbesondere in Verbindung mit der „Ergänzung" von vorliegenden Stereodaten auf eine Multikanaldarstellung von hohem Interesse sein werden.
Nachfolgend wird Bezug nehmend auf 4c eine beispielhafte Implementierung der erfindungsgemäßen Vorrichtung zum Erzeugen eines Multikanalaudiosignals am Beispiel eines Syntax-Pseudocodes gegeben. Zunächst wird der Wert der Variable „useSameBccConfig" eingelesen. Die Variable dient hier als Fortsetzungshinweis. Also nur dann, wenn diese Variable, also der Fortsetzungshinweis einen Wert gleich 1 beispielsweise hat, wird überhaupt weiter gemacht, um den Parameterkonfigurationshinweis zu interpretieren. Ist der Fortsetzungshinweis dagegen ungleich 1, also hat er die andere Bedeutung, so wird eine vorher übertragene Konfiguration verwendet. Falls in der Multikanalrekonstruktionseinrichtung noch keine Konfiguration vorliegt, so muss dieselbe so lange warten, bis sie die überhaupt erste Konfigurationsinformation bzw. Konfigurationseinstellung erhält.
Nachfolgend wird der Parameterkonfigurationshinweis untersucht. Als Parameterkonfigurationshinweis PKH dient die Variable „codecToBccConfigAlignment". Ist diese Variable gleich 1, hat sie also die zweite Bedeutung, so wird der Decodierer keine weiteren Konfigurationsinformationen verwenden, sondern wird, wie es durch die mit „Case" angefangenen Zeilen in 4c ersichtlich ist, die Konfigurationsinformationen aufgrund der Codiereridentifikation, wie beispielsweise MP3, CoderX oder CoderY, ermitteln. Es wird darauf hingewiesen, dass die in 4c gezeigte Syntax beispielhaft nur MP3, CoderX und CoderY unterstützt. Beliebige weitere Codiernamen/Identifikationen können jedoch hinzugefügt werden.
Wenn als Codiererinformationen z. B. MP3 festgestellt worden sind, wird die Variable bccConfigID auf z. B. MP3 V1 eingestellt, was die Konfiguration für einen zugrunde liegenden MP3-Codierer mit der Syntaxversion V1 ist. Anschließend wird der Decodierer mit einem bestimmten Parametersatz basierend auf dieser BCC-Konfigurations-Identifikation konfiguriert. So wird als Konfigurationseinstellung beispielsweise eine Blocklänge von 576 Samples aktiviert. Es wird also ein Framing mit dieser Blocklänge signalisiert. Alternative/zusätzliche Konfigurationseinstellungen können die Abtastrate, etc. sein. Hat der Parameterkonfigurationshinweis (codecToBccConfigAlignment) dagegen die erste Bedeutung, also z. B. den Wert 0, wird der Decodierer explizit Konfigurationsinformationen aus dem Datenstrom empfangen, also eine eigene bccConfigID aus dem Datenstrom, also aus den Eingangsdaten, empfangen. Die nachfolgende Prozedur ist dann dieselbe, wie sie gerade beschrieben worden ist. In diesem Fall wird jedoch eine Identifikation des Decodierers zum Decodieren der codierten Übertragungskanaldaten nicht zu Konfigurationszwecken der Multikanalrekonstruktionseinrichtung verwendet.
Somit kann die bccConfigID im Fall eines MP3-Audiodecodierers zum Konfigurieren einer Multikanalrekonstruktionseinrichtung zu Zwecken des Decodierens der Übertragungskanaldaten verwendet werden. Andererseits kann auch eine beliebige andere Konfigurationsinformation bccConfigID im Datenstrom vorhanden sein und ausgewertet werden, unabhängig davon, ob der zugrundeliegende Audiocodierer nun ein MP3-Codierer ist oder nicht. Dasselbe gilt für andere vordefinierte Konfigurationseinstellungen, wie beispielsweise für CoderX und CoderY sowie für eine weitere freie Konfiguration, bei der die Konfigurationsinformationen (bccConfigID) auf individuell (Individual) eingestellt sind. Bei bevorzugten Ausführungsbeispielen existieren ferner Konfigurationsinformationen im Datenstrom, die wiederum dem Decodierer signalisieren, dass er eine Mischung aus bereits vordefinierten im Decodierer vorhandenen Konfigurationsinformationen und explizit übertragenen Konfigurationsinformationen einsetzen soll.
Abweichend von den vorliegend beschrieben Ausführungsbeispielen kann die vorliegende Erfindung auch für andere Multikanalsignale, die keine Audiosignale sind, angewendet werden, wie z. B. für parametrisch codierte Videosignale etc.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen bzw. Decodieren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Vorrichtung zum Erzeugen eines Multikanalsignals unter Verwendung von Eingangsdaten, die Übertragungskanaldaten, die M Übertragungskanäle darstellen, und Parameterdaten umfassen, um K Ausgangskanäle zu erhalten, wobei die M Übertragungskanäle und die Parameterdaten zusammen N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, und wobei K größer als M ist, wobei die Eingangsdaten einen Parameterkonfigurationshinweis (41) aufweisen, mit folgenden Merkmalen: einer Multikanalrekonstruktionseinrichtung (24), die ausgebildet ist, um aus den Übertragungskanaldaten und den Parameterdaten die K Ausgangskanäle zu erzeugen; und einer Konfigurationseinrichtung (26) zum Konfigurieren der Multikanalrekonstruktionseinrichtung, wobei die Konfigurationseinrichtung ausgebildet ist, um die Eingangsdaten zu lesen, um den Parameterkonfigurationshinweis zu interpretieren (30), um dann, wenn der Parameterkonfigurationshinweis eine erste Bedeutung hat, in den Eingangsdaten enthaltende Konfigurationsinformationen zu extrahieren (31), und eine Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung zu bewirken (34), und um dann, wenn der Parameterkonfigurationshinweis eine zweite Bedeutung hat, die sich von der ersten Bedeutung unterscheidet, unter Verwendung von Informationen über einen Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, die Multikanalrekonstruktionseinrichtung so zu konfigurieren (34), dass die Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung zu einer Konfigurationseinstellung des Codieralgorithmus (23) identisch ist oder von einer Konfigurationseinstellung des Codieralgorithmus (23) abhängt.
Vorrichtung nach Anspruch 1, bei der die Übertragungskanaldaten einen Übertragungskanaldatenstrom mit einer Übertragungskanaldatensyntax aufweisen, bei der die Parameterdaten einen Parameterdatenstrom mit einer Parameterdatensyntax aufweisen, wobei die Übertragungskanaldatensyntax von der Parameterdatensyntax unterschiedlich ist, und bei der der Parameterkonfigurationshinweis in den Parameterdaten gemäß dieser Syntax eingebracht ist, wobei die Konfigurationseinrichtung (26) ausgebildet ist, um die Parameterdaten gemäß der Parameterdatensyntax zu lesen und den Parameterkonfigurationshinweis zu extrahieren (30).
Vorrichtung nach Anspruch 1 oder Anspruch 2, bei der die Multikanalrekonstruktionseinrichtung (24) ausgebildet ist, um eine Verarbeitung in Blöcken durchzuführen, bei der die Übertragungskanaldaten eine Folge von Abtastwerten sind, und bei der die Konfigurationseinstellung eine Blocklänge oder eine Vorschubanzahl von Abtastwerten umfasst, die pro Verarbeitung eines Blocks neu von der Multikanalrekonstruktionseinrichtung (24) verarbeitet werden.
Vorrichtung nach Anspruch 3, bei der die Übertragungskanaldaten zeitliche Abtastwerte des wenigstens einen Übertragungskanals sind, und die Multikanalrekonstruktionseinrichtung (24) eine Filterbank aufweist, um einen Block von zeitlichen Abtastwerten der Übertragungskanaldaten in eine Frequenzbereichsdarstellung umzusetzen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Parameterdaten eine Folge von Blöcken von Parameterwerten aufweisen, wobei ein Block von Parameterwerten einem zeitlichen Abschnitt des zumindest einen Übertragungskanals zugeordnet ist, wobei die Multikanalrekonstruktionseinrichtung (24) so ausgebildet ist, dass die Konfigurationseinstellung bewirkt, dass zum Erzeugen der K Ausgangskanäle der Block von Parameterwerten und der zugeordnete zeitliche Abschnitt des wenigstens einen Übertragungskanals verwendet werden.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Codieralgorithmus (23) einer einer Mehrzahl von verschiedenen Codieralgorithmen ist, und bei der die Konfigurationseinrichtung (26) eine Nachschlagtabelleneinrichtung aufweist, die für einen Codieralgorithmus einen Index und einen dem Index zugeordneten Satz von Konfigurationsinformationen umfasst, die für die Codieralgorithmen jeweils die Konfigurationseinstellung aufweisen, wobei die Konfigurationseinrichtung (26) ausgebildet ist, um aus den Informationen über den Codieralgorithmus den Index für die Nachschlagtabelle zu ermitteln und daraus die Konfigurationsinformationen für die Multikanalrekonstruktionseinrichtung zu ermitteln (33).
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Eingangsdaten im Fall eines Parameterkon figurationshinweises, der die erste Bedeutung hat, Konfigurationsinformationen für die Multikanalrekonstruktionseinrichtung (24) aufweisen, und im Fall, dass der Parameterkonfigurationshinweis die zweite Bedeutung hat, lediglich einen Teil oder keine Konfigurationsinformationen für die Multikanalrekonstruktionseinrichtung aufweisen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Konfigurationseinrichtung (26) ausgebildet ist, um dann, wenn der Parameterkonfigurationshinweis die zweite Bedeutung hat, aus den Eingangsdaten lediglich einen Teil von erforderlichen Konfigurationsinformationen zu extrahieren, und einen restlichen Teil von Konfigurationsinformationen aus der Multikanalrekonstruktionseinrichtung bekannten voreingestellten Konfigurationsinformationen zu verwenden.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Konfigurationseinrichtung (26) ausgebildet ist, um dann, wenn der Parameterkonfigurationshinweis die zweite Bedeutung hat, die Informationen über den Codieralgorithmus über eine Verbindungsleitung zu erhalten, über die die Konfigurationseinrichtung mit einem Decodierer verbindbar ist, der aus den codierten Übertragungskanaldaten die Übertragungskanaldaten erzeugt, oder die Informationen über den Codieralgorithmus durch Lesen der Übertragungskanaldaten oder der codierten Übertragungskanaldaten zu erhalten.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Eingangsdaten ferner einen Fortsetzungshinweis (41) aufweisen, und bei der die Konfigurationseinrichtung (26) ausgebildet ist, um den Fortsetzungshinweis zu lesen und zu interpretieren (29), um in einem Fall, indem der Fortsetzungshinweis eine erste Bedeutung hat, eine fest ein gestellte oder früher signalisierte Konfigurationseinstellung der Multikanalrekonstruktionseinrichtung zu bewirken, und nur in dem Fall, indem der Fortsetzungshinweis eine zweite Bedeutung hat, die sich von der ersten Bedeutung unterscheidet, die Multikanalrekonstruktionseinrichtung auf der Basis des Parameterkonfigurationshinweises zu konfigurieren (30).
Vorrichtung nach Anspruch 10, bei der der Fortsetzungshinweis gemäß einer Parameterdatensyntax den Parameterdaten zugeordnet ist, und ein Flag in dem Parameterdatenstrom ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Parameterkonfigurationshinweis gemäß einer Parameterdatensyntax den Parameterdaten zugeordnet ist und ein Flag in dem Parameterdatenstrom ist.
Vorrichtung nach Anspruch 11 oder 12, bei der der Fortsetzungshinweis oder der Parameterkonfigurationshinweis jeweils ein einziges Bit umfasst.
Verfahren zum Erzeugen eines Multikanalsignals unter Verwendung von Eingangsdaten, die Übertragungskanaldaten, die M Übertragungskanäle darstellen, und Parameterdaten umfassen, um K Ausgangskanäle zu erhalten, wobei die M Übertragungskanäle und die Parameterdaten zusammen N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, und wobei K größer als M ist, wobei die Eingangsdaten einen Parameterkonfigurationshinweis (41) aufweisen, mit folgenden Schritten: Rekonstruieren (24) der K Ausgangskanäle aus den Übertragungskanaldaten und den Parameterdaten gemäß einem Rekonstruktionsalgorithmus; Konfigurieren (26) des Rekonstruktionsalgorithmus durch folgende Teilschritte: Lesen der Eingangsdaten, um den Parameterkonfigurationshinweis zu interpretieren (30), wenn der Parameterkonfigurationshinweis eine erste Bedeutung hat, Extrahieren (31) von in den Eingangsdaten enthaltenen Konfigurationsinformationen und Bewirken (34) einer Konfigurationseinstellung des Rekonstruktionsalgorithmus, und wenn der Parameterkonfigurationshinweis eine zweite Bedeutung hat, die sich von der ersten Bedeutung unterscheidet, Bewirken (34) der Konfigurationseinstellung des Rekonstruktionsalgorithmus unter Verwendung von Informationen über einen Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, so dass die Konfigurationseinstellung zu einer Konfigurationseinstellung des Codieralgorithmus (23) identisch ist oder von einer Konfigurationseinstellung des Codieralgorithmus (23) abhängt.
Vorrichtung zum Erzeugen einer Parameterdatenausgabe, die zusammen mit Übertragungskanaldaten, die M Übertragungskanäle umfassen, N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, mit folgenden Merkmalen: einer Multikanalparametereinrichtung (11) zum Liefern der Parameterdaten; einer Signalisierungseinrichtung (14) zum Ermitteln eines Parameterkonfigurationshinweises, wobei der Parameterkonfigurationshinweis eine erste Bedeutung hat, wenn für eine Multikanalrekonstruktionseinrichtung in der Parameterdatenausgabe enthaltene Konfigurationsinformationen zu verwenden sind, und wobei der Parameterkonfigurationshinweis eine zweite Bedeutung hat, wenn für eine Multikanalrekonstruktion Konfigurationsdaten zu verwenden sind, die auf einen Codieralgorithmus zurückgehen, der zum Codieren oder Decodieren der M Übertragungskanäle einzusetzen ist; und einer Konfigurationsdatenschreibeinrichtung (15) zum Ausgeben der Konfigurationsinformationen, um die Parameterdatenausgabe zu erhalten.
Vorrichtung nach Anspruch 15, bei der die Konfigurationsdatenschreibeinrichtung (15) ausgebildet ist, um in den Parameterdatensatz einen Fortsetzungshinweis einzubringen, wobei der Fortsetzungshinweis dann, wenn er eine erste Bedeutung hat, bewirkt, dass bei einer Multikanalrekonstruktion eine fest eingestellte früher signalisierte Konfigurationseinstellung verwendet wird, und dass dann, wenn der Fortsetzungshinweis eine zweite Bedeutung hat, die sich von der ersten Bedeutung unterscheidet, eine Konfiguration einer Multikanalrekonstruktion unter Verwendung des Parameterkonfigurationshinweises stattzufinden hat.
Vorrichtung nach Anspruch 15 oder 16, bei der die Konfigurationsdaten-Schreibeinrichtung ausgebildet ist, um keine oder nur einen Teil von nötigen Konfigurationsinformationen dem Parameterdatensatz zuzuordnen, wenn der Parameterkonfigurationshinweis die zweite Bedeutung hat (17).
Verfahren zum Erzeugen einer Parameterdatenausgabe, die zusammen mit Übertragungskanaldaten, die M Übertragungskanäle umfassen, N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, mit folgenden Schritten: Liefern (11) der Parameterdaten; Ermitteln (14) eines Parameterkonfigurationshinweises, wobei der Parameterkonfigurationshinweis eine erste Bedeutung hat, wenn für einen Multikanalrekonstruktionsalgorithmus in der Parameterdatenausgabe enthaltene Konfigurationsinformationen zu verwenden sind, und wobei der Parameterkonfigurationshinweis eine zweite Bedeutung hat, wenn für eine Multikanalrekonstruktion Konfigurationsdaten zu verwenden sind, die auf einen Codieralgorithmus zurückgehen, der zum Codieren oder Decodieren der M Übertragungskanäle einzusetzen ist; und Ausgeben (15) der Konfigurationsinformationen, um die Parameterdatenausgabe zu erhalten.
Vorrichtung zum Erzeugen einer Parameterdatenausgabe, die zusammen mit Übertragungskanaldaten, die M Übertragungskanäle umfassen, N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, unter Verwendung von Eingangsdaten, wobei die Eingangsdaten einen Parameterkonfigurationshinweis (41) aufweisen, der eine erste Bedeutung dahingehend hat, dass in den Eingangsdaten Konfigurationsinformationen für eine Multikanalrekonstruktionseinrichtung enthalten sind, oder eine zweite Bedeutung dahingehend hat, dass die Multikanalrekonstruktionseinrichtung Konfigurationsinformationen abhängig von einem Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, verwenden soll, mit folgenden Merkmalen: einer Schreibeinrichtung zum Schreiben von Konfigurationsdaten, wobei die Schreibeinrichtung ausgebildet ist, um die Eingangsdaten zu lesen, um den Parameterkonfigurationshinweis zu interpretieren (30), und um dann, wenn der Parameterkonfigurationshinweis die zweite Bedeutung hat, Informationen über einen Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, wiederzugewinnen und als die Konfigurationsdaten auszugeben.
Verfahren zum Erzeugen einer Parameterdatenausgabe, die zusammen mit Übertragungskanaldaten, die M Übertragungskanäle umfassen, N Ursprungskanäle darstellen, wobei M kleiner als N und größer oder gleich 1 ist, unter Verwendung von Eingangsdaten, wobei die Eingangsdaten einen Parameterkonfigurationshinweis (41) aufweisen, der eine erste Bedeutung dahingehend hat, dass in den Eingangsdaten Konfigurationsinformationen für eine Multikanalrekonstruktionseinrichtung enthalten sind, oder eine zweite Bedeutung dahingehend hat, dass die Multikanalrekonstruktionseinrichtung Konfigurationsinformationen abhängig von einem Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, verwenden soll, mit folgenden Schritten: Lesen der Eingangsdaten, um den Parameterkonfigurationshinweis zu interpretieren (30), und wenn der Parameterkonfigurationshinweis die zweite Bedeutung hat, Wiedergewinnen von Informationen über einen Codieralgorithmus (23), mit dem die Übertragungskanaldaten aus einer codierten Version derselben decodiert worden sind, und Ausgeben der wiedergewonnenen Konfigurationsdaten.
Computer-Programm mit einem Programmcode zum Durchführen des Verfahrens gemäß Patentanspruch 14, Patentanspruch 18 oder Patentanspruch 20, wenn das Computer-Programm auf einem Rechner abläuft.