DE19829284C2

DE19829284C2 - Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms

Info

Publication number: DE19829284C2
Application number: DE19829284A
Authority: DE
Inventors: Bodo Teichmann; Juergen Herre; Daniel Homm; Stefan Gewinner; Wolfgang Fiesel; Karlheinz Brandenburg
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 1998-05-15
Filing date: 1998-06-30
Publication date: 2000-03-16
Anticipated expiration: 2018-07-01
Also published as: DE19829284A1

Description

Die vorliegende Erfindung bezieht sich auf das Codieren bzw. Decodieren von Audiosignalen und insbesondere auf Bitraten skalierbare Codierer bzw. Decodierer, die Stereo- und Mono signale verarbeiten können, wobei zumindest bei der Stereo codierung eine zeitliche Rauschformung (TNS; TNS = Temporal Noise Shaping) implementiert ist.

Skalierbare Audiocodierer sind Codierer, die modular aufge baut sind. So besteht die Bestrebung, bereits bestehende Sprachcodierer zu verwenden, die Signale, die z. B. mit 8 kHz abgetastet sind, verarbeiten und Datenraten von bei spielsweise 4,8 bis 8 Kilobit pro Sekunde ausgeben. Diese bekannten Codierer, wie z. B. die für Fachleute bekannten Codierer G. 729, G.723, FS1016, CELP oder parametrische Modelle des MPEG-4-Audio-VM, dienen hauptsächlich zum Co dieren von Sprachsignalen und sind im allgemeinen zum Co dieren von höherqualitativen Musiksignalen nicht geeignet, da sie üblicherweise für mit 8 kHz abgetastete Signale entworfen sind, weshalb sie lediglich eine Audiobandbreite von maximal 4 kHz codieren können. Sie zeigen jedoch im allgemeinen einen schnellen Betrieb und einen geringen Rechenaufwand.

Zur Audiocodierung von Musiksignalen, um beispielsweise HIFI-Qualität oder CD-Qualität zu erreichen, wird daher bei einem skalierbaren Codierer ein Sprachcodierer mit einem Audiocodierer kombiniert, der Signale mit höherer Abtast rate, wie z. B. 48 kHz, codieren kann. Selbstverständlich ist es auch möglich, den obengenannten Sprachcodierer durch einen anderen Codierer zu ersetzen, beispielsweise durch einen Musik/Audiocodierer nach den Standards MPEG1, MPEG2 oder MPEG4.

Eine derartige Kettenschaltung eines Sprachcodierers mit einem höherwertigen Audiocodierer verwendet üblicherweise das Verfahren der Differenzcodierung im Zeitbereich. Ein Eingangssignal, das beispielsweise eine Abtastrate von 48 kHz aufweist, wird mittels eines Downsampling-Filters auf die für den Sprachcodierer geeignete Abtastfrequenz herun ter-abgetastet. Nun wird das herunter-abgetastete Signal codiert. Das codierte Signal kann direkt einer Bitstromfor matiereinrichtung zugeführt werden, um übertragen zu werden. Es enthält jedoch lediglich Signale mit einer Bandbreite von z. B. maximal 4 kHz. Das codierte Signal wird ferner wieder decodiert und mittels eines Upsampling-Filters herauf-ab getastet. Das nun erhaltene Signal besitzt jedoch aufgrund des Downsampling-Filters lediglich Nutzinformationen mit einer Bandbreite von beispielsweise 4 kHz. Ferner ist fest zustellen, daß der Spektralgehalt des herauf-abgetasteten codierten/decodierten Signals im unteren Band bis 4 kHz nicht exakt dem ersten 4-kHz-Band des mit 48 kHz abgetaste ten Eingangssignals entspricht, da Codierer im allgemeinen Codierfehler einführen.

Wie bereits erwähnt wurde, weist ein skalierbarer Codierer sowohl einen allgemein bekannten Sprachcodierer als auch einen Audiocodierer auf, der Signale mit höheren Abtastraten verarbeiten kann. Um Signalanteile des Eingangssignals über tragen zu können, deren Frequenzen über 4 kHz sind, wird ei ne Differenz des Eingangssignals mit 8 kHz und des codier ten/decodierten, herauf-abgetasteten Ausgangssignals des Sprachcodierers für jeden einzelnen zeitdiskreten Abtastwert gebildet. Diese Differenz kann dann mittels eines bekannten Audiocodierers quantisiert und codiert werden, wie es für Fachleute bekannt ist. An dieser Stelle sei angemerkt, daß das Differenzsignal, das in den Audiocodierer, der Signale mit höheren Abtastraten codieren kann, eingespeist wird, im unteren Frequenzbereich abgesehen von Codierfehlern des Sprachcodierers sehr viel kleiner als das Original ist. In dem Spektralbereich, der oberhalb der Bandbreite des herauf-abgetasteten codierten/decodierten Ausgangssignals des Sprachcodierers liegt, entspricht das Differenzsignal im wesentlichen dem wahren Eingangssignal, das mit z. B. 48 kHz abgetastet wurde.

In der ersten Stufe, d. h. der Stufe des Sprachcodierers, wird also zumeist ein Codierer mit niedriger Abtastfrequenz eingesetzt, da im allgemeinen eine sehr niedrige Bitrate des codierten Signals angestrebt wird. Derzeit arbeiten mehrere Codierer, auch die genannten Codierer, mit Bitraten von we nigen Kilobit (zwei bis 8 Kilobit oder auch darüber). Die selben ermöglichen ferner eine maximale Abtastfrequenz von 8 kHz, da ohnehin nicht mehr Audiobandbreite bei dieser gerin gen Bitrate möglich ist, und die Codierung bei niedriger Abtastfrequenz bezüglich des Rechenaufwands günstiger ist. Die maximal mögliche Audiobandbreite beträgt 4 kHz und ist in der Praxis auf etwa 3,5 kHz beschränkt. Soll jetzt in der weiteren Stufe, d. h. in der Stufe mit dem Audiocodierer, eine Bandbreitenverbesserung erzielt werden, muß diese wei tere Stufe mit einer höheren Abtastfrequenz arbeiten. Zur Anpassung der Abtastfrequenzen werden Dezimations und In terpolationsfilter zum Down- bzw. Upsampling eingesetzt.

Seit einiger Zeit ist es bekannt, zur weiteren Reduzierung der Datenmenge die sog. TNS-Technik bei der hochqualitativen Audiocodierung einzusetzen (J. Herre, J. D. Johnston, "Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)", bist AES Convention, Los Angeles 1996, Preprint 4384). Die TNS-Technik (TNS = Temporal Noise Shaping = zeitliche Rauschformung) gestattet allgemein gesagt mittels einer prädiktiven Codierung der Spektralwerte eine zeitliche Formung der Feinstruktur des Quantisierungsrauschens. Die TNS-Technik basiert auf einer konsequenten Anwendung des Dualismus zwischen Zeit- und Frequenzbereich. Aus der Technik ist bekannt, daß die Auto korrelationsfunktion eines Zeitsignals, wenn sie in den Frequenzbereich transformiert wird, die spektrale Leistungs dichte eben dieses Zeitsignals angibt. Der duale Fall dazu ergibt sich, wenn die Autokorrelationsfunktion des Spektrums eines Signals gebildet wird und in den Zeitbereich transfor miert wird. Die in den Zeitbereich transformierte oder rück transformierte Autokorrelationsfunktion wird auch als Qua drat der Hilbert-Hüllkurve des Zeitsignals bezeichnet. Die Hilbert-Hüllkurve eines Signals ist somit direkt mit der Autokorrelationsfunktion seines Spektrums verbunden. Die quadrierte Hilbert-Hüllkurve eines Signals und die spektrale Leistungsdichte desselben stellen somit duale Aspekte im Zeitbereich und im Frequenzbereich dar. Wenn die Hilbert- Hüllkurve eines Signals für jedes Teilbandpaßsignal über einem Bereich von Frequenzen konstant bleibt, dann wird auch die Autokorrelation zwischen benachbarten Spektralwerten konstant sein. Dies bedeutet in der Tat, daß die Serie von Spektralkoeffizienten über der Frequenz stationär ist, wes halb prädiktive Codiertechniken effizient verwendet werden können, um dieses Signal darzustellen, und zwar unter Ver wendung eines gemeinsamen Satzes von Prädiktionskoeffizien ten.

Um diesen Sachverhalt zu veranschaulichen, sei auf die Fig. 8A und Fig. 8B verwiesen. Fig. 8A zeigt einen kurzen Aus schnitt aus einem zeitlich stark transienten "Kastagnet ten"-Signal einer Dauer von ca. 40 ms. Dieses Signal wurde in mehrere Teilbandpaßsignale zerlegt, wobei jedes Teil bandpaßsignal eine Bandbreite von 500 Hz hat. Fig. 8B zeigt nun die Hilbert-Hüllkurven für diese Bandpaßsignale mit Mittenfrequenzen, die von 1500 Hz bis 4000 Hz reichen. Aus Klarheitsgründen wurden alle Hüllkurven auf ihre Maximal amplitude normiert. Offensichtlich sind die Formen aller Teilhüllkurven sehr stark aufeinander bezogen, weshalb ein gemeinsamer Prädiktor innerhalb dieses Frequenzbereiches verwendet werden kann, um das Signal effizient zu codieren. Ähnliche Beobachtungen können bei Sprachsignalen gemacht werden, bei denen der Effekt der glottalen Erregungspulse über dem gesamten Frequenzbereich aufgrund der Natur des menschlichen Spracherzeugungsmechanismus vorhanden ist.

Fig. 8B zeigt also, daß die Korrelation benachbarter Werte beispielsweise bei einer Frequenz von 2000 Hz ähnlich wie bei beispielsweise einer Frequenz von 3000 Hz bzw. 1000 Hz ist.

Eine alternative Weise zum Verständnis der Eigenschaft der spektralen Prädiktierbarkeit von transienten Signalen kann aus der in Fig. 7 dargestellten Tabelle erhalten werden. Links oben in der Tabelle ist ein zeitkontinuierliches Signal u(t) gezeigt, das einen sinusförmigen Verlauf hat. Dem ist das Spektrum U(f) dieses Signales gegenübergestellt, das aus einem einzigen Dirac-Impuls besteht. Die optimale Codierung für dieses Signal besteht in der Codierung von Spektraldaten oder Spektralwerten, da hier für das gesamte Zeitsignal lediglich sowohl der Betrag als auch die Phase des Fourrierkoeffizienten übertragen werden braucht, um das Zeitsignal vollständig rekonstruieren zu können. Ein Codie ren von Spektraldaten entspricht gleichzeitig einer Prädik tion im Zeitbereich. Eine prädiktive Codierung würde hier also im Zeitbereich stattfinden müssen. Das sinusförmige Zeitsignal hat also eine flache zeitliche Hüllkurve, welche einer maximal nicht flachen Hüllkurve im Frequenzbereich entspricht.

Nun sei der entgegengestzte Fall betrachtet, bei dem das Zeitsignal u(t) ein maximal transientes Signal in der Form eines Dirac-Impulses im Zeitbereich ist. Ein Dirac-Impuls im Zeitbereich entspricht einem "flachen" Leistungsspektrum, während das Phasenspektrum gemäß der zeitlichen Position des Impulses rotiert. Offensichtlich stellt dieses Signal für die oben erwähnten traditionellen Verfahren, wie z. B. die Transformationscodierung oder Codierung von Spektraldaten oder eine lineare Prädiktionscodierung der Zeitbereichs daten, ein Problem dar. Dieses Signal kann am besten und effektivsten im Zeitbereich codiert werden, da lediglich die zeitliche Position sowie die Leistung des Dirac-Impulses übertragen werden muß, was durch konsequente Anwendung des Dualismus dazu führt, daß auch eine prädiktive Codierung im Frequenzbereich ein geeignetes Verfahren zur effizienten Codierung darstellt.

Es ist sehr wichtig, nicht die prädiktive Codierung von Spektralkoeffizienten über der Frequenz mit dem bekannten dualen Konzept der Prädiktion von Spektralkoeffizienten von einem Block zum nächsten zu verwechseln, das bereits imple mentiert ist und ebenfalls in dem oben erwähnten Artikel (M. Bosi, K. Brandenburg, S. Quakenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", 101 st AES Con vention, Los Angeles 1996, Preprint 4382) beschrieben ist. Bei der Prädiktion von Spektralkoeffizienten von einem Block zum nächsten, welche einer Prädiktion über der Zeit ent spricht, wird die spektrale Auflösung erhöht, während eine Prädiktion von Spektralwerten über der Frequenz die zeit liche Auflösung steigert. Ein Spektralkoeffizient bei bei spielsweise 1000 Hz kann also durch den Spektralkoeffizien ten bei beispielsweise 900 Hz in demselben Block oder Frame ermittelt werden.

Die dargestellten Überlegungen führten also dazu, ein effi zientes Codierverfahren für transiente Signale zu erhalten. Prädiktive Codiertechniken können unter Berücksichtigung der Dualität zwischen Zeit und Frequenzbereich im wesentlichen analog zu der bereits bekannten Prädiktion von einem Spek tralkoeffizienten zum Spektralkoeffizienten mit gleicher Frequenz im nächsten Block behandelt werden. Da die spek trale Leistungsdichte und die quadrierte Hilbert-Hüllkurve eines Signals dual zueinander sind, wird eine Reduktion einer Restsignalenergie oder ein Prädiktionsgewinn abhängig von einem Flachheitsmaß der quadrierten Hüllkurve des Signals im Gegensatz zu einem spektralen Flachheitsmaß beim konventionellen Prädiktionsverfahren erhalten. Der poten tielle Codierungsgewinn steigt mit transienteren Signalen an.

Als mögliche Prädiktionsschemen bietet sich sowohl das Prä diktionsschema mit geschlossener Schleife, das auch Rück wärtsprädiktion genannt wird, sowie das Prädiktionsschema mit offener Schleife, das auch Vorwärtsprädiktion genannt wird, an. Beim spektralen Prädiktionsschema mit geschlos sener Schleife (Rückwärtsprädiktion) ist die Hüllkurve des Fehlers flach. Anders ausgedrückt wird die Fehlersignalener gie gleichmäßig über der Zeit verteilt.

Bei einer Vorwärtsprädiktion, wie sie in Fig. 9 dargestellt ist, tritt jedoch eine zeitliche Formung des durch die Quan tisierung eingeführten Rauschens auf. Ein zu prädizierender Spektralkoeffizient x(f) wird einem Summationspunkt 600 zu geführt. Derselbe Spektralkoeffizient wird ferner einem Prä diktor 610 zugeführt, dessen Ausgangssignal mit negativem Vorzeichen ebenfalls dem Summationspunkt 600 zugeführt wird. Das Eingangssignal in einen Quantisierer 620 stellt somit die Differenz des Spektralwerts x(f) und des durch Prädik tion berechneten Spektralwerts x_p(f) dar. Bei der Vorwärts prädiktion wird die Gesamtfehlerenergie in den decodierten Spektralkoeffizientendaten gleichbleiben. Die zeitliche Form des Quantisierungsfehlersignals wird jedoch als zeitlich geformt am Ausgang des Decodierers erscheinen, da die Prä diktion auf die Spektralkoeffizienten angewendet wurde, wodurch das Quantisierungsrauschen zeitlich unter das tat sächliche Signal gelegt wird und somit maskiert werden kann. Auf diese Art und Weise werden Probleme der zeitlichen Mas kierung z. B. bei transienten Signalen oder Sprachsignalen vermieden.

Dieser Typ der prädiktiven Codierung von Spektralwerten wird daher als die TNS- oder zeitliche Rauschformungstechnik bezeichnet. Zur Veranschaulichung dieser Technik sei auf Fig. 10A verwiesen. Links oben in Fig. 10A befindet sich ein Zeitverlauf eines stark transienten Zeitsignals. Dem Zeit verlauf ist der Ausschnitt eines DCT-Spektrums rechts oben in. Fig. 10A gegenübergestellt. Die linke untere Darstellung von Fig. 10 zeigt die resultierende Frequenzantwort eines TNS-Synthesefilters, das durch die LPC-Operation berechnet wurde (LPC Linear Prediction Coding). Es sein angemerkt, daß die (normierten) Frequenzkoordinaten in diesem Diagramm den Zeitkoordinaten aufgrund der Zeitbereichs- und Frequenz bereichsdualität entsprechen. Offensichtlich führt die LPC- Berechnung zu einem "Quellenmodell" des Eingangssignals, da die Frequenzantwort des LPC-berechneten Synthesefilters der Hüllkurve des stark transienten Zeitsignals ähnelt. In Fig. 10A rechts unten ist eine Darstellung der spektralen Rest werte, d. h. des Eingangssignals des Quantisierers 620 in Fig. 9, über der Frequenz gezeigt. Ein Vergleich zwischen den spektralen Restwerten nach der Prädiktion und den Spek tralwerten bei direkter Zeit-Frequenz-Transformation zeigt, daß die spektralen Restwerte eine wesentlich geringere Energie als die ursprünglichen Spektralwerte aufweisen. Bei dem gezeigten Beispiel entspricht die Reduktion der Energie der spektralen Restwerte einem Gesamtprädiktionsgewinn von etwa 12 dB.

Zu der Bedeutung der linken unteren Darstellung in Fig. 10A sei folgendes angemerkt. Bei klassischer Anwendung der Prä diktion auf Zeitbereichssignale ist der Frequenzgang des Synthesefilters eine Annäherung des Betragssspektrums des Eingangssignals. Das Synthesefilter (re)generiert gewisser maßen die spektrale Gestalt des Signals aus einem Restsignal mit näherungsweise "weißem" Spektrum. Bei Anwendung der Prä diktion auf spektrale Signale, wie es bei der TNS-Technik der Fall ist, ist der Frequenzgang des Synthesefilters eine Annäherung der Hüllkurve des Eingangsfilters. Der Frequenz gang des Synthesefilters ist nicht die Fouriertransformierte der Impulsantwort, wie es im klassischen Fall gilt, sondern die inverse Fouriertransformierte. Das TNS-Synthesefilter (re)generiert sozusagen den Hüllkurvenverlauf des Signals aus einem Restsignal mit näherungsweise "weißer" (d. h. flacher) Hüllkurve. So zeigt die linke untere Abbildung von Fig. 10A also die durch das TNS-Synthesefilter modellierte Hüllkurve des Eingangssignals. Diese ist hier eine loga rithmische Darstellung der Hüllkurven-Annäherung des im der darüberliegenden Abbildung geziegten Kastagnettensignals.

Anschließend wurde ein Codierungsrauschen in die spektralen Restwerte eingeführt, derart, daß in jedem Codierband mit einer Breite von beispielsweise 0,5 Bark ein Signal/Rau schen-Verhältnis von etwa 13 dB resultierte. Die aus der Einführung des Quantisierungsrauschen resultierenden Fehler signale im Zeitbereich sind in Fig. 10B gezeigt. Die linke Darstellung in Fig. 10B zeigt das Fehlersignal aufgrund des Quantisierungsrauschens bei verwendeter TNS-Technik, während im rechten Diagramm die TNS-Technik aus Vergleichszwecken nicht verwendet wurde. Wie erwartet ist das Fehlersignal im linken Diagramm nicht gleichmäßig über den Block verteilt, sondern in dem Bereich konzentriert, in dem auch ein hoher Signalanteil vorhanden ist, welcher dieses Quantisierungs rauschen optimal verdecken wird. Im rechten Fall ist dagegen das eingeführte Quantisierungsrauschen gleichmäßig im Block, d. h. über der Zeit, verteilt, was dazu führt, daß im vor deren Bereich, in dem tatsächlich kein oder fast kein Signal ist, ebenfalls Rauschen vorhanden ist, das zu hören sein wird, während in dem Bereich, in dem hohe Signalanteile vorhanden sind, ein relativ kleines Rauschen vorhanden ist, durch das die Markierungsmöglichkeiten des Signals nicht vollständig ausgenützt werden.

Im nachfolgenden wird ein einfacher, d. h. nicht skalier barer, Audiocodierer beschrieben, der ein TNS-Filter auf weist.

Eine Implementierung eines TNS-Filters 804 in einen Codierer ist in Fig. 11A gezeigt. Derselbe ist zwischen einer Ana lysefilterbank 802 und einem Quantisierer 806 angeordnet. Das zeitdiskrete Eingangssignal wird bei dem in Fig. 11A gezeigten Codierer in einen Audioeingang 800 eingespeist, während das quantisierte Audiosignal bzw. quantisierte Spek tralwerte oder die quantisierten spektralen Restwerte an ei nen Ausgang 808 ausgegeben werden, dem ein Redundanz-Codie rer nachgeschaltet sein kann. Das Eingangssignal wird also in Spektralwerte transformiert. Basierend auf den berech neten Spektralwerten wird eine übliche lineare Prädiktions rechnung ausgeführt, welche beispielsweise durch Bilden der Autokorrelationsmatrix der Spektralwerte und unter Verwen dung einer Levinson-Durbin-Rekursion stattfindet. Fig. 11B zeigt eine detailliertere Ansicht des TNS-Filters 804. An einem Filtereingang 810 werden die Spektralwerte x(1), ..., x(i), ..., x(n) eingespeist. Es kann vorkommen, daß ledig lich ein bestimmter Frequenzbereich transiente Signale auf weist, während wiederum ein anderer Frequenzbereich eher stationärer Natur ist. Diese Tatsache wird bei dem TNS-Fil ter 804 durch einen Eingangsschalter 812 sowie durch einen Ausgangsschalter 814 berücksichtigt, wobei die Schalter zunächst jedoch für eine Parallel-zu-Seriell- bzw. Seriell zu-Parallel-Wandlung der zu verarbeitenden Daten sorgen. Abhängig davon, ob ein bestimmter Frequenzbereich instatio när ist und einen bestimmten Codierungsgewinn durch die TNS-Technik verspricht, wird nur dieser Spektralbereich TNS-verarbeitet, was dadurch geschieht, daß der Eingangs schalter 812 beispielsweise bei dem Spektralwert x(i) star tet und z. B. bis zu dem Spektralwert x(i + 2) läuft. Der innere Bereich des Filters besteht wieder aus der Vorwärts prädiktionsstruktur, d. h. dem Prädiktor 610 sowie dem Sum mationspunkt 600.

Die Berechnung zur Bestimmung der Filterkoeffizienten des TNS-Filters bzw. zur Bestimmung der Prädiktionskoeffizienten wird folgendermaßen durchgeführt. Das Bilden der Autokorre lationsmatrix und das Verwenden der Levinson-Durbin-Rekur sion wird für die höchste erlaubte Ordnung des Rauschfor mungsfilters, z. B. 20, durchgeführt. Wenn der berechnete Prädiktionsgewinn eine bestimmte Schwelle überschreitet, wird die TNS-Verarbeitung aktiviert.

Die Ordnung des verwendeten Rauschformungsfilters für den gegenwärtigen Block wird dann durch anschließendes Entfernen aller Koeffizienten mit einem ausreichend kleinen Absolut wert vom Ende des Koeffizientenarrays bestimmt. Auf diese Art und Weise liegen die Ordnungen von TNS-Filtern üblicher weise in der Größenordnung von 4-12 für ein Sprachsignal.

Wenn für einen Bereich von Spektralwerten x(i) beispiels weise ein ausreichend hoher Codierungsgewinn bestimmt wird, wird derselbe verarbeitet, und es wird am Ausgang des TNS- Filters nicht der Spektralwert x(i) sondern der spektrale Restwert x_R(i) ausgegeben. Dieser hat eine wesentlich ge ringere Amplitude als der ursprüngliche Spektralwert x(i), wie es aus Fig. 10A ersichtlich ist. Die zum Decodierer übertragenen Seiteninformationen erhalten somit zusätzlich zu den üblichen Seiteninformationen eine Flag, die die Verwendung von TNS anzeigt, und falls erforderlich, Infor mationen über den Zielfrequenzbereich und ebenfalls über das TNS-Filter, das zum Codieren verwendet wurde. Die Filterda ten können als quantisierte Filterkoeffizienten dargestellt werden.

In Analogie zum Codierer mit TNS-Filter sei nun auf einen Decodierer eingegangen, welcher ein inverses TNS-Filter aufweist.

Im Decodierer, welcher in Fig. 12A skizziert ist, wird für jeden Kanal eine TNS-Codierung rückgängig gemacht. Spektrale Restwerte x_R(i) werden in dem inversen Quantisierer 216 requantisiert und in ein inverses TNS-Filter 900 einge speist, dessen näherer Aufbau in Fig. 12B dargestellt ist. Das inverse TNS-Filter 900 liefert als Ausgangssignal wieder Spektralwerte, die in einer Synthesefilterbank 218 in den Zeitbereich transformiert werden. Das TNS-Filter 900 umfaßt wiederum einen Eingangsschalter 902 sowie einen Ausgangs schalter 908, welche zunächst wieder zur Parallel-Seriell- Wandlung bzw. zur Seriell-Paralalel-Wandlung der verarbei teten Daten dienen. Der Eingangsschalter 902 berücksichtigt ferner einen eventuell verwendeten Zielfrequenzbereich, um nur spektrale Restwerte einer inversen TNS-Codierung zuzu führen, während nicht TNS-codierte Spektralwerte zu einem Ausgang 910 unverändert durchgelassen werden. Das inverse Prädiktionsfilter umfaßt wiederum einen Prädiktor 906 sowie einen Summationspunkt 904. Dieselben sind jedoch im Unter schied zum TNS-Filter folgendermaßen verbunden. Ein spektra ler Restwert gelangt über den Eingangsschalter 902 an den Summationspunkt 904, an dem derselbe mit dem Ausgangssignal des Prädiktors 906 summiert wird. Der Prädiktor liefert als Ausgangssignal einen geschätzten Spektralwerts x_p(i). Der Spektralwert x(i) wird über den Ausgangsschalter an den Aus gang des inversen TNS-Filters ausgegeben. Die TNS-bezogenen Seiteninformationen werden im Decodierer also decodiert, wobei die Seiteninformationen ein Flag umfassen, das die Verwendung von TNS anzeigt, und, falls erforderlich, Infor mationen bezüglich der Zielfrequenzbereichs. Zusätzlich ent halten die Seiteninformationen ferner die Filterkoeffizien ten des Prädiktionsfilters, das zum Codieren eines Blocks oder "Frames" verwendet wurde.

Das TNS-Verfahren läßt sich also folgendermaßen zusammen fassen. Ein Eingangssignal wird in eine spektrale Dar stellung mittels einer hochauflösenden Analysefilterbank transformiert. Anschließend wird eine lineare Prädiktion im Frequenzbereich ausgeführt, und zwar zwischen den frequenz mäßig benachbarten Spektralwerten. Diese lineare Prädiktion kann als Filterprozeß zum Filtern der Spektralwerte inter pretiert werden, welcher im Spektralbereich ausgeführt wird. Damit werden die ursprünglichen Spektralwerte durch den Prädiktionsfehler, d. h. durch die spektralen Restwerte, ersetzt. Diese spektralen Restwerte werden ebenso wie übli che Spektralwerte quantisiert und codiert zum Decodierer übertragen, indem die Werte wieder decodiert und invers quantisiert werden. Vor der Anwendung der inversen Filter bank (Synthesefilterbank) wird eine zur im Codierer vorge nommenen Prädiktion inverse Prädiktion, d. h. eine Addition des prädizierten Signals mit dem Residuum, vorgenommen, in dem das inverse Prädiktionsfilter auf das übertragene Prä diktionsfehlersignal, d. h. auf die requantisierten spek tralen Restwerte, angewendet wird.

Durch die Anwendung dieser Technik ist es möglich, die zeit liche Hüllkurve des Quantisierungsrauschens an die des Ein gangssignals anzupassen. Dies erlaubt eine bessere Aus nutzung der Markierung der Fehlersignale bei Signalen, die eine ausgeprägte Zeitfeinstruktur oder ein ausgeprägtes transientes Wesen haben. Im Falle von transienten Signalen vermeidet die TNS-Technik die sog. "Vorechos", bei denen das Quantisierungsgeräusch bereits vor dem "Anschlag" eines sol chen Signals erscheint.

Bei einem skalierbaren Audiocodierer, wird, wie es bereits erwähnt wurde, in der ersten Stufe ein Codierer mit niedrig er Abtastfrequenz eingesetzt, da im allgemeinen eine sehr niedrige Bitrate des codierten Signals angestrebt wird. In der zweiten Stufe findet sich dann vorzugsweise ein Audio codierer, der zwar bei höheren Bitraten codiert, jedoch eine wesentlich größere Bandbreite benötigt und somit Audiosig nale mit viel höhere Klangqualität codieren kann als der Sprachcodierer. Üblicherweise wird ein zu codierendes Audio signal, das in einer hohen Abtastrate vorliegt, zuerst auf eine niedrige Abtastrate beispielsweise mittels eines Down sampling-Filters heruntergesetzt. Das in der Abtastrate reduzierte Signal wird dann in den Codierer der ersten Stufe eingespeist, wobei das Ausgangssignal dieses Codierers direkt in den Bitstrom geschrieben wird, der den skalierbar en Audiocodierer verläßt. Dieses codierte Signal mit nied riger Bandbreite wird wieder decodiert und dann beispielsweise mittels eines Upsampling-Filters wieder auf die hohe Abtastrate gebracht und dann in den Frequenzbereich transformiert. Ebenfalls in den Frequenzbereich transfor miert wird das ursprüngliche am Eingang des Codierers anliegende Audiosignal. Es liegen nun zwei Audiosignale vor, wobei jedoch das erstere mit den Codierfehlern des Codierers der ersten Stufe versehen ist. Diese beiden Signale im Frequenzbereich können dann einem Differenzglied zugeführt werden, um ein Signal zu erhalten, das nur noch die Differ enz beider Signale darstellt. In einem Schaltmodul, das auch als frequenzselektiver Schalter ausgeführt sein kann, wie es weiter hinten beschrieben wird, kann bestimmt werden, ob es günstiger ist, die Differenz der beiden Eingangssignale oder aber das ursprüngliche in den Frequenzbereich transformierte Audiosignal direkt weiter zu verarbeiten. Das Ausgangssignal des Schaltmoduls wird jedenfalls beispielsweise einem be kannten Quantisierer/Codierer zugeführt, welcher, wenn er nach einem MPEG-Standard arbeitet, zum einen eine Quanti sierung unter Berücksichtigung eines psychoakustischen Mo dells durchführt, und zum anderen anschließend eine Entro pie-Codierung vorzugsweise unter Verwendung der Huffman-Co dierung mit den quantisierten Spektralwerten bewirkt. Das Ausgangssignal des Quantisierers und Codierers wird neben dem Ausgangssignal des Codierers der ersten Stufe in den Bitstrom geschrieben.

Nachteilig am Stand der Technik ist die Tatsache, daß bisher kein Codierungs- bzw. Decodierungskonzept bekannt ist, das die Kombination der zeitlichen Rauschformungstechnik (TNS) mit einem skalierbaren Stereocodierer erlaubt. Wie es be reits beschrieben wurde, liefert ein skalierbarer Stereoco dierer die Möglichkeit, zumindest ein Monosignal und ein Stereosignal getrennt voneinander decodieren zu können, wodurch große Flexibilität erreicht wird. Eine Implementa tion der Technik des zeitlichen Rauschformens (TNS) würde zusätzlich zur Skalierbarkeit die Datenreduzierung bzw. Komprimierung ohne Qualitätseinbußen sowohl beim Mono- als auch beim Stereosignal weiter vorantreiben.

Die EP 0 785 631 A2 befaßt sich mit der Rauschformung im Zeitbereich durch eine LPC-Prädiktion im Frequenzbereich. Ein zeitliches Monosignal wird mittels einer Analysefilter bank 12 in seine spektrale Darstellung überführt. Anschlie ßend wird das spektrale Monosignal mittels einer Prädiktion über der Frequenz codiert, wobei die Prädiktion auf einem oder mehreren frequenzmäßig benachbarten Spektralwerten basiert, wodurch sich Prädiktionskoeffizienten einerseits und ein sepktrales Mono-Restsignal andererseits ergeben.

Die DE 690 18 989 T2 befaßt sich mit einer polyphonischen Kodierung von Stereosignalen, wobei aus einem Links/Rechts- Stereosignal ein Summe/Differenz-Stereosignal gebildet wird. Das Summe-Stereosignal wird einem Multiplexer zugeführt, der ausgangsseitig einen Bitstrom erzeugt, der das codierte Signal darstellt. Das Summensignal und das Differenzsignal werden einem Prädiktorfilter zugeführt, der das Differenzsi gnal aproximiert und ein Restsignal ausgibt, das ebenfalls dem Multiplexer zugeführt wird. Darüber hinaus werden die Prädiktionskoeffizienten des Filters als Differenzsignalre konstruktionsdaten ebenfalls dem Multiplexer zuführt.

Die Fachveröffentlichung K. Brandenburg, B. Grill: "First Ideas on Scalable Audio Coding", 9^th AES/Convention, San Francisco 1995, Preprint 3924, Seiten 1 bis 6 befaßt sich mit der skalierbaren Audiocodierung. Ein Audiosignal wird mittels eines ersten Kodierers codiert und einem Bitstrom multiplexer zugeführt. Das codierte Audiosignal wird dann mittels eines zu dem ersten Kodierer inversen Decodierer wieder decodiert und einer Subtraktionsstufe zugeführt, da mit dasselbe von dem ursprünglichen Eingangssignal subtra hiert wird. Das Differenzsignal wird dann einem zweiten Codierer zugeführt, dessen Ausgangssignal ebenfalls dem Bitstrommultiplexer zugeführt wird, um eine zweite Schicht zu erzeugen. Dieses Konzept ist auf beliebige Schichten erweiterbar.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Codierungs- bzw. Decodierungskonzept zu schaffen, das neben einer hohen Flexibilität auch eine hohe Datenmengenreduzie rung erlaubt.

Diese Aufgabe wird durch Verfahren zum Verarbeiten eines zeitlichen Stereosignals gemäß Anspruch 1 oder 9, durch Ver fahren zum Decodieren eines unter Verwendung einer Prädik tion eines frequenzcodierten Audiobitstroms gemäß Anspruch 15 oder 18, durch Vorrichtungen zum Verarbeiten eines zeit lichen Stereosignals gemäß Anspruch 22 oder 24 sowie durch Vorrichtungen zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms gemäß Anspruch 25 oder 27 gelöst.

Ein skalierbarer Stereocodierer mit TNS-Technik gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung arbei tet vollständig im Frequenzbereich. Dies bedeutet, daß ein Mono-Kanal im Frequenzbereich gebildet und unter Verwendung eines psychoakustischen Codierers codiert wird. Dies hat den Vorteil, daß auch auf den Monokanal eine zeitliche Rausch formung angewendet werden kann. Um nun den Monokanal mit den beiden Stereokanälen verknüpfen zu können, muß jedoch die zeitliche Rauschformung des Monokanals wieder rückgängig ge macht werden. Um gleiche Verhältnisse zwischen den Stereoka nälen und dem decodierten Monokanal zu erhalten, muß der Mo nokanal einer zeitlichen Rauschformung unter Verwendung der Prädiktionskoeffizienten des linken oder rechten Kanals un terzogen werden, damit eine Differenz zwischen dem linken Kanal und dem Monokanal bzw. eine Differenz zwischen dem rechten Kanal und dem Monokanal gebildet werden kann.

An dieser Stelle sei angemerkt, daß beim skalierbaren Bit strom von Stereosignalen die beiden Stereokanäle L und R und der Mono- bzw. Mitte-Kanal M einer eigenen Prädiktion über der Frequenz, d. h. einer TNS- Verarbeitung, unterzogen wer den können. Dazu existieren drei Möglichkeiten:

1. Für jeden Kanal L, M und R wird eine eigene "vollstän dige" Prädiktion durchgeführt. Dies ergibt für jeden Ka nal eigene Prädiktionskoeffizienten und auch einen opti malen Prädiktionsgewinn. Der Preis dafür wird aber ein aufwendigerer Codierer bzw. Decodierer sein, da zum einen drei vollständige Prädiktoren notwendig sind und zum an deren vor einer Kombination zweier Kanäle durch Addition, Subtraktion oder Vergleichen eine aufwendigere Behandlung der Signale durchgeführt werden muß, d. h. die Prädiktion eines Kanals muß rückgängig gemacht werden und dieser Ka nal muß dann mittels der Prädiktionskoeffizienten des anderen Kanals "gefiltert" werden, d. h. einer "unvoll ständigen" Prädiktion unterzogen werden.
2. Das Gegenstück dazu ist, daß für alle drei Kanäle ledig lich ein Satz von Prädiktionskoeffizienten verwendet wird. So könnte beispielsweise für den linken Kanal L eine "vollständige" Prädiktion durchgeführt werden, die spektrale Restwerte L' und Links-Prädiktionskoeffizienten ergibt. Der rechte (R) und der Mittekanal M würden dann einer "unvollständigen" Prädiktion unterzogen werden, bei der die L-Prädiktionskoeffizienten verwendet werden, um einen L-gefilterten rechten und einen L-gefilterten lin ken Kanal zu erhalten. Diese Lösung liefert jedoch mei stens einen geringeren Prädiktionsgewinn, führt aber zu einer wesentlichen Vereinfachung des Codierers bzw. De codierers, da nur ein vollständiger Prädiktor benötigt wird und eine sehr einfache "Behandlung" in Form einer einfachen Weiterleitung ohne inverse Prädiktion bzw. er neute Prädiktion wie unter Punkt 1 erforderlich ist, da für alle Kanäle nur ein Satz von Prädiktionskoeffizienten existiert.
3. Ein Kompromiß zwischen Punkt 1 und Punkt 2 besteht darin, lediglich zwei vollständige Prädiktionen durchzuführen, z. B. mit einem Stereokanal L oder R und dem Monokanal M. Bei der Behandlung der Signale L bzw. R und M oder L und R vor ihrer Kombination muß dann lediglich die M-Prädik tion rückgängig gemacht werden und das daraus erhaltene Signal mit den L- oder R-Prädiktionskoeffizienten "gefil tert" werden. Der andere Stereokanal wird ebenfalls nur einer unvollständigen Prädiktion mit den Prädiktionskoef fizienten des einen Kanals unterzogen. Dies bringt zwar einen etwas reduzierten Gewinn, führt aber zu einem ver tretbaren Aufwand im Codierer bzw. Decodierer.

Bei dem Ausführungsbeispiel der vorliegenden Erfindung, bei dem ein psychoakustischer Mono-Codierer verwendet wird, wird eine an. Punkt 3 angelehnte Lösung verwendet. Falls eine Mitte/Seite-Verarbeitung gewählt ist, wird der rechte Kanal R im allgemeinen dem linken Kanal zumindest ähnlich sein. Dann genügt es, eine vollständige Prädiktion nur auf einen Kanal durchzuführen und den anderen Kanal mit den ermittel ten Prädiktionskoeffizienten zu filtern. Unterscheiden sich dagegen L und R stark, dann wird es bevorzugt, die Prädikti onskoeffizienten des dominierenden Kanals für die Filterung, d. h. Prädiktion, des anderen Kanals zu verwenden.

Der Stereo-"worst case" besteht darin, daß der linke und der rechte Kanal einerseits signalmäßig unkorreliert sind und andererseits gleich dominant sind, d. h. etwa gleich viel Energie haben. In diesem Fall kann aber keine Mitte/Seite- Codierung durchgefönt werden. Außerdem verbietet dieser Fall auch eine Diffe renzcodierung, so daß sowieso zur Simulcastverarbeitung ge griffen werden muß.

Ein wesentlicher Punkt der Skalierbarkeit besteht darin, daß nicht das Mono- und das Stereosignal unabhängig voneinander übertragen werden, sondern daß das Stereosignal, das zu co dieren ist, lediglich die Differenz des ursprünglichen Ste reosignals zum Monosignal umfaßt. Um aber einstellen zu kön nen, welcher Signalanteil bereits im Monosignal codiert ist, müssen beim Vergleich vom Monosignal mit den Stereokanälen gleiche Verhältnisse vorliegen, derart, daß eine aussagefä hige Differenz gebildet werden kann.

Frequenzselektive Schalteinrichtungen werden vorzugsweise verwendet, um frequenzbandweise zu bestimmen, ob es günsti ger ist, als zu codierendes Stereosignal die Differenz zwi schen dem Monosignal und einem Stereokanal oder den Stereo kanal selbst zu verwenden. Eine solche Situation kann auf treten, wenn das Monosignal stark von einem Stereokanal abweicht. Hier ist es selbstverständlich im Sinne der Da tenkompression günstiger, nicht das Differenzsignal zu neh men, sondern den Stereokanal an sich.

Weiterhin wird es bevorzugt, ebenfalls im Sinne einer mög lichst hohen Datenkompression, eine MS-Entscheidung durchzu führen, d. h. frequenzbandweise festzustellen, ob eine Mit te-Seite-Codierung oder eine Links-Rechts-Codierung günsti ger ist.

Der Codierer gemäß dem ersten Ausführungsbeispiel der vor liegenden Erfindung ist somit ein skalierbarer Stereoco dierer mit einem psychoakustischen Monocodierer. Der zum Codierer des ersten Ausführungsbeispiels der vorliegenden Erfindung analoge Decodierer macht im wesentlichen die bei der Codierung durchgeführten Schritte wieder rückgängig, wobei bezüglich der zeitlichen Rauschformung wieder sicher gestellt ist, daß bei jeder Verknüpfung des Monokanals mit einem Stereokanal gleiche Verhältnisse vorliegen, d. h. daß nur Signale verglichen werden, denen identische Prädiktions koeffizienten zugeordnet sind.

Vorzugsweise kann der Codierer gemäß dem ersten Ausführungs beispiel der vorliegenden Erfindung um einen Core-Codec er weitert werden, um neben der Mono-Stereo-Skalierbarkeit auch eine eigene Mono-Skalierbarkeit einzuführen. Dies bedeutet, daß der entsprechende Codierer eine erste Monoteilschicht und eine zweite Monoteilschicht sowie eine Stereoschicht auf einen einzigen Bitstrom multiplexen kann. Selbstverständlich können jedoch alle genannten Schichten entsprechend dem Kon zept der Skalierbarkeit wieder selbst in eine im Prinzip be liebige Anzahl von Unterschichten unterteilt sein. Der Core-Codierer ist vorzugsweise einer der eingangs beschriebenen Codierer mit niedrigerer Bitrate, weshalb der selbe eingangsseitig ein Downsampling-Filter und ausgangs seitig ein Upsampling-Filter aufweist, um die Datenrate des ursprünglichen Stereosignals an die Datenrate des Core-Codec anzupassen. Üblicherweise ist der Core-Codec als Sprachco dierer ausgeführt, der lediglich im Bereich von beispiels weise 0 bis 4 kHz codiert, wobei dem psychoakustischen Mo nocodierer dann der Bereich des Signals über 4 kHz ver bleibt. Zusätzlich wird der Codierer der zweiten Monoschicht ebenfalls die Codierungsfehler des Core-Codec berücksichti gen, derart, daß ein Monosignal mit ausgezeichneter Qualität aus dem Monosignal mit niedriger Bitrate und dem Monosignal mit hoher Bitrate zusammengesetzt werden kann. Auch hier ist ein wesentlicher Punkt der, daß bei einem Vergleich zweier Signale immer darauf zu achten ist, daß die dem Vergleich zugrundeliegenden Signale mit ähnlichen und besser noch mit gleichen Prädiktionskoeffizienten verarbeitet wurden, um eine sinnvolle Differenz bilden zu können. Der dazu analoge Decodierer macht ebenso wie im ersten Fall die bei der Co dierung eingeführen Schritte wieder rückgängig.

Gemäß einem zweiten Ausführungsbeispiel der vorliegenden Er findung umfaßt ein Codierer lediglich einen Mono-Core-Codec und keinen psychoakustischen Monocodierer. Ein solcher Co dierer liefert, wenn der Core-Codec als Sprachcodierer mit niedriger Bitrate ausgeführt ist, ein in seiner Bandbreite reduziertes Monosignal und ein Stereosignal mit voller Band breite. Dieser Codierer wird in den Anwendungsfällen vor teilhaft sein, wo kein Monosignal mit voller Bandbreite nö tig ist, bzw. verarbeitet werden kann, wenn beispielsweise der Empfänger-Decodierer nur Monosignale mit begrenzter Bandbreite verarbeiten kann.

Wie bei allen skalierbaren Codierverfahren ist es jedoch günstig, wenn im Bitstrom ebenfalls das hochqualitative Ste reosignal mit voller Bandbreite vorhanden ist, wenn bei spielsweise an eine Übertragung an viele Decodierer gedacht wird, von denen manche lediglich Monosignale mit begrenzter Bandbreite decodieren können, während andere Stereosignale mit voller Bandbreite verarbeiten können.

Der dazu analoge Decodierer umfaßt in analoger Weise keinen psychoakustischen Mono-Decodierer sondern lediglich einen Core-Decodierer und entsprechende TNS-Funktionseinheiten, um beim Vergleich zwischen Mono- und Stereosignalen zur Rekon struktion des Stereosignals wieder gleiche Verhältnisse zu haben.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeich nungen detaillierter erläutert. Es zeigen:

Fig. 1 einen skalierbaren TNS-Stereocodierer mit einer Mo noschicht;

Fig. 2 einen Decodierer für Signale, die mittels des Co dierers von Fig. 1 codiert worden sind;

Fig. 3 einen skalierbaren TNS-Stereocodierer mit einer er sten Monoteilschicht und mit einer zweiten Mono teilschicht;

Fig. 4 einen Decodierer zum Decodieren von mittels des in Fig. 3 gezeigten Codierers codierten Signalen;

Fig. 5 einen skalierbaren TNS-Stereocodierer mit einer bandbreitenbegrenzten Monoschicht;

Fig. 6 einen Decodierer zum Decodieren von mittels des in Fig. 5 gezeigten Codierers codierten Signalen;

Fig. 7 eine Tabelle zur Veranschaulichung der Dualität zwischen dem Zeit- und dem Frequenzbereich;

Fig. 8A ein Beispiel für ein transientes Signal;

Fig. 8B Hilbert-Hüllkurven von Teilbandpaßsignalen aufgrund des in Fig. 6A gezeigten transienten Zeitsignals;

Fig. 9 eine Prinzipdarstellung der Prädiktion im Frequenz bereich;

Fig. 10A ein Beispiel zur Veranschaulichung der TNS-Technik;

Fig. 10B eine Gegenüberstellung des zeitlichen Verlaufs ei nes eingeführten Quantisierungsrauschens mit (links) und ohne (rechts) TNS-Technik;

Fig. 11A eine vereinfachte Blockdarstellung eines unskalier ten Codierers, der ein TNS-Filter aufweist;

Fig. 11B eine Detaildarstellung des TNS-Filters von Fig. 11A;

Fig. 12A eine vereinfachte Blockdarstellung eines unskalier ten Decodierers, der ein inverses TNS-Filter auf weist; und

Fig. 12B eine detailliertere Darstellung des inversen TNS- Filters von Fig. 12A.

Fig. 1 zeigt einen skalierbaren TNS-Stereocodierer, der eine Monoschicht mit voller Bandbreite erzeugt, gemäß einem er sten Ausführungsbeispiel der vorliegenden Erfindung. Es sei jedoch darauf hingewiesen, daß es keineswegs zwingend ist, daß der psychoakustische Mono-Codierer die volle Bandbreite codiert. Die Bandbreite kann kleiner sein, was durch Null setzen von Spektralwerten oberhalb einer bestimmten Frequenz erreicht werden kann. Üblicherweise ist aber die Bandbreite des psychoakustischen Mono-Codierers größer als die des Core-Coders.

Wie üblich werden zeitliche Signale mit Kleinbuchstaben be zeichnet, während spektrale Signale bzw. Spektralwerte mit Großbuchstaben kenntlich gemacht werden. Der Codierer, der in Fig. 1 schematisch dargestellt ist, umfaßt einen ersten Eingang 10 für einen ersten (linken) Stereokanal l und einen zweiten Eingang für einen zweiten (rechten) Stereokanal r. Die zeitlichen Eingangssignale l, r werden mittels einer modifizierten diskreten Cosinustransformation (MDCT) 14, 16 in den Frequenzbereich transformiert.

Es sei angemerkt, daß lediglich vorzugsweise eine modifi zierte diskrete Cosinustransformation verwendet wird, da dieselbe in den neueren MPEG-Standards festgelegt ist. Es ist jedoch offensichtlich, daß beliebige andere Möglich keiten, wie z. B. Filterbänke bzw. andere Transformationen, verwendet werden können, um eine Transformation eines Zeitsignals in den Frequenzbereich zu bewerkstelligen.

Wie es aus Fig. 1 ersichtlich ist, werden der linke und der rechte Kanal im wesentlichen gleich verarbeitet, wobei in beiden Kanälen ein TNS-Block vorgesehen ist, d. h. ein Block TNS-L 18 für den linken Kanal und ein Block TNS-R 20 für den rechten Kanal. Die Ausgangssignale der TNS-Blöcke 18, 20 werden jeweils in eine frequenzselektive Schalteinrichtung (FSS) eingespeist, wobei eine frequenzselektive Schaltein richtung 22 für den linken Kanal vorgesehen ist, während eine frequenzselektive Schalteinrichtung 24 für den rechten Kanal eingesetzt wird. Dis Ausgangssignale der frequenzse lektiven Schalteinrichtung werden neben weiteren Signalen, auf die später eingegangen wird, in einen Block MS-Bestim mung eingegeben, in dem entschieden wird, ob eine Links- Rechts-Stereoverarbeitung oder eine Mitte-Seite-Stereover arbeitung günstiger ist.

Wie es aus Fig. 1 ersichtlich ist, arbeitet die MS-Bestim mung vollständig im Frequenzbereich, wobei übliche psycho akustische Stereocodierer ausgangsseitig mit dem Block MS-Bestimmung 26 verbunden sind. Solche Codierer sind in Fig. 1 nicht mehr gezeigt. Dieselben sind jedoch in der Technik bekannt und müssen daher nicht weiter beschrieben werden. Dieselben führen jedoch grob gesagt eine Quanti sierung durch, derart, daß das eingeführte Quantisierungs rauschen unter der Maskierungsschwelle des Signals bleibt, wobei die dann mit minimalem Bitaufwand quantisierten Spek tralwerte üblicherweise unter Verwendung der Huffman-Co dierung codiert werden, um schließlich einen Bitstrom zu erhalten, der maximal komprimiert ist.

Im nachfolgenden wird auf die Monosignalverarbeitung ein gegangen. Bei dem in Fig. 1 gezeigten Ausführungsbeispiel wird ein Monosignal M im Frequenzbereich gebildet, in dem der spektrale erste Kanal L und der spektrale zweite Kanal R mittels eines Summierers 28 summiert werden, wobei die Summe aus L und R anschließend mittels eines Multiplizierers 30 mit dem Faktor 0,5 multipliziert wird, um ein Monosignal zu ergeben. Das derart gewonnene Monosignal M wird in einem Block TNS-M 32 einer Prädiktion über der Frequenz unterzo gen, wonach das Ausgangssignal des Blocks TNS-M 32 einem M-Codierer/Decodierer (Codec) 34 zugeführt wird. Der Block M-Codec 34. umfaßt vorzugweise einen psychoakustischen Co dierer beispielsweise nach dem AAC-Standard (AAC = Advanced Audio Coding), der das empfangene Monosignal mit maximal voller Bandbreite codiert, um dasselbe als Monoschicht 36 auszugeben.

Um jedoch das Monosignal, das in der Monoschicht 36 codiert, mit den Stereosignalen vergleichen zu können, d. h. um eine Skalierbarkeit herzustellen, muß das in der Monoschicht 36 codierte Monosignal in dem Block M-Codec 34 wieder decodiert werden, um das codierte/decodierte Signal M" zu erhalten. Da das decodierte Signal bereits früher im Block TNS-M 32 einer Prädiktion über der Frequenz unterzogen worden ist, und zwar mit Prädiktionskoeffizienten, die bei dieser Prä diktion gewonnen wurden und in Seiteninformationen abgelegt wurden, muß es behandelt werden, d. h. diese Prädiktion über der Frequenz muß wieder mittels eines Blocks TNS^-1-M rück gängig gemacht werden. Am Ausgang des Blocks TNS^-1-M liegt somit das codierte/decodierte Monosignal ohne Prädiktions verarbeitung, d. h. ungefiltert, vor.

Wie bereits mehrfach erwähnt wurde, soll dieses Signal nun mit dem linken bzw. rechten Kanal verglichen werden. Dazu muß es mittels eines Blocks TNS-L/R 40 einer Prädiktion über der Frequenz unter Verwendung der Prädiktionskoeffizienten für den linken oder rechten Kanal unterzogen werden, d. h. unter Verwendung der Prädiktionskoeffizienten, die im Block 18 (TNS-L) oder im Block 20 (TNS-R) gewonnen wurden. Das L/R-gefilterte codierte/decodierte Monosignal, das nun am Knoten 42 anliegt, soll nun sowohl mit dem ersten (linken L) als auch mit dem zweiten (rechten R) Stereokanal verglichen werden. Dazu wird es mittels Multiplizierer 44a, 44b mit dem Faktor 2 multipliziert und an den Minuseingang eines Addie rers 46a für den linken Zweig bzw. an einen Minuseingang ei nes Addierers 46b für den rechten Zweig angelegt. Am Ausgang des Addierers 46a liegt somit die Differenz zwischen dem gefilterten linken Kanal und dem Doppelten des codierten/de codierten und L-gefilterten Monokanal an. Analog dazu liegt am Ausgang des Summierers 46b die Differenz zwischen dem ge filterten rechten Kanal und dem Doppelten des R-gefilterten codierten/decodierten Monokanal an.

Die frequenzselektiven Schalteinrichtungen 22, 24 bestimmen nun, ob es günstig ist, die Differenz weiter zu verarbeiten oder den linken bzw. rechten Kanal an sich. Vorzugsweise findet diese Entscheidung frequenzselektiv statt, derart, daß für jeden Frequenzbereich, beispielsweise für jede psy choakustische Frequenzgruppe, bestimmt werden kann, welches Signal für die Codierung günstiger ist.

Um ebenfalls eine Mitte-Seite-Codierung durchführen zu kön nen, ist für jeden Kanal ein weiterer Addierer 48a bzw. 48b vorgesehen, wobei mittels des Addierers 48a und eines weite ren Multipliziers 50a, der eine Multiplikation mit dem Fak tor 0,5 durchführt, das Mitte-Signal M gebildet wird, das der Summe aus linkem und rechtem Kanal multipliziert mit dem Faktor 0,5 entspricht. Mittels des Addierers 48b wird dage gen das Seite-Signal S gebildet, d. h. es wird die Differenz aus linkem Kanal und rechtem Kanal gebildet, wobei dieses Ergebnis ebenfalls mit dem Faktor 0,5 multipliziert wird. Das Seite-Signal, d. h. das Ausgangssignal des Multiplizie rers 50b, wird somit unverändert dem Block MS-Bestimmung 26 zugeführt. Das Mitte-Signal, d. h. das Ausgangssignal des Multiplizierers 50a, wird jedoch mittels eines Mitte-Addie rers 52 mit dem L/R-gefilterten codierten/decodierten Mono- Signal verglichen, d. h. es wird lediglich die Differenz zwischen dem Mitte-Signal und dem codierten/decodierten Mo nosignal dem Block MS-Bestimmung 26 zugeführt. Das Ausgangs signal des Mitte-Addierers enthält somit lediglich den bei der Codierung/Decodierung im Block M-Codec 34 eingeführten Fehler.

Im nachfolgenden wird auf die Funktionsweise des in Fig. 1 skizzierten Codierers eingegangen. Ein zeitliches Stereo signal, das einen zeitlichen ersten (l) und einen zeitlichen zweiten (r) Kanal aufweist, wird mittels der MDCT-Filterban ken 14, 16 in den Frequenzbereich transformiert, um einen spektralen ersten Kanal L bzw. einen spektralen zweiten Ka nal R zu erhalten. Aus dem spektralen ersten Kanal und dem spektralen zweiten Kanal wird durch den Summierer 28 und den Multiplizierer 30 ein spektraler Monokanal M gebildet, der einer Prädiktion über der Frequenz in dem Block TNS-M 32 un terzogen wird. Die dabei erhaltenen Prädiktionskoeffizienten für die M-Prädiktion werden in die Seiteninformationen des Bitstroms am Ausgang (nicht gezeigt) des Codierers von Fig. 1 geschrieben. Am Ausgangs des Block TNS-M 32 liegt somit ein gefilterter Monokanal M' vor.

Analog dazu wird sowohl der spektrale erste Kanal L als auch der spektrale zweite Kanal R mittels eines Blocks TNS-L 18 bzw. TNS-R 20 einer Prädiktion über der Frequenz unterzogen, um einen gefilterten ersten Kanal L' bzw. einen gefilterten zweiten Kanal R' zu erhalten. Die bei der Prädiktion über der Frequenz mit dem spektralen linken Kanal erhaltenen Prä diktionskoeffizienten werden ebenso wie die bei der Prädik tion über der Frequenz mit dem spektralen rechten Kanal er haltenen Prädiktionskoeffizienten ebenfalls in die Seitenin formationen des Bitstroms geschrieben.

Wie es bereits eingangs ausführlich dargelegt wurde, ergibt eine Prädiktion über der Frequenz sowohl Prädiktionskoeffi zienten, die in die Seiteninformationen geschrieben werden und einen groben Verlauf des Signals darstellen, als auch spektrale Restwerte ("residual spectrum"), die am Ausgang eines TNS-Prädiktors anliegen. Das ursprüngliche Signal kann dann unter Verwendung der spektralen Restwerte, d. h. des Ausgangssignals eines TNS-Blocks, und der Prädiktionskoeffi zienten wiederhergestellt werden:

Bei dem erfindungsgemäßen skalierbaren Codieren bzw. Deco dieren wird an mehreren Stellen ein Vergleich, beispiels weise in Form einer Differenzbildung, zwischen spektralen Restwerten durchgeführt. Dieser Vergleich der spektralen Restwerte bringt jedoch nur einen maximalen Codiergewinn, wenn die zu den spektralen Restwerten korrespondierenden Prädiktionskoeffizienten die gleichen sind. Wenn daher beispielsweise ein TNS-gefiltertes Mitte-Signal vorliegt, das also aus spektralen Mitte-Restwerten besteht, die zu spektralen Mitte-Prädiktionskoeffizienten korrespondieren, und wenn dieses TNS-gefilterte Mitte-Signal mit einem TNS gefilterten Links-Signal verglichen werden sollen, so liegen für das TNS-gefilterte Links-Signal Links-Prädiktionskoeffi zienten sowie spektrale Links-Restwerte vor. Es wäre aus Co diergewinnüberlegungen wenig sinnvoll, die spektralen Links-Restwerte mit den spektralen Mitte-Restwerten zu ver gleichen, da die zugrundeliegenden Links-Prädiktionskoeffi zienten bzw. Mitte-Prädiktionskoeffizienten unterschiedlich sind. Erfindungsgemäß müssen daher möglichst ähnliche Ver hältnisse geschaffen werden. In diesem Fall könnte die Dif ferenz an einer FSS-Stufe größer als das Originalspektrum sein, wodurch nicht das Differenzsignal sondern das Origi nalspektrum gewählt würde, was den Codiergewinn stark ver schlechtert.

Dies kann entweder dadurch geschehen, daß das TNS-gefilterte Mitte-Signal einer inversen Prädiktion unterzogen wird. Nun liegt ein ungefiltertes Mitte-Signal vor. Um dieses ungefil terte Mitte-Signal auf die Links-Prädiktionskoeffizienten zu beziehen, d. h. um spektrale Mitte-Restwerte zu berechnen, die mit den Links-Prädiktionskoeffizienten das ungefilterte Mitte-Signal ergeben, kann eine einfache Prädiktion mit be reits berechneten, im Beispiel Links-Prädiktionskoeffizien ten, durchgeführt werden. Dieses L-gefilterte Mitte-Signal umfaßt nun die spektralen Restwerte, die zusammen mit den Links-Prädiktionskoeffizienten das ungefilterte Mitte-Signal ergeben würden. Nun können die spektralen Restwerte des L-gefilterten Mitte-Signals mit den spektralen Restwerten des TNS-gefilterten Links-Signals verglichen werden, da sich beide Spektralrestwerte auf die gleichen Prädiktionskoeffi zienten beziehen. Alternativ dazu ist es jedoch auch mög lich, das TNS-gefilterte Links-Signal einer inversen TNS- Filterung zu unterziehen, um ein ungefiltertes Links-Signal zu erhalten, und dieses Signal dann einer Prädiktion mit den Mitte-Prädiktionskoeffizienten zu unterziehen, derart, daß die spektralen Links-Restwerte ebenso wie die spektralen Mitte = Restwerte auf die Mitte-Prädiktionskoeffizienten be zogen sind.

Aus den vorstehend genannten Gründen muß daher das Ausgangs signal des M-Codierers/Decodierers einer inversen Prädiktion mittels des TNS^-1-M-Block 38 unterzogen werden, um einen (ungefilterten) codierten/decodierten Monokanal zu ergeben.

Durch einen Übrerbrückungszweig 39 wird sichergestellt, daß die inverse TNS-Filterung im Block 38 nicht durch eine Simulcast/Differenzumschaltung des FSS 156 beeinträchigt wird, d. h. daß die inverse TNS-Filterung korrekt abläuft.

Dieser ungefilterte codierte/decodierte Monokanal soll nun aber in den frequenzselektiven Schalteinrichtungen 22 bzw. 24 mit dem linken bzw. rechten Kanal, d. h. mit den spek tralen Restwerten des linken bzw. rechten Kanals verglichen werden. Um dies zu erreichen, kann der codierte/decodierte Monokanal für einen Vergleich mit dem TNS-gefilterten linken Signal in dem Block 40 einer TNS-Filterung mit den Links- Prädiktionskoeffizienten, die im Block 18 berechnet wurden und in den Seiteninformationen stehen, unterzogen werden. Alternativ kann der codierte/decodierte Monokanal M" zum Vergleich mit dem gefilterten zweiten Kanal R' in der fre quenzselektiven Schaltungseinrichtung 24 ebenfalls in dem Block 40 einer Prädiktion mit den R-Prädiktionskoeffizien ten, die in dem Block TNS-R 20 ermittelt wurden und in den Seiteninformationen stehen, unterzogen werden. Dieser (be handelte) L/R-gefilterte Monokanal M''' liegt am Knoten 42 an. Aus Übersichtlichkeitsgründen wird das am Knoten 42 an liegende Signal als L/R-gefilterter Monokanal M''' bezeich net, was bedeutet, daß der Monokanal entweder mit den L- oder den R-Prädiktionskoeffizienten gefiltert ist. Es wird bevorzugt, immer die Prädiktionskoeffizienten des Kanals mit der größeren Gesamtenergie zu verwenden. Es ist jedoch mög lich, von Frame zu Frame von den Prädiktionskoeffizienten des einen Kanals auf die Prädiktionskoeffizienten des ande ren Kanals umzuschalten, wobei ein Frame bekanntermaßen eine Verarbeitungseinheit aus z. B. 1024 zeitlichen Abtastwerten ist.

Es ist nicht zwingend, daß zwei zu kombinierende Signale auf die genau identischen Prädiktionskoeffizienten bezogen sind. So können auch noch spektrale Restwerte, die auf ähnliche Prädiktionskoeffizienten bezogen sind, kombiniert werden, ohne wesentliche Codiergewinneinbußen hinnehmen zu müssen. Hier kann ein Kompromiß gewählt werden. Wenn z. B. voll ständige Prädiktionen (18, 20) für L und R durchgeführt wor den sind, so können die daraus entstandenen spektralen Rest werte ohne inverse Prädiktion und erneute unvollständige Prädiktion eines Kanals kombiniert werden. Eine Behandlung der Signale vor ihrer Kombination umfaßt also hier das Prü fen, ob die Prädiktionskoeffizienten ähnlich genug sind, was bei ähnlichen Kanälen L und R zutreffen wird, und das un veränderte Weiterleiten, wenn die Prädiktionskoeffizienten ähnlich sind, bzw. das Durchführen entsprechender inverser Prädiktionen und unvollständiger Prädiktionen, wenn die Prä diktionskoeffizienten nicht ähnlich sind. Die Entscheidungs schwelle kann von mehreren Faktoren, wie z. B. dem Codierge winn, der Signalstärke oder dem vertretbaren Aufwand im Co dierer bzw. Decodierer, abhängen.

Zur Vereinfachung könnte für die Prädiktion über der Fre quenz des linken und rechten Kanals lediglich ein Satz von Prädiktionskoeffizienten eingesetzt werden, d. h. die Prä diktionskoeffizienten, die bei einer TNS-Filterung des lin ken Kanals berechnet wurden. Dann wären die Prädiktions koeffizienten der Blöcke 18, 20 gleich, weshalb des Signal am Knoten 42, d. h. der L/R-gefilterte Monokanal M''', in der Tat nur einen Satz von spektralen Restwerten umfassen würde, da es im ganzen Codierer in diesem Fall nur M-Prädik tionskoeffizienten und beispielsweise L-Prädiktionskoeffi zienten geben wird.

Die frequenzselektiven Schalteinrichtungen 22, 24 prüfen, ob es günstiger ist, den gefilterten ersten Kanal L' bzw. den gefilterten zweiten Kanal R' oder die Differenz des gefil terten linken Kanals L' und des L/R-gefilterten Monokanals bzw. die Differenz des gefilterten rechten Kanals und des L/R-gefilterten Monokanals weiter zu verarbeiten.

Nicht immer ist es günstig, eine Differenzverarbeitung zu verwenden. Die frequenzselektiven Schalteinrichtungen führen daher eine sogenannte Simulcast-Differenz-Umschaltung durch. Es ist dann ungünstig, ein Differenzsignal weiter zu verar beiten, wenn das Differenzsignal eine höhere Energie als das entsprechende andere Signal am Eingang der frequenzselek tiven Schalteinrichtung 22 bzw. 24 aufweist. Da grundsätz lich als Mono-Codierer ein beliebiger Codierer verwendet werden kann, kann es vorkommen, daß der Codierer bestimmte durch den Stereocodierer schwer zu codierende Signalanteile produziert. Falls eine Differenzcodierung jedoch nicht gün stig ist, da der Energieinhalt des Differenzsignals größer als der Energieinhalt des gefilterten ersten oder zweiten Kanals ist, wird von einer Differenzcodierung abgesehen und auf den Simulcast-Betrieb umgeschaltet.

Da die Differenzbildung im Frequenzbereich, d. h. selektiv spektralwertweise, stattfindet, ist es ohne weiteres mög lich, eine frequenzselektive Simulcast- oder Differenzco dierung durchzuführen. Die Differenzbildung im Spektrum erlaubt somit eine einfache frequenzselektive Wahl der Frequenzbereiche, welche differenzcodiert werden sollen. Prinzipiell könnte eine Umschaltung von einer Differenz- zu einer Simulcast-Codierung für jeden Spektralwert einzel 25548 00070 552 001000280000000200012000285912543700040 0002019829284 00004 25429n auftreten. Dies würde jedoch eine zu große Menge an Sei teninformationen erfordern. Daher wird es bevorzugt, bei spielsweise ein frequenzgruppenweises Vergleichen der Ener gien der Differenzspektralwerte und des transformierten linken bzw. rechten Kanals durchzuführen. Alternativ dazu können bestimmte Frequenzbänder von vorneherein festgelegt werden, z. B. 8 Bänder zu jeweils 500 kHz im Beispiel. Ein Kompromiß bei der Festlegung der Frequenzbänder besteht darin, die Menge der zu übertragenden Seiteninformationen, d. h. ob in einem Frequenzband die Differenzcodierung aktiv ist oder nicht, gegenüber dem Nutzen abzuwägen, der aus einer möglichst häufigen Differenzcodierung erwächst.

Fig. 2 zeigt eine skizzierte Darstellung eines Decodierers, um ein durch den in Fig. 1 dargestellten Codierer codiertes Signal decodieren zu können. Der Decodierer aus Fig. 2 um faßt einen Bitstromeingang, an dem ein skalierter Bitstrom anliegt, d. h. ein Bitstrom, der beispielsweise ein Monosi gnal und ein Stereosignal umfaßt, wobei das Monosignal un abhängig vom Stereosignal decodiert werden kann. Der am Bit stromeingang 100 anliegende Bitstrom BS wird in einen Demul tiplexer 102 eingespeist, der die Stereoschicht von der Mo noschicht trennt, und der zusätzlich die Seiteninformationen aus dem Bitstrom BS extrahiert. In Analogie zu Fig. 1 be steht die Stereoschicht hinter dem Demultiplexer 102 aus einer vorzugsweise AAC-codierten Darstellung eines ersten und eines zweiten Stereosignals, wobei das erste Stereosi gnal in einem ersten Stereo-Decodierer 104 decodiert wird, während das zweite Stereosignal in einem zweiten Stereodeco dierer 106 decodiert wird.

Die beiden Stereodecodierer 104 und 106 sind in Fig. 2 als L/M-Requantisierer bzw. als R/S-Requantisierer bezeichnet. Dies soll deutlich machen, daß das Stereosignal entweder Links-Rechts- oder Mitte-Seite-codiert sein kann. Es ist bekannt, daß die Links-Rechts-Codierung und die Mitte-Sei te-Codierung nicht nur von einem Block zum nächsten variiert werden können, sondern auch innerhalb eines Blocks frequenz selektiv. Die Festlegung, in welchem Frequenzbereich inner halb eines Blocks eine MS-Codierung durchgeführt wird, wird durch die MS-Bestimmung 26 (Fig. 1) festgelegt, die eine so genannte MS-Maske bildet. Falls eine Links-Rechts-Codierung im empfangenen und demultiplexten Stereoschichtbitstrom vor liegt, gibt der Stereodecodierer 104 in Analogie zu Fig. 1 das erste spektrale Stereosignal L" aus, während der zweite Stereocodierer 106 nach einer Decodierung und Requantisie rung als zweites spektrales Stereosignal das Signal R" aus gibt. Liegt dagegen eine Mitte/Seite-Codierung dar, so gibt der Stereodecodierer 104 als erstes Stereosignal das Signal M^V aus, während der zweite Stereocodierer 106 als zweites spektrales Stereosignal das Seitensignal S ausgibt.

Die durch den Demultiplexer 102 gewonnene Monoschicht wird dagegen in einen Mono-Requantisierer 108 eingegeben, um das codierte Monosignal aus der Monoschicht zu decodieren. In Analogie zu der Bezeichnung der Blöcke 104 und 106 wird auch der Block 108 als Requantisierer bezeichnet. Weiter oben wurde festgestellt, daß der M-Codec 34 bei dem in Fig. 1 gezeigten Ausführungsbeispiel als psychoakustischer AAC- Codec ausgeführt ist. Dies bedeutet, daß der Mono-Requanti sierer 108 ähnlich zu den beiden Stereodecodierern 104 und 106 aufgebaut ist.

Um nun das Stereosignal wieder rekonstruieren zu können, muß die in dem Ausgangssignal des Mono-Requantisierers 108 noch vorliegende M-TNS-Filterung aufgehoben werden. Dies ge schieht im Block TNS^-1-M 110. Am Ausgangssignal des Blocks TNS^-1-M 110 liegt somit der codierte/decodierte (ungefilter te) Monokanal M" an. Dieses Signal kann mittels eines Blocks 111 in den Zeitbereich transformiert werden, als decodierter Monokanal ausgegeben werden und von einem Empfänger weiterverarbeitet werden, der sich lediglich für ein Monosignal interessiert. In Analogie zu Fig. 1 muß der codierte/decodierte Monokanal M" einer L/R-Filterung unter zogen, damit die spektralen Restwerte des Monokanals auf die gleichen Prädiktionskoeffizienten wie die spektralen Rest werte des linken bzw. des rechten Kanals bezogen sind. Nur dann können Differenzen bzw. Summen sinnvoll gebildet wer den, d. h. nur dann ist eine Kombination bzw. ein sinnvoller Vergleich möglich. Dies geschieht in dem Block TNS-R/L 112. Am Ausgang des Blocks TNS-R/L liegt somit der L/R-gefilterte Monokanal M''' an. Die Notation L/R bzw. R/L soll auf eine wahlweise Verwendung von R-Prädiktionskoeffizienten oder von L-Prädiktionskoeffizienten hinweisen. Der L/R-gefilterte Monokanal wird nun einem Summierer 114 zugeführt, um im Falle einer Mitte/Seite-Codierung zu dem ersten Stereosignal M^V addiert zu werden. Das Ergebnis ergibt dann das "wahre" Mitte-Signal, das bezüglich Fig. 1 das Signal am Ausgang des Multiplizierers 50a ist.

Der in Fig. 2 gezeigte Decodierer umfaßt ferner zwei inverse frequenzselektive Schalteinrichtungen 116, 118, wobei die inverse frequenzselektive Schalteinrichtung 116 für die Ver arbeitung des linken, d. h. des ersten Kanals L, vorgesehen ist, während die inverse frequenzselektive Schalteinrichtung 118 für die Verarbeitung des zweiten bzw. rechten Kanals R dient. Den inversen frequenzselektiven Schalteinrichtungen 116 und 118 ist jeweils ein Summierer 120 bzw. 122 vorge schaltet, derart, daß eine inverse frequenzselektive Schalt einrichtung als Eingangssignal sowohl ein spektrales Stereo signal L", R" als auch die Summe des spektralen Stereosi gnals L", R" und des durch einen Multiplizierer 124 ver doppelten "wahren" Mitte-Signals (entspricht dem Ausgangs signal des Multiplizierers 50a in Fig. 1) erhält. Die in versen frequenzselektiven Schalteinrichtungen 116, 118 wer den durch entsprechende Seiteninformationen 126 angesteuert, um die bei der Codierung vorliegenden Verhältnisse, d. h. Differenz- bzw. Simulcastcodierung in einem Frequenzband, nachzubilden.

Die inversen frequenzselektiven Schalteinrichtungen 116 und 118 geben, wenn sie durch die Seiteninformationen 126 kor rekt angesteuert werden, einen (decodierten) gefilterten ersten Kanal L' und einen (decodierten) gefilterten zweiten Kanal R' aus. In einem Block MS^-1 128 wird die Mitte/Seite- Codierung rückgängig gemacht, die durch den Block MS-Be stimmung 26 (Fig. 1) eingeführt wurde. Dies bedeutet, daß bei Vorliegen einer Links-Rechts-Codierung die Eingangssi gnale L', R' unverändert durchgelassen werden, während bei Vorliegen einer Mitte-Seite-Codierung mittels einfacher Ad dition und Subtraktion aus dem Mittesignal und dem Seite signal S der (decodierte) gefilterte erste Kanal L' und der (decodierte) gefilterte zweite Kanal R' berechnet werden. Zum Rückgängigmachen der TNS-Filterung wird der gefilterte erste Kanal einer inversen TNS-Filterung mittels des Blocks TNS^-1-L 130 unterzogen. Analog dazu wird der rechte Kanal einer inversen Prädiktion über der Frequenz unterzogen, die durch den Block TNS^-1-R 132 in Fig. 2 schematisch darge stellt ist. An dieser Stelle sei darauf hingewiesen, daß der gefilterte erste Kanal L' genauso wie der gefilterte zweite Kanal R' spektrale Restwerte des ersten Kanals L und des zweiten Kanals R sind, welche erst zusammen mit dem entspre chenden TNS-Prädiktionskoeffizienten den spektralen ersten Kanal L und den spektralen zweiten Kanal R ergeben. Die TNS-Prädiktionskoeffizienten für den ersten Kanal L und für den zweiten Kanal R werden, wie es in Fig. 2 durch die Sei teninformationenleitungen 126 dargestellt ist, aus den Sei teninformationen extrahiert und den TNS^-1-Blöcken 130 und 132 zugeführt.

Um schließlich den zeitlichen ersten Kanal 1 und den seit lichen zweiten Kanal r zu erhalten, müssen die spektralen Kanäle mittels einer inversen Filterbank in den Zeitbereich transformiert werden, wie es durch die Blöcke MDCT^-1-L 134 und MDCT^-1-R 136 in Blockschaltbildform illustriert ist.

Wie bereits mehrfach festgestellt wurde, ist der Codierer gemäß einem ersten Ausführungsbeispiel der vorliegenden Er findung, der in Fig. 1 dargestellt ist, ein skalierbarer TNS-Stereocodierer mit einer Monoschicht, wobei die Mono schicht vorzugsweise ebenso wie die Stereoschicht mit maxi mal voller Bandbreite codiert ist, da der M-Codec 34 als psychoakustischer AAC-Codierer ausgeführt ist. Daher gibt der Mono-Requantisierer 108 des Decodierers in Fig. 2 einen Monokanal mit voller Bandbreite aus. Die Skalierbarkeit be steht bei dem in Fig. 1 gezeigten Codierer und dem analogen in Fig. 2 gezeigten Decodierer darin, zur Decodierung unter einer Stereoschicht und einer Monoschicht auswählen zu kön nen.

Im nachfolgenden wird der in Fig. 3 gezeigte Codierer be schrieben, der ein skalierbarer TNS-Stereocodierer ist, bei dem die Monoschicht aus einer ersten Mono-Teilschicht und aus einer zweiten Mono-Teilschicht besteht. Dieser Codierer ist somit nicht nur bezüglich Stereo/Mono skalierbar, son dern hier ist auch die Monoschicht in eine erste Mono-Teil schicht und in eine zweite Mono-Teilschicht skaliert. Glei che Elemente in den Fig. 1 und 3 sind in Fig. 3 durch die entsprechenden Bezugszeichen gekennzeichnet. Soweit sich die Funktionsweise dieser Elemente nicht von der im Zusammenhang mit Fig. 1 beschriebenen unterscheidet, wird auf diese Ele mente nicht mehr eingegangen.

Im Unterschied zu dem in Fig. 1 gezeigten Codierer gemäß dem ersten Ausführungsbeispiel der vorliegenden Erfindung umfaßt der in Fig. 3 gezeigte Codierer einen sogenannten Core-Codec 140, welcher üblicherweise ein Codierer mit niedriger Bitra te ist, z. B. ein CELP-Sprachcodiersystem. Der Core-Codec 140 liefert eine erste Mono-Teilschicht, wobei diese Mono- Teilschicht üblicherweise eine Bandbreite von nur 0 bis 4 kHz haben wird. Der Core-Codec erhält als Eingangssignal einen zeitlichen Monokanal m, der gebildet wird, indem sowohl der zeitliche linke Kanal l aus auch der zeitliche rechte Kanal r mittels einer Multiplikationseinrichtung 142a bzw. 142b halbiert werden, woraufhin der halbierte zeitliche linke Kanal und der halbierte zeitliche rechte Kanal mittels eines Addierers 144 addiert werden, um den zeitlichen Mono kanal m zu erhalten.

Der zeitliche Monokanal m liegt noch ebenso wie der zeit liche linke Kanal l und der zeitliche rechte Kanal r mit der Stereo-Abtastrate vor. Um die Bitrate der ersten Mono-Teil schicht im Vergleich zur Bitrate der Stereoschicht zu redu zieren, wird der zeitliche Monokanal m mittels eines Down sampling-Filters 144 gefiltert. Das Ausgangssignal des Down sampling-Filters 144 wird mittels des im Core-Codec 140 vor handenen Core-Codierers codiert und als erste Monoteil schicht 146 zu einem Bitstrommultiplexer (nicht gezeigt) ausgegeben. Um die in der ersten Monoteilschicht bereits co dierten Informationen bei der weiterführenden Codierung be rücksichtigen zu können, wird das im Core-Coder codierte Signal innerhalb des Core-Codec 140 wieder decodiert und mittels eines Upsampling-Filters gefiltert, derart, daß das Ausgangssignal des Upsampling-Filters 148 gleiche Abtastra tenverhältnisse aufweist wie der zeitliche erste Kanal l und der zeitliche zweite Kanal r.

Das Ausgangssignal des Upsampling-Filters 148 wird dann mittels einer MDCT-Filterbank 150 in den Frequenzbereich transformiert, um einen codierten/decodierten spektralen Monokanal M_cd zu erhalten. Dieser codierte/decodierte spek trale Monokanal wird nun einer TNS-Filterung innerhalb eines Blocks TNS-M 152 unterzogen. Hier kann entweder eine voll ständige neue Prädiktionskoeffizientenberechnung durchge führt werden, oder es können die bereits in den Seiteninfor mationen vorhandenen Prädiktionskoeffizienten, die durch die TNS-M-Filterung im Block 32 erhalten wurden, hergenommen werden. Auf jeden Fall müssen für die Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Monokanal M_cd und dem spektralen Monokanal M hinter dem Multiplizierer 30 die gleichen Prädiktionskoeffizienten verwendet werden, damit die Ausgangssignale der Blöcke 32 und 152, d. h. die spektralen Restwerte, verglichen werden können.

Dieser Vergleich findet mittels eines Addierers 154 und einer frequenzselektiven Schalteinrichtung 156 statt. Am Ausgangssignal des Addierers 154 liegt somit der "Rest" des Monokanals an, der bis zur maximalen Bandbreitenfrequenz des Core-Codecs 140 lediglich den durch den Core-Codec 140 eingeführten Codierfehler umfaßt, und der über der maximalen Bandbreite des Core-Codecs 140 das volle Monosignal umfaßt. Die frequenzselektive Schalteinrichtung 156 bestimmt wieder um, ob es günstiger ist, eine Differenz-Codierung oder eine Simulcast-Codierung bzw. Verarbeitung einzusetzen. Am Aus gang der frequenzselektiven Schalteinrichtung 156 liegt so mit ein Vergleichs-Monokanal M_cd" vor, der durch Verglei chen des gefilterten codierten/decodierten spektralen Mono kanals M_cd, und des gefilterten Monokanals M' erhalten wur de. In Analogie zu Fig. 1 wird der Vergleichs-Monokanal M_cd" in den M-Codec 36 eingespeist und einer inversen TNS- Filterung mit den M-Prädiktionskoeffizienten 38 unterzogen, um einen codierten/decodierten Monokanal zu erhalten.

Wenn Fig. 1 mit Fig. 3 verglichen wird, so bleibt festzu stellen, daß der codierte/decodierte Monokanal M" in Fig. 1 und in Fig. 3 oberhalb der Core-Codec-Bandbreite identisch sind, während sich diese Signale unterhalb der Core-Codec- Bandbreitenfrequenz darin unterscheiden, daß der codier te/decodierte Monokanal M" von Fig. 3 lediglich noch den vom Core-Codec 140 eingeführten Codierfehler umfaßt, während der codierte/decodierte Monokanal M" von Fig. 1 das gesamte Monosignal beinhaltet. In gewissen Fällen kann es jedoch sein, daß der durch den Core-Codec 140 eingeführte Codier fehler bereits größer als das Monosignal ist, wobei in die sem Fall die frequenzselektive Schalteinrichtung 156 keine Differenz-Verarbeitung wählen wird, sondern eine Simulcast- Verarbeitung.

Fig. 4 zeigt den zu Fig. 3 analogen Decodierer. Im Vergleich zu dem in Fig. 2 gezeigten Decodierer umfaßt der in Fig. 4 gezeigte Decodierer, der eine Stereoschicht und zwei Mono teilschichten decodieren kann, zusätzlich einen Core-Decoder 160, eine MDCT-Filterbank 162, einen Block TNS-M 164, einen Addierer 166 sowie eine inverse frequenzselektive Schalt einrichtung 168. Außerdem ist dem Core-Decodierer 160 ein Upsamling-Filter 170 nachgeschaltet.

Die in Fig. 4 gezeigten zusätzlichen Decodiererelemente werden nachfolgend erläutert. Der Demultiplexer 102 trennt die Stereoschicht und die Monoschicht und führt insbesondere eine Trennung der ersten Monoteilschicht und der zweiten Mo noteilschicht durch. Das Ausgangssignal des Mono-Requanti sierers 108 ist nun die decodierte zweite Monoteilschicht, während die erste Monoteilschicht in den Core-Decoder 160 eingespeist wird, der identisch zu dem Core-Decoder im Core-Codec 140 arbeitet. Das Ausgangssignal des Core-Deco ders wird in das Upsampling-Filter 170 eingegeben, um glei che Abtastfrequenzverhältnisse zwischen der decodierten er sten Monoteilschicht und der decodierten zweiten Monoteil schicht herzustellen.

Es existieren somit zwei optionale Möglichkeiten zur Ausgabe eines Monosignals. Die erste Monoteilschicht kann, wie in Fig. 4 gezeigt, aus dem Core-Decoder ausgegeben werden. Dieses Signal hat dann eine Abtastfrequenz entsprechend dem Core-Codec. Alternativ oder gleichzeitig kann das Signal am Ausgang des Upsampling-Filters 170 als Core-Zeitsignal verwendet werden. Dieses Monosignal entspricht der ersten Monoschicht, jedoch mit dem Unterschied, daß seine Abtast frequenz der des linken bzw. rechten Stereokanals vor dem Codieren entspricht.

Das von dem Upsampling-Filter 170 gefilterte Signal wird durch die MDCT-Filterbank 162 in den Frequenzbereich trans formiert, um wiederum den codierten/decodierten spektralen Monokanal M_cd (siehe Fig. 3) zu erhalten. Dieses Signal wird in dem Block 164 TNS-gefiltert, wobei die TNS-Filterkoeffi zienten aus den Seiteninformationen 126 verwendet werden, die beispielsweise durch den TNS-Prädiktor 152 oder 32 von Fig. 3 im Codierer ermittelt wurden. Am Ausgang des Blocks 164 liegt dann der gefilterte codierte/decodierte spektrale Monokanal M'_cd an, der in den Addierer 166 ebenso wie die decodierte zweite Monoteilschicht eingegeben wird. Der Ad dierer 166 speist wiederum die inverse frequenzselektive Schalteinrichtung 168, die in Analogie zu den inversen fre quenzselektiven Schalteinrichtungen 116 und 118 abhängig von den Seiteninformationen gesteuert wird, um die im Codierer eingeführten frequenzweisen Selektionen wieder rückgängig zu machen. Am Ausgang der inversen frequenzselektiven Schalt einrichtung 168 liegt dann der gefilterte Monokanal M' an, der durch den inversen Prädiktor TNS^-1-M 110 einer inversen Prädiktion über der Frequenz unterzogen wird, um den codier ten/decodierten Monokanal M" zu erhalten. Die weitere Ver arbeitung ist zu der in Fig. 2 beschriebenen Verarbeitung identisch.

Fig. 5 zeigt einen Codierer gemäß einem zweiten Ausführungs beispiel der vorliegenden Erfindung, wobei dieser Codierer ein skalierbarer TNS-Stereocodierer ist, der als Monoschicht lediglich das Ausgangssignal des Core-Codec 140 hat, d. h. der keinen AAC-Monocodierer 34 umfaßt. Der zeitliche Monoka nal m wird einer Filterung im Downsampling-Filter 144 unter zogen und dann im Core-Codec 140 codiert, um eine Mono schicht zu ergeben. Die Monoschicht wird dann innerhalb des Core-Codec 140 wieder decodiert und durch ein Upsampling- Filter 148 gefiltert und dann mittels der Filterbank 150 in den Frequenzbereich umgesetzt, um den codierten/decodierten spektralen Monokanal M_cd zu erhalten.

Im Unterschied zu dem in Fig. 3 gezeigten Ausführungsbei spiel wird nun jedoch keine "eigenständige" Prädiktion über der Frequenz des codierten/decodierten spektralen Monokanals M_cd bzw. eine Prädiktion über der Frequenz mit "M-Prädik tionskoeffizienten" durchgeführt, sondern bereits eine Prä diktion über der Frequenz mittels L- oder R-Prädiktionsko effizienten, die in den Blöcken 18 bzw. 20 berechnet wurden. Diese L/R-Prädiktion ist durch einen Block TNS-L/R 172 sym bolisiert. Dies bedeutet, daß sofort auf die TNS-L/R-Prädik tionskoeffizienten "gegangen" wird, und daß keine M-Prädik tion durchgeführt wird. Daher findet auch in Fig. 5 statt der TNS-M-Prädiktion 32 (Fig. 3) eine TNS-L/R-Prädiktion statt, wie es durch den Block 174 angedeutet ist. Am Ausgang des TNS-L/R-Blocks 172 liegt somit der L/R-gefilterte co dierte/decodierte Monokanal M_cd''' an, während am Ausgang des TNS-L/R-Blocks 174 der L/R-gefilterte Monokanal anliegt. Das Signal M''' und das Signal M'''_cd sind beide auf L- oder R-Prädiktionskoeffizienten bezogen und können somit mittels des Addierers 154 verglichen werden, derart, daß die fre quenzselektive Schalteinrichtung 156 einen Differenz-Betrieb oder einen Simulcast-Betrieb wählen kann. Wie bereits im Zu sammenhang mit Fig. 3 erörtert wurde, hat der Core-Codec ei ne maximale Bandbreite, die im allgemeinen wesentlich gerin ger als die volle Stereobandbreite ist. Daher wird das Aus gangssignal der frequenzselektiven Schalteinrichtung 156, d. h. der L/R-Vergleichs-Monokanal M_cd ^iv, bis zur maximalen Core-Coderfrequenz im allgemeinen den Codierungs/Decodie rungs-Fehler des Core-Codecs umfassen, und über der maxi malen Core-Coder-Frequenz den vollen Monokanal. Die weiter gehende Verarbeitung entspricht im wesentlichen der im Zu sammenhang mit den Fig. 1 und 3 beschriebenen Vorgehenswei sen.

Fig. 6 zeigt den zu Fig. 5 analogen Decodierer. Im Vergleich zu Fig. 4 umfaßt Fig. 6 keinen Mono-Requantisierer 108, da der in Fig. 5 gezeigte Codierer auch keinen M-Codec 34 auf wies. Die Monoschicht, die bei dem in Fig. 6 gezeigten Deco dierer dem Ausgangssignal des Core-Coders entspricht, wird in einem analogen Core-Decoder 160 wieder decodiert und mittels eines Upsampling-Filters 170 gefiltert, um gleiche Abtastfrequenzverhältnisse des Mono- und des Stereosignals zu erhalten. Das Ausgangssignal des Upsampling-Filters 170 wird nun mittels einer MDCT-Filterbank 162 in den Frequenz bereich transformiert, um den codierten/decodierten spektra len Monokanal M_cd zu erhalten. Im Unterschied zu Fig. 5 wird in Fig. 6 jedoch keine Prädiktion über der Frequenz mittels M-Prädiktionskoeffizienten durchgeführt, sondern eine Prä diktion über der Frequenz unter Verwendung der R- oder der L-Prädiktionskoeffizienten, die in den Seiteninformationen 126 gespeichert sind. Diese Tatsache ist durch den Block TNS-R/L 178 in Fig. 6 schematisch dargestellt. Am Ausgang des Blocks TNS-R/L liegt daher der L/R-gefilterte codier te/decodierte Monokanal M_cd''' an, der zum einen in einen Addierer 180 eingespeist wird und zum anderen in einen Mul tiplizierer 182, um über die Addierer 122 und 120 mit dem ersten spektralen Stereosignal L" oder mit dem zweiten spektralen Stereosignal R" verglichen zu werden. Der zweite Eingang des Addierers 180 wird mit dem ersten spektralen Stereosignal M^v beaufschlagt, um das Mitte-Signal, in diesem Falle den L/R-gefilterten Monokanal M''', zu bilden, wenn eine Mitte = Seite-Codierung vorhanden war. Das Ausgangssignal des Addierers 180, das ebenso wie das erste spektrale Ste reosignal M^v in eine weitere inverse frequenzselektive Schalteinrichtung 182 eingespeist wird, entspricht, wie es bereits im Zusammenhang mit Fig. 1 dargestellt wurde, dem Ausgangssignal des Multiplizierers 50a, d. h. dem L/R-gefil terten vollständigen Monokanal. Die weitere Verarbeitung im Codierer von Fig. 6 ist wieder analog zur Verarbeitung in der Decodierern der Fig. 2 und 4.

Zusammengefaßt läßt sich daher feststellen, daß Codierer gemäß der vorliegenden Erfindung zumindest eine Monoschicht und eine Stereoschicht aufweisen, wobei die Monoschicht zu sätzlich skaliert sein kann, und zwar in Form einer ersten Monoteilschicht mit geringer Bandbreite und in Form einer zweiten Monoschicht in AAC-Qualität. Für Fachleute ist es jedoch offensichtlich, daß auch die Stereoschicht weiter skaliert werden kann, um beispielsweise eine Bandbreitenco dierung von bis zu 12 kHz zu erreichen, was etwa der HiFi- Qualität entspricht, und um darüberhinaus eine Bandbreiten codierung bis zu 20 kHz in der weiteren Stereoskalierungs schicht zu erreichen, was etwa einer Compact-Disk- (CD-) Qualität entspricht.

Claims

1. Verfahren zum Verarbeiten eines zeitlichen Stereosi gnals, das einen zeitlichen ersten (1) und einen zeit lichen zweiten (r) Kanal aufweist, um einen skalierten Bitstrom (100) mit einer Monoschicht und einer Stereo schicht zu erhalten, mit folgenden Schritten:
Transformieren (14, 16) des zeitlichen ersten (1) und des zeitlichen zweiten (r) Kanals in den Frequenzbe reich;
Bilden (28, 30) eines spektralen Monokanals (M) durch Kombination des spektralen ersten (L) und des spektra len zweiten (R) Kanals;
Durchführen (18, 20, 32) einer ersten, zweiten und dritten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), dem spektralen zweiten Kanal (R) bzw. dem spektralen Monokanal (M), um einen gefilterten er sten Kanal (L'), einen gefilterten zweiten Kanal (R') bzw. einen gefilterten Monokanal (M') zu erhalten;
Codieren (Teilfunktion des Blocks Codierer/Decodierer 34) des gefilterten Monokanals (M'), um die Monoschicht (36) des skalierten Bitstroms (100) zu erhalten;
Decodieren (Teilfunktion des Blocks Codierer/Decodierer 34) des codierten gefilterten Monokanals, um einen co dierten/decodierten Monokanal (M") zu erhalten;
Behandeln (38, 40) des gefilterten ersten (L') und zweiten Kanals (R') sowie des codierten/decodierten Monokanals (M"), um einen behandelten ersten Kanal, einen behandelten zweiten Kanal und einen behandelten Monokanal zu erhalten, derart, daß die drei behandelten Kanäle einer Prädiktion mit nur bis zu einem bestimmten Grad unterschiedlichen Prädiktionskoeffizienten unter zogen sind; und
Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereo signals (L", R"; M^v, S) für die Stereoschicht des skalierten Bitstroms (100) unter Berücksichtigung der Codiereffizienz durch Vergleichen (46a, 46b, 22, 24) des behandelten Monokanals (M''') mit dem behandelten ersten (L') und zweiten Kanal (R') und/oder einer Kom bination aus dem behandelten ersten (L') und zweiten (R') Kanal.

2. Verfahren gemäß Anspruch 1, bei dem die Monoschicht selbst unterskaliert ist, das ferner folgende Schritte aufweist:
Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) zeitlichen Kanal;
Codieren (140) des zeitlichen Monokanals (m) mittels eines ersten Codieralgorithmus, um eine erste Monoteil schicht der Monoschicht zu erhalten;
Decodieren (140) und Transformieren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spektralen Monokanal (M_cd) zu er halten;
Durchführen (152) einer weiteren Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Mo nokanal (M_cd), wobei Prädiktionskoeffizienten der drit ten Prädiktion (32) verwendet werden, um einen gefil terten codierten/decodierten Monokanal (M_cd') zu erhal ten;
Vergleichen (154, 156) des gefilterten codierten/deco dierten Monokanals (M_cd') mit dem gefilterten Monokanal (M'), um einen Vergleichs-Monokanal (M_cd") zu erhal ten, wobei im Schritt des Codierens des gefilterten Mo nokanals statt des gefilterten Monokanals (M') der Ver gleichs-Monokanal (M_cd') mittels eines zweiten Codier algorithmus codiert wird, um eine zweite Monoteil schicht der Monoschicht zu erhalten, und wobei in dem Schritt des Decodierens des codierten gefilterten Mono kanals statt des gefilterten Monokanals (M') der Ver gleichs-Monokanal (M_cd") verwendet wird.

3. Verfahren nach Anspruch 2, bei dem der erste Codieral gorithmus (140) ein Sprachcodieralgorithmus ist, der psychoakustische Effekte nutzt oder nicht, während der zweite Codieralgorithmus (34) ein Algorithmus ist, der psychoakustische Effekte nutzt.

4. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem bei zwei der drei Prädiktionen im Schritt des Durchführens (18, 20, 32) Prädiktionskoeffizienten der weiteren verbleibenden Prädiktion verwendet werden, und
bei dem der Schritt des Behandelns folgenden Teil schritt aufweist:
unverändertes Weiterleiten des gefilterten ersten (L') und zweiten Kanals (R') sowie des codierten/de codierten Monokanals (M"), um die behandelten Kanäle zu erhalten.

5. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem für jede Prädiktion im Schritt des Durchführens (18, 20, 32) eigene Prädiktionskoeffizienten ermittelt werden, und
bei dem der Schritt des Behandelns folgende Teilschrit te aufweist:
Auswählen von Prädiktionskoeffizienten, die durch die Prädiktion (18), um einen gefilterten Kanal (L') der drei spektralen Kanäle (L, R, M) zu erhalten, erzeugt wurden;
Durchführen von zu den anderen beiden Prädiktionen (20, 32) inversen Prädiktionen mit den beiden anderen gefilterten Kanälen (R', M");
Durchführen je einer Prädiktion mit den beiden ande ren gefilterten Kanälen (R', M"), wobei für beide Prädiktionen die ausgewählten Prädiktionskoeffizien ten verwendet werden, um die beiden behandelten an deren Kanäle (R', M''') zu erhalten; und
unverändertes Weiterleiten des gefilterten einen Ka nals (L'), um den behandelten einen (L') Kanal zu er halten.

6. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem für zwei Prädiktionen (18, 32) mit zwei Kanälen (L, M) im Schritt des Durchführens (18, 20, 32) eigene Prädiktionskoeffizienten ermittelt werden, und für die weitere Prädiktion (20) mit dem weiteren Kanal (R) die Prädiktionskoeffizienten des einen Kanals (L) der zwei Kanäle (L, M) verwendet werden, und
bei dem der Schritt des Behandelns folgende Teilschrit te aufweist:
Durchführen (38) einer zu der Prädiktion (32) mit dem anderen Kanal (M) inversen Prädiktion mit dem anderen gefilterten Kanal (M");
Durchführen einer Prädiktion (40) mit dem anderen Ka nal (R', M"), wobei die Prädiktionskoeffizienten des eines Kanals (L) verwendet werden, um den behandelten anderen Kanal (M''') zu erhalten; und
unverändertes Weiterleiten des gefilterten einen Ka nals (L'), um den behandelten einen Kanal zu erhal ten.

7. Verfahren nach Anspruch 6, bei dem eine der zwei Prä diktionen, für die eigene Prädiktionskoeffizienten ermittelt werden, die dritte Prädiktion (32) ist, und die andere Prädiktion die erste (18) oder zweite (20) Prädiktion ist.

8. Verfahren nach Anspruch 6 oder 7, bei dem die Prädik tionskoeffizienten, die zum Durchführen der Prädiktion mit dem anderen Kanal verwendet werden, die Prädikti onskoeffizienten des ersten (L) oder des zweiten (R) Kanals sind, und zwar abhängig davon, welcher Kanal der beiden Stereokanäle dominant ist.

9. Verfahren zum Verarbeiten eines zeitlichen Stereosi gnals, das einen zeitlichen ersten (1) und einen zeit lichen zweiten (r) Kanal aufweist, um einen skalierten Bitstrom (100) mit einer Monoschicht und einer Stereo schicht zu erhalten, mit folgenden Schritten:
Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) Kanal;
Codieren (140) des zeitlichen Monokanals (m), um die Monoschicht des skalierten Bitstroms zu erhalten;
Transformieren (14, 16) des ersten (1) und des zweiten (r) Kanals in den Frequenzbereich;
Bilden eines spektralen Monokanals (M) durch Kombina tion aus dem spektralen ersten (L) und dem spektralen zweiten (R) Kanal;
Decodieren (140) und Transformieren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spektralen Monokanal (M_cd) zu er halten;
Durchführen (18) einer ersten Prädiktion über der Fre quenz mit dem spektralen ersten Kanal (L), um einen ge filterten ersten Kanal (L') zu erhalten;
Durchführen (20) einer zweiten Prädiktion über der Fre quenz mit dem spektralen zweiten Kanal (R) um einen ge filterten zweiten Kanal (R') zu erhalten;
Durchführen (172, 174) einer dritten Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Monokanal (M_cd) und mit dem spektralen Monokanal (M), wobei Prädiktionskoeffizienten der ersten (18) oder zweiten (20) Prädiktion verwendet werden, um einen L/R-gefilterten codierten/decodierten Monokanal (M_cd''') bzw. einen L/R-gefilterten Monokanal (M''') zu erhalten;
Vergleichen (154, 156) des L/R-gefilterten codier ten/decodierten Monokanals (M_cd''') mit dem L/R-ge filterten Monokanal (M'''), um einen L/R-Vergleichs- Monokanal (M_cd ^iv) zu erhalten; und
Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosi gnals (L", R"; M^v, S) für die Stereoschicht des ska lierten Bitstroms unter Berücksichtigung der Codier effizienz durch Vergleichen des L/R-Vergleichs-Monoka nals (M_cd ^iv) mit dem gefilterten ersten Kanal (L'), dem gefilterten zweiten Kanal (R') und mit einer Kombina tion (48a, 48b, 50a, 50b, 52) aus dem gefilterten er sten (L') und dem gefilterten zweiten (R') Kanal.

10. Verfahren nach Anspruch 9, bei dem die erste Prädiktion (18) und die zweite Prädiktion (20) unter Verwendung identischer Prädiktionskoeffizienten durchgeführt wird.

11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Bildens eines ersten und eines zweiten spektralen Stereosignals (L", R"; M^v, S) fol gende Teilschritte aufweist:
Subtrahieren (50a) des gefilterten ersten Kanals (L') von dem mit einem Faktor von zwei multiplizierten (44a) behandelten gefilterten codierten/decodierten Monokanal (M''') bzw. dem mit einem Faktor von zwei multiplizier ten (44a) Vergleichs-Monokanal (M^iv);
Subtrahieren (46b) des gefilterten zweiten Kanals (R') von dem mit einem Faktor von zwei multiplizierten (48b) gefilterten codierten/decodierten Monokanal (M') bzw. dem mit einem Faktor von zwei multiplizierten (48b) Vergleichs-Monokanal (M^iv);
Vergleichen (22, 24) der Subtraktionsergebnisse mit ei nem Schwellenwert; und
Verwenden (22, 24) der Subtraktionsergebnisse als er stes und zweites spektrales Stereosignal (L", R"), wenn der Schwellenwert unterschritten wird, ansonsten, Verwenden (22, 24) des gefilterten ersten Kanals (L') und des gefilterten zweiten Kanals (R') als erstes und zweites spektrales Stereosignal (L", R").

12. Verfahren nach Anspruch 11, bei dem die Schritte des Vergleichens und des Verwendens (22, 24) frequenzselek tiv ausführbar sind.

13. Verfahren nach einem der Ansprüche 1 bis 12, bei dem der Schritt des Bildens eines ersten und eines zweiten spektralen Stereosignals ferner folgende Teilschritte aufweist:
Subtrahieren (52) des behandelten codierten/decodierten Monokanals (M''') bzw. des Vergleichs-Monokanals (M_cd") von der halben (50a) Summe (48a) des gefilter ten ersten Kanals (L') und des gefilterten zweiten Ka nals (R'), um als erstes spektrales Stereosignal ein Mitte-Signal (M^v) zu erhalten; und
Subtrahieren (48b) des halben (50b) gefilterten zweiten Kanals (R') von dem halben gefilterten ersten Kanal (L'), um als zweites spektrales Stereosignal ein Sei te-Signal (S) zu erhalten.

14. Verfahren nach Anspruch 13, das nach dem Schritt des Bildens eines ersten und eines zweiten spektralen Ste reosignals ferner folgenden Schritt aufweist: Vergleichen (26) der Energien des ersten spektralen Stereosignals (L", M^v) und des zweiten spektralen Stereosignals (R", S), um zu bestimmen, ob eine Mit te/Seite-Codierung oder eine Links/Rechts-Codierung für die Stereoschicht durchgeführt werden soll.

15. Verfahren zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms (100), der Seiteninformationen (126) aufweist, die auf die dem Audiobitstrom (100) zugrundeliegende Codierung hinweisen, mit folgenden Schritten:
Demultiplexen (102) des Audiobitstroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformationen zu erhalten;
Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgo rithmus, um einen decodierten Monokanal zu erhalten;
Requantisieren (104, 106) der Stereoschicht, um ein er stes und ein zweites spektrales Stereosignal (L", R"; M^v, S) zu erhalten;
Behandeln (110, 112) des ersten und zweiten Stereo signals (L", R"; M^v, S) sowie des decodierten Mono kanals, derart, daß die zwei Stereosignale und der de codierte Monokanal einer Prädiktion mit nur bis zu ei nem bestimmten Grad unterschiedlichen Prädiktionskoef fizienten unterzogen sind;
Kombinieren (114, 116, 118, 120, 122) des behandelten Monokanals (M''') mit dem behandelten ersten bzw. zwei ten spektralen Stereosignal (L", R"), um einen gefil terten ersten Kanal (L') und einen gefilterten zweiten Kanal (R') zu erhalten, aufgrund der Seiteninformatio nen;
Durchführen (130, 132) einer inversen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (L') und dem gefilterten zweiten Kanal (R'), um einen spektralen ersten (L) und einen spektralen zweiten (R) Kanal zu erhalten, unter Verwendung von zweiten bzw. dritten in den Seiteninformationen vorhandenen Prädiktionskoeffi zienten, die durch Prädiktion über der Frequenz mit ei nem ersten bzw. zweiten Stereokanal während des Codie rens erzeugt worden sind; und
Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbe reich, um ein zeitliches Stereosignal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zwei ten (r) Kanal aufweist.

16. Verfahren nach Anspruch 15, bei dem die Seiteninforma tionen erste Prädiktionskoeffizienten aufweisen, die durch Prädiktion über der Frequenz mit einem Monokanal erzeugt worden sind, bei dem die Monoschicht des Audio bitstroms selbst unterskaliert ist, und bei dem der Schritt des Decodierens der Monoschicht ferner folgende Teilschritte aufweist:
Demultiplexen der Monoschicht, um eine erste und eine zweite Monoteilschicht zu erhalten;
Decodieren (160) der ersten Monoteilschicht unter Ver wendung eines durch die Seiteninformationen identifi zierten ersten Codieralgorithmus, um eine erste deco dierte Monoteilschicht zu erhalten;
Decodieren (108) der zweiten Unterskalierungsschicht unter Verwendung eines durch die Seiteninformationen identifizierten zweiten Codieralgorithmus, um eine zweite Schicht des decodierten zeitlichen Monokanals zu erhalten;
Transformieren (162) der ersten Schicht in den Fre quenzbereich;
Durchführen (164) einer Prädiktion über der Frequenz mit den ersten Prädiktionskoeffizienten;
Kombinieren (166, 168) der transformierten ersten Schicht mit der zweiten Schicht aufgrund der Seitenin formationen, um einen gefilterten Monokanal (M') zu erhalten, wobei im Schritt des Durchführens (110) einer inversen Prädiktion über der Frequenz statt des deco dierten Monokanals der gefilterte kombinierte Monokanal (M') verwendet wird.

17. Verfahren nach Anspruch 15 oder 16, bei dem der Schritt des Behandelns (110, 112) ferner folgende Teilschritte aufweist:
Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Monokanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codierens ermittelt wurden, um einen ungefilterten codierten/decodierten Monokanal (M") zu erhalten;
Durchführen (112) einer Prädiktion über der Frequenz mit dem ungefilterten codierten/decodierten Monokanal (M"), um eine L/R-gefilterten Monokanal (M''') zu er halten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoef fizienten, die bei einer Prädiktion über der Frequenz des ersten (L) oder zweiten (R) Kanals während des Co dierens bestimmt wurden, um den behandelten Monokanal (M''') zu erhalten;
unverändertes Weiterleiten des ersten und zweiten Ste reosignals (L", R"; M^v, S), um das behandelte erste und zweite spektrale Stereosignal zu erhalten.

18. Verfahren zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms (100), der Seiteninformationen aufweist, die auf die dem Audiobitstrom (BS) zugrundeliegende Codierung hin weisen, mit folgenden Schritten:
Demultiplexen (102) des Audiobitstroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninforma tion zu erhalten;
Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgo rithmus, um einen decodierten Monokanal zu erhalten;
Transformieren (162) des decodierten Monokanals in den Frequenzbereich, um einen spektralen decodierten Mono kanal (M_cd) zu erhalten;
Requantisieren (104, 106) der Stereoschicht, um ein er stes und ein zweites spektrales Stereosignal (L", R"; M^v, S) zu erhalten;
Durchführen (178) einer Prädiktion über der Frequenz des decodierten Monokanals (M_cd), um einen L/R-gefil terten Monokanal (M_cd''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten oder zweiten Prädiktionskoeffizienten, die bei einer Prädiktion über der Frequenz mit dem ersten (L) oder zweiten (R) Kanal während des Codierens bestimmt wur den;
Kombinieren (120; 122, 116, 118) des L/R-gefilterten codierten/decodierten Monokanals (M_cd''') mit dem er sten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten (L') bzw. zweiten (R') Ka nal zu erhalten, aufgrund der Seiteninformationen;
Durchführen (130, 132) einer inversen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (1') und dem gefilterten zweiten Kanal (r'), um einen spektralen ersten (L) und einen spektralen zweiten (R) Kanal zu erhalten, unter Verwendung der zweiten bzw. dritten in den Seiteninformationen vorhandenen Prädiktionskoeffi zienten; und
Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbe reich, um ein zeitliches Stereosignal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zwei ten (r) Kanal aufweist.

19. Verfahren nach Anspruch 17 oder 18, bei dem der Schritt des Kombinierens ferner folgende Teilschritte aufweist:
Addieren (120) des L/R-gefilterten Monokanals (M''') bzw. des L/R-gefilterten codierten/decodierten Monoka nals (M_cd''') und des gefilterten ersten Kanals (L');
Addieren des L/R-gefilterten Monokanals (M''') bzw. des L/R-gefilterten codierten/decodierten Monokanals (M_cd''') und des gefilterten zweiten Kanals (R');
Verwenden (116, 118) der Additionsergebnisse oder des gefilterten ersten (1') bzw. zweiten (r') Kanals als gefilterter erster Kanal (L') bzw. gefilterter zweiter Kanal (R'), aufgrund der Seiteninformationen (126).

20. Verfahren nach einem der Ansprüche 17 bis 19, bei dem der Schritt des Kombinierens (116, 118) frequenzselek tiv ausführbar ist.

21. Verfahren nach Anspruch 20, bei dem das zweite spektrale Stereosignal ein Seite-Signal (S) aufweist, wobei das Verfahren ferner folgende Schritte aufweist:
Feststellen, ob eine Mitte/Seite- oder eine Links/ Rechts-Stereocodierung vorliegt, aufgrund der Seiten informationen;
Rückgängigmachen (128) der Mitte/Seite-Codierung, um den gefilterten ersten (L') bzw. den gefilterten zwei ten (R') Kanal zu ermitteln.

22. Vorrichtung zum Verarbeiten eines zeitlichen Stereosi gnals, das einen zeitlichen ersten (1) und einen zeit lichen zweiten (r) Kanal aufweist, um einen skalierten Bitstrom (100) mit einer Monoschicht und einer Stereo schicht zu erhalten, mit folgenden Merkmalen:
einer Einrichtung zum Transformieren (14, 16) des zeit lichen ersten (1) und des zeitlichen zweiten (r) Kanals in den Frequenzbereich, um einen spektralen ersten (L) Kanal und einen spektralen zweiten (R) Kanal zu erhal ten;
einer Einrichtung zum Bilden (28, 30) eines spektralen Monokanals (M) durch Kombination des spektralen ersten (L) und des spektralen zweiten (R) Kanals;
Einrichtungen zum Durchführen (18, 20, 32) einer er sten, zweiten und dritten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), dem spektralen zweiten Kanal (R) bzw. dem spektralen Monokanal (M), um einen gefilterten ersten Kanal (L'), einen gefilterten zweiten Kanal (R') bzw. einen gefilterten Monokanal (M') zu erhalten;
einer Einrichtung zum Codieren (Teilfunktion des Blocks Codierer/Decodierer 34) des gefilterten Monokanals (M'), um die Monoschicht (36) des skalierten Bitstroms (100) zu erhalten;
einer Einrichtung zum Decodieren (Teilfunktion des Blocks Codierer/Decodierer 34) des codierten gefilter ten Monokanals, um einen codierten/decodierten Mono kanal (M") zu erhalten;
einer Einrichtung zum Behandeln (38, 40) des gefilter ten ersten (L') und zweiten Kanals (R') sowie des co dierten/decodierten Monokanals (M"), um einen behan delten ersten Kanal, einen behandelten zweiten Kanal und einen behandelten Monokanal zu erhalten, derart, daß die drei behandelten Kanäle einer Prädiktion mit nur bis zu einem bestimmten Grad unterschiedlichen Prädiktionskoeffizienten unterzogen sind; und
einer Einrichtung zum Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosignals (L", R"; M^v, S) für die Stereoschicht des skalierten Bitstroms (100) unter Berücksichtigung der Codiereffizienz durch Vergleichen (46a, 46b, 22, 24) des behandelten Monokanals (M''') mit dem behandelten ersten (L') und zweiten Kanal (R') und/oder einer Kombination aus dem behandelten ersten (L') und zweiten (R') Kanal.

23. Vorrichtung nach Anspruch 22, bei dem die Monoschicht selbst unterskaliert ist, die ferner folgende Merkmale aufweist:
eine Einrichtung zum Bilden (142a, 142, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) zeitlichen Kanal;
eine Einrichtung zum Codieren (140) des zeitlichen Mo nokanals (m) mittels eines ersten Codieralgorithmus, um eine erste Monoteilschicht der Monoschicht zu erhalten;
eine Einrichtung zum Decodieren (140) und Transformie ren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spek tralen Monokanal (M_cd) zu erhalten;
eine Einrichtung zum Durchführen (152) einer fünften Prädiktion über der Frequenz mit dem codierten/deco dierten spektralen Monokanal (M_cd), wobei Prädiktions koeffizienten der dritten Prädiktion (32) verwendet werden, um einen gefilterten codierten/decodierten Mo nokanal (M_cd') zu erhalten;
eine Einrichtung zum Vergleichen (154, 156) des gefil terten codierten/decodierten Monokanals (M_cd') mit dem gefilterten Monokanal (M'), um einen Vergleichs-Mono kanal (M_cd") zu erhalten, wobei in der Einrichtung zum Codieren des gefilterten Monokanals statt des gefilter ten Monokanals (M') der Vergleichs-Monokanal (M_cd') mittels eines zweiten Codieralgorithmus codiert wird, um eine zweite Monoteilschicht der Monoschicht zu er halten, und wobei in der Einrichtung zum Decodieren des codierten gefilterten Monokanals statt des gefilterten Monokanals (M') der Vergleichs-Monokanal (M_cd") ver wendet wird.

24. Vorrichtung zum Verarbeiten eines zeitlichen Stereosi gnals, das einen zeitlichen ersten (1) und einen zeit lichen zweiten (r) Kanal aufweist, um einen skalierten Bitstrom (100) mit einer Monoschicht und einer Stereo schicht zu erhalten, mit folgenden Merkmalen:
einer Einrichtung zum Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) Kanal;
einer Einrichtung zum Codieren (140) des zeitlichen Mo nokanals (m), um die Monoschicht des skalierten Bit stroms zu erhalten;
einer Einrichtung zum Transformieren (14, 16) des er sten (1) und des zweiten (r) Kanals in den Frequenzbe reich;
einer Einrichtung zum Bilden eines spektralen Monoka nals (M) durch Kombination aus dem spektralen ersten (L) und dem spektralen zweiten (R) Kanal;
einer Einrichtung zum Decodieren (140) und Transformie ren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spek tralen Monokanal (M_cd) zu erhalten;
einer Einrichtung zum Durchführen (18) einer ersten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), um einen gefilterten ersten Kanal (L') zu erhalten;
einer Einrichtung zum Durchführen (20) einer zweiten Prädiktion über der Frequenz mit dem spektralen zweiten Kanal (R) um einen gefilterten zweiten Kanal (R') zu erhalten;
einer Einrichtung zum Durchführen (172, 174) einer dritten Prädiktion über der Frequenz mit dem codier ten/decodierten spektralen Monokanal (M_cd) und mit dem spektralen Monokanal (M), wobei Prädiktionskoeffizien ten der ersten (18) oder zweiten (20) Prädiktion ver wendet werden, um einen L/R-gefilterten codierten/de codierten Monokanal (M_cd''') bzw. einen L/R-gefilterten Monokanal (M''') zu erhalten;
einer Einrichtung zum Vergleichen (154, 156) des L/R gefilterten codierten/decodierten Monokanals (M_cd''') mit dem L/R-gefilterten Monokanal (M'''), um einen L/R-Vergleichs-Monokanal (M_cd ^iv) zu erhalten; und
einer Einrichtung zum Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosignals (L", R"; M^v, S) für die Stereoschicht des skalierten Bitstroms unter Be rücksichtigung der Codiereffizienz durch Vergleichen des L/R-Vergleichs-Monokanals (M_cd ^iv) mit dem gefilter ten ersten Kanal (L'), dem gefilterten zweiten Kanal (R') und mit einer Kombination (48a, 48b, 50a, 50b, 52) aus dem gefilterten ersten (L') und dem gefilterten zweiten (R') Kanal.

25. Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms (100), der Seiteninformationen (126) aufweist, die auf die dem Audiobitstrom (100) zugrundeliegende Codierung hinweisen, mit folgenden Merkmalen:
einer Einrichtung zum Demultiplexen (102) des Audiobit stroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformation zu erhalten;
einer Einrichtung zum Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgorithmus, um einen decodierten Monokanal zu erhalten;
einer Einrichtung zum Requantisieren (104, 106) der Stereoschicht, um ein erstes und ein zweites spektrales Stereosignal (L", R"; M^v, S) zu erhalten;
einer Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Mono kanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codie rens ermittelt wurden, um einen ungefilterten codier ten/decodierten Monokanal (M") zu erhalten;
einer Einrichtung zum Durchführen (112) einer Prädik tion über der Frequenz mit dem ungefilterten decodier ten/decodierten Monokanal (M"), um eine L/R-gefilter ten Monokanal (M''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoeffizienten, die bei einer Prädiktion über der Frequenz des ersten (L) oder zwei ten (R) Kanals während des Codierens bestimmt wurden;
einer Einrichtung zum Kombinieren (114, 116, 118, 120, 122) des L/R-gefilterten Monokanals (M''') mit dem er sten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten Kanal (L') und einen gefil terten zweiten Kanal (R') zu erhalten, aufgrund der Seiteninformationen;
einer Einrichtung zum Durchführen (130, 132) einer in versen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (L') und dem gefilterten zweiten Kanal (R'), um einen spektralen ersten (L) und einen spektra len zweiten (R) Kanal zu erhalten, unter Verwendung der zweiten bzw. dritten in den Seiteninformationen vorhan denen Prädiktionskoeffizienten; und
einer Einrichtung zum Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbereich, um ein zeitliches Stereosi gnal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zweiten (r) Kanal aufweist.

26. Vorrichtung nach Anspruch 25, bei der die Monoschicht des Audiobitstroms selbst unterskaliert ist, bei der die Einrichtung zum Decodieren der Monoschicht ferner folgende Merkmale aufweist:
eine Einrichtung zum Demultiplexen der Monoschicht, um eine erste und eine zweite Monoteilschicht zu erhalten;
eine Einrichtung zum Decodieren (160) der ersten Mono teilschicht unter Verwendung eines durch die Seitenin formationen identifizierten ersten Codieralgorithmus, um eine erste decodierte Monoteilschicht zu erhalten;
eine Einrichtung zum Decodieren (108) der zweiten Un terskalierungsschicht unter Verwendung eines durch die Seiteninformationen identifizierten zweiten Codieral gorithmus, um eine zweite Schicht des decodierten zeit lichen Monokanals zu erhalten;
eine Einrichtung zum Transformieren (162) der ersten Schicht in den Frequenzbereich;
eine Einrichtung zum Durchführen (164) einer Prädiktion über der Frequenz mit den ersten Prädiktionskoeffizien ten; und
eine Einrichtung zum Kombinieren (166, 168) der trans formierten ersten Schicht mit der zweiten Schicht auf grund der Seiteninformationen, um einen gefilterten Monokanal (M') zu erhalten, wobei in der Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz statt des decodierten Monokanals der ge filterte kombinierte Monokanal (M') verwendet wird.

27. Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms (100), der Seiteninformationen aufweist, die auf die dem Audiobitstrom (BS) zugrundeliegende Codierung hin weisen, mit folgenden Merkmalen:
einer Einrichtung zum Demultiplexen (102) des Audiobit stroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformation zu erhalten;
einer Einrichtung zum Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgorithmus, um einen decodierten Monokanal zu erhalten;
einer Einrichtung zum Transformieren (162) des deco dierten Monokanals in den Frequenzbereich, um einen spektralen decodierten Monokanal (M_cd) zu erhalten;
einer Einrichtung zum Requantisieren (104, 106) der Stereoschicht, um ein erstes und ein zweites spektrales Stereosignal (L", R"; M^v, S) zu erhalten;
einer Einrichtung zum Behandeln (110, 112) des ersten und zweiten Stereosignals (L", R"; M^v, S) sowie des decodierten Monokanals, um ein behandeltes erstes Ste reosignal, ein behandeltes zweites Stereosignal und einen behandelten Monokanal zu erhalten, derart, daß die zwei behandelten Stereosignale und der behandelte Monokanal einer Prädiktion mit nur bis zu einem be stimmten Grad unterschiedlichen Prädiktionskoeffizien ten unterzogen sind;
einer Einrichtung zum Kombinieren (114, 116, 118, 120, 122) des behandelten Monokanals (M''') mit dem behan delten ersten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten Kanal (L') und einen gefilterten zweiten Kanal (R') zu erhalten, auf grund der Seiteninformationen; und
einer Einrichtung zum Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbereich, um ein zeitliches Stereosi gnal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zweiten (r) Kanal aufweist.

28. Vorrichtung nach Anspruch 27, bei der die Einrichtung zum Behandeln (110, 112) ferner folgende Merkmale auf weist:
eine Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Mono kanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codie rens ermittelt wurden, um einen ungefilterten codier ten/decodierten Monokanal (M") zu erhalten;
eine Einrichtung zum Durchführen (112) einer Prädiktion über der Frequenz mit dem ungefilterten codierten/deco dierten Monokanal (M"), um ein L/R-gefilterten- Mono kanal (M''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoeffizienten, die bei einer Prädik tion über der Frequenz des ersten (L) oder zweiten (R) Kanals während des Codierens bestimmt wurden, um den behandelten Monokanal (M''') zu erhalten; und
eine Einrichtung zum unveränderten Weiterleiten des er sten und zweiten Stereosignals (L", R"; M^v, S), um das behandelte erste und zweite spektrale Stereosignal zu erhalten.