DE19829284C2 - Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms - Google Patents
Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten AudiobitstromsInfo
- Publication number
- DE19829284C2 DE19829284C2 DE19829284A DE19829284A DE19829284C2 DE 19829284 C2 DE19829284 C2 DE 19829284C2 DE 19829284 A DE19829284 A DE 19829284A DE 19829284 A DE19829284 A DE 19829284A DE 19829284 C2 DE19829284 C2 DE 19829284C2
- Authority
- DE
- Germany
- Prior art keywords
- channel
- filtered
- mono
- spectral
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
Description
Die vorliegende Erfindung bezieht sich auf das Codieren bzw.
Decodieren von Audiosignalen und insbesondere auf Bitraten
skalierbare Codierer bzw. Decodierer, die Stereo- und Mono
signale verarbeiten können, wobei zumindest bei der Stereo
codierung eine zeitliche Rauschformung (TNS; TNS = Temporal
Noise Shaping) implementiert ist.
Skalierbare Audiocodierer sind Codierer, die modular aufge
baut sind. So besteht die Bestrebung, bereits bestehende
Sprachcodierer zu verwenden, die Signale, die z. B. mit 8
kHz abgetastet sind, verarbeiten und Datenraten von bei
spielsweise 4,8 bis 8 Kilobit pro Sekunde ausgeben. Diese
bekannten Codierer, wie z. B. die für Fachleute bekannten
Codierer G. 729, G.723, FS1016, CELP oder parametrische
Modelle des MPEG-4-Audio-VM, dienen hauptsächlich zum Co
dieren von Sprachsignalen und sind im allgemeinen zum Co
dieren von höherqualitativen Musiksignalen nicht geeignet,
da sie üblicherweise für mit 8 kHz abgetastete Signale
entworfen sind, weshalb sie lediglich eine Audiobandbreite
von maximal 4 kHz codieren können. Sie zeigen jedoch im
allgemeinen einen schnellen Betrieb und einen geringen
Rechenaufwand.
Zur Audiocodierung von Musiksignalen, um beispielsweise
HIFI-Qualität oder CD-Qualität zu erreichen, wird daher bei
einem skalierbaren Codierer ein Sprachcodierer mit einem
Audiocodierer kombiniert, der Signale mit höherer Abtast
rate, wie z. B. 48 kHz, codieren kann. Selbstverständlich
ist es auch möglich, den obengenannten Sprachcodierer durch
einen anderen Codierer zu ersetzen, beispielsweise durch
einen Musik/Audiocodierer nach den Standards MPEG1, MPEG2
oder MPEG4.
Eine derartige Kettenschaltung eines Sprachcodierers mit
einem höherwertigen Audiocodierer verwendet üblicherweise
das Verfahren der Differenzcodierung im Zeitbereich. Ein
Eingangssignal, das beispielsweise eine Abtastrate von 48
kHz aufweist, wird mittels eines Downsampling-Filters auf
die für den Sprachcodierer geeignete Abtastfrequenz herun
ter-abgetastet. Nun wird das herunter-abgetastete Signal
codiert. Das codierte Signal kann direkt einer Bitstromfor
matiereinrichtung zugeführt werden, um übertragen zu werden.
Es enthält jedoch lediglich Signale mit einer Bandbreite von
z. B. maximal 4 kHz. Das codierte Signal wird ferner wieder
decodiert und mittels eines Upsampling-Filters herauf-ab
getastet. Das nun erhaltene Signal besitzt jedoch aufgrund
des Downsampling-Filters lediglich Nutzinformationen mit
einer Bandbreite von beispielsweise 4 kHz. Ferner ist fest
zustellen, daß der Spektralgehalt des herauf-abgetasteten
codierten/decodierten Signals im unteren Band bis 4 kHz
nicht exakt dem ersten 4-kHz-Band des mit 48 kHz abgetaste
ten Eingangssignals entspricht, da Codierer im allgemeinen
Codierfehler einführen.
Wie bereits erwähnt wurde, weist ein skalierbarer Codierer
sowohl einen allgemein bekannten Sprachcodierer als auch
einen Audiocodierer auf, der Signale mit höheren Abtastraten
verarbeiten kann. Um Signalanteile des Eingangssignals über
tragen zu können, deren Frequenzen über 4 kHz sind, wird ei
ne Differenz des Eingangssignals mit 8 kHz und des codier
ten/decodierten, herauf-abgetasteten Ausgangssignals des
Sprachcodierers für jeden einzelnen zeitdiskreten Abtastwert
gebildet. Diese Differenz kann dann mittels eines bekannten
Audiocodierers quantisiert und codiert werden, wie es für
Fachleute bekannt ist. An dieser Stelle sei angemerkt, daß
das Differenzsignal, das in den Audiocodierer, der Signale
mit höheren Abtastraten codieren kann, eingespeist wird, im
unteren Frequenzbereich abgesehen von Codierfehlern des
Sprachcodierers sehr viel kleiner als das Original ist. In
dem Spektralbereich, der oberhalb der Bandbreite des
herauf-abgetasteten codierten/decodierten Ausgangssignals
des Sprachcodierers liegt, entspricht das Differenzsignal im
wesentlichen dem wahren Eingangssignal, das mit z. B. 48 kHz
abgetastet wurde.
In der ersten Stufe, d. h. der Stufe des Sprachcodierers,
wird also zumeist ein Codierer mit niedriger Abtastfrequenz
eingesetzt, da im allgemeinen eine sehr niedrige Bitrate des
codierten Signals angestrebt wird. Derzeit arbeiten mehrere
Codierer, auch die genannten Codierer, mit Bitraten von we
nigen Kilobit (zwei bis 8 Kilobit oder auch darüber). Die
selben ermöglichen ferner eine maximale Abtastfrequenz von 8
kHz, da ohnehin nicht mehr Audiobandbreite bei dieser gerin
gen Bitrate möglich ist, und die Codierung bei niedriger
Abtastfrequenz bezüglich des Rechenaufwands günstiger ist.
Die maximal mögliche Audiobandbreite beträgt 4 kHz und ist
in der Praxis auf etwa 3,5 kHz beschränkt. Soll jetzt in der
weiteren Stufe, d. h. in der Stufe mit dem Audiocodierer,
eine Bandbreitenverbesserung erzielt werden, muß diese wei
tere Stufe mit einer höheren Abtastfrequenz arbeiten. Zur
Anpassung der Abtastfrequenzen werden Dezimations und In
terpolationsfilter zum Down- bzw. Upsampling eingesetzt.
Seit einiger Zeit ist es bekannt, zur weiteren Reduzierung
der Datenmenge die sog. TNS-Technik bei der hochqualitativen
Audiocodierung einzusetzen (J. Herre, J. D. Johnston,
"Enhancing the Performance of Perceptual Audio Coders by
Using Temporal Noise Shaping (TNS)", bist AES Convention,
Los Angeles 1996, Preprint 4384). Die TNS-Technik (TNS =
Temporal Noise Shaping = zeitliche Rauschformung) gestattet
allgemein gesagt mittels einer prädiktiven Codierung der
Spektralwerte eine zeitliche Formung der Feinstruktur des
Quantisierungsrauschens. Die TNS-Technik basiert auf einer
konsequenten Anwendung des Dualismus zwischen Zeit- und
Frequenzbereich. Aus der Technik ist bekannt, daß die Auto
korrelationsfunktion eines Zeitsignals, wenn sie in den
Frequenzbereich transformiert wird, die spektrale Leistungs
dichte eben dieses Zeitsignals angibt. Der duale Fall dazu
ergibt sich, wenn die Autokorrelationsfunktion des Spektrums
eines Signals gebildet wird und in den Zeitbereich transfor
miert wird. Die in den Zeitbereich transformierte oder rück
transformierte Autokorrelationsfunktion wird auch als Qua
drat der Hilbert-Hüllkurve des Zeitsignals bezeichnet. Die
Hilbert-Hüllkurve eines Signals ist somit direkt mit der
Autokorrelationsfunktion seines Spektrums verbunden. Die
quadrierte Hilbert-Hüllkurve eines Signals und die spektrale
Leistungsdichte desselben stellen somit duale Aspekte im
Zeitbereich und im Frequenzbereich dar. Wenn die Hilbert-
Hüllkurve eines Signals für jedes Teilbandpaßsignal über
einem Bereich von Frequenzen konstant bleibt, dann wird auch
die Autokorrelation zwischen benachbarten Spektralwerten
konstant sein. Dies bedeutet in der Tat, daß die Serie von
Spektralkoeffizienten über der Frequenz stationär ist, wes
halb prädiktive Codiertechniken effizient verwendet werden
können, um dieses Signal darzustellen, und zwar unter Ver
wendung eines gemeinsamen Satzes von Prädiktionskoeffizien
ten.
Um diesen Sachverhalt zu veranschaulichen, sei auf die Fig.
8A und Fig. 8B verwiesen. Fig. 8A zeigt einen kurzen Aus
schnitt aus einem zeitlich stark transienten "Kastagnet
ten"-Signal einer Dauer von ca. 40 ms. Dieses Signal wurde
in mehrere Teilbandpaßsignale zerlegt, wobei jedes Teil
bandpaßsignal eine Bandbreite von 500 Hz hat. Fig. 8B zeigt
nun die Hilbert-Hüllkurven für diese Bandpaßsignale mit
Mittenfrequenzen, die von 1500 Hz bis 4000 Hz reichen. Aus
Klarheitsgründen wurden alle Hüllkurven auf ihre Maximal
amplitude normiert. Offensichtlich sind die Formen aller
Teilhüllkurven sehr stark aufeinander bezogen, weshalb ein
gemeinsamer Prädiktor innerhalb dieses Frequenzbereiches
verwendet werden kann, um das Signal effizient zu codieren.
Ähnliche Beobachtungen können bei Sprachsignalen gemacht
werden, bei denen der Effekt der glottalen Erregungspulse
über dem gesamten Frequenzbereich aufgrund der Natur des
menschlichen Spracherzeugungsmechanismus vorhanden ist.
Fig. 8B zeigt also, daß die Korrelation benachbarter Werte
beispielsweise bei einer Frequenz von 2000 Hz ähnlich wie
bei beispielsweise einer Frequenz von 3000 Hz bzw. 1000 Hz
ist.
Eine alternative Weise zum Verständnis der Eigenschaft der
spektralen Prädiktierbarkeit von transienten Signalen kann
aus der in Fig. 7 dargestellten Tabelle erhalten werden.
Links oben in der Tabelle ist ein zeitkontinuierliches
Signal u(t) gezeigt, das einen sinusförmigen Verlauf hat.
Dem ist das Spektrum U(f) dieses Signales gegenübergestellt,
das aus einem einzigen Dirac-Impuls besteht. Die optimale
Codierung für dieses Signal besteht in der Codierung von
Spektraldaten oder Spektralwerten, da hier für das gesamte
Zeitsignal lediglich sowohl der Betrag als auch die Phase
des Fourrierkoeffizienten übertragen werden braucht, um das
Zeitsignal vollständig rekonstruieren zu können. Ein Codie
ren von Spektraldaten entspricht gleichzeitig einer Prädik
tion im Zeitbereich. Eine prädiktive Codierung würde hier
also im Zeitbereich stattfinden müssen. Das sinusförmige
Zeitsignal hat also eine flache zeitliche Hüllkurve, welche
einer maximal nicht flachen Hüllkurve im Frequenzbereich
entspricht.
Nun sei der entgegengestzte Fall betrachtet, bei dem das
Zeitsignal u(t) ein maximal transientes Signal in der Form
eines Dirac-Impulses im Zeitbereich ist. Ein Dirac-Impuls im
Zeitbereich entspricht einem "flachen" Leistungsspektrum,
während das Phasenspektrum gemäß der zeitlichen Position des
Impulses rotiert. Offensichtlich stellt dieses Signal für
die oben erwähnten traditionellen Verfahren, wie z. B. die
Transformationscodierung oder Codierung von Spektraldaten
oder eine lineare Prädiktionscodierung der Zeitbereichs
daten, ein Problem dar. Dieses Signal kann am besten und
effektivsten im Zeitbereich codiert werden, da lediglich die
zeitliche Position sowie die Leistung des Dirac-Impulses
übertragen werden muß, was durch konsequente Anwendung des
Dualismus dazu führt, daß auch eine prädiktive Codierung im
Frequenzbereich ein geeignetes Verfahren zur effizienten
Codierung darstellt.
Es ist sehr wichtig, nicht die prädiktive Codierung von
Spektralkoeffizienten über der Frequenz mit dem bekannten
dualen Konzept der Prädiktion von Spektralkoeffizienten von
einem Block zum nächsten zu verwechseln, das bereits imple
mentiert ist und ebenfalls in dem oben erwähnten Artikel (M.
Bosi, K. Brandenburg, S. Quakenbush, L. Fielder, K. Akagiri,
H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa:
"ISO/IEC MPEG-2 Advanced Audio Coding", 101 st AES Con
vention, Los Angeles 1996, Preprint 4382) beschrieben ist.
Bei der Prädiktion von Spektralkoeffizienten von einem Block
zum nächsten, welche einer Prädiktion über der Zeit ent
spricht, wird die spektrale Auflösung erhöht, während eine
Prädiktion von Spektralwerten über der Frequenz die zeit
liche Auflösung steigert. Ein Spektralkoeffizient bei bei
spielsweise 1000 Hz kann also durch den Spektralkoeffizien
ten bei beispielsweise 900 Hz in demselben Block oder Frame
ermittelt werden.
Die dargestellten Überlegungen führten also dazu, ein effi
zientes Codierverfahren für transiente Signale zu erhalten.
Prädiktive Codiertechniken können unter Berücksichtigung der
Dualität zwischen Zeit und Frequenzbereich im wesentlichen
analog zu der bereits bekannten Prädiktion von einem Spek
tralkoeffizienten zum Spektralkoeffizienten mit gleicher
Frequenz im nächsten Block behandelt werden. Da die spek
trale Leistungsdichte und die quadrierte Hilbert-Hüllkurve
eines Signals dual zueinander sind, wird eine Reduktion
einer Restsignalenergie oder ein Prädiktionsgewinn abhängig
von einem Flachheitsmaß der quadrierten Hüllkurve des
Signals im Gegensatz zu einem spektralen Flachheitsmaß beim
konventionellen Prädiktionsverfahren erhalten. Der poten
tielle Codierungsgewinn steigt mit transienteren Signalen
an.
Als mögliche Prädiktionsschemen bietet sich sowohl das Prä
diktionsschema mit geschlossener Schleife, das auch Rück
wärtsprädiktion genannt wird, sowie das Prädiktionsschema
mit offener Schleife, das auch Vorwärtsprädiktion genannt
wird, an. Beim spektralen Prädiktionsschema mit geschlos
sener Schleife (Rückwärtsprädiktion) ist die Hüllkurve des
Fehlers flach. Anders ausgedrückt wird die Fehlersignalener
gie gleichmäßig über der Zeit verteilt.
Bei einer Vorwärtsprädiktion, wie sie in Fig. 9 dargestellt
ist, tritt jedoch eine zeitliche Formung des durch die Quan
tisierung eingeführten Rauschens auf. Ein zu prädizierender
Spektralkoeffizient x(f) wird einem Summationspunkt 600 zu
geführt. Derselbe Spektralkoeffizient wird ferner einem Prä
diktor 610 zugeführt, dessen Ausgangssignal mit negativem
Vorzeichen ebenfalls dem Summationspunkt 600 zugeführt wird.
Das Eingangssignal in einen Quantisierer 620 stellt somit
die Differenz des Spektralwerts x(f) und des durch Prädik
tion berechneten Spektralwerts xp(f) dar. Bei der Vorwärts
prädiktion wird die Gesamtfehlerenergie in den decodierten
Spektralkoeffizientendaten gleichbleiben. Die zeitliche Form
des Quantisierungsfehlersignals wird jedoch als zeitlich
geformt am Ausgang des Decodierers erscheinen, da die Prä
diktion auf die Spektralkoeffizienten angewendet wurde,
wodurch das Quantisierungsrauschen zeitlich unter das tat
sächliche Signal gelegt wird und somit maskiert werden kann.
Auf diese Art und Weise werden Probleme der zeitlichen Mas
kierung z. B. bei transienten Signalen oder Sprachsignalen
vermieden.
Dieser Typ der prädiktiven Codierung von Spektralwerten wird
daher als die TNS- oder zeitliche Rauschformungstechnik
bezeichnet. Zur Veranschaulichung dieser Technik sei auf
Fig. 10A verwiesen. Links oben in Fig. 10A befindet sich ein
Zeitverlauf eines stark transienten Zeitsignals. Dem Zeit
verlauf ist der Ausschnitt eines DCT-Spektrums rechts oben
in. Fig. 10A gegenübergestellt. Die linke untere Darstellung
von Fig. 10 zeigt die resultierende Frequenzantwort eines
TNS-Synthesefilters, das durch die LPC-Operation berechnet
wurde (LPC Linear Prediction Coding). Es sein angemerkt,
daß die (normierten) Frequenzkoordinaten in diesem Diagramm
den Zeitkoordinaten aufgrund der Zeitbereichs- und Frequenz
bereichsdualität entsprechen. Offensichtlich führt die LPC-
Berechnung zu einem "Quellenmodell" des Eingangssignals, da
die Frequenzantwort des LPC-berechneten Synthesefilters der
Hüllkurve des stark transienten Zeitsignals ähnelt. In Fig.
10A rechts unten ist eine Darstellung der spektralen Rest
werte, d. h. des Eingangssignals des Quantisierers 620 in
Fig. 9, über der Frequenz gezeigt. Ein Vergleich zwischen
den spektralen Restwerten nach der Prädiktion und den Spek
tralwerten bei direkter Zeit-Frequenz-Transformation zeigt,
daß die spektralen Restwerte eine wesentlich geringere
Energie als die ursprünglichen Spektralwerte aufweisen. Bei
dem gezeigten Beispiel entspricht die Reduktion der Energie
der spektralen Restwerte einem Gesamtprädiktionsgewinn von
etwa 12 dB.
Zu der Bedeutung der linken unteren Darstellung in Fig. 10A
sei folgendes angemerkt. Bei klassischer Anwendung der Prä
diktion auf Zeitbereichssignale ist der Frequenzgang des
Synthesefilters eine Annäherung des Betragssspektrums des
Eingangssignals. Das Synthesefilter (re)generiert gewisser
maßen die spektrale Gestalt des Signals aus einem Restsignal
mit näherungsweise "weißem" Spektrum. Bei Anwendung der Prä
diktion auf spektrale Signale, wie es bei der TNS-Technik
der Fall ist, ist der Frequenzgang des Synthesefilters eine
Annäherung der Hüllkurve des Eingangsfilters. Der Frequenz
gang des Synthesefilters ist nicht die Fouriertransformierte
der Impulsantwort, wie es im klassischen Fall gilt, sondern
die inverse Fouriertransformierte. Das TNS-Synthesefilter
(re)generiert sozusagen den Hüllkurvenverlauf des Signals
aus einem Restsignal mit näherungsweise "weißer" (d. h.
flacher) Hüllkurve. So zeigt die linke untere Abbildung von
Fig. 10A also die durch das TNS-Synthesefilter modellierte
Hüllkurve des Eingangssignals. Diese ist hier eine loga
rithmische Darstellung der Hüllkurven-Annäherung des im der
darüberliegenden Abbildung geziegten Kastagnettensignals.
Anschließend wurde ein Codierungsrauschen in die spektralen
Restwerte eingeführt, derart, daß in jedem Codierband mit
einer Breite von beispielsweise 0,5 Bark ein Signal/Rau
schen-Verhältnis von etwa 13 dB resultierte. Die aus der
Einführung des Quantisierungsrauschen resultierenden Fehler
signale im Zeitbereich sind in Fig. 10B gezeigt. Die linke
Darstellung in Fig. 10B zeigt das Fehlersignal aufgrund des
Quantisierungsrauschens bei verwendeter TNS-Technik, während
im rechten Diagramm die TNS-Technik aus Vergleichszwecken
nicht verwendet wurde. Wie erwartet ist das Fehlersignal im
linken Diagramm nicht gleichmäßig über den Block verteilt,
sondern in dem Bereich konzentriert, in dem auch ein hoher
Signalanteil vorhanden ist, welcher dieses Quantisierungs
rauschen optimal verdecken wird. Im rechten Fall ist dagegen
das eingeführte Quantisierungsrauschen gleichmäßig im Block,
d. h. über der Zeit, verteilt, was dazu führt, daß im vor
deren Bereich, in dem tatsächlich kein oder fast kein Signal
ist, ebenfalls Rauschen vorhanden ist, das zu hören sein
wird, während in dem Bereich, in dem hohe Signalanteile
vorhanden sind, ein relativ kleines Rauschen vorhanden ist,
durch das die Markierungsmöglichkeiten des Signals nicht
vollständig ausgenützt werden.
Im nachfolgenden wird ein einfacher, d. h. nicht skalier
barer, Audiocodierer beschrieben, der ein TNS-Filter auf
weist.
Eine Implementierung eines TNS-Filters 804 in einen Codierer
ist in Fig. 11A gezeigt. Derselbe ist zwischen einer Ana
lysefilterbank 802 und einem Quantisierer 806 angeordnet.
Das zeitdiskrete Eingangssignal wird bei dem in Fig. 11A
gezeigten Codierer in einen Audioeingang 800 eingespeist,
während das quantisierte Audiosignal bzw. quantisierte Spek
tralwerte oder die quantisierten spektralen Restwerte an ei
nen Ausgang 808 ausgegeben werden, dem ein Redundanz-Codie
rer nachgeschaltet sein kann. Das Eingangssignal wird also
in Spektralwerte transformiert. Basierend auf den berech
neten Spektralwerten wird eine übliche lineare Prädiktions
rechnung ausgeführt, welche beispielsweise durch Bilden der
Autokorrelationsmatrix der Spektralwerte und unter Verwen
dung einer Levinson-Durbin-Rekursion stattfindet. Fig. 11B
zeigt eine detailliertere Ansicht des TNS-Filters 804. An
einem Filtereingang 810 werden die Spektralwerte x(1), ...,
x(i), ..., x(n) eingespeist. Es kann vorkommen, daß ledig
lich ein bestimmter Frequenzbereich transiente Signale auf
weist, während wiederum ein anderer Frequenzbereich eher
stationärer Natur ist. Diese Tatsache wird bei dem TNS-Fil
ter 804 durch einen Eingangsschalter 812 sowie durch einen
Ausgangsschalter 814 berücksichtigt, wobei die Schalter
zunächst jedoch für eine Parallel-zu-Seriell- bzw. Seriell
zu-Parallel-Wandlung der zu verarbeitenden Daten sorgen.
Abhängig davon, ob ein bestimmter Frequenzbereich instatio
när ist und einen bestimmten Codierungsgewinn durch die
TNS-Technik verspricht, wird nur dieser Spektralbereich
TNS-verarbeitet, was dadurch geschieht, daß der Eingangs
schalter 812 beispielsweise bei dem Spektralwert x(i) star
tet und z. B. bis zu dem Spektralwert x(i + 2) läuft. Der
innere Bereich des Filters besteht wieder aus der Vorwärts
prädiktionsstruktur, d. h. dem Prädiktor 610 sowie dem Sum
mationspunkt 600.
Die Berechnung zur Bestimmung der Filterkoeffizienten des
TNS-Filters bzw. zur Bestimmung der Prädiktionskoeffizienten
wird folgendermaßen durchgeführt. Das Bilden der Autokorre
lationsmatrix und das Verwenden der Levinson-Durbin-Rekur
sion wird für die höchste erlaubte Ordnung des Rauschfor
mungsfilters, z. B. 20, durchgeführt. Wenn der berechnete
Prädiktionsgewinn eine bestimmte Schwelle überschreitet,
wird die TNS-Verarbeitung aktiviert.
Die Ordnung des verwendeten Rauschformungsfilters für den
gegenwärtigen Block wird dann durch anschließendes Entfernen
aller Koeffizienten mit einem ausreichend kleinen Absolut
wert vom Ende des Koeffizientenarrays bestimmt. Auf diese
Art und Weise liegen die Ordnungen von TNS-Filtern üblicher
weise in der Größenordnung von 4-12 für ein Sprachsignal.
Wenn für einen Bereich von Spektralwerten x(i) beispiels
weise ein ausreichend hoher Codierungsgewinn bestimmt wird,
wird derselbe verarbeitet, und es wird am Ausgang des TNS-
Filters nicht der Spektralwert x(i) sondern der spektrale
Restwert xR(i) ausgegeben. Dieser hat eine wesentlich ge
ringere Amplitude als der ursprüngliche Spektralwert x(i),
wie es aus Fig. 10A ersichtlich ist. Die zum Decodierer
übertragenen Seiteninformationen erhalten somit zusätzlich
zu den üblichen Seiteninformationen eine Flag, die die
Verwendung von TNS anzeigt, und falls erforderlich, Infor
mationen über den Zielfrequenzbereich und ebenfalls über das
TNS-Filter, das zum Codieren verwendet wurde. Die Filterda
ten können als quantisierte Filterkoeffizienten dargestellt
werden.
In Analogie zum Codierer mit TNS-Filter sei nun auf einen
Decodierer eingegangen, welcher ein inverses TNS-Filter
aufweist.
Im Decodierer, welcher in Fig. 12A skizziert ist, wird für
jeden Kanal eine TNS-Codierung rückgängig gemacht. Spektrale
Restwerte xR(i) werden in dem inversen Quantisierer 216
requantisiert und in ein inverses TNS-Filter 900 einge
speist, dessen näherer Aufbau in Fig. 12B dargestellt ist.
Das inverse TNS-Filter 900 liefert als Ausgangssignal wieder
Spektralwerte, die in einer Synthesefilterbank 218 in den
Zeitbereich transformiert werden. Das TNS-Filter 900 umfaßt
wiederum einen Eingangsschalter 902 sowie einen Ausgangs
schalter 908, welche zunächst wieder zur Parallel-Seriell-
Wandlung bzw. zur Seriell-Paralalel-Wandlung der verarbei
teten Daten dienen. Der Eingangsschalter 902 berücksichtigt
ferner einen eventuell verwendeten Zielfrequenzbereich, um
nur spektrale Restwerte einer inversen TNS-Codierung zuzu
führen, während nicht TNS-codierte Spektralwerte zu einem
Ausgang 910 unverändert durchgelassen werden. Das inverse
Prädiktionsfilter umfaßt wiederum einen Prädiktor 906 sowie
einen Summationspunkt 904. Dieselben sind jedoch im Unter
schied zum TNS-Filter folgendermaßen verbunden. Ein spektra
ler Restwert gelangt über den Eingangsschalter 902 an den
Summationspunkt 904, an dem derselbe mit dem Ausgangssignal
des Prädiktors 906 summiert wird. Der Prädiktor liefert als
Ausgangssignal einen geschätzten Spektralwerts xp(i). Der
Spektralwert x(i) wird über den Ausgangsschalter an den Aus
gang des inversen TNS-Filters ausgegeben. Die TNS-bezogenen
Seiteninformationen werden im Decodierer also decodiert,
wobei die Seiteninformationen ein Flag umfassen, das die
Verwendung von TNS anzeigt, und, falls erforderlich, Infor
mationen bezüglich der Zielfrequenzbereichs. Zusätzlich ent
halten die Seiteninformationen ferner die Filterkoeffizien
ten des Prädiktionsfilters, das zum Codieren eines Blocks
oder "Frames" verwendet wurde.
Das TNS-Verfahren läßt sich also folgendermaßen zusammen
fassen. Ein Eingangssignal wird in eine spektrale Dar
stellung mittels einer hochauflösenden Analysefilterbank
transformiert. Anschließend wird eine lineare Prädiktion im
Frequenzbereich ausgeführt, und zwar zwischen den frequenz
mäßig benachbarten Spektralwerten. Diese lineare Prädiktion
kann als Filterprozeß zum Filtern der Spektralwerte inter
pretiert werden, welcher im Spektralbereich ausgeführt wird.
Damit werden die ursprünglichen Spektralwerte durch den
Prädiktionsfehler, d. h. durch die spektralen Restwerte,
ersetzt. Diese spektralen Restwerte werden ebenso wie übli
che Spektralwerte quantisiert und codiert zum Decodierer
übertragen, indem die Werte wieder decodiert und invers
quantisiert werden. Vor der Anwendung der inversen Filter
bank (Synthesefilterbank) wird eine zur im Codierer vorge
nommenen Prädiktion inverse Prädiktion, d. h. eine Addition
des prädizierten Signals mit dem Residuum, vorgenommen, in
dem das inverse Prädiktionsfilter auf das übertragene Prä
diktionsfehlersignal, d. h. auf die requantisierten spek
tralen Restwerte, angewendet wird.
Durch die Anwendung dieser Technik ist es möglich, die zeit
liche Hüllkurve des Quantisierungsrauschens an die des Ein
gangssignals anzupassen. Dies erlaubt eine bessere Aus
nutzung der Markierung der Fehlersignale bei Signalen, die
eine ausgeprägte Zeitfeinstruktur oder ein ausgeprägtes
transientes Wesen haben. Im Falle von transienten Signalen
vermeidet die TNS-Technik die sog. "Vorechos", bei denen das
Quantisierungsgeräusch bereits vor dem "Anschlag" eines sol
chen Signals erscheint.
Bei einem skalierbaren Audiocodierer, wird, wie es bereits
erwähnt wurde, in der ersten Stufe ein Codierer mit niedrig
er Abtastfrequenz eingesetzt, da im allgemeinen eine sehr
niedrige Bitrate des codierten Signals angestrebt wird. In
der zweiten Stufe findet sich dann vorzugsweise ein Audio
codierer, der zwar bei höheren Bitraten codiert, jedoch eine
wesentlich größere Bandbreite benötigt und somit Audiosig
nale mit viel höhere Klangqualität codieren kann als der
Sprachcodierer. Üblicherweise wird ein zu codierendes Audio
signal, das in einer hohen Abtastrate vorliegt, zuerst auf
eine niedrige Abtastrate beispielsweise mittels eines Down
sampling-Filters heruntergesetzt. Das in der Abtastrate
reduzierte Signal wird dann in den Codierer der ersten Stufe
eingespeist, wobei das Ausgangssignal dieses Codierers
direkt in den Bitstrom geschrieben wird, der den skalierbar
en Audiocodierer verläßt. Dieses codierte Signal mit nied
riger Bandbreite wird wieder decodiert und dann
beispielsweise mittels eines Upsampling-Filters wieder auf
die hohe Abtastrate gebracht und dann in den Frequenzbereich
transformiert. Ebenfalls in den Frequenzbereich transfor
miert wird das ursprüngliche am Eingang des Codierers
anliegende Audiosignal. Es liegen nun zwei Audiosignale vor,
wobei jedoch das erstere mit den Codierfehlern des Codierers
der ersten Stufe versehen ist. Diese beiden Signale im
Frequenzbereich können dann einem Differenzglied zugeführt
werden, um ein Signal zu erhalten, das nur noch die Differ
enz beider Signale darstellt. In einem Schaltmodul, das auch
als frequenzselektiver Schalter ausgeführt sein kann, wie es
weiter hinten beschrieben wird, kann bestimmt werden, ob es
günstiger ist, die Differenz der beiden Eingangssignale oder
aber das ursprüngliche in den Frequenzbereich transformierte
Audiosignal direkt weiter zu verarbeiten. Das Ausgangssignal
des Schaltmoduls wird jedenfalls beispielsweise einem be
kannten Quantisierer/Codierer zugeführt, welcher, wenn er
nach einem MPEG-Standard arbeitet, zum einen eine Quanti
sierung unter Berücksichtigung eines psychoakustischen Mo
dells durchführt, und zum anderen anschließend eine Entro
pie-Codierung vorzugsweise unter Verwendung der Huffman-Co
dierung mit den quantisierten Spektralwerten bewirkt. Das
Ausgangssignal des Quantisierers und Codierers wird neben
dem Ausgangssignal des Codierers der ersten Stufe in den
Bitstrom geschrieben.
Nachteilig am Stand der Technik ist die Tatsache, daß bisher
kein Codierungs- bzw. Decodierungskonzept bekannt ist, das
die Kombination der zeitlichen Rauschformungstechnik (TNS)
mit einem skalierbaren Stereocodierer erlaubt. Wie es be
reits beschrieben wurde, liefert ein skalierbarer Stereoco
dierer die Möglichkeit, zumindest ein Monosignal und ein
Stereosignal getrennt voneinander decodieren zu können,
wodurch große Flexibilität erreicht wird. Eine Implementa
tion der Technik des zeitlichen Rauschformens (TNS) würde
zusätzlich zur Skalierbarkeit die Datenreduzierung bzw.
Komprimierung ohne Qualitätseinbußen sowohl beim Mono- als
auch beim Stereosignal weiter vorantreiben.
Die EP 0 785 631 A2 befaßt sich mit der Rauschformung im
Zeitbereich durch eine LPC-Prädiktion im Frequenzbereich.
Ein zeitliches Monosignal wird mittels einer Analysefilter
bank 12 in seine spektrale Darstellung überführt. Anschlie
ßend wird das spektrale Monosignal mittels einer Prädiktion
über der Frequenz codiert, wobei die Prädiktion auf einem
oder mehreren frequenzmäßig benachbarten Spektralwerten
basiert, wodurch sich Prädiktionskoeffizienten einerseits
und ein sepktrales Mono-Restsignal andererseits ergeben.
Die DE 690 18 989 T2 befaßt sich mit einer polyphonischen
Kodierung von Stereosignalen, wobei aus einem Links/Rechts-
Stereosignal ein Summe/Differenz-Stereosignal gebildet wird.
Das Summe-Stereosignal wird einem Multiplexer zugeführt, der
ausgangsseitig einen Bitstrom erzeugt, der das codierte
Signal darstellt. Das Summensignal und das Differenzsignal
werden einem Prädiktorfilter zugeführt, der das Differenzsi
gnal aproximiert und ein Restsignal ausgibt, das ebenfalls
dem Multiplexer zugeführt wird. Darüber hinaus werden die
Prädiktionskoeffizienten des Filters als Differenzsignalre
konstruktionsdaten ebenfalls dem Multiplexer zuführt.
Die Fachveröffentlichung K. Brandenburg, B. Grill: "First
Ideas on Scalable Audio Coding", 9th AES/Convention, San
Francisco 1995, Preprint 3924, Seiten 1 bis 6 befaßt sich
mit der skalierbaren Audiocodierung. Ein Audiosignal wird
mittels eines ersten Kodierers codiert und einem Bitstrom
multiplexer zugeführt. Das codierte Audiosignal wird dann
mittels eines zu dem ersten Kodierer inversen Decodierer
wieder decodiert und einer Subtraktionsstufe zugeführt, da
mit dasselbe von dem ursprünglichen Eingangssignal subtra
hiert wird. Das Differenzsignal wird dann einem zweiten
Codierer zugeführt, dessen Ausgangssignal ebenfalls dem
Bitstrommultiplexer zugeführt wird, um eine zweite Schicht
zu erzeugen. Dieses Konzept ist auf beliebige Schichten
erweiterbar.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein
Codierungs- bzw. Decodierungskonzept zu schaffen, das neben
einer hohen Flexibilität auch eine hohe Datenmengenreduzie
rung erlaubt.
Diese Aufgabe wird durch Verfahren zum Verarbeiten eines
zeitlichen Stereosignals gemäß Anspruch 1 oder 9, durch Ver
fahren zum Decodieren eines unter Verwendung einer Prädik
tion eines frequenzcodierten Audiobitstroms gemäß Anspruch
15 oder 18, durch Vorrichtungen zum Verarbeiten eines zeit
lichen Stereosignals gemäß Anspruch 22 oder 24 sowie durch
Vorrichtungen zum Decodieren eines unter Verwendung einer
Prädiktion über der Frequenz codierten Audiobitstroms gemäß
Anspruch 25 oder 27 gelöst.
Ein skalierbarer Stereocodierer mit TNS-Technik gemäß einem
ersten Ausführungsbeispiel der vorliegenden Erfindung arbei
tet vollständig im Frequenzbereich. Dies bedeutet, daß ein
Mono-Kanal im Frequenzbereich gebildet und unter Verwendung
eines psychoakustischen Codierers codiert wird. Dies hat den
Vorteil, daß auch auf den Monokanal eine zeitliche Rausch
formung angewendet werden kann. Um nun den Monokanal mit den
beiden Stereokanälen verknüpfen zu können, muß jedoch die
zeitliche Rauschformung des Monokanals wieder rückgängig ge
macht werden. Um gleiche Verhältnisse zwischen den Stereoka
nälen und dem decodierten Monokanal zu erhalten, muß der Mo
nokanal einer zeitlichen Rauschformung unter Verwendung der
Prädiktionskoeffizienten des linken oder rechten Kanals un
terzogen werden, damit eine Differenz zwischen dem linken
Kanal und dem Monokanal bzw. eine Differenz zwischen dem
rechten Kanal und dem Monokanal gebildet werden kann.
An dieser Stelle sei angemerkt, daß beim skalierbaren Bit
strom von Stereosignalen die beiden Stereokanäle L und R und
der Mono- bzw. Mitte-Kanal M einer eigenen Prädiktion über
der Frequenz, d. h. einer TNS- Verarbeitung, unterzogen wer
den können. Dazu existieren drei Möglichkeiten:
- 1. Für jeden Kanal L, M und R wird eine eigene "vollstän dige" Prädiktion durchgeführt. Dies ergibt für jeden Ka nal eigene Prädiktionskoeffizienten und auch einen opti malen Prädiktionsgewinn. Der Preis dafür wird aber ein aufwendigerer Codierer bzw. Decodierer sein, da zum einen drei vollständige Prädiktoren notwendig sind und zum an deren vor einer Kombination zweier Kanäle durch Addition, Subtraktion oder Vergleichen eine aufwendigere Behandlung der Signale durchgeführt werden muß, d. h. die Prädiktion eines Kanals muß rückgängig gemacht werden und dieser Ka nal muß dann mittels der Prädiktionskoeffizienten des anderen Kanals "gefiltert" werden, d. h. einer "unvoll ständigen" Prädiktion unterzogen werden.
- 2. Das Gegenstück dazu ist, daß für alle drei Kanäle ledig lich ein Satz von Prädiktionskoeffizienten verwendet wird. So könnte beispielsweise für den linken Kanal L eine "vollständige" Prädiktion durchgeführt werden, die spektrale Restwerte L' und Links-Prädiktionskoeffizienten ergibt. Der rechte (R) und der Mittekanal M würden dann einer "unvollständigen" Prädiktion unterzogen werden, bei der die L-Prädiktionskoeffizienten verwendet werden, um einen L-gefilterten rechten und einen L-gefilterten lin ken Kanal zu erhalten. Diese Lösung liefert jedoch mei stens einen geringeren Prädiktionsgewinn, führt aber zu einer wesentlichen Vereinfachung des Codierers bzw. De codierers, da nur ein vollständiger Prädiktor benötigt wird und eine sehr einfache "Behandlung" in Form einer einfachen Weiterleitung ohne inverse Prädiktion bzw. er neute Prädiktion wie unter Punkt 1 erforderlich ist, da für alle Kanäle nur ein Satz von Prädiktionskoeffizienten existiert.
- 3. Ein Kompromiß zwischen Punkt 1 und Punkt 2 besteht darin, lediglich zwei vollständige Prädiktionen durchzuführen, z. B. mit einem Stereokanal L oder R und dem Monokanal M. Bei der Behandlung der Signale L bzw. R und M oder L und R vor ihrer Kombination muß dann lediglich die M-Prädik tion rückgängig gemacht werden und das daraus erhaltene Signal mit den L- oder R-Prädiktionskoeffizienten "gefil tert" werden. Der andere Stereokanal wird ebenfalls nur einer unvollständigen Prädiktion mit den Prädiktionskoef fizienten des einen Kanals unterzogen. Dies bringt zwar einen etwas reduzierten Gewinn, führt aber zu einem ver tretbaren Aufwand im Codierer bzw. Decodierer.
Bei dem Ausführungsbeispiel der vorliegenden Erfindung, bei
dem ein psychoakustischer Mono-Codierer verwendet wird, wird
eine an. Punkt 3 angelehnte Lösung verwendet. Falls eine
Mitte/Seite-Verarbeitung gewählt ist, wird der rechte Kanal
R im allgemeinen dem linken Kanal zumindest ähnlich sein.
Dann genügt es, eine vollständige Prädiktion nur auf einen
Kanal durchzuführen und den anderen Kanal mit den ermittel
ten Prädiktionskoeffizienten zu filtern. Unterscheiden sich
dagegen L und R stark, dann wird es bevorzugt, die Prädikti
onskoeffizienten des dominierenden Kanals für die Filterung,
d. h. Prädiktion, des anderen Kanals zu verwenden.
Der Stereo-"worst case" besteht darin, daß der linke und der
rechte Kanal einerseits signalmäßig unkorreliert sind und
andererseits gleich dominant sind, d. h. etwa gleich viel
Energie haben. In diesem Fall kann aber keine Mitte/Seite-
Codierung durchgefönt werden. Außerdem verbietet dieser Fall auch eine Diffe
renzcodierung, so daß sowieso zur Simulcastverarbeitung ge
griffen werden muß.
Ein wesentlicher Punkt der Skalierbarkeit besteht darin, daß
nicht das Mono- und das Stereosignal unabhängig voneinander
übertragen werden, sondern daß das Stereosignal, das zu co
dieren ist, lediglich die Differenz des ursprünglichen Ste
reosignals zum Monosignal umfaßt. Um aber einstellen zu kön
nen, welcher Signalanteil bereits im Monosignal codiert ist,
müssen beim Vergleich vom Monosignal mit den Stereokanälen
gleiche Verhältnisse vorliegen, derart, daß eine aussagefä
hige Differenz gebildet werden kann.
Frequenzselektive Schalteinrichtungen werden vorzugsweise
verwendet, um frequenzbandweise zu bestimmen, ob es günsti
ger ist, als zu codierendes Stereosignal die Differenz zwi
schen dem Monosignal und einem Stereokanal oder den Stereo
kanal selbst zu verwenden. Eine solche Situation kann auf
treten, wenn das Monosignal stark von einem Stereokanal
abweicht. Hier ist es selbstverständlich im Sinne der Da
tenkompression günstiger, nicht das Differenzsignal zu neh
men, sondern den Stereokanal an sich.
Weiterhin wird es bevorzugt, ebenfalls im Sinne einer mög
lichst hohen Datenkompression, eine MS-Entscheidung durchzu
führen, d. h. frequenzbandweise festzustellen, ob eine Mit
te-Seite-Codierung oder eine Links-Rechts-Codierung günsti
ger ist.
Der Codierer gemäß dem ersten Ausführungsbeispiel der vor
liegenden Erfindung ist somit ein skalierbarer Stereoco
dierer mit einem psychoakustischen Monocodierer. Der zum
Codierer des ersten Ausführungsbeispiels der vorliegenden
Erfindung analoge Decodierer macht im wesentlichen die bei
der Codierung durchgeführten Schritte wieder rückgängig,
wobei bezüglich der zeitlichen Rauschformung wieder sicher
gestellt ist, daß bei jeder Verknüpfung des Monokanals mit
einem Stereokanal gleiche Verhältnisse vorliegen, d. h. daß
nur Signale verglichen werden, denen identische Prädiktions
koeffizienten zugeordnet sind.
Vorzugsweise kann der Codierer gemäß dem ersten Ausführungs
beispiel der vorliegenden Erfindung um einen Core-Codec er
weitert werden, um neben der Mono-Stereo-Skalierbarkeit auch
eine eigene Mono-Skalierbarkeit einzuführen. Dies bedeutet,
daß der entsprechende Codierer eine erste Monoteilschicht
und eine zweite Monoteilschicht sowie eine Stereoschicht auf
einen einzigen Bitstrom multiplexen kann. Selbstverständlich
können jedoch alle genannten Schichten entsprechend dem Kon
zept der Skalierbarkeit wieder selbst in eine im Prinzip be
liebige Anzahl von Unterschichten unterteilt sein. Der
Core-Codierer ist vorzugsweise einer der eingangs
beschriebenen Codierer mit niedrigerer Bitrate, weshalb der
selbe eingangsseitig ein Downsampling-Filter und ausgangs
seitig ein Upsampling-Filter aufweist, um die Datenrate des
ursprünglichen Stereosignals an die Datenrate des Core-Codec
anzupassen. Üblicherweise ist der Core-Codec als Sprachco
dierer ausgeführt, der lediglich im Bereich von beispiels
weise 0 bis 4 kHz codiert, wobei dem psychoakustischen Mo
nocodierer dann der Bereich des Signals über 4 kHz ver
bleibt. Zusätzlich wird der Codierer der zweiten Monoschicht
ebenfalls die Codierungsfehler des Core-Codec berücksichti
gen, derart, daß ein Monosignal mit ausgezeichneter Qualität
aus dem Monosignal mit niedriger Bitrate und dem Monosignal
mit hoher Bitrate zusammengesetzt werden kann. Auch hier ist
ein wesentlicher Punkt der, daß bei einem Vergleich zweier
Signale immer darauf zu achten ist, daß die dem Vergleich
zugrundeliegenden Signale mit ähnlichen und besser noch mit
gleichen Prädiktionskoeffizienten verarbeitet wurden, um
eine sinnvolle Differenz bilden zu können. Der dazu analoge
Decodierer macht ebenso wie im ersten Fall die bei der Co
dierung eingeführen Schritte wieder rückgängig.
Gemäß einem zweiten Ausführungsbeispiel der vorliegenden Er
findung umfaßt ein Codierer lediglich einen Mono-Core-Codec
und keinen psychoakustischen Monocodierer. Ein solcher Co
dierer liefert, wenn der Core-Codec als Sprachcodierer mit
niedriger Bitrate ausgeführt ist, ein in seiner Bandbreite
reduziertes Monosignal und ein Stereosignal mit voller Band
breite. Dieser Codierer wird in den Anwendungsfällen vor
teilhaft sein, wo kein Monosignal mit voller Bandbreite nö
tig ist, bzw. verarbeitet werden kann, wenn beispielsweise
der Empfänger-Decodierer nur Monosignale mit begrenzter
Bandbreite verarbeiten kann.
Wie bei allen skalierbaren Codierverfahren ist es jedoch
günstig, wenn im Bitstrom ebenfalls das hochqualitative Ste
reosignal mit voller Bandbreite vorhanden ist, wenn bei
spielsweise an eine Übertragung an viele Decodierer gedacht
wird, von denen manche lediglich Monosignale mit begrenzter
Bandbreite decodieren können, während andere Stereosignale
mit voller Bandbreite verarbeiten können.
Der dazu analoge Decodierer umfaßt in analoger Weise keinen
psychoakustischen Mono-Decodierer sondern lediglich einen
Core-Decodierer und entsprechende TNS-Funktionseinheiten, um
beim Vergleich zwischen Mono- und Stereosignalen zur Rekon
struktion des Stereosignals wieder gleiche Verhältnisse zu
haben.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung
werden nachfolgend bezugnehmend auf die beiliegenden Zeich
nungen detaillierter erläutert. Es zeigen:
Fig. 1 einen skalierbaren TNS-Stereocodierer mit einer Mo
noschicht;
Fig. 2 einen Decodierer für Signale, die mittels des Co
dierers von Fig. 1 codiert worden sind;
Fig. 3 einen skalierbaren TNS-Stereocodierer mit einer er
sten Monoteilschicht und mit einer zweiten Mono
teilschicht;
Fig. 4 einen Decodierer zum Decodieren von mittels des in
Fig. 3 gezeigten Codierers codierten Signalen;
Fig. 5 einen skalierbaren TNS-Stereocodierer mit einer
bandbreitenbegrenzten Monoschicht;
Fig. 6 einen Decodierer zum Decodieren von mittels des in
Fig. 5 gezeigten Codierers codierten Signalen;
Fig. 7 eine Tabelle zur Veranschaulichung der Dualität
zwischen dem Zeit- und dem Frequenzbereich;
Fig. 8A ein Beispiel für ein transientes Signal;
Fig. 8B Hilbert-Hüllkurven von Teilbandpaßsignalen aufgrund
des in Fig. 6A gezeigten transienten Zeitsignals;
Fig. 9 eine Prinzipdarstellung der Prädiktion im Frequenz
bereich;
Fig. 10A ein Beispiel zur Veranschaulichung der TNS-Technik;
Fig. 10B eine Gegenüberstellung des zeitlichen Verlaufs ei
nes eingeführten Quantisierungsrauschens mit
(links) und ohne (rechts) TNS-Technik;
Fig. 11A eine vereinfachte Blockdarstellung eines unskalier
ten Codierers, der ein TNS-Filter aufweist;
Fig. 11B eine Detaildarstellung des TNS-Filters von Fig.
11A;
Fig. 12A eine vereinfachte Blockdarstellung eines unskalier
ten Decodierers, der ein inverses TNS-Filter auf
weist; und
Fig. 12B eine detailliertere Darstellung des inversen TNS-
Filters von Fig. 12A.
Fig. 1 zeigt einen skalierbaren TNS-Stereocodierer, der eine
Monoschicht mit voller Bandbreite erzeugt, gemäß einem er
sten Ausführungsbeispiel der vorliegenden Erfindung. Es sei
jedoch darauf hingewiesen, daß es keineswegs zwingend ist,
daß der psychoakustische Mono-Codierer die volle Bandbreite
codiert. Die Bandbreite kann kleiner sein, was durch Null
setzen von Spektralwerten oberhalb einer bestimmten Frequenz
erreicht werden kann. Üblicherweise ist aber die Bandbreite
des psychoakustischen Mono-Codierers größer als die des
Core-Coders.
Wie üblich werden zeitliche Signale mit Kleinbuchstaben be
zeichnet, während spektrale Signale bzw. Spektralwerte mit
Großbuchstaben kenntlich gemacht werden. Der Codierer, der
in Fig. 1 schematisch dargestellt ist, umfaßt einen ersten
Eingang 10 für einen ersten (linken) Stereokanal l und einen
zweiten Eingang für einen zweiten (rechten) Stereokanal r.
Die zeitlichen Eingangssignale l, r werden mittels einer
modifizierten diskreten Cosinustransformation (MDCT) 14, 16
in den Frequenzbereich transformiert.
Es sei angemerkt, daß lediglich vorzugsweise eine modifi
zierte diskrete Cosinustransformation verwendet wird, da
dieselbe in den neueren MPEG-Standards festgelegt ist. Es
ist jedoch offensichtlich, daß beliebige andere Möglich
keiten, wie z. B. Filterbänke bzw. andere Transformationen,
verwendet werden können, um eine Transformation eines
Zeitsignals in den Frequenzbereich zu bewerkstelligen.
Wie es aus Fig. 1 ersichtlich ist, werden der linke und der
rechte Kanal im wesentlichen gleich verarbeitet, wobei in
beiden Kanälen ein TNS-Block vorgesehen ist, d. h. ein Block
TNS-L 18 für den linken Kanal und ein Block TNS-R 20 für den
rechten Kanal. Die Ausgangssignale der TNS-Blöcke 18, 20
werden jeweils in eine frequenzselektive Schalteinrichtung
(FSS) eingespeist, wobei eine frequenzselektive Schaltein
richtung 22 für den linken Kanal vorgesehen ist, während
eine frequenzselektive Schalteinrichtung 24 für den rechten
Kanal eingesetzt wird. Dis Ausgangssignale der frequenzse
lektiven Schalteinrichtung werden neben weiteren Signalen,
auf die später eingegangen wird, in einen Block MS-Bestim
mung eingegeben, in dem entschieden wird, ob eine Links-
Rechts-Stereoverarbeitung oder eine Mitte-Seite-Stereover
arbeitung günstiger ist.
Wie es aus Fig. 1 ersichtlich ist, arbeitet die MS-Bestim
mung vollständig im Frequenzbereich, wobei übliche psycho
akustische Stereocodierer ausgangsseitig mit dem Block
MS-Bestimmung 26 verbunden sind. Solche Codierer sind in
Fig. 1 nicht mehr gezeigt. Dieselben sind jedoch in der
Technik bekannt und müssen daher nicht weiter beschrieben
werden. Dieselben führen jedoch grob gesagt eine Quanti
sierung durch, derart, daß das eingeführte Quantisierungs
rauschen unter der Maskierungsschwelle des Signals bleibt,
wobei die dann mit minimalem Bitaufwand quantisierten Spek
tralwerte üblicherweise unter Verwendung der Huffman-Co
dierung codiert werden, um schließlich einen Bitstrom zu
erhalten, der maximal komprimiert ist.
Im nachfolgenden wird auf die Monosignalverarbeitung ein
gegangen. Bei dem in Fig. 1 gezeigten Ausführungsbeispiel
wird ein Monosignal M im Frequenzbereich gebildet, in dem
der spektrale erste Kanal L und der spektrale zweite Kanal R
mittels eines Summierers 28 summiert werden, wobei die Summe
aus L und R anschließend mittels eines Multiplizierers 30
mit dem Faktor 0,5 multipliziert wird, um ein Monosignal zu
ergeben. Das derart gewonnene Monosignal M wird in einem
Block TNS-M 32 einer Prädiktion über der Frequenz unterzo
gen, wonach das Ausgangssignal des Blocks TNS-M 32 einem
M-Codierer/Decodierer (Codec) 34 zugeführt wird. Der Block
M-Codec 34. umfaßt vorzugweise einen psychoakustischen Co
dierer beispielsweise nach dem AAC-Standard (AAC = Advanced
Audio Coding), der das empfangene Monosignal mit maximal
voller Bandbreite codiert, um dasselbe als Monoschicht 36
auszugeben.
Um jedoch das Monosignal, das in der Monoschicht 36 codiert,
mit den Stereosignalen vergleichen zu können, d. h. um eine
Skalierbarkeit herzustellen, muß das in der Monoschicht 36
codierte Monosignal in dem Block M-Codec 34 wieder decodiert
werden, um das codierte/decodierte Signal M" zu erhalten.
Da das decodierte Signal bereits früher im Block TNS-M 32
einer Prädiktion über der Frequenz unterzogen worden ist,
und zwar mit Prädiktionskoeffizienten, die bei dieser Prä
diktion gewonnen wurden und in Seiteninformationen abgelegt
wurden, muß es behandelt werden, d. h. diese Prädiktion über
der Frequenz muß wieder mittels eines Blocks TNS-1-M rück
gängig gemacht werden. Am Ausgang des Blocks TNS-1-M liegt
somit das codierte/decodierte Monosignal ohne Prädiktions
verarbeitung, d. h. ungefiltert, vor.
Wie bereits mehrfach erwähnt wurde, soll dieses Signal nun
mit dem linken bzw. rechten Kanal verglichen werden. Dazu
muß es mittels eines Blocks TNS-L/R 40 einer Prädiktion über
der Frequenz unter Verwendung der Prädiktionskoeffizienten
für den linken oder rechten Kanal unterzogen werden, d. h.
unter Verwendung der Prädiktionskoeffizienten, die im Block
18 (TNS-L) oder im Block 20 (TNS-R) gewonnen wurden. Das
L/R-gefilterte codierte/decodierte Monosignal, das nun am
Knoten 42 anliegt, soll nun sowohl mit dem ersten (linken L)
als auch mit dem zweiten (rechten R) Stereokanal verglichen
werden. Dazu wird es mittels Multiplizierer 44a, 44b mit dem
Faktor 2 multipliziert und an den Minuseingang eines Addie
rers 46a für den linken Zweig bzw. an einen Minuseingang ei
nes Addierers 46b für den rechten Zweig angelegt. Am Ausgang
des Addierers 46a liegt somit die Differenz zwischen dem
gefilterten linken Kanal und dem Doppelten des codierten/de
codierten und L-gefilterten Monokanal an. Analog dazu liegt
am Ausgang des Summierers 46b die Differenz zwischen dem ge
filterten rechten Kanal und dem Doppelten des R-gefilterten
codierten/decodierten Monokanal an.
Die frequenzselektiven Schalteinrichtungen 22, 24 bestimmen
nun, ob es günstig ist, die Differenz weiter zu verarbeiten
oder den linken bzw. rechten Kanal an sich. Vorzugsweise
findet diese Entscheidung frequenzselektiv statt, derart,
daß für jeden Frequenzbereich, beispielsweise für jede psy
choakustische Frequenzgruppe, bestimmt werden kann, welches
Signal für die Codierung günstiger ist.
Um ebenfalls eine Mitte-Seite-Codierung durchführen zu kön
nen, ist für jeden Kanal ein weiterer Addierer 48a bzw. 48b
vorgesehen, wobei mittels des Addierers 48a und eines weite
ren Multipliziers 50a, der eine Multiplikation mit dem Fak
tor 0,5 durchführt, das Mitte-Signal M gebildet wird, das
der Summe aus linkem und rechtem Kanal multipliziert mit dem
Faktor 0,5 entspricht. Mittels des Addierers 48b wird dage
gen das Seite-Signal S gebildet, d. h. es wird die Differenz
aus linkem Kanal und rechtem Kanal gebildet, wobei dieses
Ergebnis ebenfalls mit dem Faktor 0,5 multipliziert wird.
Das Seite-Signal, d. h. das Ausgangssignal des Multiplizie
rers 50b, wird somit unverändert dem Block MS-Bestimmung 26
zugeführt. Das Mitte-Signal, d. h. das Ausgangssignal des
Multiplizierers 50a, wird jedoch mittels eines Mitte-Addie
rers 52 mit dem L/R-gefilterten codierten/decodierten Mono-
Signal verglichen, d. h. es wird lediglich die Differenz
zwischen dem Mitte-Signal und dem codierten/decodierten Mo
nosignal dem Block MS-Bestimmung 26 zugeführt. Das Ausgangs
signal des Mitte-Addierers enthält somit lediglich den bei
der Codierung/Decodierung im Block M-Codec 34 eingeführten
Fehler.
Im nachfolgenden wird auf die Funktionsweise des in Fig. 1
skizzierten Codierers eingegangen. Ein zeitliches Stereo
signal, das einen zeitlichen ersten (l) und einen zeitlichen
zweiten (r) Kanal aufweist, wird mittels der MDCT-Filterban
ken 14, 16 in den Frequenzbereich transformiert, um einen
spektralen ersten Kanal L bzw. einen spektralen zweiten Ka
nal R zu erhalten. Aus dem spektralen ersten Kanal und dem
spektralen zweiten Kanal wird durch den Summierer 28 und den
Multiplizierer 30 ein spektraler Monokanal M gebildet, der
einer Prädiktion über der Frequenz in dem Block TNS-M 32 un
terzogen wird. Die dabei erhaltenen Prädiktionskoeffizienten
für die M-Prädiktion werden in die Seiteninformationen des
Bitstroms am Ausgang (nicht gezeigt) des Codierers von Fig.
1 geschrieben. Am Ausgangs des Block TNS-M 32 liegt somit
ein gefilterter Monokanal M' vor.
Analog dazu wird sowohl der spektrale erste Kanal L als auch
der spektrale zweite Kanal R mittels eines Blocks TNS-L 18
bzw. TNS-R 20 einer Prädiktion über der Frequenz unterzogen,
um einen gefilterten ersten Kanal L' bzw. einen gefilterten
zweiten Kanal R' zu erhalten. Die bei der Prädiktion über
der Frequenz mit dem spektralen linken Kanal erhaltenen Prä
diktionskoeffizienten werden ebenso wie die bei der Prädik
tion über der Frequenz mit dem spektralen rechten Kanal er
haltenen Prädiktionskoeffizienten ebenfalls in die Seitenin
formationen des Bitstroms geschrieben.
Wie es bereits eingangs ausführlich dargelegt wurde, ergibt
eine Prädiktion über der Frequenz sowohl Prädiktionskoeffi
zienten, die in die Seiteninformationen geschrieben werden
und einen groben Verlauf des Signals darstellen, als auch
spektrale Restwerte ("residual spectrum"), die am Ausgang
eines TNS-Prädiktors anliegen. Das ursprüngliche Signal kann
dann unter Verwendung der spektralen Restwerte, d. h. des
Ausgangssignals eines TNS-Blocks, und der Prädiktionskoeffi
zienten wiederhergestellt werden:
Bei dem erfindungsgemäßen skalierbaren Codieren bzw. Deco
dieren wird an mehreren Stellen ein Vergleich, beispiels
weise in Form einer Differenzbildung, zwischen spektralen
Restwerten durchgeführt. Dieser Vergleich der spektralen
Restwerte bringt jedoch nur einen maximalen Codiergewinn,
wenn die zu den spektralen Restwerten korrespondierenden
Prädiktionskoeffizienten die gleichen sind. Wenn daher
beispielsweise ein TNS-gefiltertes Mitte-Signal vorliegt,
das also aus spektralen Mitte-Restwerten besteht, die zu
spektralen Mitte-Prädiktionskoeffizienten korrespondieren,
und wenn dieses TNS-gefilterte Mitte-Signal mit einem TNS
gefilterten Links-Signal verglichen werden sollen, so liegen
für das TNS-gefilterte Links-Signal Links-Prädiktionskoeffi
zienten sowie spektrale Links-Restwerte vor. Es wäre aus Co
diergewinnüberlegungen wenig sinnvoll, die spektralen
Links-Restwerte mit den spektralen Mitte-Restwerten zu ver
gleichen, da die zugrundeliegenden Links-Prädiktionskoeffi
zienten bzw. Mitte-Prädiktionskoeffizienten unterschiedlich
sind. Erfindungsgemäß müssen daher möglichst ähnliche Ver
hältnisse geschaffen werden. In diesem Fall könnte die Dif
ferenz an einer FSS-Stufe größer als das Originalspektrum
sein, wodurch nicht das Differenzsignal sondern das Origi
nalspektrum gewählt würde, was den Codiergewinn stark ver
schlechtert.
Dies kann entweder dadurch geschehen, daß das TNS-gefilterte
Mitte-Signal einer inversen Prädiktion unterzogen wird. Nun
liegt ein ungefiltertes Mitte-Signal vor. Um dieses ungefil
terte Mitte-Signal auf die Links-Prädiktionskoeffizienten zu
beziehen, d. h. um spektrale Mitte-Restwerte zu berechnen,
die mit den Links-Prädiktionskoeffizienten das ungefilterte
Mitte-Signal ergeben, kann eine einfache Prädiktion mit be
reits berechneten, im Beispiel Links-Prädiktionskoeffizien
ten, durchgeführt werden. Dieses L-gefilterte Mitte-Signal
umfaßt nun die spektralen Restwerte, die zusammen mit den
Links-Prädiktionskoeffizienten das ungefilterte Mitte-Signal
ergeben würden. Nun können die spektralen Restwerte des
L-gefilterten Mitte-Signals mit den spektralen Restwerten
des TNS-gefilterten Links-Signals verglichen werden, da sich
beide Spektralrestwerte auf die gleichen Prädiktionskoeffi
zienten beziehen. Alternativ dazu ist es jedoch auch mög
lich, das TNS-gefilterte Links-Signal einer inversen TNS-
Filterung zu unterziehen, um ein ungefiltertes Links-Signal
zu erhalten, und dieses Signal dann einer Prädiktion mit den
Mitte-Prädiktionskoeffizienten zu unterziehen, derart, daß
die spektralen Links-Restwerte ebenso wie die spektralen
Mitte = Restwerte auf die Mitte-Prädiktionskoeffizienten be
zogen sind.
Aus den vorstehend genannten Gründen muß daher das Ausgangs
signal des M-Codierers/Decodierers einer inversen Prädiktion
mittels des TNS-1-M-Block 38 unterzogen werden, um einen
(ungefilterten) codierten/decodierten Monokanal zu ergeben.
Durch einen Übrerbrückungszweig 39 wird sichergestellt, daß
die inverse TNS-Filterung im Block 38 nicht durch eine
Simulcast/Differenzumschaltung des FSS 156 beeinträchigt
wird, d. h. daß die inverse TNS-Filterung korrekt abläuft.
Dieser ungefilterte codierte/decodierte Monokanal soll nun
aber in den frequenzselektiven Schalteinrichtungen 22 bzw.
24 mit dem linken bzw. rechten Kanal, d. h. mit den spek
tralen Restwerten des linken bzw. rechten Kanals verglichen
werden. Um dies zu erreichen, kann der codierte/decodierte
Monokanal für einen Vergleich mit dem TNS-gefilterten linken
Signal in dem Block 40 einer TNS-Filterung mit den Links-
Prädiktionskoeffizienten, die im Block 18 berechnet wurden
und in den Seiteninformationen stehen, unterzogen werden.
Alternativ kann der codierte/decodierte Monokanal M" zum
Vergleich mit dem gefilterten zweiten Kanal R' in der fre
quenzselektiven Schaltungseinrichtung 24 ebenfalls in dem
Block 40 einer Prädiktion mit den R-Prädiktionskoeffizien
ten, die in dem Block TNS-R 20 ermittelt wurden und in den
Seiteninformationen stehen, unterzogen werden. Dieser (be
handelte) L/R-gefilterte Monokanal M''' liegt am Knoten 42
an. Aus Übersichtlichkeitsgründen wird das am Knoten 42 an
liegende Signal als L/R-gefilterter Monokanal M''' bezeich
net, was bedeutet, daß der Monokanal entweder mit den L-
oder den R-Prädiktionskoeffizienten gefiltert ist. Es wird
bevorzugt, immer die Prädiktionskoeffizienten des Kanals mit
der größeren Gesamtenergie zu verwenden. Es ist jedoch mög
lich, von Frame zu Frame von den Prädiktionskoeffizienten
des einen Kanals auf die Prädiktionskoeffizienten des ande
ren Kanals umzuschalten, wobei ein Frame bekanntermaßen eine
Verarbeitungseinheit aus z. B. 1024 zeitlichen Abtastwerten
ist.
Es ist nicht zwingend, daß zwei zu kombinierende Signale auf
die genau identischen Prädiktionskoeffizienten bezogen sind.
So können auch noch spektrale Restwerte, die auf ähnliche
Prädiktionskoeffizienten bezogen sind, kombiniert werden,
ohne wesentliche Codiergewinneinbußen hinnehmen zu müssen.
Hier kann ein Kompromiß gewählt werden. Wenn z. B. voll
ständige Prädiktionen (18, 20) für L und R durchgeführt wor
den sind, so können die daraus entstandenen spektralen Rest
werte ohne inverse Prädiktion und erneute unvollständige
Prädiktion eines Kanals kombiniert werden. Eine Behandlung
der Signale vor ihrer Kombination umfaßt also hier das Prü
fen, ob die Prädiktionskoeffizienten ähnlich genug sind, was
bei ähnlichen Kanälen L und R zutreffen wird, und das un
veränderte Weiterleiten, wenn die Prädiktionskoeffizienten
ähnlich sind, bzw. das Durchführen entsprechender inverser
Prädiktionen und unvollständiger Prädiktionen, wenn die Prä
diktionskoeffizienten nicht ähnlich sind. Die Entscheidungs
schwelle kann von mehreren Faktoren, wie z. B. dem Codierge
winn, der Signalstärke oder dem vertretbaren Aufwand im Co
dierer bzw. Decodierer, abhängen.
Zur Vereinfachung könnte für die Prädiktion über der Fre
quenz des linken und rechten Kanals lediglich ein Satz von
Prädiktionskoeffizienten eingesetzt werden, d. h. die Prä
diktionskoeffizienten, die bei einer TNS-Filterung des lin
ken Kanals berechnet wurden. Dann wären die Prädiktions
koeffizienten der Blöcke 18, 20 gleich, weshalb des Signal
am Knoten 42, d. h. der L/R-gefilterte Monokanal M''', in
der Tat nur einen Satz von spektralen Restwerten umfassen
würde, da es im ganzen Codierer in diesem Fall nur M-Prädik
tionskoeffizienten und beispielsweise L-Prädiktionskoeffi
zienten geben wird.
Die frequenzselektiven Schalteinrichtungen 22, 24 prüfen, ob
es günstiger ist, den gefilterten ersten Kanal L' bzw. den
gefilterten zweiten Kanal R' oder die Differenz des gefil
terten linken Kanals L' und des L/R-gefilterten Monokanals
bzw. die Differenz des gefilterten rechten Kanals und des
L/R-gefilterten Monokanals weiter zu verarbeiten.
Nicht immer ist es günstig, eine Differenzverarbeitung zu
verwenden. Die frequenzselektiven Schalteinrichtungen führen
daher eine sogenannte Simulcast-Differenz-Umschaltung durch.
Es ist dann ungünstig, ein Differenzsignal weiter zu verar
beiten, wenn das Differenzsignal eine höhere Energie als das
entsprechende andere Signal am Eingang der frequenzselek
tiven Schalteinrichtung 22 bzw. 24 aufweist. Da grundsätz
lich als Mono-Codierer ein beliebiger Codierer verwendet
werden kann, kann es vorkommen, daß der Codierer bestimmte
durch den Stereocodierer schwer zu codierende Signalanteile
produziert. Falls eine Differenzcodierung jedoch nicht gün
stig ist, da der Energieinhalt des Differenzsignals größer
als der Energieinhalt des gefilterten ersten oder zweiten
Kanals ist, wird von einer Differenzcodierung abgesehen und
auf den Simulcast-Betrieb umgeschaltet.
Da die Differenzbildung im Frequenzbereich, d. h. selektiv
spektralwertweise, stattfindet, ist es ohne weiteres mög
lich, eine frequenzselektive Simulcast- oder Differenzco
dierung durchzuführen. Die Differenzbildung im Spektrum
erlaubt somit eine einfache frequenzselektive Wahl der
Frequenzbereiche, welche differenzcodiert werden sollen.
Prinzipiell könnte eine Umschaltung von einer Differenz- zu
einer Simulcast-Codierung für jeden Spektralwert einzel 25548 00070 552 001000280000000200012000285912543700040 0002019829284 00004 25429n
auftreten. Dies würde jedoch eine zu große Menge an Sei
teninformationen erfordern. Daher wird es bevorzugt, bei
spielsweise ein frequenzgruppenweises Vergleichen der Ener
gien der Differenzspektralwerte und des transformierten
linken bzw. rechten Kanals durchzuführen. Alternativ dazu
können bestimmte Frequenzbänder von vorneherein festgelegt
werden, z. B. 8 Bänder zu jeweils 500 kHz im Beispiel. Ein
Kompromiß bei der Festlegung der Frequenzbänder besteht
darin, die Menge der zu übertragenden Seiteninformationen,
d. h. ob in einem Frequenzband die Differenzcodierung aktiv
ist oder nicht, gegenüber dem Nutzen abzuwägen, der aus
einer möglichst häufigen Differenzcodierung erwächst.
Fig. 2 zeigt eine skizzierte Darstellung eines Decodierers,
um ein durch den in Fig. 1 dargestellten Codierer codiertes
Signal decodieren zu können. Der Decodierer aus Fig. 2 um
faßt einen Bitstromeingang, an dem ein skalierter Bitstrom
anliegt, d. h. ein Bitstrom, der beispielsweise ein Monosi
gnal und ein Stereosignal umfaßt, wobei das Monosignal un
abhängig vom Stereosignal decodiert werden kann. Der am Bit
stromeingang 100 anliegende Bitstrom BS wird in einen Demul
tiplexer 102 eingespeist, der die Stereoschicht von der Mo
noschicht trennt, und der zusätzlich die Seiteninformationen
aus dem Bitstrom BS extrahiert. In Analogie zu Fig. 1 be
steht die Stereoschicht hinter dem Demultiplexer 102 aus
einer vorzugsweise AAC-codierten Darstellung eines ersten
und eines zweiten Stereosignals, wobei das erste Stereosi
gnal in einem ersten Stereo-Decodierer 104 decodiert wird,
während das zweite Stereosignal in einem zweiten Stereodeco
dierer 106 decodiert wird.
Die beiden Stereodecodierer 104 und 106 sind in Fig. 2 als
L/M-Requantisierer bzw. als R/S-Requantisierer bezeichnet.
Dies soll deutlich machen, daß das Stereosignal entweder
Links-Rechts- oder Mitte-Seite-codiert sein kann. Es ist
bekannt, daß die Links-Rechts-Codierung und die Mitte-Sei
te-Codierung nicht nur von einem Block zum nächsten variiert
werden können, sondern auch innerhalb eines Blocks frequenz
selektiv. Die Festlegung, in welchem Frequenzbereich inner
halb eines Blocks eine MS-Codierung durchgeführt wird, wird
durch die MS-Bestimmung 26 (Fig. 1) festgelegt, die eine so
genannte MS-Maske bildet. Falls eine Links-Rechts-Codierung
im empfangenen und demultiplexten Stereoschichtbitstrom vor
liegt, gibt der Stereodecodierer 104 in Analogie zu Fig. 1
das erste spektrale Stereosignal L" aus, während der zweite
Stereocodierer 106 nach einer Decodierung und Requantisie
rung als zweites spektrales Stereosignal das Signal R" aus
gibt. Liegt dagegen eine Mitte/Seite-Codierung dar, so gibt
der Stereodecodierer 104 als erstes Stereosignal das Signal
MV aus, während der zweite Stereocodierer 106 als zweites
spektrales Stereosignal das Seitensignal S ausgibt.
Die durch den Demultiplexer 102 gewonnene Monoschicht wird
dagegen in einen Mono-Requantisierer 108 eingegeben, um das
codierte Monosignal aus der Monoschicht zu decodieren. In
Analogie zu der Bezeichnung der Blöcke 104 und 106 wird auch
der Block 108 als Requantisierer bezeichnet. Weiter oben
wurde festgestellt, daß der M-Codec 34 bei dem in Fig. 1
gezeigten Ausführungsbeispiel als psychoakustischer AAC-
Codec ausgeführt ist. Dies bedeutet, daß der Mono-Requanti
sierer 108 ähnlich zu den beiden Stereodecodierern 104 und
106 aufgebaut ist.
Um nun das Stereosignal wieder rekonstruieren zu können, muß
die in dem Ausgangssignal des Mono-Requantisierers 108 noch
vorliegende M-TNS-Filterung aufgehoben werden. Dies ge
schieht im Block TNS-1-M 110. Am Ausgangssignal des Blocks
TNS-1-M 110 liegt somit der codierte/decodierte (ungefilter
te) Monokanal M" an. Dieses Signal kann mittels eines
Blocks 111 in den Zeitbereich transformiert werden, als
decodierter Monokanal ausgegeben werden und von einem
Empfänger weiterverarbeitet werden, der sich lediglich für
ein Monosignal interessiert. In Analogie zu Fig. 1 muß der
codierte/decodierte Monokanal M" einer L/R-Filterung unter
zogen, damit die spektralen Restwerte des Monokanals auf die
gleichen Prädiktionskoeffizienten wie die spektralen Rest
werte des linken bzw. des rechten Kanals bezogen sind. Nur
dann können Differenzen bzw. Summen sinnvoll gebildet wer
den, d. h. nur dann ist eine Kombination bzw. ein sinnvoller
Vergleich möglich. Dies geschieht in dem Block TNS-R/L 112.
Am Ausgang des Blocks TNS-R/L liegt somit der L/R-gefilterte
Monokanal M''' an. Die Notation L/R bzw. R/L soll auf eine
wahlweise Verwendung von R-Prädiktionskoeffizienten oder von
L-Prädiktionskoeffizienten hinweisen. Der L/R-gefilterte
Monokanal wird nun einem Summierer 114 zugeführt, um im
Falle einer Mitte/Seite-Codierung zu dem ersten Stereosignal
MV addiert zu werden. Das Ergebnis ergibt dann das "wahre"
Mitte-Signal, das bezüglich Fig. 1 das Signal am Ausgang des
Multiplizierers 50a ist.
Der in Fig. 2 gezeigte Decodierer umfaßt ferner zwei inverse
frequenzselektive Schalteinrichtungen 116, 118, wobei die
inverse frequenzselektive Schalteinrichtung 116 für die Ver
arbeitung des linken, d. h. des ersten Kanals L, vorgesehen
ist, während die inverse frequenzselektive Schalteinrichtung
118 für die Verarbeitung des zweiten bzw. rechten Kanals R
dient. Den inversen frequenzselektiven Schalteinrichtungen
116 und 118 ist jeweils ein Summierer 120 bzw. 122 vorge
schaltet, derart, daß eine inverse frequenzselektive Schalt
einrichtung als Eingangssignal sowohl ein spektrales Stereo
signal L", R" als auch die Summe des spektralen Stereosi
gnals L", R" und des durch einen Multiplizierer 124 ver
doppelten "wahren" Mitte-Signals (entspricht dem Ausgangs
signal des Multiplizierers 50a in Fig. 1) erhält. Die in
versen frequenzselektiven Schalteinrichtungen 116, 118 wer
den durch entsprechende Seiteninformationen 126 angesteuert,
um die bei der Codierung vorliegenden Verhältnisse, d. h.
Differenz- bzw. Simulcastcodierung in einem Frequenzband,
nachzubilden.
Die inversen frequenzselektiven Schalteinrichtungen 116 und
118 geben, wenn sie durch die Seiteninformationen 126 kor
rekt angesteuert werden, einen (decodierten) gefilterten
ersten Kanal L' und einen (decodierten) gefilterten zweiten
Kanal R' aus. In einem Block MS-1 128 wird die Mitte/Seite-
Codierung rückgängig gemacht, die durch den Block MS-Be
stimmung 26 (Fig. 1) eingeführt wurde. Dies bedeutet, daß
bei Vorliegen einer Links-Rechts-Codierung die Eingangssi
gnale L', R' unverändert durchgelassen werden, während bei
Vorliegen einer Mitte-Seite-Codierung mittels einfacher Ad
dition und Subtraktion aus dem Mittesignal und dem Seite
signal S der (decodierte) gefilterte erste Kanal L' und der
(decodierte) gefilterte zweite Kanal R' berechnet werden.
Zum Rückgängigmachen der TNS-Filterung wird der gefilterte
erste Kanal einer inversen TNS-Filterung mittels des Blocks
TNS-1-L 130 unterzogen. Analog dazu wird der rechte Kanal
einer inversen Prädiktion über der Frequenz unterzogen, die
durch den Block TNS-1-R 132 in Fig. 2 schematisch darge
stellt ist. An dieser Stelle sei darauf hingewiesen, daß der
gefilterte erste Kanal L' genauso wie der gefilterte zweite
Kanal R' spektrale Restwerte des ersten Kanals L und des
zweiten Kanals R sind, welche erst zusammen mit dem entspre
chenden TNS-Prädiktionskoeffizienten den spektralen ersten
Kanal L und den spektralen zweiten Kanal R ergeben. Die
TNS-Prädiktionskoeffizienten für den ersten Kanal L und für
den zweiten Kanal R werden, wie es in Fig. 2 durch die Sei
teninformationenleitungen 126 dargestellt ist, aus den Sei
teninformationen extrahiert und den TNS-1-Blöcken 130 und
132 zugeführt.
Um schließlich den zeitlichen ersten Kanal 1 und den seit
lichen zweiten Kanal r zu erhalten, müssen die spektralen
Kanäle mittels einer inversen Filterbank in den Zeitbereich
transformiert werden, wie es durch die Blöcke MDCT-1-L 134
und MDCT-1-R 136 in Blockschaltbildform illustriert ist.
Wie bereits mehrfach festgestellt wurde, ist der Codierer
gemäß einem ersten Ausführungsbeispiel der vorliegenden Er
findung, der in Fig. 1 dargestellt ist, ein skalierbarer
TNS-Stereocodierer mit einer Monoschicht, wobei die Mono
schicht vorzugsweise ebenso wie die Stereoschicht mit maxi
mal voller Bandbreite codiert ist, da der M-Codec 34 als
psychoakustischer AAC-Codierer ausgeführt ist. Daher gibt
der Mono-Requantisierer 108 des Decodierers in Fig. 2 einen
Monokanal mit voller Bandbreite aus. Die Skalierbarkeit be
steht bei dem in Fig. 1 gezeigten Codierer und dem analogen
in Fig. 2 gezeigten Decodierer darin, zur Decodierung unter
einer Stereoschicht und einer Monoschicht auswählen zu kön
nen.
Im nachfolgenden wird der in Fig. 3 gezeigte Codierer be
schrieben, der ein skalierbarer TNS-Stereocodierer ist, bei
dem die Monoschicht aus einer ersten Mono-Teilschicht und
aus einer zweiten Mono-Teilschicht besteht. Dieser Codierer
ist somit nicht nur bezüglich Stereo/Mono skalierbar, son
dern hier ist auch die Monoschicht in eine erste Mono-Teil
schicht und in eine zweite Mono-Teilschicht skaliert. Glei
che Elemente in den Fig. 1 und 3 sind in Fig. 3 durch die
entsprechenden Bezugszeichen gekennzeichnet. Soweit sich die
Funktionsweise dieser Elemente nicht von der im Zusammenhang
mit Fig. 1 beschriebenen unterscheidet, wird auf diese Ele
mente nicht mehr eingegangen.
Im Unterschied zu dem in Fig. 1 gezeigten Codierer gemäß dem
ersten Ausführungsbeispiel der vorliegenden Erfindung umfaßt
der in Fig. 3 gezeigte Codierer einen sogenannten Core-Codec
140, welcher üblicherweise ein Codierer mit niedriger Bitra
te ist, z. B. ein CELP-Sprachcodiersystem. Der Core-Codec
140 liefert eine erste Mono-Teilschicht, wobei diese Mono-
Teilschicht üblicherweise eine Bandbreite von nur 0 bis 4
kHz haben wird. Der Core-Codec erhält als Eingangssignal
einen zeitlichen Monokanal m, der gebildet wird, indem
sowohl der zeitliche linke Kanal l aus auch der zeitliche
rechte Kanal r mittels einer Multiplikationseinrichtung 142a
bzw. 142b halbiert werden, woraufhin der halbierte zeitliche
linke Kanal und der halbierte zeitliche rechte Kanal mittels
eines Addierers 144 addiert werden, um den zeitlichen Mono
kanal m zu erhalten.
Der zeitliche Monokanal m liegt noch ebenso wie der zeit
liche linke Kanal l und der zeitliche rechte Kanal r mit der
Stereo-Abtastrate vor. Um die Bitrate der ersten Mono-Teil
schicht im Vergleich zur Bitrate der Stereoschicht zu redu
zieren, wird der zeitliche Monokanal m mittels eines Down
sampling-Filters 144 gefiltert. Das Ausgangssignal des Down
sampling-Filters 144 wird mittels des im Core-Codec 140 vor
handenen Core-Codierers codiert und als erste Monoteil
schicht 146 zu einem Bitstrommultiplexer (nicht gezeigt)
ausgegeben. Um die in der ersten Monoteilschicht bereits co
dierten Informationen bei der weiterführenden Codierung be
rücksichtigen zu können, wird das im Core-Coder codierte
Signal innerhalb des Core-Codec 140 wieder decodiert und
mittels eines Upsampling-Filters gefiltert, derart, daß das
Ausgangssignal des Upsampling-Filters 148 gleiche Abtastra
tenverhältnisse aufweist wie der zeitliche erste Kanal l und
der zeitliche zweite Kanal r.
Das Ausgangssignal des Upsampling-Filters 148 wird dann
mittels einer MDCT-Filterbank 150 in den Frequenzbereich
transformiert, um einen codierten/decodierten spektralen
Monokanal Mcd zu erhalten. Dieser codierte/decodierte spek
trale Monokanal wird nun einer TNS-Filterung innerhalb eines
Blocks TNS-M 152 unterzogen. Hier kann entweder eine voll
ständige neue Prädiktionskoeffizientenberechnung durchge
führt werden, oder es können die bereits in den Seiteninfor
mationen vorhandenen Prädiktionskoeffizienten, die durch die
TNS-M-Filterung im Block 32 erhalten wurden, hergenommen
werden. Auf jeden Fall müssen für die Prädiktion über der
Frequenz mit dem codierten/decodierten spektralen Monokanal
Mcd und dem spektralen Monokanal M hinter dem Multiplizierer
30 die gleichen Prädiktionskoeffizienten verwendet werden,
damit die Ausgangssignale der Blöcke 32 und 152, d. h. die
spektralen Restwerte, verglichen werden können.
Dieser Vergleich findet mittels eines Addierers 154 und
einer frequenzselektiven Schalteinrichtung 156 statt. Am
Ausgangssignal des Addierers 154 liegt somit der "Rest" des
Monokanals an, der bis zur maximalen Bandbreitenfrequenz des
Core-Codecs 140 lediglich den durch den Core-Codec 140
eingeführten Codierfehler umfaßt, und der über der maximalen
Bandbreite des Core-Codecs 140 das volle Monosignal umfaßt.
Die frequenzselektive Schalteinrichtung 156 bestimmt wieder
um, ob es günstiger ist, eine Differenz-Codierung oder eine
Simulcast-Codierung bzw. Verarbeitung einzusetzen. Am Aus
gang der frequenzselektiven Schalteinrichtung 156 liegt so
mit ein Vergleichs-Monokanal Mcd" vor, der durch Verglei
chen des gefilterten codierten/decodierten spektralen Mono
kanals Mcd, und des gefilterten Monokanals M' erhalten wur
de. In Analogie zu Fig. 1 wird der Vergleichs-Monokanal
Mcd" in den M-Codec 36 eingespeist und einer inversen TNS-
Filterung mit den M-Prädiktionskoeffizienten 38 unterzogen,
um einen codierten/decodierten Monokanal zu erhalten.
Wenn Fig. 1 mit Fig. 3 verglichen wird, so bleibt festzu
stellen, daß der codierte/decodierte Monokanal M" in Fig. 1
und in Fig. 3 oberhalb der Core-Codec-Bandbreite identisch
sind, während sich diese Signale unterhalb der Core-Codec-
Bandbreitenfrequenz darin unterscheiden, daß der codier
te/decodierte Monokanal M" von Fig. 3 lediglich noch den
vom Core-Codec 140 eingeführten Codierfehler umfaßt, während
der codierte/decodierte Monokanal M" von Fig. 1 das gesamte
Monosignal beinhaltet. In gewissen Fällen kann es jedoch
sein, daß der durch den Core-Codec 140 eingeführte Codier
fehler bereits größer als das Monosignal ist, wobei in die
sem Fall die frequenzselektive Schalteinrichtung 156 keine
Differenz-Verarbeitung wählen wird, sondern eine Simulcast-
Verarbeitung.
Fig. 4 zeigt den zu Fig. 3 analogen Decodierer. Im Vergleich
zu dem in Fig. 2 gezeigten Decodierer umfaßt der in Fig. 4
gezeigte Decodierer, der eine Stereoschicht und zwei Mono
teilschichten decodieren kann, zusätzlich einen Core-Decoder
160, eine MDCT-Filterbank 162, einen Block TNS-M 164, einen
Addierer 166 sowie eine inverse frequenzselektive Schalt
einrichtung 168. Außerdem ist dem Core-Decodierer 160 ein
Upsamling-Filter 170 nachgeschaltet.
Die in Fig. 4 gezeigten zusätzlichen Decodiererelemente
werden nachfolgend erläutert. Der Demultiplexer 102 trennt
die Stereoschicht und die Monoschicht und führt insbesondere
eine Trennung der ersten Monoteilschicht und der zweiten Mo
noteilschicht durch. Das Ausgangssignal des Mono-Requanti
sierers 108 ist nun die decodierte zweite Monoteilschicht,
während die erste Monoteilschicht in den Core-Decoder 160
eingespeist wird, der identisch zu dem Core-Decoder im
Core-Codec 140 arbeitet. Das Ausgangssignal des Core-Deco
ders wird in das Upsampling-Filter 170 eingegeben, um glei
che Abtastfrequenzverhältnisse zwischen der decodierten er
sten Monoteilschicht und der decodierten zweiten Monoteil
schicht herzustellen.
Es existieren somit zwei optionale Möglichkeiten zur Ausgabe
eines Monosignals. Die erste Monoteilschicht kann, wie in
Fig. 4 gezeigt, aus dem Core-Decoder ausgegeben werden.
Dieses Signal hat dann eine Abtastfrequenz entsprechend dem
Core-Codec. Alternativ oder gleichzeitig kann das Signal am
Ausgang des Upsampling-Filters 170 als Core-Zeitsignal
verwendet werden. Dieses Monosignal entspricht der ersten
Monoschicht, jedoch mit dem Unterschied, daß seine Abtast
frequenz der des linken bzw. rechten Stereokanals vor dem
Codieren entspricht.
Das von dem Upsampling-Filter 170 gefilterte Signal wird
durch die MDCT-Filterbank 162 in den Frequenzbereich trans
formiert, um wiederum den codierten/decodierten spektralen
Monokanal Mcd (siehe Fig. 3) zu erhalten. Dieses Signal wird
in dem Block 164 TNS-gefiltert, wobei die TNS-Filterkoeffi
zienten aus den Seiteninformationen 126 verwendet werden,
die beispielsweise durch den TNS-Prädiktor 152 oder 32 von
Fig. 3 im Codierer ermittelt wurden. Am Ausgang des Blocks
164 liegt dann der gefilterte codierte/decodierte spektrale
Monokanal M'cd an, der in den Addierer 166 ebenso wie die
decodierte zweite Monoteilschicht eingegeben wird. Der Ad
dierer 166 speist wiederum die inverse frequenzselektive
Schalteinrichtung 168, die in Analogie zu den inversen fre
quenzselektiven Schalteinrichtungen 116 und 118 abhängig von
den Seiteninformationen gesteuert wird, um die im Codierer
eingeführten frequenzweisen Selektionen wieder rückgängig zu
machen. Am Ausgang der inversen frequenzselektiven Schalt
einrichtung 168 liegt dann der gefilterte Monokanal M' an,
der durch den inversen Prädiktor TNS-1-M 110 einer inversen
Prädiktion über der Frequenz unterzogen wird, um den codier
ten/decodierten Monokanal M" zu erhalten. Die weitere Ver
arbeitung ist zu der in Fig. 2 beschriebenen Verarbeitung
identisch.
Fig. 5 zeigt einen Codierer gemäß einem zweiten Ausführungs
beispiel der vorliegenden Erfindung, wobei dieser Codierer
ein skalierbarer TNS-Stereocodierer ist, der als Monoschicht
lediglich das Ausgangssignal des Core-Codec 140 hat, d. h.
der keinen AAC-Monocodierer 34 umfaßt. Der zeitliche Monoka
nal m wird einer Filterung im Downsampling-Filter 144 unter
zogen und dann im Core-Codec 140 codiert, um eine Mono
schicht zu ergeben. Die Monoschicht wird dann innerhalb des
Core-Codec 140 wieder decodiert und durch ein Upsampling-
Filter 148 gefiltert und dann mittels der Filterbank 150 in
den Frequenzbereich umgesetzt, um den codierten/decodierten
spektralen Monokanal Mcd zu erhalten.
Im Unterschied zu dem in Fig. 3 gezeigten Ausführungsbei
spiel wird nun jedoch keine "eigenständige" Prädiktion über
der Frequenz des codierten/decodierten spektralen Monokanals
Mcd bzw. eine Prädiktion über der Frequenz mit "M-Prädik
tionskoeffizienten" durchgeführt, sondern bereits eine Prä
diktion über der Frequenz mittels L- oder R-Prädiktionsko
effizienten, die in den Blöcken 18 bzw. 20 berechnet wurden.
Diese L/R-Prädiktion ist durch einen Block TNS-L/R 172 sym
bolisiert. Dies bedeutet, daß sofort auf die TNS-L/R-Prädik
tionskoeffizienten "gegangen" wird, und daß keine M-Prädik
tion durchgeführt wird. Daher findet auch in Fig. 5 statt
der TNS-M-Prädiktion 32 (Fig. 3) eine TNS-L/R-Prädiktion
statt, wie es durch den Block 174 angedeutet ist. Am Ausgang
des TNS-L/R-Blocks 172 liegt somit der L/R-gefilterte co
dierte/decodierte Monokanal Mcd''' an, während am Ausgang
des TNS-L/R-Blocks 174 der L/R-gefilterte Monokanal anliegt.
Das Signal M''' und das Signal M'''cd sind beide auf L- oder
R-Prädiktionskoeffizienten bezogen und können somit mittels
des Addierers 154 verglichen werden, derart, daß die fre
quenzselektive Schalteinrichtung 156 einen Differenz-Betrieb
oder einen Simulcast-Betrieb wählen kann. Wie bereits im Zu
sammenhang mit Fig. 3 erörtert wurde, hat der Core-Codec ei
ne maximale Bandbreite, die im allgemeinen wesentlich gerin
ger als die volle Stereobandbreite ist. Daher wird das Aus
gangssignal der frequenzselektiven Schalteinrichtung 156, d. h. der L/R-Vergleichs-Monokanal Mcd iv, bis zur maximalen
Core-Coderfrequenz im allgemeinen den Codierungs/Decodie
rungs-Fehler des Core-Codecs umfassen, und über der maxi
malen Core-Coder-Frequenz den vollen Monokanal. Die weiter
gehende Verarbeitung entspricht im wesentlichen der im Zu
sammenhang mit den Fig. 1 und 3 beschriebenen Vorgehenswei
sen.
Fig. 6 zeigt den zu Fig. 5 analogen Decodierer. Im Vergleich
zu Fig. 4 umfaßt Fig. 6 keinen Mono-Requantisierer 108, da
der in Fig. 5 gezeigte Codierer auch keinen M-Codec 34 auf
wies. Die Monoschicht, die bei dem in Fig. 6 gezeigten Deco
dierer dem Ausgangssignal des Core-Coders entspricht, wird
in einem analogen Core-Decoder 160 wieder decodiert und
mittels eines Upsampling-Filters 170 gefiltert, um gleiche
Abtastfrequenzverhältnisse des Mono- und des Stereosignals
zu erhalten. Das Ausgangssignal des Upsampling-Filters 170
wird nun mittels einer MDCT-Filterbank 162 in den Frequenz
bereich transformiert, um den codierten/decodierten spektra
len Monokanal Mcd zu erhalten. Im Unterschied zu Fig. 5 wird
in Fig. 6 jedoch keine Prädiktion über der Frequenz mittels
M-Prädiktionskoeffizienten durchgeführt, sondern eine Prä
diktion über der Frequenz unter Verwendung der R- oder der
L-Prädiktionskoeffizienten, die in den Seiteninformationen
126 gespeichert sind. Diese Tatsache ist durch den Block
TNS-R/L 178 in Fig. 6 schematisch dargestellt. Am Ausgang
des Blocks TNS-R/L liegt daher der L/R-gefilterte codier
te/decodierte Monokanal Mcd''' an, der zum einen in einen
Addierer 180 eingespeist wird und zum anderen in einen Mul
tiplizierer 182, um über die Addierer 122 und 120 mit dem
ersten spektralen Stereosignal L" oder mit dem zweiten
spektralen Stereosignal R" verglichen zu werden. Der zweite
Eingang des Addierers 180 wird mit dem ersten spektralen
Stereosignal Mv beaufschlagt, um das Mitte-Signal, in diesem
Falle den L/R-gefilterten Monokanal M''', zu bilden, wenn
eine Mitte = Seite-Codierung vorhanden war. Das Ausgangssignal
des Addierers 180, das ebenso wie das erste spektrale Ste
reosignal Mv in eine weitere inverse frequenzselektive
Schalteinrichtung 182 eingespeist wird, entspricht, wie es
bereits im Zusammenhang mit Fig. 1 dargestellt wurde, dem
Ausgangssignal des Multiplizierers 50a, d. h. dem L/R-gefil
terten vollständigen Monokanal. Die weitere Verarbeitung im
Codierer von Fig. 6 ist wieder analog zur Verarbeitung in
der Decodierern der Fig. 2 und 4.
Zusammengefaßt läßt sich daher feststellen, daß Codierer
gemäß der vorliegenden Erfindung zumindest eine Monoschicht
und eine Stereoschicht aufweisen, wobei die Monoschicht zu
sätzlich skaliert sein kann, und zwar in Form einer ersten
Monoteilschicht mit geringer Bandbreite und in Form einer
zweiten Monoschicht in AAC-Qualität. Für Fachleute ist es
jedoch offensichtlich, daß auch die Stereoschicht weiter
skaliert werden kann, um beispielsweise eine Bandbreitenco
dierung von bis zu 12 kHz zu erreichen, was etwa der HiFi-
Qualität entspricht, und um darüberhinaus eine Bandbreiten
codierung bis zu 20 kHz in der weiteren Stereoskalierungs
schicht zu erreichen, was etwa einer Compact-Disk- (CD-)
Qualität entspricht.
Claims (28)
1. Verfahren zum Verarbeiten eines zeitlichen Stereosi
gnals, das einen zeitlichen ersten (1) und einen zeit
lichen zweiten (r) Kanal aufweist, um einen skalierten
Bitstrom (100) mit einer Monoschicht und einer Stereo
schicht zu erhalten, mit folgenden Schritten:
Transformieren (14, 16) des zeitlichen ersten (1) und des zeitlichen zweiten (r) Kanals in den Frequenzbe reich;
Bilden (28, 30) eines spektralen Monokanals (M) durch Kombination des spektralen ersten (L) und des spektra len zweiten (R) Kanals;
Durchführen (18, 20, 32) einer ersten, zweiten und dritten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), dem spektralen zweiten Kanal (R) bzw. dem spektralen Monokanal (M), um einen gefilterten er sten Kanal (L'), einen gefilterten zweiten Kanal (R') bzw. einen gefilterten Monokanal (M') zu erhalten;
Codieren (Teilfunktion des Blocks Codierer/Decodierer 34) des gefilterten Monokanals (M'), um die Monoschicht (36) des skalierten Bitstroms (100) zu erhalten;
Decodieren (Teilfunktion des Blocks Codierer/Decodierer 34) des codierten gefilterten Monokanals, um einen co dierten/decodierten Monokanal (M") zu erhalten;
Behandeln (38, 40) des gefilterten ersten (L') und zweiten Kanals (R') sowie des codierten/decodierten Monokanals (M"), um einen behandelten ersten Kanal, einen behandelten zweiten Kanal und einen behandelten Monokanal zu erhalten, derart, daß die drei behandelten Kanäle einer Prädiktion mit nur bis zu einem bestimmten Grad unterschiedlichen Prädiktionskoeffizienten unter zogen sind; und
Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereo signals (L", R"; Mv, S) für die Stereoschicht des skalierten Bitstroms (100) unter Berücksichtigung der Codiereffizienz durch Vergleichen (46a, 46b, 22, 24) des behandelten Monokanals (M''') mit dem behandelten ersten (L') und zweiten Kanal (R') und/oder einer Kom bination aus dem behandelten ersten (L') und zweiten (R') Kanal.
Transformieren (14, 16) des zeitlichen ersten (1) und des zeitlichen zweiten (r) Kanals in den Frequenzbe reich;
Bilden (28, 30) eines spektralen Monokanals (M) durch Kombination des spektralen ersten (L) und des spektra len zweiten (R) Kanals;
Durchführen (18, 20, 32) einer ersten, zweiten und dritten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), dem spektralen zweiten Kanal (R) bzw. dem spektralen Monokanal (M), um einen gefilterten er sten Kanal (L'), einen gefilterten zweiten Kanal (R') bzw. einen gefilterten Monokanal (M') zu erhalten;
Codieren (Teilfunktion des Blocks Codierer/Decodierer 34) des gefilterten Monokanals (M'), um die Monoschicht (36) des skalierten Bitstroms (100) zu erhalten;
Decodieren (Teilfunktion des Blocks Codierer/Decodierer 34) des codierten gefilterten Monokanals, um einen co dierten/decodierten Monokanal (M") zu erhalten;
Behandeln (38, 40) des gefilterten ersten (L') und zweiten Kanals (R') sowie des codierten/decodierten Monokanals (M"), um einen behandelten ersten Kanal, einen behandelten zweiten Kanal und einen behandelten Monokanal zu erhalten, derart, daß die drei behandelten Kanäle einer Prädiktion mit nur bis zu einem bestimmten Grad unterschiedlichen Prädiktionskoeffizienten unter zogen sind; und
Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereo signals (L", R"; Mv, S) für die Stereoschicht des skalierten Bitstroms (100) unter Berücksichtigung der Codiereffizienz durch Vergleichen (46a, 46b, 22, 24) des behandelten Monokanals (M''') mit dem behandelten ersten (L') und zweiten Kanal (R') und/oder einer Kom bination aus dem behandelten ersten (L') und zweiten (R') Kanal.
2. Verfahren gemäß Anspruch 1, bei dem die Monoschicht
selbst unterskaliert ist, das ferner folgende Schritte
aufweist:
Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) zeitlichen Kanal;
Codieren (140) des zeitlichen Monokanals (m) mittels eines ersten Codieralgorithmus, um eine erste Monoteil schicht der Monoschicht zu erhalten;
Decodieren (140) und Transformieren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spektralen Monokanal (Mcd) zu er halten;
Durchführen (152) einer weiteren Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Mo nokanal (Mcd), wobei Prädiktionskoeffizienten der drit ten Prädiktion (32) verwendet werden, um einen gefil terten codierten/decodierten Monokanal (Mcd') zu erhal ten;
Vergleichen (154, 156) des gefilterten codierten/deco dierten Monokanals (Mcd') mit dem gefilterten Monokanal (M'), um einen Vergleichs-Monokanal (Mcd") zu erhal ten, wobei im Schritt des Codierens des gefilterten Mo nokanals statt des gefilterten Monokanals (M') der Ver gleichs-Monokanal (Mcd') mittels eines zweiten Codier algorithmus codiert wird, um eine zweite Monoteil schicht der Monoschicht zu erhalten, und wobei in dem Schritt des Decodierens des codierten gefilterten Mono kanals statt des gefilterten Monokanals (M') der Ver gleichs-Monokanal (Mcd") verwendet wird.
Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) zeitlichen Kanal;
Codieren (140) des zeitlichen Monokanals (m) mittels eines ersten Codieralgorithmus, um eine erste Monoteil schicht der Monoschicht zu erhalten;
Decodieren (140) und Transformieren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spektralen Monokanal (Mcd) zu er halten;
Durchführen (152) einer weiteren Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Mo nokanal (Mcd), wobei Prädiktionskoeffizienten der drit ten Prädiktion (32) verwendet werden, um einen gefil terten codierten/decodierten Monokanal (Mcd') zu erhal ten;
Vergleichen (154, 156) des gefilterten codierten/deco dierten Monokanals (Mcd') mit dem gefilterten Monokanal (M'), um einen Vergleichs-Monokanal (Mcd") zu erhal ten, wobei im Schritt des Codierens des gefilterten Mo nokanals statt des gefilterten Monokanals (M') der Ver gleichs-Monokanal (Mcd') mittels eines zweiten Codier algorithmus codiert wird, um eine zweite Monoteil schicht der Monoschicht zu erhalten, und wobei in dem Schritt des Decodierens des codierten gefilterten Mono kanals statt des gefilterten Monokanals (M') der Ver gleichs-Monokanal (Mcd") verwendet wird.
3. Verfahren nach Anspruch 2, bei dem der erste Codieral
gorithmus (140) ein Sprachcodieralgorithmus ist, der
psychoakustische Effekte nutzt oder nicht, während der
zweite Codieralgorithmus (34) ein Algorithmus ist, der
psychoakustische Effekte nutzt.
4. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem bei zwei der drei Prädiktionen im Schritt des Durchführens (18, 20, 32) Prädiktionskoeffizienten der weiteren verbleibenden Prädiktion verwendet werden, und
bei dem der Schritt des Behandelns folgenden Teil schritt aufweist:
unverändertes Weiterleiten des gefilterten ersten (L') und zweiten Kanals (R') sowie des codierten/de codierten Monokanals (M"), um die behandelten Kanäle zu erhalten.
bei dem bei zwei der drei Prädiktionen im Schritt des Durchführens (18, 20, 32) Prädiktionskoeffizienten der weiteren verbleibenden Prädiktion verwendet werden, und
bei dem der Schritt des Behandelns folgenden Teil schritt aufweist:
unverändertes Weiterleiten des gefilterten ersten (L') und zweiten Kanals (R') sowie des codierten/de codierten Monokanals (M"), um die behandelten Kanäle zu erhalten.
5. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem für jede Prädiktion im Schritt des Durchführens (18, 20, 32) eigene Prädiktionskoeffizienten ermittelt werden, und
bei dem der Schritt des Behandelns folgende Teilschrit te aufweist:
Auswählen von Prädiktionskoeffizienten, die durch die Prädiktion (18), um einen gefilterten Kanal (L') der drei spektralen Kanäle (L, R, M) zu erhalten, erzeugt wurden;
Durchführen von zu den anderen beiden Prädiktionen (20, 32) inversen Prädiktionen mit den beiden anderen gefilterten Kanälen (R', M");
Durchführen je einer Prädiktion mit den beiden ande ren gefilterten Kanälen (R', M"), wobei für beide Prädiktionen die ausgewählten Prädiktionskoeffizien ten verwendet werden, um die beiden behandelten an deren Kanäle (R', M''') zu erhalten; und
unverändertes Weiterleiten des gefilterten einen Ka nals (L'), um den behandelten einen (L') Kanal zu er halten.
bei dem für jede Prädiktion im Schritt des Durchführens (18, 20, 32) eigene Prädiktionskoeffizienten ermittelt werden, und
bei dem der Schritt des Behandelns folgende Teilschrit te aufweist:
Auswählen von Prädiktionskoeffizienten, die durch die Prädiktion (18), um einen gefilterten Kanal (L') der drei spektralen Kanäle (L, R, M) zu erhalten, erzeugt wurden;
Durchführen von zu den anderen beiden Prädiktionen (20, 32) inversen Prädiktionen mit den beiden anderen gefilterten Kanälen (R', M");
Durchführen je einer Prädiktion mit den beiden ande ren gefilterten Kanälen (R', M"), wobei für beide Prädiktionen die ausgewählten Prädiktionskoeffizien ten verwendet werden, um die beiden behandelten an deren Kanäle (R', M''') zu erhalten; und
unverändertes Weiterleiten des gefilterten einen Ka nals (L'), um den behandelten einen (L') Kanal zu er halten.
6. Verfahren nach einem der Ansprüche 1 bis 3,
bei dem für zwei Prädiktionen (18, 32) mit zwei Kanälen (L, M) im Schritt des Durchführens (18, 20, 32) eigene Prädiktionskoeffizienten ermittelt werden, und für die weitere Prädiktion (20) mit dem weiteren Kanal (R) die Prädiktionskoeffizienten des einen Kanals (L) der zwei Kanäle (L, M) verwendet werden, und
bei dem der Schritt des Behandelns folgende Teilschrit te aufweist:
Durchführen (38) einer zu der Prädiktion (32) mit dem anderen Kanal (M) inversen Prädiktion mit dem anderen gefilterten Kanal (M");
Durchführen einer Prädiktion (40) mit dem anderen Ka nal (R', M"), wobei die Prädiktionskoeffizienten des eines Kanals (L) verwendet werden, um den behandelten anderen Kanal (M''') zu erhalten; und
unverändertes Weiterleiten des gefilterten einen Ka nals (L'), um den behandelten einen Kanal zu erhal ten.
bei dem für zwei Prädiktionen (18, 32) mit zwei Kanälen (L, M) im Schritt des Durchführens (18, 20, 32) eigene Prädiktionskoeffizienten ermittelt werden, und für die weitere Prädiktion (20) mit dem weiteren Kanal (R) die Prädiktionskoeffizienten des einen Kanals (L) der zwei Kanäle (L, M) verwendet werden, und
bei dem der Schritt des Behandelns folgende Teilschrit te aufweist:
Durchführen (38) einer zu der Prädiktion (32) mit dem anderen Kanal (M) inversen Prädiktion mit dem anderen gefilterten Kanal (M");
Durchführen einer Prädiktion (40) mit dem anderen Ka nal (R', M"), wobei die Prädiktionskoeffizienten des eines Kanals (L) verwendet werden, um den behandelten anderen Kanal (M''') zu erhalten; und
unverändertes Weiterleiten des gefilterten einen Ka nals (L'), um den behandelten einen Kanal zu erhal ten.
7. Verfahren nach Anspruch 6, bei dem eine der zwei Prä
diktionen, für die eigene Prädiktionskoeffizienten
ermittelt werden, die dritte Prädiktion (32) ist, und
die andere Prädiktion die erste (18) oder zweite (20)
Prädiktion ist.
8. Verfahren nach Anspruch 6 oder 7, bei dem die Prädik
tionskoeffizienten, die zum Durchführen der Prädiktion
mit dem anderen Kanal verwendet werden, die Prädikti
onskoeffizienten des ersten (L) oder des zweiten (R)
Kanals sind, und zwar abhängig davon, welcher Kanal der
beiden Stereokanäle dominant ist.
9. Verfahren zum Verarbeiten eines zeitlichen Stereosi
gnals, das einen zeitlichen ersten (1) und einen zeit
lichen zweiten (r) Kanal aufweist, um einen skalierten
Bitstrom (100) mit einer Monoschicht und einer Stereo
schicht zu erhalten, mit folgenden Schritten:
Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) Kanal;
Codieren (140) des zeitlichen Monokanals (m), um die Monoschicht des skalierten Bitstroms zu erhalten;
Transformieren (14, 16) des ersten (1) und des zweiten (r) Kanals in den Frequenzbereich;
Bilden eines spektralen Monokanals (M) durch Kombina tion aus dem spektralen ersten (L) und dem spektralen zweiten (R) Kanal;
Decodieren (140) und Transformieren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spektralen Monokanal (Mcd) zu er halten;
Durchführen (18) einer ersten Prädiktion über der Fre quenz mit dem spektralen ersten Kanal (L), um einen ge filterten ersten Kanal (L') zu erhalten;
Durchführen (20) einer zweiten Prädiktion über der Fre quenz mit dem spektralen zweiten Kanal (R) um einen ge filterten zweiten Kanal (R') zu erhalten;
Durchführen (172, 174) einer dritten Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Monokanal (Mcd) und mit dem spektralen Monokanal (M), wobei Prädiktionskoeffizienten der ersten (18) oder zweiten (20) Prädiktion verwendet werden, um einen L/R-gefilterten codierten/decodierten Monokanal (Mcd''') bzw. einen L/R-gefilterten Monokanal (M''') zu erhalten;
Vergleichen (154, 156) des L/R-gefilterten codier ten/decodierten Monokanals (Mcd''') mit dem L/R-ge filterten Monokanal (M'''), um einen L/R-Vergleichs- Monokanal (Mcd iv) zu erhalten; und
Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosi gnals (L", R"; Mv, S) für die Stereoschicht des ska lierten Bitstroms unter Berücksichtigung der Codier effizienz durch Vergleichen des L/R-Vergleichs-Monoka nals (Mcd iv) mit dem gefilterten ersten Kanal (L'), dem gefilterten zweiten Kanal (R') und mit einer Kombina tion (48a, 48b, 50a, 50b, 52) aus dem gefilterten er sten (L') und dem gefilterten zweiten (R') Kanal.
Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) Kanal;
Codieren (140) des zeitlichen Monokanals (m), um die Monoschicht des skalierten Bitstroms zu erhalten;
Transformieren (14, 16) des ersten (1) und des zweiten (r) Kanals in den Frequenzbereich;
Bilden eines spektralen Monokanals (M) durch Kombina tion aus dem spektralen ersten (L) und dem spektralen zweiten (R) Kanal;
Decodieren (140) und Transformieren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spektralen Monokanal (Mcd) zu er halten;
Durchführen (18) einer ersten Prädiktion über der Fre quenz mit dem spektralen ersten Kanal (L), um einen ge filterten ersten Kanal (L') zu erhalten;
Durchführen (20) einer zweiten Prädiktion über der Fre quenz mit dem spektralen zweiten Kanal (R) um einen ge filterten zweiten Kanal (R') zu erhalten;
Durchführen (172, 174) einer dritten Prädiktion über der Frequenz mit dem codierten/decodierten spektralen Monokanal (Mcd) und mit dem spektralen Monokanal (M), wobei Prädiktionskoeffizienten der ersten (18) oder zweiten (20) Prädiktion verwendet werden, um einen L/R-gefilterten codierten/decodierten Monokanal (Mcd''') bzw. einen L/R-gefilterten Monokanal (M''') zu erhalten;
Vergleichen (154, 156) des L/R-gefilterten codier ten/decodierten Monokanals (Mcd''') mit dem L/R-ge filterten Monokanal (M'''), um einen L/R-Vergleichs- Monokanal (Mcd iv) zu erhalten; und
Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosi gnals (L", R"; Mv, S) für die Stereoschicht des ska lierten Bitstroms unter Berücksichtigung der Codier effizienz durch Vergleichen des L/R-Vergleichs-Monoka nals (Mcd iv) mit dem gefilterten ersten Kanal (L'), dem gefilterten zweiten Kanal (R') und mit einer Kombina tion (48a, 48b, 50a, 50b, 52) aus dem gefilterten er sten (L') und dem gefilterten zweiten (R') Kanal.
10. Verfahren nach Anspruch 9, bei dem die erste Prädiktion
(18) und die zweite Prädiktion (20) unter Verwendung
identischer Prädiktionskoeffizienten durchgeführt wird.
11. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem der Schritt des Bildens eines ersten und eines
zweiten spektralen Stereosignals (L", R"; Mv, S) fol
gende Teilschritte aufweist:
Subtrahieren (50a) des gefilterten ersten Kanals (L') von dem mit einem Faktor von zwei multiplizierten (44a) behandelten gefilterten codierten/decodierten Monokanal (M''') bzw. dem mit einem Faktor von zwei multiplizier ten (44a) Vergleichs-Monokanal (Miv);
Subtrahieren (46b) des gefilterten zweiten Kanals (R') von dem mit einem Faktor von zwei multiplizierten (48b) gefilterten codierten/decodierten Monokanal (M') bzw. dem mit einem Faktor von zwei multiplizierten (48b) Vergleichs-Monokanal (Miv);
Vergleichen (22, 24) der Subtraktionsergebnisse mit ei nem Schwellenwert; und
Verwenden (22, 24) der Subtraktionsergebnisse als er stes und zweites spektrales Stereosignal (L", R"), wenn der Schwellenwert unterschritten wird, ansonsten, Verwenden (22, 24) des gefilterten ersten Kanals (L') und des gefilterten zweiten Kanals (R') als erstes und zweites spektrales Stereosignal (L", R").
Subtrahieren (50a) des gefilterten ersten Kanals (L') von dem mit einem Faktor von zwei multiplizierten (44a) behandelten gefilterten codierten/decodierten Monokanal (M''') bzw. dem mit einem Faktor von zwei multiplizier ten (44a) Vergleichs-Monokanal (Miv);
Subtrahieren (46b) des gefilterten zweiten Kanals (R') von dem mit einem Faktor von zwei multiplizierten (48b) gefilterten codierten/decodierten Monokanal (M') bzw. dem mit einem Faktor von zwei multiplizierten (48b) Vergleichs-Monokanal (Miv);
Vergleichen (22, 24) der Subtraktionsergebnisse mit ei nem Schwellenwert; und
Verwenden (22, 24) der Subtraktionsergebnisse als er stes und zweites spektrales Stereosignal (L", R"), wenn der Schwellenwert unterschritten wird, ansonsten, Verwenden (22, 24) des gefilterten ersten Kanals (L') und des gefilterten zweiten Kanals (R') als erstes und zweites spektrales Stereosignal (L", R").
12. Verfahren nach Anspruch 11, bei dem die Schritte des
Vergleichens und des Verwendens (22, 24) frequenzselek
tiv ausführbar sind.
13. Verfahren nach einem der Ansprüche 1 bis 12, bei dem
der Schritt des Bildens eines ersten und eines zweiten
spektralen Stereosignals ferner folgende Teilschritte
aufweist:
Subtrahieren (52) des behandelten codierten/decodierten Monokanals (M''') bzw. des Vergleichs-Monokanals (Mcd") von der halben (50a) Summe (48a) des gefilter ten ersten Kanals (L') und des gefilterten zweiten Ka nals (R'), um als erstes spektrales Stereosignal ein Mitte-Signal (Mv) zu erhalten; und
Subtrahieren (48b) des halben (50b) gefilterten zweiten Kanals (R') von dem halben gefilterten ersten Kanal (L'), um als zweites spektrales Stereosignal ein Sei te-Signal (S) zu erhalten.
Subtrahieren (52) des behandelten codierten/decodierten Monokanals (M''') bzw. des Vergleichs-Monokanals (Mcd") von der halben (50a) Summe (48a) des gefilter ten ersten Kanals (L') und des gefilterten zweiten Ka nals (R'), um als erstes spektrales Stereosignal ein Mitte-Signal (Mv) zu erhalten; und
Subtrahieren (48b) des halben (50b) gefilterten zweiten Kanals (R') von dem halben gefilterten ersten Kanal (L'), um als zweites spektrales Stereosignal ein Sei te-Signal (S) zu erhalten.
14. Verfahren nach Anspruch 13, das nach dem Schritt des
Bildens eines ersten und eines zweiten spektralen Ste
reosignals ferner folgenden Schritt aufweist:
Vergleichen (26) der Energien des ersten spektralen
Stereosignals (L", Mv) und des zweiten spektralen
Stereosignals (R", S), um zu bestimmen, ob eine Mit
te/Seite-Codierung oder eine Links/Rechts-Codierung für
die Stereoschicht durchgeführt werden soll.
15. Verfahren zum Decodieren eines unter Verwendung einer
Prädiktion über der Frequenz codierten Audiobitstroms
(100), der Seiteninformationen (126) aufweist, die auf
die dem Audiobitstrom (100) zugrundeliegende Codierung
hinweisen, mit folgenden Schritten:
Demultiplexen (102) des Audiobitstroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformationen zu erhalten;
Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgo rithmus, um einen decodierten Monokanal zu erhalten;
Requantisieren (104, 106) der Stereoschicht, um ein er stes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
Behandeln (110, 112) des ersten und zweiten Stereo signals (L", R"; Mv, S) sowie des decodierten Mono kanals, derart, daß die zwei Stereosignale und der de codierte Monokanal einer Prädiktion mit nur bis zu ei nem bestimmten Grad unterschiedlichen Prädiktionskoef fizienten unterzogen sind;
Kombinieren (114, 116, 118, 120, 122) des behandelten Monokanals (M''') mit dem behandelten ersten bzw. zwei ten spektralen Stereosignal (L", R"), um einen gefil terten ersten Kanal (L') und einen gefilterten zweiten Kanal (R') zu erhalten, aufgrund der Seiteninformatio nen;
Durchführen (130, 132) einer inversen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (L') und dem gefilterten zweiten Kanal (R'), um einen spektralen ersten (L) und einen spektralen zweiten (R) Kanal zu erhalten, unter Verwendung von zweiten bzw. dritten in den Seiteninformationen vorhandenen Prädiktionskoeffi zienten, die durch Prädiktion über der Frequenz mit ei nem ersten bzw. zweiten Stereokanal während des Codie rens erzeugt worden sind; und
Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbe reich, um ein zeitliches Stereosignal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zwei ten (r) Kanal aufweist.
Demultiplexen (102) des Audiobitstroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformationen zu erhalten;
Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgo rithmus, um einen decodierten Monokanal zu erhalten;
Requantisieren (104, 106) der Stereoschicht, um ein er stes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
Behandeln (110, 112) des ersten und zweiten Stereo signals (L", R"; Mv, S) sowie des decodierten Mono kanals, derart, daß die zwei Stereosignale und der de codierte Monokanal einer Prädiktion mit nur bis zu ei nem bestimmten Grad unterschiedlichen Prädiktionskoef fizienten unterzogen sind;
Kombinieren (114, 116, 118, 120, 122) des behandelten Monokanals (M''') mit dem behandelten ersten bzw. zwei ten spektralen Stereosignal (L", R"), um einen gefil terten ersten Kanal (L') und einen gefilterten zweiten Kanal (R') zu erhalten, aufgrund der Seiteninformatio nen;
Durchführen (130, 132) einer inversen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (L') und dem gefilterten zweiten Kanal (R'), um einen spektralen ersten (L) und einen spektralen zweiten (R) Kanal zu erhalten, unter Verwendung von zweiten bzw. dritten in den Seiteninformationen vorhandenen Prädiktionskoeffi zienten, die durch Prädiktion über der Frequenz mit ei nem ersten bzw. zweiten Stereokanal während des Codie rens erzeugt worden sind; und
Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbe reich, um ein zeitliches Stereosignal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zwei ten (r) Kanal aufweist.
16. Verfahren nach Anspruch 15, bei dem die Seiteninforma
tionen erste Prädiktionskoeffizienten aufweisen, die
durch Prädiktion über der Frequenz mit einem Monokanal
erzeugt worden sind, bei dem die Monoschicht des Audio
bitstroms selbst unterskaliert ist, und bei dem der
Schritt des Decodierens der Monoschicht ferner folgende
Teilschritte aufweist:
Demultiplexen der Monoschicht, um eine erste und eine zweite Monoteilschicht zu erhalten;
Decodieren (160) der ersten Monoteilschicht unter Ver wendung eines durch die Seiteninformationen identifi zierten ersten Codieralgorithmus, um eine erste deco dierte Monoteilschicht zu erhalten;
Decodieren (108) der zweiten Unterskalierungsschicht unter Verwendung eines durch die Seiteninformationen identifizierten zweiten Codieralgorithmus, um eine zweite Schicht des decodierten zeitlichen Monokanals zu erhalten;
Transformieren (162) der ersten Schicht in den Fre quenzbereich;
Durchführen (164) einer Prädiktion über der Frequenz mit den ersten Prädiktionskoeffizienten;
Kombinieren (166, 168) der transformierten ersten Schicht mit der zweiten Schicht aufgrund der Seitenin formationen, um einen gefilterten Monokanal (M') zu erhalten, wobei im Schritt des Durchführens (110) einer inversen Prädiktion über der Frequenz statt des deco dierten Monokanals der gefilterte kombinierte Monokanal (M') verwendet wird.
Demultiplexen der Monoschicht, um eine erste und eine zweite Monoteilschicht zu erhalten;
Decodieren (160) der ersten Monoteilschicht unter Ver wendung eines durch die Seiteninformationen identifi zierten ersten Codieralgorithmus, um eine erste deco dierte Monoteilschicht zu erhalten;
Decodieren (108) der zweiten Unterskalierungsschicht unter Verwendung eines durch die Seiteninformationen identifizierten zweiten Codieralgorithmus, um eine zweite Schicht des decodierten zeitlichen Monokanals zu erhalten;
Transformieren (162) der ersten Schicht in den Fre quenzbereich;
Durchführen (164) einer Prädiktion über der Frequenz mit den ersten Prädiktionskoeffizienten;
Kombinieren (166, 168) der transformierten ersten Schicht mit der zweiten Schicht aufgrund der Seitenin formationen, um einen gefilterten Monokanal (M') zu erhalten, wobei im Schritt des Durchführens (110) einer inversen Prädiktion über der Frequenz statt des deco dierten Monokanals der gefilterte kombinierte Monokanal (M') verwendet wird.
17. Verfahren nach Anspruch 15 oder 16, bei dem der Schritt
des Behandelns (110, 112) ferner folgende Teilschritte
aufweist:
Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Monokanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codierens ermittelt wurden, um einen ungefilterten codierten/decodierten Monokanal (M") zu erhalten;
Durchführen (112) einer Prädiktion über der Frequenz mit dem ungefilterten codierten/decodierten Monokanal (M"), um eine L/R-gefilterten Monokanal (M''') zu er halten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoef fizienten, die bei einer Prädiktion über der Frequenz des ersten (L) oder zweiten (R) Kanals während des Co dierens bestimmt wurden, um den behandelten Monokanal (M''') zu erhalten;
unverändertes Weiterleiten des ersten und zweiten Ste reosignals (L", R"; Mv, S), um das behandelte erste und zweite spektrale Stereosignal zu erhalten.
Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Monokanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codierens ermittelt wurden, um einen ungefilterten codierten/decodierten Monokanal (M") zu erhalten;
Durchführen (112) einer Prädiktion über der Frequenz mit dem ungefilterten codierten/decodierten Monokanal (M"), um eine L/R-gefilterten Monokanal (M''') zu er halten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoef fizienten, die bei einer Prädiktion über der Frequenz des ersten (L) oder zweiten (R) Kanals während des Co dierens bestimmt wurden, um den behandelten Monokanal (M''') zu erhalten;
unverändertes Weiterleiten des ersten und zweiten Ste reosignals (L", R"; Mv, S), um das behandelte erste und zweite spektrale Stereosignal zu erhalten.
18. Verfahren zum Decodieren eines unter Verwendung einer
Prädiktion über der Frequenz codierten Audiobitstroms
(100), der Seiteninformationen aufweist, die auf die
dem Audiobitstrom (BS) zugrundeliegende Codierung hin
weisen, mit folgenden Schritten:
Demultiplexen (102) des Audiobitstroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninforma tion zu erhalten;
Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgo rithmus, um einen decodierten Monokanal zu erhalten;
Transformieren (162) des decodierten Monokanals in den Frequenzbereich, um einen spektralen decodierten Mono kanal (Mcd) zu erhalten;
Requantisieren (104, 106) der Stereoschicht, um ein er stes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
Durchführen (178) einer Prädiktion über der Frequenz des decodierten Monokanals (Mcd), um einen L/R-gefil terten Monokanal (Mcd''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten oder zweiten Prädiktionskoeffizienten, die bei einer Prädiktion über der Frequenz mit dem ersten (L) oder zweiten (R) Kanal während des Codierens bestimmt wur den;
Kombinieren (120; 122, 116, 118) des L/R-gefilterten codierten/decodierten Monokanals (Mcd''') mit dem er sten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten (L') bzw. zweiten (R') Ka nal zu erhalten, aufgrund der Seiteninformationen;
Durchführen (130, 132) einer inversen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (1') und dem gefilterten zweiten Kanal (r'), um einen spektralen ersten (L) und einen spektralen zweiten (R) Kanal zu erhalten, unter Verwendung der zweiten bzw. dritten in den Seiteninformationen vorhandenen Prädiktionskoeffi zienten; und
Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbe reich, um ein zeitliches Stereosignal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zwei ten (r) Kanal aufweist.
Demultiplexen (102) des Audiobitstroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninforma tion zu erhalten;
Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgo rithmus, um einen decodierten Monokanal zu erhalten;
Transformieren (162) des decodierten Monokanals in den Frequenzbereich, um einen spektralen decodierten Mono kanal (Mcd) zu erhalten;
Requantisieren (104, 106) der Stereoschicht, um ein er stes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
Durchführen (178) einer Prädiktion über der Frequenz des decodierten Monokanals (Mcd), um einen L/R-gefil terten Monokanal (Mcd''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten oder zweiten Prädiktionskoeffizienten, die bei einer Prädiktion über der Frequenz mit dem ersten (L) oder zweiten (R) Kanal während des Codierens bestimmt wur den;
Kombinieren (120; 122, 116, 118) des L/R-gefilterten codierten/decodierten Monokanals (Mcd''') mit dem er sten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten (L') bzw. zweiten (R') Ka nal zu erhalten, aufgrund der Seiteninformationen;
Durchführen (130, 132) einer inversen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (1') und dem gefilterten zweiten Kanal (r'), um einen spektralen ersten (L) und einen spektralen zweiten (R) Kanal zu erhalten, unter Verwendung der zweiten bzw. dritten in den Seiteninformationen vorhandenen Prädiktionskoeffi zienten; und
Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbe reich, um ein zeitliches Stereosignal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zwei ten (r) Kanal aufweist.
19. Verfahren nach Anspruch 17 oder 18, bei dem der Schritt
des Kombinierens ferner folgende Teilschritte aufweist:
Addieren (120) des L/R-gefilterten Monokanals (M''') bzw. des L/R-gefilterten codierten/decodierten Monoka nals (Mcd''') und des gefilterten ersten Kanals (L');
Addieren des L/R-gefilterten Monokanals (M''') bzw. des L/R-gefilterten codierten/decodierten Monokanals (Mcd''') und des gefilterten zweiten Kanals (R');
Verwenden (116, 118) der Additionsergebnisse oder des gefilterten ersten (1') bzw. zweiten (r') Kanals als gefilterter erster Kanal (L') bzw. gefilterter zweiter Kanal (R'), aufgrund der Seiteninformationen (126).
Addieren (120) des L/R-gefilterten Monokanals (M''') bzw. des L/R-gefilterten codierten/decodierten Monoka nals (Mcd''') und des gefilterten ersten Kanals (L');
Addieren des L/R-gefilterten Monokanals (M''') bzw. des L/R-gefilterten codierten/decodierten Monokanals (Mcd''') und des gefilterten zweiten Kanals (R');
Verwenden (116, 118) der Additionsergebnisse oder des gefilterten ersten (1') bzw. zweiten (r') Kanals als gefilterter erster Kanal (L') bzw. gefilterter zweiter Kanal (R'), aufgrund der Seiteninformationen (126).
20. Verfahren nach einem der Ansprüche 17 bis 19, bei dem
der Schritt des Kombinierens (116, 118) frequenzselek
tiv ausführbar ist.
21. Verfahren nach Anspruch 20, bei dem das zweite
spektrale Stereosignal ein Seite-Signal (S) aufweist,
wobei das Verfahren ferner folgende Schritte aufweist:
Feststellen, ob eine Mitte/Seite- oder eine Links/ Rechts-Stereocodierung vorliegt, aufgrund der Seiten informationen;
Rückgängigmachen (128) der Mitte/Seite-Codierung, um den gefilterten ersten (L') bzw. den gefilterten zwei ten (R') Kanal zu ermitteln.
Feststellen, ob eine Mitte/Seite- oder eine Links/ Rechts-Stereocodierung vorliegt, aufgrund der Seiten informationen;
Rückgängigmachen (128) der Mitte/Seite-Codierung, um den gefilterten ersten (L') bzw. den gefilterten zwei ten (R') Kanal zu ermitteln.
22. Vorrichtung zum Verarbeiten eines zeitlichen Stereosi
gnals, das einen zeitlichen ersten (1) und einen zeit
lichen zweiten (r) Kanal aufweist, um einen skalierten
Bitstrom (100) mit einer Monoschicht und einer Stereo
schicht zu erhalten, mit folgenden Merkmalen:
einer Einrichtung zum Transformieren (14, 16) des zeit lichen ersten (1) und des zeitlichen zweiten (r) Kanals in den Frequenzbereich, um einen spektralen ersten (L) Kanal und einen spektralen zweiten (R) Kanal zu erhal ten;
einer Einrichtung zum Bilden (28, 30) eines spektralen Monokanals (M) durch Kombination des spektralen ersten (L) und des spektralen zweiten (R) Kanals;
Einrichtungen zum Durchführen (18, 20, 32) einer er sten, zweiten und dritten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), dem spektralen zweiten Kanal (R) bzw. dem spektralen Monokanal (M), um einen gefilterten ersten Kanal (L'), einen gefilterten zweiten Kanal (R') bzw. einen gefilterten Monokanal (M') zu erhalten;
einer Einrichtung zum Codieren (Teilfunktion des Blocks Codierer/Decodierer 34) des gefilterten Monokanals (M'), um die Monoschicht (36) des skalierten Bitstroms (100) zu erhalten;
einer Einrichtung zum Decodieren (Teilfunktion des Blocks Codierer/Decodierer 34) des codierten gefilter ten Monokanals, um einen codierten/decodierten Mono kanal (M") zu erhalten;
einer Einrichtung zum Behandeln (38, 40) des gefilter ten ersten (L') und zweiten Kanals (R') sowie des co dierten/decodierten Monokanals (M"), um einen behan delten ersten Kanal, einen behandelten zweiten Kanal und einen behandelten Monokanal zu erhalten, derart, daß die drei behandelten Kanäle einer Prädiktion mit nur bis zu einem bestimmten Grad unterschiedlichen Prädiktionskoeffizienten unterzogen sind; und
einer Einrichtung zum Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosignals (L", R"; Mv, S) für die Stereoschicht des skalierten Bitstroms (100) unter Berücksichtigung der Codiereffizienz durch Vergleichen (46a, 46b, 22, 24) des behandelten Monokanals (M''') mit dem behandelten ersten (L') und zweiten Kanal (R') und/oder einer Kombination aus dem behandelten ersten (L') und zweiten (R') Kanal.
einer Einrichtung zum Transformieren (14, 16) des zeit lichen ersten (1) und des zeitlichen zweiten (r) Kanals in den Frequenzbereich, um einen spektralen ersten (L) Kanal und einen spektralen zweiten (R) Kanal zu erhal ten;
einer Einrichtung zum Bilden (28, 30) eines spektralen Monokanals (M) durch Kombination des spektralen ersten (L) und des spektralen zweiten (R) Kanals;
Einrichtungen zum Durchführen (18, 20, 32) einer er sten, zweiten und dritten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), dem spektralen zweiten Kanal (R) bzw. dem spektralen Monokanal (M), um einen gefilterten ersten Kanal (L'), einen gefilterten zweiten Kanal (R') bzw. einen gefilterten Monokanal (M') zu erhalten;
einer Einrichtung zum Codieren (Teilfunktion des Blocks Codierer/Decodierer 34) des gefilterten Monokanals (M'), um die Monoschicht (36) des skalierten Bitstroms (100) zu erhalten;
einer Einrichtung zum Decodieren (Teilfunktion des Blocks Codierer/Decodierer 34) des codierten gefilter ten Monokanals, um einen codierten/decodierten Mono kanal (M") zu erhalten;
einer Einrichtung zum Behandeln (38, 40) des gefilter ten ersten (L') und zweiten Kanals (R') sowie des co dierten/decodierten Monokanals (M"), um einen behan delten ersten Kanal, einen behandelten zweiten Kanal und einen behandelten Monokanal zu erhalten, derart, daß die drei behandelten Kanäle einer Prädiktion mit nur bis zu einem bestimmten Grad unterschiedlichen Prädiktionskoeffizienten unterzogen sind; und
einer Einrichtung zum Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosignals (L", R"; Mv, S) für die Stereoschicht des skalierten Bitstroms (100) unter Berücksichtigung der Codiereffizienz durch Vergleichen (46a, 46b, 22, 24) des behandelten Monokanals (M''') mit dem behandelten ersten (L') und zweiten Kanal (R') und/oder einer Kombination aus dem behandelten ersten (L') und zweiten (R') Kanal.
23. Vorrichtung nach Anspruch 22, bei dem die Monoschicht
selbst unterskaliert ist, die ferner folgende Merkmale
aufweist:
eine Einrichtung zum Bilden (142a, 142, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) zeitlichen Kanal;
eine Einrichtung zum Codieren (140) des zeitlichen Mo nokanals (m) mittels eines ersten Codieralgorithmus, um eine erste Monoteilschicht der Monoschicht zu erhalten;
eine Einrichtung zum Decodieren (140) und Transformie ren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spek tralen Monokanal (Mcd) zu erhalten;
eine Einrichtung zum Durchführen (152) einer fünften Prädiktion über der Frequenz mit dem codierten/deco dierten spektralen Monokanal (Mcd), wobei Prädiktions koeffizienten der dritten Prädiktion (32) verwendet werden, um einen gefilterten codierten/decodierten Mo nokanal (Mcd') zu erhalten;
eine Einrichtung zum Vergleichen (154, 156) des gefil terten codierten/decodierten Monokanals (Mcd') mit dem gefilterten Monokanal (M'), um einen Vergleichs-Mono kanal (Mcd") zu erhalten, wobei in der Einrichtung zum Codieren des gefilterten Monokanals statt des gefilter ten Monokanals (M') der Vergleichs-Monokanal (Mcd') mittels eines zweiten Codieralgorithmus codiert wird, um eine zweite Monoteilschicht der Monoschicht zu er halten, und wobei in der Einrichtung zum Decodieren des codierten gefilterten Monokanals statt des gefilterten Monokanals (M') der Vergleichs-Monokanal (Mcd") ver wendet wird.
eine Einrichtung zum Bilden (142a, 142, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) zeitlichen Kanal;
eine Einrichtung zum Codieren (140) des zeitlichen Mo nokanals (m) mittels eines ersten Codieralgorithmus, um eine erste Monoteilschicht der Monoschicht zu erhalten;
eine Einrichtung zum Decodieren (140) und Transformie ren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spek tralen Monokanal (Mcd) zu erhalten;
eine Einrichtung zum Durchführen (152) einer fünften Prädiktion über der Frequenz mit dem codierten/deco dierten spektralen Monokanal (Mcd), wobei Prädiktions koeffizienten der dritten Prädiktion (32) verwendet werden, um einen gefilterten codierten/decodierten Mo nokanal (Mcd') zu erhalten;
eine Einrichtung zum Vergleichen (154, 156) des gefil terten codierten/decodierten Monokanals (Mcd') mit dem gefilterten Monokanal (M'), um einen Vergleichs-Mono kanal (Mcd") zu erhalten, wobei in der Einrichtung zum Codieren des gefilterten Monokanals statt des gefilter ten Monokanals (M') der Vergleichs-Monokanal (Mcd') mittels eines zweiten Codieralgorithmus codiert wird, um eine zweite Monoteilschicht der Monoschicht zu er halten, und wobei in der Einrichtung zum Decodieren des codierten gefilterten Monokanals statt des gefilterten Monokanals (M') der Vergleichs-Monokanal (Mcd") ver wendet wird.
24. Vorrichtung zum Verarbeiten eines zeitlichen Stereosi
gnals, das einen zeitlichen ersten (1) und einen zeit
lichen zweiten (r) Kanal aufweist, um einen skalierten
Bitstrom (100) mit einer Monoschicht und einer Stereo
schicht zu erhalten, mit folgenden Merkmalen:
einer Einrichtung zum Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) Kanal;
einer Einrichtung zum Codieren (140) des zeitlichen Mo nokanals (m), um die Monoschicht des skalierten Bit stroms zu erhalten;
einer Einrichtung zum Transformieren (14, 16) des er sten (1) und des zweiten (r) Kanals in den Frequenzbe reich;
einer Einrichtung zum Bilden eines spektralen Monoka nals (M) durch Kombination aus dem spektralen ersten (L) und dem spektralen zweiten (R) Kanal;
einer Einrichtung zum Decodieren (140) und Transformie ren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spek tralen Monokanal (Mcd) zu erhalten;
einer Einrichtung zum Durchführen (18) einer ersten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), um einen gefilterten ersten Kanal (L') zu erhalten;
einer Einrichtung zum Durchführen (20) einer zweiten Prädiktion über der Frequenz mit dem spektralen zweiten Kanal (R) um einen gefilterten zweiten Kanal (R') zu erhalten;
einer Einrichtung zum Durchführen (172, 174) einer dritten Prädiktion über der Frequenz mit dem codier ten/decodierten spektralen Monokanal (Mcd) und mit dem spektralen Monokanal (M), wobei Prädiktionskoeffizien ten der ersten (18) oder zweiten (20) Prädiktion ver wendet werden, um einen L/R-gefilterten codierten/de codierten Monokanal (Mcd''') bzw. einen L/R-gefilterten Monokanal (M''') zu erhalten;
einer Einrichtung zum Vergleichen (154, 156) des L/R gefilterten codierten/decodierten Monokanals (Mcd''') mit dem L/R-gefilterten Monokanal (M'''), um einen L/R-Vergleichs-Monokanal (Mcd iv) zu erhalten; und
einer Einrichtung zum Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosignals (L", R"; Mv, S) für die Stereoschicht des skalierten Bitstroms unter Be rücksichtigung der Codiereffizienz durch Vergleichen des L/R-Vergleichs-Monokanals (Mcd iv) mit dem gefilter ten ersten Kanal (L'), dem gefilterten zweiten Kanal (R') und mit einer Kombination (48a, 48b, 50a, 50b, 52) aus dem gefilterten ersten (L') und dem gefilterten zweiten (R') Kanal.
einer Einrichtung zum Bilden (142a, 142b, 144) eines zeitlichen Monokanals (m) aus dem ersten (1) und dem zweiten (r) Kanal;
einer Einrichtung zum Codieren (140) des zeitlichen Mo nokanals (m), um die Monoschicht des skalierten Bit stroms zu erhalten;
einer Einrichtung zum Transformieren (14, 16) des er sten (1) und des zweiten (r) Kanals in den Frequenzbe reich;
einer Einrichtung zum Bilden eines spektralen Monoka nals (M) durch Kombination aus dem spektralen ersten (L) und dem spektralen zweiten (R) Kanal;
einer Einrichtung zum Decodieren (140) und Transformie ren (150) des codierten zeitlichen Monokanals in den Frequenzbereich, um einen codierten/decodierten spek tralen Monokanal (Mcd) zu erhalten;
einer Einrichtung zum Durchführen (18) einer ersten Prädiktion über der Frequenz mit dem spektralen ersten Kanal (L), um einen gefilterten ersten Kanal (L') zu erhalten;
einer Einrichtung zum Durchführen (20) einer zweiten Prädiktion über der Frequenz mit dem spektralen zweiten Kanal (R) um einen gefilterten zweiten Kanal (R') zu erhalten;
einer Einrichtung zum Durchführen (172, 174) einer dritten Prädiktion über der Frequenz mit dem codier ten/decodierten spektralen Monokanal (Mcd) und mit dem spektralen Monokanal (M), wobei Prädiktionskoeffizien ten der ersten (18) oder zweiten (20) Prädiktion ver wendet werden, um einen L/R-gefilterten codierten/de codierten Monokanal (Mcd''') bzw. einen L/R-gefilterten Monokanal (M''') zu erhalten;
einer Einrichtung zum Vergleichen (154, 156) des L/R gefilterten codierten/decodierten Monokanals (Mcd''') mit dem L/R-gefilterten Monokanal (M'''), um einen L/R-Vergleichs-Monokanal (Mcd iv) zu erhalten; und
einer Einrichtung zum Bilden (22, 24, 46a, 46b, 44a, 44b, 48a, 48b, 50a, 50b, 52) eines ersten und eines zweiten spektralen Stereosignals (L", R"; Mv, S) für die Stereoschicht des skalierten Bitstroms unter Be rücksichtigung der Codiereffizienz durch Vergleichen des L/R-Vergleichs-Monokanals (Mcd iv) mit dem gefilter ten ersten Kanal (L'), dem gefilterten zweiten Kanal (R') und mit einer Kombination (48a, 48b, 50a, 50b, 52) aus dem gefilterten ersten (L') und dem gefilterten zweiten (R') Kanal.
25. Vorrichtung zum Decodieren eines unter Verwendung einer
Prädiktion über der Frequenz codierten Audiobitstroms
(100), der Seiteninformationen (126) aufweist, die auf
die dem Audiobitstrom (100) zugrundeliegende Codierung
hinweisen, mit folgenden Merkmalen:
einer Einrichtung zum Demultiplexen (102) des Audiobit stroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformation zu erhalten;
einer Einrichtung zum Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgorithmus, um einen decodierten Monokanal zu erhalten;
einer Einrichtung zum Requantisieren (104, 106) der Stereoschicht, um ein erstes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
einer Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Mono kanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codie rens ermittelt wurden, um einen ungefilterten codier ten/decodierten Monokanal (M") zu erhalten;
einer Einrichtung zum Durchführen (112) einer Prädik tion über der Frequenz mit dem ungefilterten decodier ten/decodierten Monokanal (M"), um eine L/R-gefilter ten Monokanal (M''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoeffizienten, die bei einer Prädiktion über der Frequenz des ersten (L) oder zwei ten (R) Kanals während des Codierens bestimmt wurden;
einer Einrichtung zum Kombinieren (114, 116, 118, 120, 122) des L/R-gefilterten Monokanals (M''') mit dem er sten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten Kanal (L') und einen gefil terten zweiten Kanal (R') zu erhalten, aufgrund der Seiteninformationen;
einer Einrichtung zum Durchführen (130, 132) einer in versen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (L') und dem gefilterten zweiten Kanal (R'), um einen spektralen ersten (L) und einen spektra len zweiten (R) Kanal zu erhalten, unter Verwendung der zweiten bzw. dritten in den Seiteninformationen vorhan denen Prädiktionskoeffizienten; und
einer Einrichtung zum Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbereich, um ein zeitliches Stereosi gnal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zweiten (r) Kanal aufweist.
einer Einrichtung zum Demultiplexen (102) des Audiobit stroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformation zu erhalten;
einer Einrichtung zum Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgorithmus, um einen decodierten Monokanal zu erhalten;
einer Einrichtung zum Requantisieren (104, 106) der Stereoschicht, um ein erstes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
einer Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Mono kanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codie rens ermittelt wurden, um einen ungefilterten codier ten/decodierten Monokanal (M") zu erhalten;
einer Einrichtung zum Durchführen (112) einer Prädik tion über der Frequenz mit dem ungefilterten decodier ten/decodierten Monokanal (M"), um eine L/R-gefilter ten Monokanal (M''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoeffizienten, die bei einer Prädiktion über der Frequenz des ersten (L) oder zwei ten (R) Kanals während des Codierens bestimmt wurden;
einer Einrichtung zum Kombinieren (114, 116, 118, 120, 122) des L/R-gefilterten Monokanals (M''') mit dem er sten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten Kanal (L') und einen gefil terten zweiten Kanal (R') zu erhalten, aufgrund der Seiteninformationen;
einer Einrichtung zum Durchführen (130, 132) einer in versen Prädiktion über der Frequenz mit dem gefilterten ersten Kanal (L') und dem gefilterten zweiten Kanal (R'), um einen spektralen ersten (L) und einen spektra len zweiten (R) Kanal zu erhalten, unter Verwendung der zweiten bzw. dritten in den Seiteninformationen vorhan denen Prädiktionskoeffizienten; und
einer Einrichtung zum Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbereich, um ein zeitliches Stereosi gnal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zweiten (r) Kanal aufweist.
26. Vorrichtung nach Anspruch 25, bei der die Monoschicht
des Audiobitstroms selbst unterskaliert ist, bei der
die Einrichtung zum Decodieren der Monoschicht ferner
folgende Merkmale aufweist:
eine Einrichtung zum Demultiplexen der Monoschicht, um eine erste und eine zweite Monoteilschicht zu erhalten;
eine Einrichtung zum Decodieren (160) der ersten Mono teilschicht unter Verwendung eines durch die Seitenin formationen identifizierten ersten Codieralgorithmus, um eine erste decodierte Monoteilschicht zu erhalten;
eine Einrichtung zum Decodieren (108) der zweiten Un terskalierungsschicht unter Verwendung eines durch die Seiteninformationen identifizierten zweiten Codieral gorithmus, um eine zweite Schicht des decodierten zeit lichen Monokanals zu erhalten;
eine Einrichtung zum Transformieren (162) der ersten Schicht in den Frequenzbereich;
eine Einrichtung zum Durchführen (164) einer Prädiktion über der Frequenz mit den ersten Prädiktionskoeffizien ten; und
eine Einrichtung zum Kombinieren (166, 168) der trans formierten ersten Schicht mit der zweiten Schicht auf grund der Seiteninformationen, um einen gefilterten Monokanal (M') zu erhalten, wobei in der Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz statt des decodierten Monokanals der ge filterte kombinierte Monokanal (M') verwendet wird.
eine Einrichtung zum Demultiplexen der Monoschicht, um eine erste und eine zweite Monoteilschicht zu erhalten;
eine Einrichtung zum Decodieren (160) der ersten Mono teilschicht unter Verwendung eines durch die Seitenin formationen identifizierten ersten Codieralgorithmus, um eine erste decodierte Monoteilschicht zu erhalten;
eine Einrichtung zum Decodieren (108) der zweiten Un terskalierungsschicht unter Verwendung eines durch die Seiteninformationen identifizierten zweiten Codieral gorithmus, um eine zweite Schicht des decodierten zeit lichen Monokanals zu erhalten;
eine Einrichtung zum Transformieren (162) der ersten Schicht in den Frequenzbereich;
eine Einrichtung zum Durchführen (164) einer Prädiktion über der Frequenz mit den ersten Prädiktionskoeffizien ten; und
eine Einrichtung zum Kombinieren (166, 168) der trans formierten ersten Schicht mit der zweiten Schicht auf grund der Seiteninformationen, um einen gefilterten Monokanal (M') zu erhalten, wobei in der Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz statt des decodierten Monokanals der ge filterte kombinierte Monokanal (M') verwendet wird.
27. Vorrichtung zum Decodieren eines unter Verwendung einer
Prädiktion über der Frequenz codierten Audiobitstroms
(100), der Seiteninformationen aufweist, die auf die
dem Audiobitstrom (BS) zugrundeliegende Codierung hin
weisen, mit folgenden Merkmalen:
einer Einrichtung zum Demultiplexen (102) des Audiobit stroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformation zu erhalten;
einer Einrichtung zum Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgorithmus, um einen decodierten Monokanal zu erhalten;
einer Einrichtung zum Transformieren (162) des deco dierten Monokanals in den Frequenzbereich, um einen spektralen decodierten Monokanal (Mcd) zu erhalten;
einer Einrichtung zum Requantisieren (104, 106) der Stereoschicht, um ein erstes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
einer Einrichtung zum Behandeln (110, 112) des ersten und zweiten Stereosignals (L", R"; Mv, S) sowie des decodierten Monokanals, um ein behandeltes erstes Ste reosignal, ein behandeltes zweites Stereosignal und einen behandelten Monokanal zu erhalten, derart, daß die zwei behandelten Stereosignale und der behandelte Monokanal einer Prädiktion mit nur bis zu einem be stimmten Grad unterschiedlichen Prädiktionskoeffizien ten unterzogen sind;
einer Einrichtung zum Kombinieren (114, 116, 118, 120, 122) des behandelten Monokanals (M''') mit dem behan delten ersten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten Kanal (L') und einen gefilterten zweiten Kanal (R') zu erhalten, auf grund der Seiteninformationen; und
einer Einrichtung zum Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbereich, um ein zeitliches Stereosi gnal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zweiten (r) Kanal aufweist.
einer Einrichtung zum Demultiplexen (102) des Audiobit stroms (100), um eine Monoschicht, eine Stereoschicht und die Seiteninformation zu erhalten;
einer Einrichtung zum Decodieren (108) der Monoschicht unter Verwendung eines durch die Seiteninformationen bestimmten Decodieralgorithmus, um einen decodierten Monokanal zu erhalten;
einer Einrichtung zum Transformieren (162) des deco dierten Monokanals in den Frequenzbereich, um einen spektralen decodierten Monokanal (Mcd) zu erhalten;
einer Einrichtung zum Requantisieren (104, 106) der Stereoschicht, um ein erstes und ein zweites spektrales Stereosignal (L", R"; Mv, S) zu erhalten;
einer Einrichtung zum Behandeln (110, 112) des ersten und zweiten Stereosignals (L", R"; Mv, S) sowie des decodierten Monokanals, um ein behandeltes erstes Ste reosignal, ein behandeltes zweites Stereosignal und einen behandelten Monokanal zu erhalten, derart, daß die zwei behandelten Stereosignale und der behandelte Monokanal einer Prädiktion mit nur bis zu einem be stimmten Grad unterschiedlichen Prädiktionskoeffizien ten unterzogen sind;
einer Einrichtung zum Kombinieren (114, 116, 118, 120, 122) des behandelten Monokanals (M''') mit dem behan delten ersten bzw. zweiten spektralen Stereosignal (L", R"), um einen gefilterten ersten Kanal (L') und einen gefilterten zweiten Kanal (R') zu erhalten, auf grund der Seiteninformationen; und
einer Einrichtung zum Rücktransformieren (134, 136) des spektralen ersten (L) und des spektralen zweiten (R) Kanals in den Zeitbereich, um ein zeitliches Stereosi gnal zu erhalten, das einen zeitlichen ersten (1) und einen zeitlichen zweiten (r) Kanal aufweist.
28. Vorrichtung nach Anspruch 27, bei der die Einrichtung
zum Behandeln (110, 112) ferner folgende Merkmale auf
weist:
eine Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Mono kanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codie rens ermittelt wurden, um einen ungefilterten codier ten/decodierten Monokanal (M") zu erhalten;
eine Einrichtung zum Durchführen (112) einer Prädiktion über der Frequenz mit dem ungefilterten codierten/deco dierten Monokanal (M"), um ein L/R-gefilterten- Mono kanal (M''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoeffizienten, die bei einer Prädik tion über der Frequenz des ersten (L) oder zweiten (R) Kanals während des Codierens bestimmt wurden, um den behandelten Monokanal (M''') zu erhalten; und
eine Einrichtung zum unveränderten Weiterleiten des er sten und zweiten Stereosignals (L", R"; Mv, S), um das behandelte erste und zweite spektrale Stereosignal zu erhalten.
eine Einrichtung zum Durchführen (110) einer inversen Prädiktion über der Frequenz mit dem decodierten Mono kanal unter Verwendung von in den Seiteninformationen (126) vorhandenen ersten Prädiktionskoeffizienten, die bei einer Prädiktion des Monokanals während des Codie rens ermittelt wurden, um einen ungefilterten codier ten/decodierten Monokanal (M") zu erhalten;
eine Einrichtung zum Durchführen (112) einer Prädiktion über der Frequenz mit dem ungefilterten codierten/deco dierten Monokanal (M"), um ein L/R-gefilterten- Mono kanal (M''') zu erhalten, unter Verwendung von in den Seiteninformationen (126) vorhandenen zweiten oder dritten Prädiktionskoeffizienten, die bei einer Prädik tion über der Frequenz des ersten (L) oder zweiten (R) Kanals während des Codierens bestimmt wurden, um den behandelten Monokanal (M''') zu erhalten; und
eine Einrichtung zum unveränderten Weiterleiten des er sten und zweiten Stereosignals (L", R"; Mv, S), um das behandelte erste und zweite spektrale Stereosignal zu erhalten.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19829284A DE19829284C2 (de) | 1998-05-15 | 1998-06-30 | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19821943 | 1998-05-15 | ||
DE19829284A DE19829284C2 (de) | 1998-05-15 | 1998-06-30 | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19829284A1 DE19829284A1 (de) | 1999-11-18 |
DE19829284C2 true DE19829284C2 (de) | 2000-03-16 |
Family
ID=7867954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19829284A Expired - Lifetime DE19829284C2 (de) | 1998-05-15 | 1998-06-30 | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19829284C2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004009954A1 (de) * | 2004-03-01 | 2005-09-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
US8891775B2 (en) * | 2011-05-09 | 2014-11-18 | Dolby International Ab | Method and encoder for processing a digital stereo audio signal |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE519981C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
WO2003077425A1 (fr) * | 2002-03-08 | 2003-09-18 | Nippon Telegraph And Telephone Corporation | Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques |
CN113066472A (zh) * | 2019-12-13 | 2021-07-02 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69018989T2 (de) * | 1989-06-15 | 1995-09-07 | British Telecomm | Polyphonische kodierung. |
US5481614A (en) * | 1992-03-02 | 1996-01-02 | At&T Corp. | Method and apparatus for coding audio signals based on perceptual model |
EP0785631A2 (de) * | 1996-01-16 | 1997-07-23 | Lucent Technologies Inc. | Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum |
-
1998
- 1998-06-30 DE DE19829284A patent/DE19829284C2/de not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69018989T2 (de) * | 1989-06-15 | 1995-09-07 | British Telecomm | Polyphonische kodierung. |
US5481614A (en) * | 1992-03-02 | 1996-01-02 | At&T Corp. | Method and apparatus for coding audio signals based on perceptual model |
EP0785631A2 (de) * | 1996-01-16 | 1997-07-23 | Lucent Technologies Inc. | Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum |
Non-Patent Citations (3)
Title |
---|
Brandenburg K., Grill B.:"First Ideas on Scalable Audio Coding", In: 9th AES-Convention, San Fran- cisco 1995, Vorabdruck 3924, S. 1-6 * |
J. Herre, J.D. Johnston:"Enhancing the Performanceof Perceptual Audio Coders by Using Temporal NoiseShaping (TNS)", In: 101 st AES Convention, Los Angeles 1996, Preprint 4384 * |
Rohrecker, L.:"Ein Tonsignalcodierer Hoher Quali- tät mit einer Datenrate von 2*64kBit/s durch ein adaptives 4-subbandverfahren", In: Rundfunktechni-sche Mitteilungen, 1989, Jg.33, H.4, S. 145-148 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004009954A1 (de) * | 2004-03-01 | 2005-09-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
DE102004009954B4 (de) * | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
US7340391B2 (en) | 2004-03-01 | 2008-03-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a multi-channel signal |
US8891775B2 (en) * | 2011-05-09 | 2014-11-18 | Dolby International Ab | Method and encoder for processing a digital stereo audio signal |
Also Published As
Publication number | Publication date |
---|---|
DE19829284A1 (de) | 1999-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19747132C2 (de) | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms | |
DE19628293C1 (de) | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion | |
DE602004010188T2 (de) | Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal | |
DE19730130C2 (de) | Verfahren zum Codieren eines Audiosignals | |
DE19549621B4 (de) | Vorrichtung zum Codieren von Audiosignalen | |
DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
DE60214599T2 (de) | Skalierbare audiokodierung | |
DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
DE60310716T2 (de) | System für die audiokodierung mit füllung von spektralen lücken | |
DE602004005197T2 (de) | Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals | |
DE69737489T2 (de) | Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum | |
EP1495464B1 (de) | Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten | |
DE19742655C2 (de) | Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals | |
DE60225276T2 (de) | Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm | |
DE10200653B4 (de) | Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom | |
DE10236694A1 (de) | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren | |
DE19811039A1 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE102006051673A1 (de) | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale | |
EP0962015B1 (de) | Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen | |
WO2001043503A2 (de) | Verfahren und vorrichtung zum verarbeiten eines stereoaudiosignals | |
DE19829284C2 (de) | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms | |
DE19742201C1 (de) | Verfahren und Vorrichtung zum Codieren von Audiosignalen | |
DE10065363A1 (de) | Vorrichtung und Verfahren zum Decodieren eines codierten Datensignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |