-
Die vorliegende Erfindung bezieht sich auf ein Verfahren und
eine Vorrichtung zur Codierung von elektrischen Signalen.
-
Die schnelle Entwicklung des Integrated Service Digital
Network (ISDN) hat ein wachsendes Interesse an der effizienten
Übertragung von Musiksignalen hoher Qualität ausgelöst. Im
Gegensatz zu den Vorteilen, die auf dem Gebiet der
Sprachcodierung mit niedrigen Bitraten erzielt wurden, erreichen
jedoch die heutigen Codierungsschemata für Musik in Echtzeit,
beispielsweise digitale Kompandierung und Deltamodulation,
lediglich Bitraten von wenig unter 400 kbit/s und sind daher
mit dem 128 kbit/s ISDN Kapazitätsstandard inkompatibel. Diese
Systeme, anders als ihre Sprach-Gegenstücke, nutzen wenig oder
nichts der natürlichen Redundanzen aus, die bei den
interessierenden Tonsignalen gegeben sind. Diese Situation besteht
immer noch - zum Teil wegen der beteiligten höheren
Abtastzusätze, des bis in jüngste Zeit reichenden Fehlens von
digitaler Hochgeschwindigkeits-Signalverarbeitungshardware und der
weit verbreiteten Ansicht, daß Musiksignale hoher Qualität
einfach nicht mit niedrigen Bitraten übertragen werden
könnten.
-
Diese Ansicht spiegelt sich in folgenden Dokumenten wieder:
-
IEEE International Conference on Acoustics, Speech and
Signal Processing, Band 3, 3. bis 5. Mai 1982, New York,
USA, Gupta und andere:
-
"Performance evaluation of adaptive quantizers for a
16 kbit/s sub-band coder", Seiten 1688-1691
-
IEEE International Conference on Acoustics, Speech and
Signal Processing, Band 3, 26. bis 29. März, 1985, New
York, USA, F.K. Soong und andere:
-
"Subband coding of Speech using backward adaptive
prediction
and bit allocation", Seiten 1672-1675.
-
Diese Dokumente beziehen sich durchweg auf Sprachcodierer, was
einen Frequenzbereich von allenfalls 0 bis 8 kHz bedeutet. Es
findet sich kein Hinweis auf Signale im Audiobereich.
-
Gemäß einem Aspekt der vorliegenden Erfindung ist ein
Verfahren zur elektrischen Signal-Codierung vorgesehen, das die
Schritte beinhaltet, das Signal in wiederholten Intervallen
abzutasten, jedes Abtastmuster in wenigsten zwei
Frequenz-Subbänder zu filtern, das Signal in jedem Band mit Mitteln einer
linearen Prädiktionstechnik zu codieren, und jedes Subband mit
einer veränderlichen Anzahl von Pegeln, entsprechend seiner
Signalvarianz, zu quantisieren, dadurch gekennzeichnet, daß
der Signalfrequenzbereich 0-24 KHz beträgt und daß die Energie
in vorherigen, invers quantisierten Abtastmustern benutzt
wird, um den Bereich für das nächste Abtastmuster sowohl in
einem Empfänger als auch in einem Sender einzustellen.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist
eine Vorrichtung zum Codieren eines elektrischen Signals
vorgesehen, beinhaltend Mittel zum Abtasten (QMF) des Signals
in wiederholten Intervallen, Mittel zum Trennen (QMF) des
Signals in wenigsten zwei Frequenz-Subbänder, Mittel zum
Codieren (QMF, I/Q, P) des Signals in jedem Band mit Mitteln
einer linearen Prädiktionstechnik und zum Quantisieren jedes
Subbandes mit einer veränderlichen Anzahl von Pegeln
entsprechend seiner Signalvarianz, dadurch gekennzeichnet, daß die
Vorrichtung geeignet ist, über den Signalfrequenzbereich von
0-24 kHz zu codieren, und daß die Energie in vorherigen,
invers quantisierten Abtastmustern benutzt wird, um den
Bereich für das nächste Abtastmuster sowohl in einem Empfänger
als auch in einem Sender einzustellen.
-
Wohlbekannt ist es, daß die üblichen Techniken zur
Musikcodierung, beispielsweise kompandierte Pulscodemodulation (PCM) und
adaptive Deltamodulation (ADM), bei Anwesenheit von Signalen
vom monophonen Typ besonders anfällig für
Störgeräuschmodulation sind. Dieses Problem steht in Bezug zu den schlechten
Maskierungseigenschaften dieser Signale und dem Umstand, daß
die Quantisierung am Gesamtspektrum singulär durchgeführt
wird. Das Ausmaß der Störgeräuschmodulation (oder
Geräuschatmung) wird allgemein als der äußerste Beschränkungsfaktor
hinsichtlich der Leistung dieser Codierer angesehen, was zu
nutzbaren Datenraten in der Größenordnung von 400 kbit/s
führt. Da die Subband APCM Mudikcodierung gewisse Ahnlichkeit
mit Kompandierungs- und Deltamodulationsschemata aufweist,
aufgrund der Quantisierung in der Zeitdomäne, ist es
zweckmäßig anzunehmen, daß Effekte der Störgeräuschmodulation
wahrscheinlich bei Subband ADPCM bei niedrigen Datenraten
prädominant sind. Da jedoch weitere grundsätzliche
Unterschiede zwischen den Techniken vorhanden sind, sind in der Praxis
die Effekte von Störgeräusch und Verzerrung bei Subband ADPCM
wesentlich geringer. Dieser Umstand führt zu einem
beträchtlichen Codierungsgewinn gegenüber Systemen auf PCM-Basis und
daher dazu, die Bitrate für vergleichbare Leistungen zu
verringern. Die hauptsächlichen Codierungsmechanismen, die bei
Subband ADPCM beteiligt sind, und die erreichbaren Vorteile in
Bezug auf die zugrundeliegenden Eigenschaften von
Musiksignalen sind die folgenden:
-
1) Bei der Methode des Subbandcodierens wird die Musik in
verschiedene Frequenzbänder vor der Quantisierung
aufgetrennt. Moduliertes Quantisierungsgeräusch, das bei
adaptiver PCM eigentümlich ist und sich bei dein Codierschritten
entwickelt, wird daher auf jedes Band beschränkt und kann
mit Signalen in irgendeinem anderen Band nicht in
Interferenz treten. Der Vorteil davon ist, daß die
Geräuschmaskierung durch das dominate Inbandsignal aufgrund der
Verringerung der Störbandbreite weit wirksamer ist. Bei in
verschiedenen unabhängigen Bändern untergebrachtem
Musikspektrum, ergibt sich die Gelegenheit, die riesige
Spektralredundanz auszunutzen, die bei Musiksignalen auftritt, indem
jedes Band mit einer unterschiedlichen Anzahl von Pegeln
quantisiert wird, entsprechend seiner Signalvarianz. Diese
Technik resultiert normalerweise in einem unmittelbaren
objektiven Gewinn gegenüber PCM und wird noch
vorteilhafter, wenn das Signalspektrum diskontinuierlich und/oder
resonant wird - eine bei Musik äußerst übliche Situation.
-
2) Die Brauchbarkeit von linearen Prädiktionstechniken für die
Codierung von Sprachsignalen wurde in der Vergangenheit gut
dokumentiert. Die Studien der Erfinder haben gezeigt, daß
theoretische, Kurzzeit-Prädiktionsgewinne für
Breitband-Musikton in manchen Fällen bis auf 50 db ansteigen können.
Dies bedeutet, daß man in einem prädiktiven Codierer auf
bis zu 8 Bit verzichten kann, um Störpegel zu produzieren,
die mit PCM vergleichbar sind. Ein besonderer Vorteil der
linearen Prädiktion besteht darin, daß ihr Wirkungsgrad mit
der Periodizität der Signale oder der spektralen Reinheit
zunimmt und sie daher die Fähigkeit besitzt, vor der
Quantisierung diese Signale unmittelbar zu dämpfen, welche
normalerweise hörbare Geräuschmodulation begünstigen.
-
3) Rückwärts-adaptive Quantisierung hat einige Ähnlichkeiten
mit instantaner digitaler Kompandierung, abgesehen davon,
daß der Eingangsbereich des Quantisierers sich entsprechend
der Größe vergangener Ausgangsabtastmuster einstellt, um
eine optimale Anpassung des Quantisierers über einen
breiten Dynamikbereich der Musik zur Verfügung zu stellen.
-
Außerdem, da das Signal/Geräusch-Verhältnis (SRN) effektiv
festgelegt ist, ist unter Leerlaufbedingungen kein
Hintergrundgeräusch hörbar. Die Methode der Rückwärtsanpassung
vermeidet das Erfordernis, Verstärkungsinformationen zu
übertragen, anders als beim Blockkompandieren, und ist aus
sich heraus daher gegenüber Übertragungsfehlern
unempfindlicher.
-
Um ein klareres Verständnis der Erfindung zu ermöglichen, wird
nun eine Ausführungsform derselben an Hand eines Beispiels
unter Bezugnahme auf die begleitende Zeichnung beschrieben, in
der:
-
Fig. 1 die Quantisiercharakteristik einer
Zwei-Bit-Pulscodemodulation zeigt,
-
Fig. 2 die Charakteristik einer adaptiven
Pulscodemodulation zeigt,
-
Fig. 3 schematisiert ein rückwärts adaptives
Pulscodemodulationssystem darstellt,
-
Fig. 4 schematisiert ein
Differenz-Pulscodemodulationssystem darstellt,
-
Fig. 5 einen Vergleich eines Pulsmodulationssystems und
eines Differenz-Pulscodemodulationssystem zeigt,
-
Fig. 6 ein Tonsignal-Spektrum zeigt,
-
Fig. 7 das Spektrum von Fig. 6, codiert mit 4-Bit
Pulscodemodulation zeigt,
-
Fig. 8 das Spektrum von Fig. 1 zeigt, in zwei Subbänder
aufgetrennt,
-
Fig. 9 das Spektrum von Fig. 8 zeigt, codiert unter
Verwendung von 4-Bit Pulscodemodulation in jedem
Subband,
-
Fig. 10 das Spektrum von Fig. 8 zeigt, codiert unter
Verwendung einer optimalen 6 : 2 Bitzuteilung in den
entsprechenden Subbändern,
-
Fig. 11 adaptive Bitzuteilung in Entsprechung zur
Subbandenergie zeigt und
-
Fig. 12a ein Diagramm eines 2-Band Subband ADBCM
Musikcodierers zeigt,
-
Fig. 12b
zeigt die 2-Band 24-Zweig QMF-Baumstruktur für den
Codierer von Fig. 12a,
-
Fig. 13a zeigt ein Diagramm eines 4-Band Subband ADPCM
Musikcodierer,
-
Fig. 13b zeigt die 4-Band 64-Zweig QMF-Baumstruktur für den
Codierer von Fig. 13a,
-
Fig. 14 ist ein vereinfachtes Blockschaltungsdiagramm einer
Ausführungsform der Codiervorrichtung bei
Verwendung eines CD-Spielers,
-
Fig. 15 stellt Subbänder ADPCM Codierung bei der
Vorrichtung von Fig. 14 dar,
-
Fig. 16 stellt Subband ADPCM Decodierung bei der
Vorrichtung von Fig. 14 dar,
-
Fig. 17 zeigt eine Schnittstellenanordnung für Teile der
Vorrichtung von Fig. 14,
-
Fig. 18 zeigt nähere Einzelheiten der
Schnittstellenanordnung von Fig. 17 und
-
Fig. 19 zeigt ein typisches Wortformat für die
Datenübertragung zwischen Teilen der Vorrichtung von Fig.
14.
-
Pulscodemodulation (PCM) ist ein digitales Codierungssystem,
das eine analoge Zeitwellenform in einen digitalen Bitstrom
umsetzt, der aus 0-Bits und 1-Bits besteht. Um dies zu tun,
wird zunächst das analoge Signal abgetastet, d. h. der
Spannungsverlauf des Signals wird periodisch gemessen, und jedes
analoge Abtastmuster wird in eine Binärzahl umgesetzt,
gewöhnlich im Zweierkomplement. Diese Binärzahl stellt die Größe und
Polarität der Abtastspannung dar. Jede Binärzahl wird sodann
übertragen oder gespeichert, anstelle des ursprünglichen
Analogsignals. Entsprechend dem Nyquisttheorem muß die analoge
Wellenform mit einer Frequenz abgetastet werden, die zumindest
das Zweifache derjenigen des maximalen Signalhubes ist, um
Aliasing-Verzerrung zu vermeiden. Angenommen, das
Abtastkriterium wird eingehalten, dann kann sich bei einem
PCM-System Ungenauigkeit lediglich durch die binäre Darstellung
jeder Abtastspannung ergeben. Für digitales Audio hoher
Qualität wird allgemein angenommen, daß eine binäre Wortlänge von
ungefähr 14 bis 16 Bit zu diesem Zwecke erforderlich ist. Die
Audiosignale, mit denen wir es zu tun haben, liegen
normalerweise im Bereich 0 bis 24 KHz.
-
Um den PCM-Prozeß zu erläutern, zeigt Fig. 1 eine 2Bit PCM
Quantisierercharakteristik. Bei Benutzung eines 2 Bit
Binärwortes für die Abtastcodierung, d. h. zur Darstellung von
Polarität und Amplitude, ergibt sich ein Quantisierer mit
lediglich vier Pegeln. Fig. 1 geht auch von der Annahme aus,
daß die höchste Eingangs- oder Abtastspannung nicht +/- 1 Volt
übersteigt (d. h. der Dynamikbereich des Quantisierers ist auf
+/- 1 Volt eingestellt)
-
Wenn beispielsweise ein Abtastmuster von + 0.6 Volt an diesen
2-Bit-Quantisierer angelegt wird, wird das Abtastmuster durch
das PCM-Wort 01 dargestellt, unter Verwendung der X-Achse. Der
Prozeß des Zuteilens diskreter Pegel zu einer analogen
Spannung ist als Quantisierung bekannt. Wenn dieses Wort auf ein
empfangendes PCM-System übertragen wird, wird das Abtastmuster
zu + 1,0 Volt (Verwendung der Y-Achse) rekonstruiert. Dieser
Prozeß der Rekonstruktion ist als inverse Quantisierung
bekannt.
-
Da die rekonstruierten Abtastmuster lediglich fünf diskrete
Pegel besitzen können, führt PCM-Codierung mit Verwendung von
lediglich 2-Bits große Fehler oder Verzerrungen gegenüber dem
Ursprungssignal ein. Bei dem Beispiel beträgt die Schrittgröße
des Quantisierer 0.5 Volt. Es folgt, daß der größte Fehler,
der durch den PCM-Prozeß eingeführt werden kann, +/- 0,25 Volt
beträgt, d. h. die halbe Schrittgröße, und daß daher das größte
Signal-Rauschverhältnis (SNR) 1,0/0,25 beträgt (oder 12 dB im
logarithmischen System).
-
Eine Anzahl von Charakteristiken, die sich aus der
PCM-Codierung ergeben, lassen sich wie folgt zusammenfassen:
-
1) Der Effektivwert (RMS) des Fehlers ist von der Amplitude
des Eingangssignals unabhängig, d. h. die Schrittgröße und
damit der durchschnittliche Fehler sind festgelegt.
Vorrangig ist daher, daß der Dynamikbereich des Quantisierers so
skaliert ist, daß er den wahrscheinlichen Signalhubbereich
umfaßt, um das SNR so groß wie möglich zu halten.
-
2) Für eine sinnvollerweise feine Charakteristik des
Quantisierers wird der PCM-Abtastfehler als Zufallsfehler
konstanter Durchschnittsamplitude begriffen. Der
Frequenzgehalt dieses Störgeräusches erstreckt sich daher von
Gleichstrom bis zur halben Abtastfrequenz.
-
3) Da die größte Fehleramplitude die Hälfte der Schrittgröße
beträgt, wird bei Verdoppelung der Anzahl von Pegeln bei
Beibehaltung des gleichen Quantisierungsbereiches der
Fehler hinsichtlich jedes Abtastmusters halbiert. In einem
dB-Maßstab stellt diese Verringerung der Fehlerspannung
einen Gewinn von 6 dB im SNR für jeglichen zusätzlichen Bit
dar, der der PCM-Wortlänge hinzugefügt wird. Beispielsweise
kann ein 16 Bit Quantisierer die SNR-Zahlen im Bereich von
96 dB für Vollausschlag-Eingangsabtastmuster (d. h. 16·6 dB)
halten. Ein 15 Bit PCM-System erreicht Werte im Bereich von
90 dB usw . .
-
Dem Standard entsprechende PCM, wie sie oben beschrieben ist,
zeigt zwei grundsätzliche Betriebsnachteile.
-
1) Das Eingangssignal darf den Quantisierungsbereich nicht
überschreiten, d. h. die Abtastamplitude sollte nicht größer
sein als der letzte Quantisierungsschritt (Fig. 1). Wenn
dies eintritt, wird die Fehlerspannung nicht länger auf die
Hälfte der Schrittgröße eingegrenzt. Selbst bei der
feinsten Quantisierung erzeugt dies gewaltige Verzerrung.
-
2) Das Eingangssignal sollte nicht so klein werden, daß es mit
der Störspannung des Quantisierers vergleichbar wird. Das
SNR eines Quantisierers mit festem Bereich ist am kleinsten
bei sehr kleinen Eingangsabtastmustern.
-
Um (1) und (2) zu vermeiden, wird in der Praxis die
Schrittgröße des Quantisierers sehr fein gemacht, indem man eine
große binäre Wortlänge verwendet, und der Dynamikbereich der
Pegel wird so eingestellt, daß er das Doppelte desjenigen des
erwarteten Eingangssignales ist (d. h. lediglich die untere
Hälfte der Schritte wird genutzt). Wenn man jedoch gestattet,
daß der Quantisierungsbereich sich in Entsprechung zu der
Energie des Eingangssignales anpaßt, kann die Verwendung sehr
langer PCM-Wörter vermieden werden. Musiksignale sind
erfolgreich mit adaptiven PCM-Schemata kodiert worden, welche
Wortlängen von etwa 10 bis 12 Bit pro Abtastmuster verwenden.
Adaptive PCM ist auch als digitales Kompandieren bekannt,
wobei in diesem System der Dynamikbereich des Eingangssignals
modifiziert wird, und nicht der Quantisierer. Ein derartiges
System ist in Fig. 2 dargestellt.
-
Wenn der Bereich des Quantisierers nun zu sämtlichen
Zeitpunkten demjenigen des Signals angepaßt ist, ist das Verhältnis
der Signalspannung zur Störspannung konstant. Anders
ausgedrückt ist der Störpegel unmittelbar dem Signalpegel
proportional, anders als bei PCM. Der tatsächliche Störpegel relativ
zum Signal bestimmt sich einfach durch die Anzahl der Pegel in
dem Quantisierer. Wenn der Bereich des Quantisierers am Sender
so eingestellt wird, daß er den Amplituden der ankommenden
Abtastmuster angepaßt ist, muß in entsprechender Weise der
Bereich des inversen Quantisierers ebenfalls für korrektes
Arbeiten eingestellt werden. Dies kann auf zwei Wegen erreicht
werden:
-
1) Blockanpassung
-
Bei diesem Prozeß wird ein Block ankommender Abtastmuster
am Empfänger verzögert, und die RMS-Energie des Blocks wird
berechnet. Dieser Energiewert wird dann benutzt, um den
Quantisierer zu skalieren, bevor der Block der Abtastmuster
quantisiert wird. Das Energiemuster wird auch vor dem sich
ergebenden binären Bit-Strom auf den Empfänger übertragen,
damit der Bereich des inversen Quantisierers an denjenigen
des Senders angepaßt wird.
-
2) Rückwärts angepaßte PCM, die in Fig. 3 dargestellt ist, ist
ein System, bei dem die Energie vergangener, invers
quantisierter Abtastmuster benutzt wird, um den Bereich für das
nächste Abtastmuster einzustellen. Da jedes quantisierte
Abtastmuster Informationen trägt, die die Bereichsanpassung
für das nächste Abtastmuster betreffen, braucht keine extra
"Energie"-Information auf den Empfänger übertragen zu
werden.
-
Differenzpulscodemodulation (DPCM) ist in Fig. 4 dargestellt.
DPCM ist sehr ähnlich der PCM, abgesehen davon, daß es die
Amplitude der Differenz d(n) zwischen dem Eingangsabtastmuster
x(n) und einem prädiktierten Abtastmuster p(n) ist, welche
quantisiert wird. P(n) wird mittels eines Prädiktors P
erzeugt, der seine Prädiktion auf zuvor rekonstruierte
Abtastmuster r(n) gründet, welche sowohl am Empfänger R als auch am
Sender T zur Verfügung stehen. Allgemein ist der prädiktierte
Wert eine lineare Kombination mehrerer vergangener,
rekonstruierter Abtastmuster, entsprechend der Gleichung:
Prädiktor-Ordnung
-
Am Empfänger ist die Prädiktion immer gleich, und deshalb
liegt der einzige Unterschied zwischen r(n) und x(n) in dem
Quantisierungsfehler, der beim Quantisieren des
Differenzsignals d(n) eingebracht wird. Da es das Ziel der DPCM ist, die
Amplitude des Differenzsignals DS relativ zum Eingangssignal
zu verringern, ist der Bereich des Quantisierers im
Durchschnitt kleiner als es erforderlich ist, um das Eingangssignal
zu quantisieren, und der Fehlerpegel wird daher gegenüber dem
bei PCM gefundenen, verringert. DPCM wird gegenüber PCM
verstärkt effizient, wenn das prädiktierte Signal PS an die
Eingangsabtastmuster angenähert wird. Da die Prädiktion auf
früheren Abtastmustern basiert, ist der durch DPCM erreichte
Codierungsgewinn ein Ergebnis seiner Fähigkeit, die
Signalredundanz in der Zeitdomäne auszunutzen. Die Unterschiede
zwischen PCM und DPCM sind in Fig. 5 dargestellt. Die Fähigkeit
von DPCM, den Störpegel N zu verringern, läßt sich in dem
logarithmischen System in Bezug auf die Wahrnehmbarkeit
bemessen. Wenn beispielsweise der Störpegel NP bei DPCM halb so
groß ist, verglichen mit PCM für das gleiche Signal S, dann
sagen wir, daß der Codierungsgewinn gegenüber PCM 6 dB
beträgt. Weil der Dynamikbereich des Differenzsignals sehr viel
kleiner ist als derjenige des Eingangssignals, ergibt sich bei
DPCM weniger Quantisierungsgeräusch.
-
DPCM ist lediglich von Nutzen, wenn sie fähig ist, das
ankommende Signal zu prädiktieren. Bei feststehenden
Signaleigenschaften, beispielsweise Sinusschwingungen, ist dies
verhältnismäßig einfach, und SNR-Codiergewinne bis zu 60 dB lassen
sich erzielen. Wenn jedoch der Prädiktor für irgendeine
besondere
Wellenform optimiert ist, ist seine Leistung für andere
Signaltypen weniger optimal. In summa, wenn das den
DPCM-Systemen zugeführte Eingangssignal nicht stationär ist,
dann muß die Linearkombination innerhalb des Prädiktors sich
entsprechend der Signalstatistik anpassen, um den Codiercode
zu maximieren. In der Praxis werden die Prädiktorkoeffizienten
so berechnet, daß der mittlere quadrierte Fehler zwischen dem
prädiktierten Signal und dem Eingangssignal minimiert wird.
Diese Berechnung kann bei jeder Abtastung ausgeführt werden,
unter Verwendung von Gradienten- oder Gitteranpassung oder an
einem Block von Eingangsabtastmustern, beispielsweise mit
Methoden der Eigenkorrelation und Kovarianz.
-
Durch Kombinieren sowohl von LPC-Anpassung für den Prädiktor
als auch APCM für den Quantisierer innerhalb des
zugrundeliegenden DPCM-Systems, gelangt man zu einem als adaptive
Pulscodemodulation (ADPCM) bekannten Schema.
-
Betrachtet man das Kurzzeitfrequenzspektrum eines typischen
Autiotones, so findet man, daß die Spektralkomponenten nicht
gleichmäßig über das Spektrum verteilt sind. In der Praxis
findet sich der größte Teil der Signalenergie in der unteren
Hälfte des Spektrum-während des Großteils der Zeit, Fig. 6. Es
ist jedoch bekannt, daß das Spektrum der Fehlerspannung, die
beim Codierprozeß erzeugt wird (sei es PCM, DPCM oder ADPCM),
ein breites Geräuschspektrum zeigt, das sich von Gleichstrom
bis zur halben Abtastfrequenz erstreckt. Wenn beispielsweise
das in Fig. 6 gezeigte Signal unter Verwendung eines
4 Bit PCM Systems codiert wird, liegt der Pegel der
Störenergie etwa 24 dB unterhalb des durchschnittlichen Signalpegels,
s. Fig. 7. Jedoch übersteigt beim Codieren des Spektrums der
resultierende Geräuschpegel denjenigen des Signals für
Frequenzen unterhalb 7 KHz. Subjektiv wird dieser
Codierungsfehler als hochfrequentes Hintergrundzischen wahrgenommen, weil
das Hauptsignal das Fehlersignal bei hohen Frequenzen nicht
"maskieren" kann. Das Problem besteht bei Vollband PCM daher
darin, daß der Störpegel durch Spektralresonanzen hoher
Energie
hochgedrückt werden kann, in einem solchen Maße, daß er
entfernte Spektralkomponenten viel kleinerer Amplituden
"überfluten" kann (Fig. 7). Ein Weg der Entkopplung von
Fehlersignalen, die durch verschiedene Teile des Spektrums erzeugt
werden, besteht darin, das Spektrum auf mehrere Bänder
aufzuteilen, indem Subband-Codierfilterbänke vor der Quantisierung
benutzt werden. Wenn dann jedes Band individuell codiert wird,
beispielsweise durch Anwendung von PCM, DPCM oder ADPCM, kann
das durch jedes Band erzeugte Störgeräusch nicht mit Signalen
in anderen Bändern interferieren. Wenn bei Benutzung des
Spektrums von Fig. 6 dieses in zwei Bänder gleicher
Bandbreiten aufgetrennt wird, erhalten wir Fig. 8. Jedes Band, Band 1
und Band 2, enthält nun ein Signal von lediglich 8 KHz
Bandbreite, und daher kann die Abtastfrequenz innerhalb jedes
Bandes auf 16 KHz halbiert werden, anstelle von 32 KHz für das
Vollbandsignal.
-
Das individuelle Codieren jedes Bandes mit 4 Bit Quantisierern
führt zu Fig. 9. In diesem Falle übersteigt das Störgeräusch
in dem unteren Band das Signal lediglich zwischen 7 und 8 KHz.
Da jedoch der Störpegel in dem oberen Band nun unnötigerweise
schwach ist, mag die in Fig. 10 gezeigte Zuordnung des
Quantisierers besser sein. Das Ziel der Subbandcodierung besteht
daher darin, zu ermöglichen, daß die Bitzuteilung passend zu
derjenigen der Signalvarianten innerhalb des Bandes ist, und
dadurch die Wahrscheinlichkeit zu maximieren, daß das Geräusch
maskiert wird. Natürlich ändert sich das Spektralmuster von
Fig. 6 mit der Zeit, was bedeutet, daß ein noch größerer
Gewinn erzielt werden könnte, indem man ermöglicht, daß sich
die Bitzuteilung an die Kurzzeitenergie in jedem Subband
anpaßt, Fig. 11. Dieses Verfahren ist als adaptive Bitzuteilung
in der Frequenzdomäne bekannt.
-
Da die Bitzuteilung sich an die Energiekontur des
Signalspektrums annähern kann, kann die Subbandcodierung daher die
spektrale Redundanz unmittelbar ausnutzen, die bei fast
sämtlichen Signalen gegeben ist, um einen verbesserten
Codierungsgewinn
gegenüber Vollband-Codiertechniken zu erzielen.
-
Bezüglich Fig. 12a und 13a sind die Hauptteile wie folgt
bezeichnet:
-
Q Rückwärts anpaßbarer Quantisierer
-
l/Q Inverser, rückwärts anpaßbarer Quantisierer
Quantisier-Schrittgröße-Adapter
-
P Gesamtpol-Rückwärtsanpaßbarer Prädiktor
-
ABA Adaptive Bitzuteilung.
-
Dieser Musikcodierer besteht aus einer
Zwei-Band-Quadratur-Spiegel-Filterbank (QMF) mit darin eingebauter, rückwärts
anpaßbarer Prädiktion und Quantisierung in jedem Band. Die
anfängliche Arbeit mit diesem System wurde mit einer
festgelegten Bitzuteilung von 5 : 3 unternommen, und zwar entweder mit
blockadaptiver oder gradientenadaptiver LPC sowohl innerhalb
der Prädiktoren im höheren als auch niedrigeren Band. Diese
benutzten Quantisierer sind nicht-stetige, rückwärts
anpaßbare Laplacesche Operatoren pdf. Die zwei Bänder werden getrennt
und unter Verwendung eines 24 Zweig-Quadratur-Spiegel-Filters
(QMF) rekombiniert. 15 KHz Audiosignale werden mit 32 KHz
abgetastet, und jedes 16 Bit-Abtastmuster wird in zwei
Frequenz-Subbänder gefiltert, nach 4 Bits codiert und zum
Empfänger übertragen. Hier werden die komprimierten
Abtastmuster decodiert, rekonstruiert und zu analog
rückgewandelt. Ein ähnliches Schema wie das in Fig. 12a und
12b gezeigte, ist in den Fig. 13a und 13b gezeigt. In diesen
Fig. sind die Hauptteile wie folgt bezeichnet:
-
Q Rückwärts anpaßbarer Quantisierer
-
l/Q Inverser rückwärts anpaßbarer Quantisierer
-
P(PZ) Pol-Null gradientenanpaßbarer Prädiktor
Quantisier-Schrittgröße Adapter
-
QMF Quadratur-Spiegel-Filter.
-
Bei dieser Anordnung sind vier Subbänder vorhanden. Die
Vergrößerung
der Anzahl der Subbänder verbesserte die Qualität
der codierten Musik noch weiter, verglichen mit dem Schema
von Fig. 12a und 12b, jedoch auf Kosten erhöhter Komplexität.
Der Codierer benutzt eine 4-Band 64-Zweig QMF Baumstruktur
(0-4 4-8 8-12 12-16 KHz), wobei jedes Band einen 8 Pol
rückwärts-blockanpaßbaren Prädiktor beinhaltet (aktualisiert
unter Benutzung der Methode der Eigenkorrelation) sowie einen
rückwärts anpaßbaren Laplaceschen Quantisierer. Bei diesem
Codierer erlaubt man jedoch, daß sich die Bit-Zuteilung in
einem Rückwärtsmodus anpaßt, entsprechend der
Kurzzeit-Energieverteilung des Fehlersignals über die vier Bänder. Die
freizügige Anwendung der Rückwärtsadaption bei diesem Codierer
vermeidet auch die Notwendigkeit der Übertragung von SI.
Jedoch beträgt die Codierverzögerung nunmehr 192 Abtastmuster
oder 6,1 ms, und die Gesamtkomplexität beträgt etwa das
Vierfache derjenigen eines Zweibandschemas.
-
Die Baumstrukturen von Fig. 12b und 13b zeigen das Auftrennen
des Audio-Eingangssignals für das vordere Ende des Codierers.
Um die Subbänder am Decoder zu rekonstruieren, sind die
Signalrichtungen in den Baumstrukturdiagrammen umzukehren, damit
das endgültige Signal das AUDIO OUT ist.
-
Von vitaler Wichtigkeit für eine erfolgreiche Beurteilung
jedweden Codierschemas hoher Qualität ist das Beibehalten der
Signaltreue über sämtliche Prozesse der Audioaquisition, der
Codierung und des Rückspielens hinweg. Dies ist wichtig, wenn
delikate Unvollkommenheiten der Codierung verläßlich
aufgedeckt und ihre Auswirkungen abgeschätzt werden sollen.
Sämtliches Quellenmaterial, das bei subjektiven Einschätzungen
benutzt wurde, war entweder von einem CD-Spieler oder einem
PCM-Fl-Digitalrecorder gewonnen worden. Die Digitalisierung
des Musiksignals wurde durch Verwendung einer für den
Verwendungszweck hergestellten Datenaquisitionseinheit erreicht, die
16 Bit Stereo A-D und D-A-Wandler verwendet. Die Filterung
gegen Alias-Effekte und zur Rekonstruktion wurde mit aktiven
16 KHz Roll-off-Aktivfiltern neunter Ordnung durchgeführt. Um
den Erfolg dieser Codieranordnung zu bewerten, wurde codierte
Musik mit dem Original (Bandbegrenzung auf 15 KHz) verglichen,
indem beide Passagen über Lautsprecher hoher Güte abgehört
wurden, die in einem Raum aufgestellt waren, der für ein gutes
häusliches Umfeld als repräsentativ anzusehen ist. Die
Einrichtung zum Rückspielen bestand aus dem PCM-Fl-Recorder,
einer aktiven Frequenzweiche mit Dämpfungsglied, vier 100 Watt
Mono-Referenz-Leistungsverstärkern und einem Paar
Zweiweg-Monitor-Qualitätslautsprechern. Ein Mindestmaß an NF-Einrichtung
wurde die ganze Zeit über verwendet, um kummulative
Signalverschlechterung zu verringern. Die erhaltenen Ergebnisse zeigten
in klarer Weise den sehr hohen Codierwirkungsgrad von Subband
ADPCM im Vergleich zu digital kompandierten und ADM Schemata
in Anwendung auf Musiksignale. Die Ergebnisse zeigen, daß
digitale Audiofrequenz mit überraschend hoher Güte durch
bandgesplittete ADPCM-Wörter dargestellt werden kann, die
annähernd ein Viertel der Wortlänge linearer PCM besitzen, wobei
im wesentlichen noch kein Unterschied feststellbar ist. Der
Erfinder glaubt, daß diese Ergebnisse sehr signifikant sind
und einen beträchtlichen Vorteil bei digitaler
Audiotechnologie darstellen, mit sofortigen Implikationen für ISDN,
Rundfunk sowie digitale Audioverteilung DBS.
-
Zwar handelte es sich oben um vier Bit Subband ADPCM zum
Zwecke der Musikcodierung mit niedriger Bitrate. Hilfsversuche
haben jedoch gezeigt, daß die Leistungskurve für dieses Schema
sich bei ungefähr 5-6 Bit pro Nyquist Abtastmuster sättigt und
auch die äußerst kritischen Musiksignale vom Original nicht
mehr unterscheidbar werden. Zusätzlich hierzu ist bekannt, daß
ADPCM eine Immunität gegen Bitfehler bis herunter auf 1 zu 10³
bietet, ohne irgendeine Form des Schutzes oder der
Verschleierung -4 oder 5 Größenordnungen besser als jedwedes System auf
PCM Basis. Bei zukünftigen professionellen digitalen
Audionormen, die bis über 16 Bit pro Abtastmuster als Mittel zur
Verbesserung der Dynamikeigenschaften in Betracht ziehen, muß
es eine offene Frage bleiben, ob weiterhin PCM als
verläßliches und wirtschaftliches Mittel angesehen werden kann, um
digitale Audiosignale zu speichern oder zu übertragen.
-
Bezüglich Fig. 14 ist ein System beschrieben, das eine
Anwendung der Signalcodiertechnik demonstriert, bei der digitale
Audio-Abtastmuster benutzt werden, die von einem Compact-Disk
(CD) Spieler 141 stammen. Bei diesem System wird der 16 Bit PCM
Audiodatenstrom innerhalb des CD Spielers zunächst auf 4 Bit
komprimiert und sodann wieder auf das ursprüngliche 16 Bit
PCM-Format zurück expandiert, zu der Spielerschaltung
zurückgeführt und nach analog, wie normal, rückgewandelt. Die
Komprimierungs/Expansions-Prozesse (oder Codierung) werden in
Echtzeit durchgeführt, unter Verwendung zweier getrennter
digitaler Signalprozessorchips (DSP) 142 und 143. Da sowohl
die Codierungs- als auch die Decodierungprozesse
Rücken-an-Rücken durchgeführt werden, ermöglicht die Benutzung
eines Audiomaterials sehr hoher Güte mittels des
CD-Spielersystems eine genaue Bewertung der Toneigenschaften des
Codiersystems als Ganzem.
-
Die Codiereinrichtung wurde in zwei digitale AT & T DSP
16-55nS Signalprozessorchips 142, 143 programmiert, die
wiederum mit einem modifizierten Philips CD 650
Compact-Diskspieler 141 in Schnittstellenbeziehung waren (die Disk ist mit 140
bezeichnet).
-
Die digitale Audioschaltung des CD-650-Spielers besteht aus
drei PCM-Hauptprozessorchips, dem Demodulator 144 (SAA 7210
oder dem A-Chip), dem Digitalfilter 145 (SAS 7220 oder dem
B-Chip) und dem Digital/Analogwandler 146 (DAC). Um die 16 Bit
PCM Audiodaten zugänglich zu machen, ist der normale serielle
Datenweg zwischen dem SAA 7210 und dem SAA 7220 unterbrochen
und alternativ über die Coder-Decoder Hardware
Processorschleife 147 umgeleitet. Beim Eingeben jedes 16 Bit PCM
Abtastmusters (Stereo-Abtastrate = 88,2 kHz) überführt der
Codierer wirksam codierte Daten seriell auf den Decoder mit
einem Viertel dieser Bitrate (beispielsweise 4 Bit pro PCM
Abtastmuster). Bei Erhalt der komprimierten Daten expandiert
der Decoderchip 143 auf 16 Bit PCM zurück und gibt den PCM
Datenstrom an den SAA 7220 Filterchip 145 in einem Format ab,
das demjenigen, des Ausgangsdatenstroms des Demodulators 144
(SAA 7210 PCM) ähnlich ist.
-
Bezüglich Fig. 15 werden die 16 Bit PCM Wörter beim Eintritt
in den codierenden DSP Chip 142 über dessen seriellen Eingang
zunächst dem Subband-Filterbank-Algorithmus 150 unterworfen,
der das digitale Spektrum in vier gleichförmige Kanäle oder
Subbänder teilt, 0-5,5 KHz, 5,5-11 KHz, 11 bis 16,5 KHz und
16,5-22 KHz. Jedes Subbandsignal wird sodann herabgetastet auf
11 KHz, was einen Durchlauf von einem Wort pro Subband für
jeweils vier 16 Bit PCM Wörter ergibt, die dem Filter
zugeführt werden.
-
Jedes Subbandsignal wird sodann durch unabhängige ADBCM
Algorithmen verarbeitet, die eine Prädiktion (P) von jedem
Subbandabtastmuster subtrahieren und die Differenz
quantisieren (Q). Die Quantisierer-Bitzuteilung bei dieser Darstellung
ist auf 8 Bit für das 0-5,5 KHz-Band, 4 Bit für das 5,5-11
KHz-Band und 2 Bit für jedes der übrigen Bänder festgelegt.
Die 4 quantisierten Differenzsignale werden sodann mittels des
Multiplexers 151 zu einem einzelnen 16 Bit Subband ADPCM Wort
(d. h., 8+4+2+2 Bit) multiplexiert. Da dieses zusammengesetzte
Wort für jeweils 4 PCM Wörter gebildet wird, die in den
Codierchip 142 eingegeben werden, indem jedes Subband ADPCM Wort
anstelle der ursprünglichen PCM Wörter gespeichert oder
übertragen wird, wird eine vierfache Verringerung der
Signalkapazität erleichtert.
-
Jedes 16 Bit Subband ADPCM Wort wird daher seriell aus dem
seriellen Ausgang des Processors heraus an den Decoderchip 143
DSP ausgegeben. Wie im vorstehenden Absatz erläutert, erfolgen
diese Austauschvorgänge nunmehr mit einem Viertel der Rate,
mit der die 16 Bit PCM Wörter in den Codierchip 142 eintreten.
-
Bezüglich Fig. 16 werden die 16 Bit ADPCM Wörter beim
Eintreten in den Decoderchip DSP über dessen seriellen Eingang
zunächst dem Multiplexierungsalgorithmus 160 unterzogen. Wenn
die Subband-Code getrennt worden sind, werden sie jeder invers
quantisiert (l/Q) und rekonstruiert, indem jede Prädiktion (P)
wieder hinzugefügt wird, welche am Codierchip 142 subtrahiert
wurde. Die rekonstruierten Subbandsignale werden dann
aufwärts-getastet und invers zurück zu einem getasteten 44,1 KHz
Stereo PCM-Signal gefiltert. Jedes PCM Wort wird sodann an das
Digitalfilter 145 (SA 7220) über den seriellen Ausgang des DSP
ausgegeben.
-
Zwar werden die PCM Abtastmuster für linken und rechten Kanal
über einen gemeinsamen Eingang in den Codierer eingegeben, sie
werden jedoch separat über den gesamten Rücken-an-Rücken
Codierprozeß durchgehend separat codiert und decodiert. Die
Decoder- und Codieralgorithmen 160 und 150 beinhalten daher in
der Praxis zwei der in Fig. 16 bzw. Fig. 15 gezeigten
Routinen, um linken und rechten Kanal zu verarbeiten.
(Compact Disk Spieler DSB 16 Hardwareschnittstellen
-
Zunehmend detailliertere Beschreibung der
Hardwareschnittstellen für die Chips 142 und 144 wird unter Bezugnahme auf Fig.
17 bzw. 18 gebracht.
-
Beginnend am seriellen PCM Eingang des Codierprozessors
(Dateneingang DI) werden PCM Audiodaten, in dem I²S-Format
(ref.1) gleichzeitig aus dem Demodulatorchip 144 (SAA 7210)
heraus und in den DI des DSP-Codierers 142 hinein getaktet.
Jede serielle 16 Bit Eingabe des Codierers ist an den Rändern
von WSAB über den Ladezyklus LDAB initialisiert. Damit der
Processor zwischen linken und rechten PCM-Wörtern
unterscheidet, wird ein Synchropuls einer "aktiven" parallelen
Eingangsleitung PBO) zugeführt, um der Aquisition eines linken PCM
Abtastmuster zu entsprechen. Beim gleichzeitigen Lesen sowohl
der parallelen als auch seriellen Anschlüsse kann der
Prozessor
genau die Verarbeitung jedes Abtastmusters verläßlich
orientieren.
-
Die 16 Bit Subband ADPCM-Wörter werden von DO (Daten Out) des
seriellen Ausganges DSP 16 ausgegeben. Sie werden jedoch mit
einem Viertel der Rate der PCM Wörter überführt. Die
zeitgebende linke Subband ADPCM ist jedoch so beschaffen, daß ihr
Eintritt in die XDAB-Leitung einem SYAB Hochpegelimpuls
entspricht. Das Subband ADPCM-Wort des rechten Kanals folgt 45,35
us später, jedoch ohne einen aktiven Impuls am SYAB.
-
Bei Erhalt des 16 Bit Subband-Stereo-ADPCM-Wortes durch XDAB
über den seriellen Eingang DI gibt der Decoder gleichzeitig
die rekonstruierten 16 Bit PCM-Wörter mit einer Rate von 88,2
KHz an den Eingang DDAB des SAA 7220 Cip über den seriellen
Ausgang DSP 16 D0 ab. Wiederum ist das Takten des
Ausgabewortes des dekodierenden Algorithmus 160 derart, daß die
PCM-Wörter des linken Kanals mit einem Hochpegel an dem
Synchroeingang SYAB zusammenfallen.
-
Detaillierte TTL Zeitdiagramme für die seriellen und
parallelen Anschlüsse der AT & T DSP 16 Prozessorchips 142 und 143
und die PCM Datenformate für die Mullard SASA 7210 und SAA
7220 Chips 144 und 145 lassen sich in den geeigneten
Referenz-Handbüchern von Mullard und AT & T auffinden. Ein
typisches Wortformat für die seriellen 6 Bit Subband
ADPCM-Datenübertragungen zwischen den DSP Chips 142 und 143 ist in Fig.
19 gezeigt, d. h., das untere Band (0-5,5 KHz) der ADPCM belegt
die ersten 8 Bits des übertragenen Wortes, das nächste Band
(5,5-11 KHz) der ADPCM belegt die nächsten 4 Bits und so
weiter.
-
Zwar beschäftigt sich die hier beschriebene Arbeit in erster
Linie mit hochqualitativer Musikcodierung für ISDN, jedoch
finden sich Anwendungen bei anderen bandbreitenbewußten
Umfeldern, beispielsweise Musikverbreitung für terrestrischen und
satellitengestützten Rundfunk. Außerdem sind Implikationen
hochqualitativer Musikcodierung auch bei der fortdauernden
Weiterentwicklung häuslicher digitaler Audiomedien sehr
signifikant, insbesondere von Videoton, Compact Disk (CD), Video-CD
und digitalem Audioband (DAT).