-
Die Erfindung betrifft ein Gerät zur digitalen Signalkodierung.
-
Ein bereits früher vorgeschlagenes hocheffizientes Verfahren zur Kodierung von
Sprachsignalen und anderen Audiosignalen verwendet eine Kodierung mit Bitzuordnung, bei
der ein Eingangssignal, z.B. ein Sprach- oder anderes Audiosignal, auf der Zeitachse oder
auf der Frequenzachse in eine Mehrzahl von Kanälen aufgeteilt wird und die Bitzahlen für
die betreffenden Kanäle adaptiv zugeordnet werden. Varianten dieses früher
vorgeschlagenen Kodierverfahrens für Audiosignale mit Bitzuordnung umfassen: Teilbandkodierung
(SBC), bei der ein Audiosignal zur Kodierung auf der Zeitachse in eine Mehrzahl von
Frequenzbändern aufgeteilt wird, ferner adaptive Transformationskodierung (ATC) bei der
ein Signal auf der Zeitachse durch orthogonale Umwandlung (Transformation) In ein
Signal auf der Frequenzachse umgewandelt und in eine Mehrzahl von Frequenzbändern
aufgeteilt wird, die dann adaptiv kodiert werden, sowie sogenannte adaptive
Bitkodierung (APC-AB), bei der SBC und ATC kombiniert werden, so daß ein Signal auf der
Zeitachse in Frequenzbänder unterteilt und die Signale der betreffenden Bänder in
Basisbandsignale (Niedrigbereichsignale) umgewandelt und durch lineare prädiktive Analyse n-
ter Ordnung prädiktiv kodiert werden, wobei n eine ganze Zahl gleich 2 oder größer ist.
-
Bei diesen hocheffizienten Verfahren wird die adaptive Kodierung auf einer Band-für-
Band-Basis durchgeführt, indem von einem Band zum anderen die Energie oder der
Innerband-Spitzenwert berechnet wird und die Signalkomponenten in jedem Band mit
einer Bitzahl quantisiert werden, die nach Maßgabe der so berechneten Energie zugeteilt
wird.
-
In jüngerer Zeit ist auf dem Gebiet der Kodierung von Audiosignalen ein wachsendes
Bedürfnis nach einer Bitkompression zu beobachten, die für den menschlichen
Gehörsinn befriedigender ist und die eine höhere Qualität besitzt als sie mit den oben
erwähnten vorgeschlagenen hocheffizienten Kodierverfahren erreichbar ist. So besteht
beispielsweise der Wunsch, mit höherer Datenkompression oder Bitkompression in einer
für den menschlichen Gehörsinn akzeptableren Art und Weise kodieren zu können,
indem die Eigenschaften der Eingangsaudiosignale oder des menschlichen Gehörsinns be
rücksichtigt werden.
-
Was die allgemeinen Eigenschaften von Audiosignalen betrifft, so ist es bekannt, daß
diese in ihren häheren Frequenzkomponenten geringere Energie haben. Deshalb
werden bei der Audiosignalkodierung die Eingangsaudiosignale vor der eigentlichen
Kodierung einer Preemphasis unterzogen, um das auf die Signalkomponenten bezogene
Rauschenim hohen Bereich, äquivalent zu verringern und dadurch den Rauschabstand
(S/N-Verhältnis) zu verbessern. In diesem Fall wird bei der Wiedergabe des Signals eine
Deemphasis durchgeführt.
-
Bei der Kodierung von Audiosignalen in Verbindung mit der Aufteilung in
Frequenzbänder und in Zusammenhang mit einer Quantisierung, bei der jedem der Frequenzbänder
eine Bitzahl adaptiv zugeordnet wird, führt man eine Preemphasis und eine Deemphasis
durch. Und zwar wird ein digitales Audiosignal einer Preemphasis unterzogen und
anschließend in mehrere Frequenzbänder aufgeteilt. in jedem dieser Bänder werden die
Signalkomponenten dann mit einer Bitzahl quantisiert, die entsprechend der Energie in
jedem Frequenzband zugeordnet ist. Es sei hier erwähnt, daß Quantisierung und
Preemphasis in dem gleichen Kodiervorgang stattfinden und die Signalkomponenten, die
bereits einer Preemphasis unterzogen wurden, bei der Signalkodierung einer
Rechenoperation unterworfen werden, um die Energie in den einzelnen Frequenzbändern zu
ermitteln. Man kann somit nicht davon ausgehen, daß die Anzahl der Quantisierungsbits,
die auf der Basis der Energie der bereits der Preemphasis unterzogenen
Signalkomponenten zugeteilt werden, mit den Bitzahlen übereinstimmen, die entsprechend den
Eigenschatten des tatsächlichen Audiosignals vor der Preemphasis zugeteilt worden
wären. Deshalb ist die Wahrscheinlichkeit groß, daß der Gehörsinn ein Sprach- oder
anderes Audiosignal, das (nach der Kodierung) dekodiert und wiedergegeben wird, anders
wahrnimmt als das tatsächlich eingegebene Sprach- oder andere Audiosignal.
-
Die Literaturstelle IEEE Journal on Selected Areas in Communication, Bd. 6, Nr.2,
Februar 1988, Seiten 314-323, Johnston, "Transform Coding of Audio Signals Using Perceptual
Noise Criteria" beschreibt einen Transformationskodierer für ein Audiosignal, der ein
menschliches Gehörmodell verwendet, um eine Kurzzeit-Spektral-Maskierkurve
abzuleiten, die in dem Kodierer benutzt wird. Das Eingangssignal wird einer Fensterbildung
unterzogen und durch eine schnelle Fouriertransformation (FFT) verarbeitet und dann
Quantisierern des Kodierers sowie einer Anordnung zugeführt, die für jedes Zeitsegment des
Eingangssignals eine Wahrnehmungsschwelle berechnet. Die Wahrnehmungsschwelle
dient als Rauschformungsfunktion für den Kodierer. Die Größen der
Quantisierungsschritte für die Frequenzkomponenten werden durch den Bitraten-Rechenprozesses bestimmt,
bei dem die Form der Schwelle beibehalten wird. Die Größen der Quantisierschritte
werden einem Iterationsprozeß unterzogen, um eine feste Bitrate zu gewinnen. Die
Schwellwertberechnung umfaßt eine Analyse des kritischen Signalbandes, ferner die
Anwendung einer Spreiztunktion auf das kritische Bandspektrum, die Berechnung eines
Spreizmaskier-Schwellwerts,
die Berechnung absoluter Schwellwerte und das Beziehen der
Spreizmaskierschwelle auf die Maskierschwelle des kritischen Bandes.
-
Erfindungsgemäß ist eine digitale Kodiervorrichtung zum Kodieren eines digitalen
Eingangssignal vorgesehen
-
mit einer Teilereinrichtung zum Aufteilen des digitalen Eingangssignals in eine
Mehrzahl von Frequenzbändern,
-
mit einer Rauschpegeleinstelleinrichtung zum Einstellen eines zulässigen
Rauschpegels für jedes Frequenzband auf der Basis der Energie in jedem Frequenzband
sowie mit einem Quantisiereinrichtung zum Quantisieren von Komponenten des
Signals in jedem Frequenzband mit einer Bitzahl, die der Pegeldifferenz zwischen der
Energie in diesem Frequenzband und dem Ausgangssignal der
Rauschpegeleinstelleinrichtung entspricht,
-
wobei die Rauschpegeleinstelleinrichtung in der Weise wirksam ist, daß sie den
zulässigen Rauschpegel eines Frequenzbands auf der Basis der Energien dieses
Frequenzbands und eines weiteren Frequenzbands einstellt und eine nichtlineare Beziehung
zwischen der Energie jedes Frequenzbands und dem zulässigen Rauschpegel liefert, die so
beschaffen ist, daß sie mit den Eigenschaften des menschlichen Gehörsinns in Einklang
steht
-
Ein bevorzugtes Ausführungsbeispiel der Erfindung, das weiter unten beschrieben wird
stellt eine digitale Signalkodiervorrichtung dar, die eine höhere Bitkompression mit
besserer Akzeptanz für den menschlichen Gehörsinn ermöglicht und bei der die
Quantisierung der Signalkomponenten ohne Beeinträchtigung durch Preemphasis mit Bitzahlen
realisierbar ist, die im Einklang mit den Eigenschaften des tatsächlichen
Eingangsaudiosignals adaptiv zugeteilt sind
-
Falls das digitale Eingangssignal einer Preemphasis unterzogen wurde, wird das der
Rauschpegeleinstelleinrichtung zugeführte frequenzgeteilte Signal bezüglich der
Preemphasis korrigiert.
-
Bei dem bevorzugten Ausführungsbeispiel können die für die Quantisierung
verwendeten Bitzahlen, die mit den Eigenschaften des menschlichen Gehörsinns im Einklang
stehen, dadurch gewonnen werden, daß auf einer Band-für-Band-Basis eine nichtlineare
Beziehung zwischen der Energie und dem zulässigen Rauschpegel gewonnen wird. Der
zulässige Rauschpegel wird auf der Basis des frequenzgeteilten und bezüglich der
Preemphasis korrigierten Signals festgelegt, so daß man Quantisierungsbitzahlen gewinnen
kann, die mit den Eigenschaften des digitalen Eingangssignals, d.h. den Eigenschaften,
die das Eingangssignal an sich und vor der Preemphasis aufweist, in Einklang stehen.
-
Im folgenden sei die Erfindung an einem Ausführungsbeispiel unter Bezugnahme auf die
Zeichnungen näher erläutert.
-
Fig. 1 zeigt eine schematische Blockschaltung einer digitalen
Signalkodiervorrichtung, in der die Erfindung verkörpert ist,
-
Fig. 2 bis 7 zeigen Grafiken zur Erläuterung des Maskiereffekts bei unterschiedlichen
Pegeln und Frequenzen,
-
Fig. 8 zeigt die graphische Darstellung eines Bark-Spektrums,
-
Fig. 9 zeigt das Blockschaltbild einer spezifischen Anordnung für eine
Filterschaltung in der Vorrichtung von Fig. 1,
-
Fig. 10 zeigt ein Blockschaltbild einer spezifischen Anordnung einer
Adressensteuerschaltung der Filterschaltung von Fig. 9,
-
Fig. 11 zeigt die grafische Darstellung eines Maskierspektrums.
-
Der Aufbau einer digitalen Signalkodiervorrichtung nach einem Ausführungsbeispiel der
Erfindung ist in Fig. 1 schematisch als Blockschaitbild dargestellt.
-
Die in Fig. 1 dargestellte Vorrichtung enthält eine Schaltung 10 zur Einstellung des
zulässigen Rauschpegels, die ein an einem Eingang 1 anliegendes digitales Eingangssignal in
eine Mehrzahl von Frequenzbändern aufteilt und auf der Basis der Energie der einzelnen
Frequenzbänder einen zulässigen Rauschpegel auf einer Band-für-Band-Basis festlegt
sowie eine Quantisierungsschaltung 24 zur Quantisierung der Signalkomponenten in der
einzelnen Frequenzbändern mit einer Bitzahl, die der Differenz zwischen der Energie
jedes Frequenzbands und dem Ausgangssignal der Schaltung 10 zur Einstellung des zu
lässigen Rauschpegels entspricht. Die Schaltung 10 zur Einstellung des Rauschpegels
setzt den zulässigen Rauschpegel eines betrachteten Frequenzbandes auf der Basis der
Energie dieses Frequenzbandes und der Energie eines anderen Frequenzbandes fest
und liefert für jedes Frequenzband eine nichtlineare Beziehung zwischen dem zulässigen
Rauschpegel und der Energie des Frequenzbands. Das Ausgangssignal der
Quantisierungsschaltung 24 steht an einem Ausgang 2 zur Verfügung.
-
Wenn das an dem Eingang 1 der Vorrichtung anliegende digitale Eingangssignal ein
Signal mit Preemphasis ist, d.h. wenn das Signal über eine Preemphasisschaltung 20 zu
geführt wird, das eine oder mehrere Frequenzkomponenten des Eingangssignals an
einem Eingang 3 relativ zu anderen Frequenzkomponenten hervorhebt, wird das Signal,
das der Schaltung 10 des Geräts zur Einstellung des zulässigen Rauschpegels zugeführt
wird, in einer Preemphasis-Korrekturschaltung 22 bezüglich der Preemphasis korrigiert.
In diesem Fall wird das Ausgangssignal an dem Ausgang 2 nach der in der
Deemphasisschaltung
26 ausgeführten Deemphasis an einem Ausgang 4 ausgegeben.
-
Die Schaltung 10 zur Einstellung des zulässigen Rauschpegels liefert für jedes
Frequenzband einen zulässigen Rauschpegel, wobei die Eigenschaften des menschlichen
Gehörsinns berücksichtigt werden. Zu diesen Eigenschaften gehört der sogenannte
Maskier- oder Verdeckungseffekt. Die Einstellung des zulässigen Rauschpegels erfolgt auf der
Basis dieses Maskiereffekts. Der Maskiereffekt ist ein Phänomen, wonach ein
bestimmter Schall aufgrund gewisser Eigenschaften des menschlichen Gehörsinns durch einen
anderen Schall maskiert (verdeckt) werden kann und dadurch unhörbar wird. Mit anderen
Worten, der Maskiereffekt ist gleichbedeutend mit der Maskierung eines Signals B eines
bestimmten betrachteten Schalls oder Frequenzbands durch ein anderes Signal A eines
anderen Schalls oder eines anderen Frequenzbands. Das heißt, ein unter einem
Maskierpegel des Signals B liegender Pegel wird durch den Maskiereffekt verdeckt, der je nach
dem Pegel des Signals A, d.h. dem Pegel, bei dem der Maskiereffekt wirksam ist
verstärkt oder geschwächt wird. Gelegentlich kann in Abhängigkeit von dem Pegel des
Signals A das Signal B insgesamt verdeckt werden. Da ein eventuelles Geräusch, das
unter dem Maskierpegel liegt, verdeckt und dadurch unhörbar wird, kann ein Pegel de
kleiner ist als dieser Maskierpegel, als zulässiger Rauschpegel betrachtet werden.
Andererseits wird ein Signalpegel, der unter dem Maskierpegel des Signals A liegt, auch
durch seinen eigenen Maskiereffekt verdeckt, der nach Maßgabe des vorherrschender
Pegels des Signals A stärker oder schwächer wird. Das Signal A wird auch durch der
dem Signal B eigenen Maskiereffekt beeinflußt. Der Maskiereffekt ist im allgemeiner
nichtlinear, so daß dann, wenn der Signalpegel des Signais A um das n-fache ansteigt
der Maskierbereich, d.h. der Bereich, in dem der Maskiereffekt wirksam ist, nicht auf das
n-fache sondern lediglich auf das m-fache ansteigt, wobei m in der Regel größer ist als n
(m> n), so daß der Maskierpegel (die Maskiergröße oder der Maskierbetrag) ansteigt. Der
Maskierbereich und der Maskierpegel ändern sich außerdem mit der Frequenz des
Signals A. So werden im allgemeinen, wie in Fig. 2 bis 7 dargestellt, der Maskierbereich
und der Maskierpegel durch den Signalpegel und die Frequenz geändert. In Fig. 2 bis 7
ist die Maskiergröße (dB) auf der Ordinate und die Frequenz (Hz) auf der Abszisse
aufgetragen. Fig. 2 zeigt ein Beispiel für die Maskiergröße und den Maskierbereich für
verschiedene Pegel eines 200 Hz-Signals. In ähnlicher Weise zeigt Fig. 3 ein Beispiel für die
Maskiergröße und den Maskierbereich für verschiedene Pegel eines 400 Hz-Signals. Fig.
4 zeigt ein Beispiel für die Maskiergröße und den Maskierbereich für einige Pegel eines
800 Hz-Signals. Fig. 5 zeigt ein Beispiel für die Maskiergröße und den Maskierbereich für
einige Pegel eines 1200 Hz-Signals. Fig. 6 zeigt ein Beispiel für die Maskiergröße und
den Maskierbereich für einige Pegel eines 2400 Hz-Signals. Fig. 7 schließlich zeigt ein
Beispiel für die Maskiergröße und den Maskierbereich für einige Pegel eines 3500 Hz-
Signals.
-
Der Maskiereffekt auf der Frequenzachse bezeichnet ein Phänomen, wonach bei einem
beliebigen gegebenen Frequenzspektrum A die benachbarten Frequenzspektren, wie die
Spektren B, C, D, ... auf einander entgegengesetzten Seiten des Spektrums A partiell
verdeckt und damit unhörbar werden, wenn sie in Form von Schall vorliegen. Fig. 2 bis 7
zeigen das Ausmaß der Maskierung der Frequenzspektren B, C, D, ... durch das
Frequenzspektrum A. In Fig. 2 ist beispielsweise das Frequenzspektrum bis 200 Hz
dargestellt sowie die Wirkung, die ein Signal mit einem Spektrum von 200 Hz auf andere
Frequenzen von 400 bis 4000 Hz (Maskiergröße) ausübt. Das heißt, wenn das Signal mit
dem Frequenzspektrum A von 200 Hz beispielsweise einen Pegel von 20 dB hat, läßt
sich aus Fig 2 erkennen, daß die Maskiergröße eines Signals mit dem
Frequenzspektrum von 400 Hz durch das 20 dB-Signal des Frequenzspektrums von 200 Hz 9 dB
beträgt. Aus Fig. 2 ist weiterhin erkennbar, daß das 20 dB-Signal keinen (0) Maskiereffekt
auf Signale von 1200 bis 4000 Hz hat.
-
In der vorliegenden Vorrichtung wird also der zulässige Rauschpegel in dem
betrachteten Frequenzband auf der Basis des Maskierpegels eingestellt, der dem Signalpegel
oder der Energie des betrachteten Frequenzbands und dem Signalpegel oder der
Energie eines anderen Frequenzbands entspricht. Der zulässige Rauschpegel in dem betrach
teten Frequenzband wird in der Schaltung 10 zur Einstellung des zulässigen
Rauschpegels festgesetzt. Es sei hier erwähnt, daß die oben beschriebenen nichtlinearen
Eigenschaften des Maskiereffekts bei der Festsetzung des zulässigen Rauschpegels in den
einzelnen Frequenzbändern ebenfalls berücksichtigt werden.
-
Da bei der Quantisierung der Signalkomponenten in den Frequenzbändern diejenigen
Signalkomponenten des Signals in den einzelnen Frequenzbändern, die unter dem
zulässigen Rauschpegel liegen, d.h. Rauschkomponenten, maskiert werden, können die für die
Quantisierung der Signalkomponenten unter dem zulässigen Rauschpegel zugeteilten
Bitzahlen verringert werden, ohne daß die Tonqualität durch die Quantisierung
beeinträchtigt wird. Somit werden in der vorliegenden Vorrichtung die Signalkomponenten
jedes Frequenzbandes in der Quantisierungsschaltung 24 mit einer Quantisierungsbitzahl
quantisiert, die mit dem Pegel der Differenz zwischen dem Innerband-Signalpegel oder
der Energie und dem zulässigen Rauschpegel in Einklang steht. Auf diese Weise kann
die zugeteilte Quantisierungsbitzahl reduziert und eine Datenkompression herbeigeführt
werden. Auch die lineare Beziehung zwischen der Energie und dem zulässigen Rausch
pegel werden herangezogen, um den Maskiereffekt zu berücksichtigen. Wenn die
Energie in dem betrachteten Frequenzband beispielsweise größer ist, da der Maskierpegel
nichtlinear anwächst, wie dies in Fig. 2 bis 7 dargestellt ist, kann die zugeordnete
Quantisierungsbitzahl in dem betrachteten Frequenzband und dem anderen Frequenzband
weiter reduziert werden, um eine höhere Datenkompression zu erreichen. Deshalb läßt
sich bei dem vorliegenden Ausführungsbeispiel trotz des höheren
Bitkompressionsverhältnisses eine Schallwiedergabe erreichen, die für das Ohr angenehmer sein kann,
wenn in einem Frequenzband hohe Energie auftritt.
-
Zu diesem Zweck ist die vorliegende Vorrichtung in folgender Weise aufgebaut.
-
Es sei noch einmal Fig. 1 betrachtet Ein an dem Eingang 1 anliegendes digitales Audio
signal wird einer Bandbreiten-Teilerschaltung 21 zugeführt, in der das Audiosignal in eine
Mehrzahl von Frequenzbändern aufgeteilt wird. Ein Beispiel für ein Verfahren für eine
solche Frequenzteilung besteht beispielsweise in der Aufteilung in sogenannte kritische
Bänder, die den Eigenschaften des menschlichen Gehörsinns Rechnung tragen. Die
Frequenzaufteilung in kritische Bänder stellt ein Verfahren der Frequenzaufteilung dar, bei
dem die Bandbreiten in Richtung oder in der Reihenfolge wachsender Frequenz größer
gewählt werden, um die Eigenschaften des menschlichen Gehörsinns zu
berücksichtigen. Die Frequenzbandsignale aus der Bandbreiten-Teilerschaltung werden über die
oben erwähnte Preemphasis-Korrekturschaltung 22, die weiter unten näher beschrieben
wird, einer Summendetektorschaltung 11 zugeführt. In der Summendetektorschaltung
11 wird die Energie in jedem Frequenzband, d.h. die spektrale Intensität ermittelt, die
aus der Summe der Energien jedes der betreffenden Bänder abgeleitet wird. Das
Ausgangssignal der Summendetektorschaltung 11, d.h. das Summenspektrum jedes
Bandes, wird als Bark-Spektrum bezeichnet. Das Bark-Spektrum für die Frequenzbänder ist
in Fig. 8, in der die Anzahl der Frequenzbänder (B1 bis B12) auf 12 gesetzt ist, mit SB
bezeichnet.
-
Um die Auswirkungen des Bark-Spektrums SB auf die Maskierung zu berücksichtigen,
wird eine vorbestimmte Gewichtungsfunktion auf das Bark-Spektrum SB gefaltet. Zu
diesem Zweck werden die Ausgangssignale der Summendetektorschaltung 11, d.h. die
betreffenden Werte des Bark-Spektrums SB einer Filterschaltung 11 der Schaltung 10
zur Einstellung des zulässigen Rauschpegels zugeführt. Wie Fig. 9 zeigt, besteht die
Filterschaltung 12 aus Verzögerungselementen 101(m-3) bis 101(m+3) zur sequentiellen
Verzögerung von Daten aus der Summendetektorschaltung 11 um Z&supmin;¹ (eine
Abtastprobe), Adressensteuerschaltungen 111 (m-3) bis 111 (m+3) zur Detektierung der
Bandnummern der Ausgangssignale der Verzögerungselemente und der Pegel der Bänder zur
Erzeugung von Adressendaten auf der Basis der Detektierungsergebnisse, ferner
Nurlesespeichern (ROMS) 121(m-3) bis 121 (m+3), in denen Filterkoeffizienten (d.h.
Gewichtungsfunktionen) gespeichert sind und aus denen Filterkoeffizienten, die mit den
Adressendaten aus den Adressensteuerschaltungen 111 (m-3) bis 111 (m+3) in Einklang
stehen, ausgelesen werden, Multiplizierern 102(m-3) bis 102(m+3) zum Multiplizieren der
Ausgangssignale der Verzögerungselemente 101(m-3) bis 101(m+3) mit den aus den
ROMS 121(m-3) bis 121(m+3) ausgelesenen Filterkoeffizienten sowie einer
Summerschaltung oder einem Summenprozessor 104. Das heißt, die Ausgangssignale der
Verzögerungselemente 101(m-3) bis 101(m+3) werden durch eine Faltung des
Bark-Spektrums SB mit den aus den ROMS 121(m-3) bis 121(m+3) ausgelesenen
Filterkoeffizienten multipliziert. Durch diese Faltung wird die Summe der Maskiereffekte aus
benachbarten Bark-Spektren herangezogen, wie dies in Fig. 8 durch gestrichelte Linien
dargestellt ist. Es sei hier erwähnt, daß bei einem beliebigem Frequenzspektrum a der
Maskiereffekt des Frequenzspektrums durch andere Frequenzspektren b, c, d, ... auf das
Frequenzspektrum a als eine Summe der Spektren b, c, d, ... einwirkt.
-
Fig. 10 zeigt eine spezielle Anordnung, die für die einzelnen Adressensteuerschaltunger
111(m-3) bis 111(m+3) der Filterschaltung 12 benutzt werden kann. in Fig. 10 wird ein
Signal aus dem zugeordneten Verzögerungselement einem Eingang 112 der
Adressensteuerschaltung 111 zugeführt, so daß es zu einer Pegeldetektorschaltung 114 und einer
Bandnummerndaten-Extrahierschaltung 115 übertragen wird. In der
Pegeldetektorschaktung 14 wird der Pegel (Spitzenpegel oder Mittelwertpegel) des Bandes detektiert und
in der Bandnummerndaten-Extrahierschaltung 115 werden die Bandnummerndaten
extrahiert, d.h. die Daten die angeben, welchem Band das zugeführte Signal angehört. Die
Ausgangssignale der Schaltungen 114 und 115 werden einer
Adressengeneratorschaltung 116 zugeführt, in der diesen Ausgangssignalen entsprechende Adressendaten für
das zugehörige ROM der Filterschaltung 112 erzeugt werden. Die Adressendaten
werden über einen Anschluß 113 zu dem zugehörigen ROM übertragen. Das Extrahieren der
Bandnummer in der Bandnummerndaten-Extrahierschaltung 115 und die
Pegeldetektierung werden in der Pegeldetektorschaltung 114 durchgeführt, damit die der
betreffenden Frequenz und dem Pegel zugeordneten Filterkoeffizienten aus dem zugehörigen
ROM ausgelesen werden können, da der Maskiereffekt sich mit der Frequenz und dem
Pegel ändert, wie dies in Fig. 2 bis 7 dargestellt ist und anhand dieser Figuren
beschrieben wurde.
-
Es sei noch einmal auf Fig. 1 Bezug genommen. Das Ausgangssignal der Filterschaltung
12 wird einer Teilerschaltung 16 zugeführt, die die von der Filterschaltung 1 2 gefilterten
Daten wieder rückfaltet. Durch diese Rückfaltung gewinnt man aus dem Ausgangssignal
der Filterschaltung 12 das Maskierspektrum in Bezug auf das Bark-Spektrum SB. Das
heißt, das Maskierspektrum erweist sich als das zulässige Rauschspektrum. Obwohl die
Rückfaltung im allgemeinen eine komplizierte Verarbeitung bedingt, wird sie in dem
vorliegenden Ausführungsbeispiel durch die Verwendung der Teilerschaltung 16 vereinfacht.
-
Das Maskierspektrum wird einem Subtrahierer 17 zugeführt, dem über eine
Verzögerungsschaltung
14 auch das Ausgangssignal der Summendetektorschaltung 11, d.h. das
Bark-Spektrum SB zugeführt wird. Auf diese Weise werden das Maskierspektrum und
das Bark-Spektrum SB in dem Subtrahierer einem Subtraktionsvorgang unterzogen,
wodurch das Bark-Spektrum SB, wie in Fig. 11 dargestellt, bei einem Pegel maskiert wird
der niedriger ist als der durch den Pegel des Maskierspektrums MS angegebene Pegel.
-
Das Ausgangssignal des Subtrahierers 17 wird mit Hilfe eines Speichers 25 der Quantil
sierschaltung 24 zugeführt. Die Quantisierschaltung 24 quantisiert das Signal, das ihr
über eine Verzögerungsschaltung 23 zugeführt wird, in jedem Frequenzband auf der
Basis von aus dem Speicher 25 ausgelesenen Bitzahlendaten in Abhängigkeit von dem
Ausgangssignal des Subtrahierers 17. Mit anderen Worten, die Signalkomponenten in
den einzelnen Frequenzbändern werden mit Hilfe der Quantisierschaltung 24 mit einer
Bitzahl quantisiert, die entsprechend dem Maskierspektrum MS (zulässiger Rauschpegel)
zugeteilt ist, das in der Schaltung 10 zum Einstellen des zulässigen Rauschpegels unter
Berücksichtigung des Maskiereffekts gewonnen wird. Die Verzögerungsschaltung 14
dient zur Verzögerung des Bark-Spektrums SB aus der Summendetektorschaltung 11
um die Verzögerung zu kompensieren, die in den jeweiligen vor der Teilerschaltung 16
liegenden Schaltungen verursacht wurde, während die Verzögerungsschaltung 23 dazu
dient, die Verzögerung zu kompensieren, die in den vor dem Speicher 25 liegenden
Schaltungen erzeugt wurde.
-
Es sei noch erwähnt, daß wegen der generellen Eigenschaft, wonach die Energie von
Audiosignalen in dem hohen Frequenzbereich, wie erwähnt, niedrig ist, das digitale
Eingangssignal, das dem Eingang 1 zugeführt wird, in bestimmten Frequenzkomponenten
durch eine Preemphasis hervorgehoben wird, um das Hochfrequenzgeräusch in Bezug
auf die Signalkomponenten äquivalent herabzusetzen und das S/N-Verhältnis zu
verbessern. Das heißt, das dem Eingang zugeführte Signal wurde in der Preemphasisschaltung
20 einer Preemphasis unterzogen. Um zu verhindern, daß der zulässige Rauschpegel in
der Schaltung 10 zur Einstellung des zulässigen Rauschpegels nach Maßgabe des mit
der Preemphasis behafteten Signals festgelegt wird, korrigiert man mit Hilfe der
Preemphasis-Korrekturschaltung 22 das Signal, der Schaltung 10 zur Einstellung des zulässigen
Rauschpegels zugeführt wird. Wenn das Eingangssignal beispielsweise in der
Preemphasisschaltung 20 einer Preemphasis unterzogen wird, werden die resultierenden
Signale in der Preemphasis-Korrekturschaltung 22, die mit der Emphasisschaltung 20
wirkungsmäßig verbunden ist, einer Deemphasis unterzogen, so daß die Schaltung 22
emphasiskorrigierte Signale ausgibt. Auf diese Weise kann verhindert werden, daß zulässige
Rauschpegel auf der Basis von mit einer Preemphasis behafteten Signalen festgesetzt
werden, so daß die Signalkomponenten mit Bitzahlen quantisiert werden können, die an
die Eigenschaften des tatsächlichen Eingangsaudiosignals angepaßt sind. Es sei noch
erwähnt, daß eine Korrektur in der Preemphasis-Korrekturschaltung 22 nicht
durchgeführt wird, wenn das dem Eingang 3 zugeführte Signal keiner Emphasis unterzogen wird
-
Die Vorrichtung kann so ausgebildet sein, daß ein Audiosignal auf der Zeitachse durch
eine schnelle Fouriertransformation (FFT) in einem vorbestimmten Zeitintervall, das
einem Rahmen entspricht, in Signale auf der Frequenzachse verarbeitet wird und die
resultierenden FFT-Koeffizienten, die aus einer realen Zahlenkomponente Re und einer
imaginären Zahlenkomponente im bestehen, weiter in Daten eines Amplitudenwerts Am
und Daten eines Phasenwerts umgewandelt werden, wobei die Daten des
Amplitudenwerts Am als digitale Eingangsdaten (Signal) dem Eingang 1 oder dem Eingang 3
zugeführt werden. Da der menschliche Gehörsinn im allgemeinen für die Phase in dem
Frequenzbereich eher unempfindlich ist, während er auf die Amplitude sehr stark anspricht
können digitale Signale, die einer solchen Verarbeitung unterzogen wurden, als
geeignete Eingangssignale verwendet werden.