DE19628503A1

DE19628503A1 - Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels von quantisierten Audiosignalwerten

Info

Publication number: DE19628503A1
Application number: DE19628503A
Authority: DE
Inventors: Yoshitaka Shibuya
Original assignee: NEC Corp
Current assignee: NEC Electronics Corp
Priority date: 1995-07-15
Filing date: 1996-07-15
Publication date: 1997-02-20
Also published as: JP3082625B2; US5890107A; JPH0934494A

Description

Die vorliegende Erfindung bezieht sich auf eine Audiosignal- bzw. Ton- oder Schallsignal-Verarbeitungsschaltung zur Berechnung des Maskenpegels von Audiosignalwerten bzw. Ton- oder Schallwerten, die in einer Teilband- Codierschaltung (Sub-Band-Encoder) quantisiert wurden, die ein Audiosignal bzw. Ton- oder Schallsignal durch Aufteilung für jedes Frequenzband codiert.

Fig. 7 zeigt den allgemeinen schematischen Aufbau einer herkömmlichen Audiosignal-Verarbeitungsschaltung, die für ISO/I EC 11172-3 (nachfolgend bezeichnet als MPEG/Audio) verwendet wird. Jeder Bereich wird nachfolgend beschrieben. Wenn z. B. 1024 Eingangs-Audiosignalabtastwerte 61 als eine Probe bzw. Muster eingeben werden, so führt eine FFT-Schaltung 62 eine Fast-Fourier- Transformation durch, um eine Ausgangsprobe bzw. Ausgangsmuster von 512 Leistungsspektrumwerten zu erzeugen.

Aus den eingegebenen Leistungsspektrumwerten extrahiert eine Klassifikations-Schaltung 63, die zur Klassifikation in ein reines Audiosignal und in Rauschen dient, maximale Leistungsspektrumwerte (diejenigen, die größer als die Leistungsspektrumwerte von benachbarten Frequenzen sind) als reinen Audiosignalbestandteil und andere als Rauschbestandteil, wodurch die eingegebenen Leistungsspektrumwerte in die reine Audiosignalkomponente und die Rauschkomponente klassifiziert werden.

Eine Unterabtastungs-Schaltung 64 integriert eine vorgegebene Anzahl von hohen Leistungsspektrumwerten in einen einzigen Leistungsspektrumwert, unter Verwendung der Tatsache, daß der Gehörsinn des Menschen höhere Frequenzen schlecht unterscheiden kann. Die Anzahl der zu integrierenden Leistungsspektrumwerte ist variabel und hängt davon ab, ob die verwendeten Leistungsspektrumwerte zu der reinen Audiosignalkomponente oder der Rauschkomponente gehören.

Eine Masken-Berechnungsschaltung 65 bestimmt einen Maskenpegel aus den unterabgetasteten Leistungsspektrumwerten der reinen Audiosignalkomponente und denen der Rauschkomponente. Der Maskenpegel bezeichnet einen Schall- bzw. Tonpegel, der der kleinste Pegel ist, den ein Mensch hören kann, und variiert allmählich entsprechend der Verteilung der Schall- bzw. Tonfrequenzen, die von dem Menschen zu dieser Zeit gehört werden.

Die herkömmliche Berechnung eines Maskenpegels wird unter Bezugnahme auf Fig. 8 beschrieben. Für den Gehörsinn des Menschen wird es schwierig, bei Vorliegen eines Audiosignals, nämlich eines Leistungsspektrumwertes 71, Audiosignale zu hören, die dazu benachbarte Frequenzen aufweisen. In anderen Worten, eine Maske 72 wird auf den dem Leistungsspektrumwert benachbarten Frequenzen gebildet. Herkömmlicherweise ist die Kontur der Maske 72 (Höhe der Maske und Steigung ihrer geraden Linie) variabel in Abhängigkeit davon, ob der Leistungsspektrumwert ein reiner Audiosignalbestandteil oder eine Rauschkomponente ist, oder in Abhängigkeit von der Größe des Leistungsspektrumwertes.

Diese Maske wird auf jedem unterabgetasteten Leistungsspektrumwert berechnet und die berechneten Ergebnisse werden aufsummiert. Wenn es (n) Leistungsspektrumwerte bei der Berechnung der Maske gibt, so ist eine Berechnung in der Größenordnung der ersten Potenz von n erforderlich, um eine Maske für einen Leistungsspektrumwert zu bestimmen. Diese Berechnung wird auf allen (n) Leistungsspektrumwerten wiederholt, und um die Resultate aufzusummieren, ist als Ganzes eine Anzahl von Berechnungen in der Größenordnung der zweiten Potenz von (n) erforderlich.

Da von einem Echtzeit-MPEG/Audio-Codierer gefordert wird, eine solche Verarbeitung innerhalb einer begrenzten Zeit durchzuführen, ist eine solche große Änderung des Ausmaßes der Verarbeitung in Abhängigkeit von dem eingegebenen Audiosignal sehr nachträglich.

Da die Anzahl (n) der Leistungsspektrumwerte beliebig ist, muß eine arithmetische Einheit verwendet werden, die schnell genug ist, in der Lage zu sein, mit im wesentlichen großen n fertig zu werden. Diese wird dann jedoch sehr groß, da das Ausmaß der Verarbeitung proportional zur zweiten Potenz von (n) ansteigt. Wenn ein eingegebenes Audiosignal einen unerwartet großen Wert (n) aufweist, kommt die Verarbeitung nicht nach und schlägt fehl, was in der Erzeugung von Rauschen resultiert.

Wie oben beschrieben, bestand herkömmlicherweise der Nachteil, daß ein sehr großes Ausmaß an Berechnung erforderlich war, um einen Maskenpegel zu bestimmen, da die Maskenkontur variabel war, in Abhängigkeit davon, ob der Leistungsspektrumwert eine reine Audiosignalkomponente oder eine Rauschkomponente war, und auch in Abhängigkeit von der Größe des Leistungsspektrumwerts. Somit wurde die verwendete arithmetische Einheit sehr groß.

Daneben wurde das Ausmaß der arithmetischen Operationen stark beeinflußt durch das eingegebene Audiosignal, da das Eingangsaudiosignal in die reine Audiosignalkomponente und die Rauschkomponente klassifiziert wurde. Somit bestand der Nachteil, daß die Verarbeitung bei Eintritt einer Stimme oder der Sprache nicht nachkam und fehlschlug, was in der Erzeugung von Rauschen resultierte.

Eine erste Aufgabe der Erfindung ist es, eine Audiosignal- Verarbeitungsschaltung zu schaffen, die das zur Berechnung eines Maskenpegels erforderliche Ausmaß von Berechnungen reduziert, indem für jede vorgegebene Anzahl von Leistungsspektrumwerten eine vorgegebene Einheitsmasken-Funktion bestimmt wird, die als eine Maske für jeden Leistungsspektrumwert gefaltet wird, und durch Aufsummieren der Masken der jeweiligen Leistungsspektrumwerte, um den Maskenpegel zu berechnen.

Eine zweite Aufgabe der Erfindung besteht darin, eine Audiosignal- Verarbeitungsschaltung zu schaffen, die nicht eine große arithmetische Einrichtung unter der Annahme benötigt daß das Ausmaß der Verarbeitung größer werden könnte, da die Anzahl von Leistungsspektrumwerten sich nicht in Abhängigkeit von dem Eingangsaudiosignal ändert, und bei der, wenn die Anzahl der Leistungsspektrumwerte bestimmt ist, eine arithmetische Einheit vorgesehen werden kann, die eine Größe aufweist, die geeignet ist zur Verarbeitung der vorbestimmten Proben.

Gemäß einem Aspekt der Erfindung umfaßt eine Audiosignal- Verarbeitungsschaltung zur Berechnung eines Maskenpegels einer vorgegebenen Anzahl von Eingangs-Audiosignal-Abtastwerten, die im voraus quantisiert wurden:

eine Fast-Fourier-Transformationseinrichtung, die eine Fast-Fourier- Transformation der Eingangs-Audiosignal-Abtastwerte durchführt und erste Leistungsspektrumwerte ausgibt, die um die Hälfte der Eingangs-Audiosignal- Abtastwerte verringert sind, eine Unterabtastungs-Einrichtung, die eine vorgegebene Anzahl von zweiten Leistungsspektrumwerten erzeugt, indem eine Unterabtastungs- Verarbeitung des Addierens einer vorgegebenen Anzahl der Leistungsspektrumwerte zur Erzeugung eines einzelnen Spektrumwerts durchgeführt wird, und eine Masken-Berechnungseinrichtung, die einen Maskenpegel der zweiten Leistungsspektrumwerte berechnet, indem eine Kontur, die in einer vorgegebenen Einheitsmasken-Funktion für jeden der zweiten Leistungsspektrumwerte ausgedrückt ist, als eine Maske für jeden Leistungsspektrumwert bestimmt wird, und durch Addieren der Masken jedes Leistungsspektrumwerts.

In dem bevorzugten Ausführungsbeispiel weist die durch die Einheitsmasken-Funktion ausgedrückte Maske eine Kontur auf, die eine vorgegebene Steigung auf der linken und der rechten Seite des Leistungsspektrumwerts aufweist.

Bei einem anderen bevorzugten Ausführungsbeispiel wird für eine Anzahl n von zweiten Leistungsspektrumwerten bei Frequenzen f[0] bis f[n-1] der i-te (0 n-1) Wert der Leistungsspektrumwerte bestimmt durch einen Wert a[i], eine Frequenz [i] und eine Maskensteigung (p), und die Einheits-Maskenfunktion bezüglich des Leistungsspektrumwerts bei einer Frequenz f wird bestimmt als mi[f] = a[i] _* 10^-p/10 ^| ^f-fi ^|.

Auch kann die Masken-Berechnungseinrichtung einen Maskenpegel auf für rechte und linke Masken der zweiten Leistungsspektrumwerte unabhängig voneinander berechnen.

Bei einem anderen bevorzugten Ausführungsbeispiel unterteilt für eine Anzahl n von Leistungsspektrumwerten bei Frequenzen f[0] bis f[n-1] die Masken- Berechnungseinrichtung in rechte und linke Masken der Leistungsspektrumwerte, summiert die rechten Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[0] aus, um einen Maskenpegel der rechten Seite der zweiten Leistungsspektrumwerte zu berechnen, und summiert die linken Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[n-1] aus, um einen Maskenpegel der linken Seite der Leistungsspektrumwerte zu berechnen.

Gemäß einem anderen Aspekt der Erfindung umfaßt eine Audiosignal- Verarbeitungsschaltung zur Berechnung eines Maskenpegels einer vorgegebenen Anzahl von Eingangs-Audiosignal-Abtastwerten, die im voraus quantisiert wurden:
eine Fast-Fourier-Transformationseinrichtung, die eine Fast-Fourier- Transformation der Eingangs-Audiosignal-Abtastwerte durchführt und erste Leistungsspektrumwerte ausgibt, die auf die Hälfte der Eingangs-Audiosignal- Abtastwerte reduziert sind;
eine Unterabtastungs-Einrichtung, die eine vorgegebene Anzahl von zweiten Leistungsspektrumwerten durch eine Unterabtastungs-Verarbeitung des Addierens einer vorgegebenen Anzahl der Leistungsspektrumwerte erzeugt, um einen einzigen Spektrumwert zu erzeugen, und
eine Masken-Berechnungseinrichtung, die eine Maskenpegel der zweiten Leistungsspektrumwerte berechnet, indem eine Kontur, die durch eine vorgegebene Einheits-Maskenfunktion für jeden der zweiten Leistungsspektrumwerte ausgedrückt ist, als eine Maske für jeden Leistungsspektrumwert bestimmt wird, und durch Addieren der Masken aller Leistungsspektrumwerte;
wobei die Masken-Berechnungseinrichtung in linke und rechte Masken der Leistungsspektrumwerte unterteilt, die rechten Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei einer niedrigen Frequenz aus aufsummiert, um einen Maskenpegel der rechten Seite der zweiten Leistungsspektrumwerte zu berechnen, und die linken Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei einer hohen Frequenz aus summiert, um einen Maskenpegel der linken Seite der zweiten Leistungsspektrumwerte zu berechnen, und
die rechten und die linken Masken der zweiten Leistungsspektrumwerte addiert, um einen Maskenpegel der zweiten Leistungsspektrumwerte zu berechnen.

Bei dem oben erwähnten Ausführungsbeispiel wird für eine Anzahl n der zweiten Leistungsspektrumwerte bei Frequenzen f[0] bis f[n-1] der i-te ((0 i n-1) Wert der Leistungsspektrumwerte dadurch bestimmt, daß er einen Wert a[i], eine Frequenz f[i] und eine Maskensteigung (p) aufweist, und daß die Einheits- Maskenfunktion bezüglich des Leistungsspektrumwerts bei einer Frequenz f bestimmt wird durch mi[f] = a[i] _* 10^-p/10 ^| ^f-fi ^|.

Bei diesem Fall unterteilt für eine Anzahl (n) der Leistungsspektrumwerte bei Frequenzen f[0] bis f[n-1] die Masken-Berechnungseinrichtung in linke Masken und rechte Masken der Leistungsspektrumwerte und summiert die rechten Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[0] aus, um einen Maskenpegel der rechten Seite der zweiten Leistungsspektrumwerte zu berechnen, und summiert die linken Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[n-1] aus, um einen Maskenpegel der linken Seite der zweiten Leistungsspektrumwerte zu berechnen.

Auch ist für eine Anzahl (n) von Leistungsspektrumwerten bei Frequenzen f[0] bis f[n-1] der i-te Wert der Leistungsspektrumwerte dadurch bestimmt, daß er einen Wert a[i], eine Frequenz f[i], eine rechte Maskensteigung (-q) und eine linke Maskensteigung (p) aufweist, daß die Masken-Berechnungseinrichtung basierend auf

mr[i] = a[i] + 10^{-q/(f[i]-f[i-1]} _* mr[i-1]

die rechten Masken der Leistungsspektrumwerte bei der Frequenz f[i] berechnet, und basierend auf

ml[i] = 10^{-p/(f[i+1]-f[i]} _* (a[i+1] + ml[i+1])

die linken Masken der Leistungsspektrumwerte bei der Frequenz f[i] berechnet.

Bei einem anderen bevorzugten Ausführungsbeispiel kann die Masken- Berechnungseinrichtung eine vorbereitete Tabelle aufweisen, indem im voraus bei der Operation für die rechten Masken 10 ^{-q/(f[i]-f[i-1])} berechnet wird und eine vorbereitete Tabelle aufweisen, indem im voraus bei der Operation für die linken Masken 10 ^{-p/(f[i+1]-f[i])} berechnet wird.

Andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden durch die nachfolgende detaillierte Beschreibung klar werden.

Die vorliegende Erfindung wird vollständiger verstanden werden anhand der nachfolgenden detaillierten Beschreibung und der beiliegenden Zeichnungen des bevorzugten Ausführungsbeispiels der Erfindung, die jedoch nicht als die Erfindung einschränkend verstanden werden sollen, sondern lediglich zum Zwecke der Erläuterung und des Verständnisses dienen.

Die Zeichnungen

Fig. 1 ist ein Blockdiagramm, welches einen grundlegenden Aufbau der Audiosignal-Verarbeitungsschaltung gemäß einem Ausführungsbeispiel der Erfindung zeigt.

Fig. 2 ist ein Schaubild zur Erläuterung der Kontur einer Maske, die in der Audiosignal-Verarbeitungsschaltung gemäß dem Ausführungsbeispiel verwendet wird.

Fig. 3 ist ein Schaubild zur Erläuterung der Addieroperation von Masken bei der Audiosignal-Verarbeitungsschaltung gemäß dem Ausführungsbeispiel.

Fig. 4 ist ein Flußdiagramm zur Erläuterung eines Ablaufs der Addieroperation von Masken bei der Audiosignal-Verarbeitungsschaltung gemäß dem Ausführungsbeispiel.

Fig. 5 ist ein Schaubild zur Erläuterung der Addieroperation von Masken auf der rechten Seite eines Leistungsspektrumwerts.

Fig. 6 ist ein Schaubild zur Erläuterung der Addieroperation von Masken auf der linken Seite eines Leistungsspektrumwerts.

Fig. 7 ist ein Blockdiagramm, welches den grundlegenden Aufbau einer herkömmlichen Audiosignal-Verarbeitungsschaltung zeigt.

Fig. 8 ist ein Diagramm zur Erläuterung der Kontur einer Maske, die in einer herkömmlichen Audiosignal-Verarbeitungsschaltung verwendet wird.

Bevorzugte Ausführungsbeispiele der Erfindung werden im Detail unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben. Fig. 1 ist ein Blockdiagramm, welches einen grundlegenden Aufbau einer Audiosignal- bzw. Schall- oder Tonsignal-Verarbeitungsschaltung gemäß einem Ausführungsbeispiel der Erfindung zeigt. Die jeweiligen Bestandteile werden unter Bezugnahme auf Fig. 1 beschrieben. Die Audiosignal-Verarbeitungsschaltung dieses Ausführungsbeispiels umfaßt eine FFT-Schaltung (Fast-Fourier-Transformations- Schaltung) 12, eine Unterabtastung-Schaltung 13 und eine Masken- Berechnungsschaltung 14.

Die FFT-Schaltung 12 führt beim Empfang von 1024 Eingangs- Audiosignal-Abtastwerten 11 die Fast-Fourier-Transformation durch, um eine Ausgabe von 512 Leistungsspektrumwerten zu erzeugen. Die Eingangs- Audiosignal-Abtastwerte 11 und die FFT-Schaltung 12 sind gleich wie die in der herkömmlichen Schaltung, die in Fig. 7 gezeigt ist. Die vorliegende Erfindung klassifiziert jedoch nicht die Eingangs-Audiosignal-Abtastwerte 11 in das reine Audio-Signal und das Rauschen, im Gegensatz zur herkömmlichen Schaltung. Somit kann der Nachteil der herkömmlichen Schaltung, daß das Ausmaß der Verarbeitung in Abhängigkeit von dem eingegebenen Audiosignal variiert, behoben werden. Dabei ist einzusehen, daß die Anzahl von Werten (1024) der Eingangs-Audiosignal-Abtastwerte 11 in die FFT-Schaltung 12 und die Anzahl von Werten 512 der Leistungsspektrumwerte lediglich als Beispiele dienen.

Bezüglich der 512 Leistungsspektrumwerte, die durch die FFT-Schaltung 12 berechnet werden, integriert die Unterabtastungs-Schaltung 13 eine vorgebenen Anzahl von Leistungsspektrumwerten, die eine hohe Frequenz aufweisen, in einen Leistungsspektrumwert, in Übereinstimmung mit dem Gehörsinn des Menschen, wonach die Fähigkeit zur Unterscheidung von Frequenzen gering wird, wenn die Frequenzen höher werden.

Die Masken-Berechnungsschaltung 14 verwendet die Leistungsspektrumwerte, welche von der Unterabtastungs-Schaltung 13 unterabgetastet wurden, um eine Maske 15 zu berechnen, die einen Schallpegel angibt, der der geringste Pegel ist, den ein Mensch hören kann.

Die Berechnung durch die Masken-Berechnungsschaltung 14 zur Berechnung der Maske 15 wird im Detail unter Bezugnahme auf Fig. 2, Fig. 3, Fig. 4, Fig. 5 und Fig. 6 beschrieben. Fig. 2 zeigt eine Maske 21, wenn eine Frequenz f[i] einen Leistungsspektrumwert 22 mit einem Wert a[i] aufweist. Herkömmlicherweise wurde die Kontur der Maske entsprechend der Tatsache geändert, ob der Leistungsspektrumwert die reine Audiosignalkomponente oder die Rauschkomponente war, oder entsprechend dem Wert des Leistungsspektrumwerts. Bei der vorliegenden Erfindung ist die Kontur der Maske jedoch dieselbe für alle Leistungsspektrumwerte.

Bei Fig. 2 zeigt die horizontale Achse die Frequenz und die vertikale Achse den Maskenpegel. Die Einheit der vertikalen Achse ist Dezibel. Der Wert A[i] des Leistungsspektrumwerts 22 wird wie folgt ausgedrückt.

A[i] = 10 log₁₀ a[i]

Unter der Annahme, daß die Steigung einer linken Maske 23 dieser Maske gleich (p) ist, und daß die einer rechten Maske 24 gleich (-q) ist, so wird der Wert der Maske m[i] (f) wie folgt bestimmt (nicht ausgedrückt in Dezibel, sondern als tatsächlicher Wert):

m[i] (f) = a[i] _* 10^-p/(f-f[i]) (f < f[i])
m[i] (f) = a[i] (f=f[i])
m[i] (f) = a[i] _* 10^-q/(f-f[i]) (f < f[i])

Durch die Bestimmung dieser Maske m[i](f) für jeden Leistungsspektrumwert jeder Frequenz wie in Fig. 3 gezeigt und durch Aufsummieren (Aufaddieren) der Resultate wird das addierte Resultat von Masken wie in Fig. 3 gezeigt erhalten.

Das Flußdiagramm von Fig. 4 zeigt einen Ablauf des Addierprozesses von Masken in diesem Ausführungsbeispiel. Der Addierprozeß von Masken durch die Masken-Berechnungsschaltung 14 wird unter Bezugnahme auf das Flußdiagramm von Fig. 4, Fig. 5 und Fig. 6 beschrieben. Bei Fig. 3 liegen die Leistungsspektrumwerte auf einer Anzahl (n) von Frequenzen f[0], f[1],. . . f[n-1].

Bei dem Addierprozeß wie er in Fig. 4, Fig. 5 und Fig. 6 gezeigt ist wird jede Maske in einen rechten (f f[i]) und einen linken (f < f[i]) Teil wie in Fig. 2 gezeigt unterteilt, und die jeweiligen Teile werden aufsummiert, die erhaltenen Resultate werden dann weiter gegenseitig aufsummiert.

Zunächst wird die Addition der rechten Teile (f f[i]) beschrieben. Angenommen, die aufsummierte Maske bei der Frequenz f[i] ist mr[i], so wird dieses mr[i] von einer niedrigen Frequenz aus, nämlich f[0], aus der Reihe nach berechnet.

Eine Maske mr[0] bei der Frequenz f[0] wird wie folgt berechnet, da sie lediglich eine Maske eines Leistungsspektrumwerts bei der Frequenz f[0] ist.

mr[0] = a[0]

Eine Maske mr[1] bei der Frequenz f[1] wird wie folgt durch die Addition der Maske eines Leistungsspektrumwerts bei der Frequenz f[1] und einer Maske eines Leistungsspektrumwerts bei einer Frequenz niedriger als f[1], nämlich bei der Frequenz f[0], berechnet.

mr[1] = a[1] + a[0] _* 10^{-q/(f[1]-f[0])}

Eine Maske mr[2] bei einer Frequenz f[2] wird wie folgt berechnet, indem die Maske eines Leistungsspektrumwerts bei der Frequenz f[2] und Masken eines Leistungsspektrumwerts bei einer Frequenz niedriger als f[2], nämlich bei der Frequenz f[1] und der des Leistungsspektrumwerts bei der Frequenz f[0], addiert werden.

mr[2] = a[2] + a[1] _* 10^{-q/(f[2]-f[1])} + a[0] _* 10^{-q/(f[2]-f[0])}
= a[2] + 10^{-q/(f[2]-f[1])} _* {a[1] + a[0] _* 10^{-q/(f[1]-f[0])}}
= a[2] + 10^{-q/(f[2]-f[1])} _* mr[1]

Entsprechend wird eine Maske mr[i] bei einer Frequenz mr[i] wie folgt berechnet.

mr[i] = a[i] + 10^-q/(f ^| ⁱ ^| ^-f ^| ^i-1 ^| ⁾ _* mr[i-1]

Durch Vorausberechnung von 10^{-q/(f[il-f[i-1])} zur Vorbereitung einer Tabelle kann diese Berechnung durch eine einzige Berechnung für eine Summe von Produkten vollständig ausgeführt werden (lediglich eine Summe und ein Produkt, aber eine Kombination von Berechnungen bei benachbarten Frequenzen). In anderen Worten, falls (n) Leistungsspektrumwerte vorliegen, kann das Aufsummieren der rechten Teile der Masken dieser Spektrumwerte durch eine einzige Berechnung für ein Summe von Produkten bei einer Frequenz durchgeführt werden, ausgenommen wenn i = 0. Deshalb kann, wenn (n) Frequenzen vorliegen, die Berechnung für die Summe von Produkten (n-1)-mal durchgeführt werden (Fig. 4, Schritt 401).

Nun wird die Summe der linken Teile (f < f[i]) von Masken beschrieben. Die Summe der linken Teile von Masken wird beinahe auf dieselbe Weise durchgeführt wie die Summe der rechten Teile. Angenommen, eine Maske, die bei einer Frequenz f[i] addiert wird, ist ml[i], so wird diese Maske ml[i] von einer hohen Frequenz aus, nämlich f[n-1] der Reihe nach, berechnet.

Eine Maske ml[n-1] bei der Frequenz f[n-1] hat keinen Leistungsspektrumwert bei einer Frequenz höher als f[n-1], so daß sie wie folgt berechnet wird.

ml[n-1] = 0

Da eine Maske ml[n-2] bei einer Frequenz f[n-2] aus der Summe der Masken von Leistungsspektrumwerten bei Frequenzen höher als die Frequenz f[n-2] resultiert, wird sie wie folgt berechnet.

ml[n-2] = a[n-1] _* 10^{-p/(f[n-1]-f[n-2])}

Da eine Maske ml[n-3] bei einer Frequenz f[n-3] aus der Summe von Masken von Leistungsspektrumwerten bei Frequenzen höher als die Frequenz f[n-3] resultiert, wird sie wie folgt berechnet.

ml[n-3] = a[n-2] _* 10^{-p/(f[n-2]-f[n-3])} + a[n-1] _* 10^{-p/(f[n-1]-f[n-3])}
= 10^{-p/(f[n-2]-f[n-3])} _* {a[n-2] + a[n-1] _* 10^{-p/(f[n-1]-f[n-2])}}
= 10^{-p/(f[n-2]-f[n-3])} _* (a[n-2] + ml[n-2])

Dementsprechend wird die Maske ml[i] bei der Frequenz f[i] wie folgt berechnet.

ml[i] = 10^{-p/(f[i+1]-f[i])} _* (a[i+1] + ml[i+1])

Durch Vorausberechnung von 10^{-p/(f[i+1]-f[i])} zur Vorbereitung einer Tabelle kann diese Berechnung auch durch eine einzige Berechnung für eine Summe von Produkten (lediglich eine Summe und ein Produkt, aber eine Kombination von Berechnungen bei benachbarten Frequenzen) vollständig durchgeführt werden. Wenn (n) Frequenzen vorliegen, kann die Berechnung durch (n-1)-maliges Ausführen der Berechnung für eine Summe von Produkten durchgeführt werden, ausgenommen wenn i = n-1 (Fig. 4, Schritt 402).

Eine Summe mt[i] von Masken bei der Frequenz f[i] kann durch Addition der Summe mr[i] für die rechten Teile der Masken und der Summe ml[i] für die linken Teile der Masken bei der Frequenz f[i] berechnet werden. Deshalb kann eine Summe von Masken für die (n) Frequenzen durch n-maliges Addieren berechnet werden (Fig. 4, Schritt 403).

Dementsprechend schließt das erforderliche Ausmaß von Operationen, um die Summe von jeder Maske bei Leistungsspektrumwerten der n Frequenzen aus n Leistungsspektrumwerten zu erhalten, die (2n-2)-malige Berechnung für die Summe von Produkten und die (n)-malige Berechnung der Summe ein. Gemäß dem in Fig. 4 gezeigten Flußdiagramm wird nach der Durchführung der Berechnung für die Summe von Produkten der rechten Teile von Masken (f f[i]) die Berechnung für die Summe von Produkten bei den linken Teilen von Masken (f < f[i]) durchgeführt, und die Ergebnisse beider Berechnungen für die Summe von Produkten werden addiert. Es soll eingesehen werden, daß ganz nach Wunsch jede der Berechnungen für die Summe von Produkten zuerst durchgeführt werden kann.

Selbst wenn die Anzahl (n) ansteigt, so wächst das Ausmaß der Operationen lediglich proportional zum Anstieg von (n) und steigt nicht steil mit der Größenordnung des Quadrats von (n) an, wie beim Stand der Technik. Herkömmlicherweise war der Wert n entsprechend dem Eingangsaudiosignal variabel, nicht jedoch bei diesem Ausführungsbeispiel. Entsprechend kann, wenn der Wert (n) bestimmt ist, eine Masken-Berechnungsschaltung vorgesehen werden, deren Größe für den vorbestimmten Wert geeignet ist. Es ist nicht erforderlich, eine Berechnungsschaltung vorzusehen, welche eine größere arithmetische Kapazität aufweist, unter der Annahme, daß der Wert (n) ansteigen könnte und einen angenommenen Pegel überschreiten könnte, im Gegensatz zum Stand der Technik. Daneben steigt das Ausmaß der Verarbeitung nicht entsprechend dem Eingangsaudiosignal extrem an, und die Verarbeitung schlägt nicht wie beim Stand der Technik fehl und erzeugt Rauschen.

Da, einfacher als beim Stand der Technik, die Maskenkontur bezüglich aller Leistungsspektrumwerte auf eine vorgebebene Form bestimmt ist (die Steigung (-q) der rechten Maske und die Steigung (p) der linken Maske des Leistungsspektrums sind konstant), kann ein codiertes Audiosignal schlechter werden, aber eine solche Verschlechterung kann niedrig gehalten werden, da die Fähigkeit zur Unterscheidung von Frequenzen durch die Verringerung der Anzahl von Leistungsspektrumwerten, die in eine Gruppe integriert werden, erhöht wird, wenn bei der Unterabtastungs-Verarbeitung die Anzahl von Leistungsspektrumwerten durch die Integration in Gruppen einer vorbestimmten Anzahl von Leistungsspektrumwerten verringert wird.

Bei einer Ermittlung des Hörgefühls wurde das Ergebnis des Codierens durch die Audiosignal-Verarbeitungsschaltung der vorliegenden Erfindung und das Ergebnis der Codierung durch eine herkömmliche Audiosignal- Verarbeitungsschaltung in einen Decoder eingegeben und decodiert, dann in ein Audio-System zum Anhören eingegeben. Drei Personen mit üblicher Hörfähigkeit konnten im wesentlichen keine Unterschied zwischen ihnen erkennen. Dieses Ergebnis beweist die Effektivität der Erfindung, die das Ausmaß von Operationen verringern kann, ohne die Qualität des Audiosignals zu verschlechtern.

Wie oben beschrieben wird gemäß der vorliegenden Erfindung eine Kontur, die durch eine bestimmte Einheits-Maskenfunktion für jede vorgegebene Anzahl von Leistungsspektrumwerten ausgedrückt ist, als eine Maske für jeden Leistungsspektrumwert festgelegt, und die Masken der jeweiligen Leistungsspektrumwerte werden aufsummiert, um einen Maskenpegel zu berechnen, so daß das Ausmaß der Berechnung, die zur Berechnung eines Maskenpegels erforderlich ist, verringert werden kann.

Da sich die Anzahl von Leistungsspektrumwerten nicht in Abhängigkeit von dem Eingangsaudiosignal ändert, wenn die Anzahl von Leistungsspektrumwerten festgelegt ist, kann eine arithmetische Einrichtung vorgesehen werden, die eine geeignete Größe für die festgelegte Anzahl aufweist. Somit ist es nicht erforderlich, eine große arithmetische Einrichtung vorzusehen, unter der Annahme, daß das Ausmaß der Verarbeitung ansteigen könnte.

Obwohl die Erfindung unter Bezugnahme auf beispielhafte Ausführungsbeispiele erläutert und beschrieben wurde, sollte für den Fachmann einzusehen sein, daß die vorhergehenden und verschiedene andere Änderungen, Weglassungen und Hinzufügungen durchgeführt werden können, ohne von dem Wesen und dem Umfang der vorliegenden Erfindung abzuweichen. Die vorliegende Erfindung soll deshalb nicht als auf die vorherigen spezifischen Ausführungsbeispiele beschränkt verstanden werden, sondern so, daß sie alle möglichen Ausführungsbeispiele einschließt, die durch den Umfang der beigefügten Ansprüche und deren Äquivalente gegeben ist.

Claims

1. Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels einer vorgeschriebenen Anzahl von Eingangs-Audiosignal-Abtastwerten, die vorher quantisiert wurden, welche umfaßt:
eine Fast-Fourier-Transformationseinrichtung, die eine Fast-Fourier- Transformation der Eingangs-Audiosignal-Abtastwerte durchführt und erste Lei stungsspektrumwerte ausgibt, die um die Hälfte der Eingangs-Audiosignal- Abtastwerte verringert sind,
eine Unterabtastungs-Einrichtung, die eine vorgegebene Anzahl von zweiten Leistungsspektrumwerten durch Unterabtastungsverarbeitung erzeugt, indem eine vorgegebene Zahl zu jedem Leistungsspektrumwert addiert wird, um einen einzi gen Spektrumwert zu erzeugen, und
eine Masken-Berechnungseinrichtung, die einen Maskenpegel der zweiten Leistungsspektrumwerte berechnet, indem eine Kontur, die als eine vorgegebene Einheits-Maskenfunktion für jeden der zweiten Leistungsspektrumwerte ausge drückt ist, als eine Maske für jeden Leistungsspektrumwert, bestimmt wird, und durch Addieren der Masken von jedem Leistungsspektrumwert.

2. Audiosignal-Verarbeitungsschaltung nach Anspruch 1, dadurch gekennzeichnet, daß die durch die Einheits-Maskenfunktion ausgedrückte Maske eine Kontur auf weist, welche eine vorgegebene Steigung auf der linken und der rechten Seite des Leistungsspektrumwerts aufweist.

3. Audiosignal-Verarbeitungsschaltung nach Anspruch 1, dadurch gekennzeichnet, daß
für eine Anzahl n der Leistungsspektrumwerte bei Frequenzen f[0] bis f[n-1] der i-te (0 i n-1) Wert der Leistungsspektrumwerte dadurch bestimmt ist, daß er einen Wert a [i], eine Frequenz f[i] und eine Maskensteigung (p) aufweist, und
daß die Einheits-Maskenfunktion bezüglich des Leistungsspektrumwerts bei einer Frequenz f bestimmt wird als mi [f] = a [i] _* 10^-p/10 ^| ^f-fi ^|.

4. Audiosignal-Verarbeitungsschaltung nach Anspruch 1, dadurch gekennzeichnet daß die Masken-Berechnungseinrichtung einen Maskenpegel für rechte Masken und linke Masken der Leistungsspektrumwerte unabhängig voneinander berech net.

5. Audiosignal-Verarbeitungsschaltung nach Anspruch 1, dadurch gekennzeichnet daß
die Masken-Berechnungseinrichtung in rechte und linke Masken der Lei stungsspektrumwerte aufteilt, und daß
die rechten Masken der Leistungsspektrumwerte sequentiell von dem Lei stungsspektrumwert bei einer niedrigen Frequenz aus aufsummiert werden, um einen Maskenpegel der rechten Seite der Leistungsspektrumwerte zu berechnen und daß die linken Masken aller Leistungsspektrumwerte sequentiell von dem Lei stungsspektrumwert bei einer hohen Frequenz aus aufsummiert werden, um einen Maskenpegel auf der linken Seite der Leistungsspektrumwerte zu berechnen.

6. Audiosignal-Verarbeitungsschaltung nach Anspruch 1, dadurch gekennzeichnet, daß,
für eine Anzahl (n) der Leistungsspektrumwerte bei Frequenzen f[0] bis f[n-1], die Masken-Berechnungseinheit in linke und rechte Masken der Leistungs spektrumwerte aufteilt, und
die rechten Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[0] aus aufsummiert, um einen Maskenpegel der rechten Seite der zweiten Leistungsspektrumwerte zu berech nen, und die linken Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[n-1] aus aufsummiert, um einen Maskenpegel der linken Seite der zweiten Leistungsspektrumwerte zu berechnen.

7. Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels einer vorgegebenen Anzahl von Eingangs-Audiosignal-Abtastwerten, die im voraus quantisiert wurden, welche umfaßt:
eine Fast-Fourier-Transformationseinrichtung, die eine Fast-Fourier- Transformation an den Eingangs-Audiosignal-Abtastwerten durchführt und erste Leistungsspektrumwerte ausgibt, die um die Hälfte der Eingangs-Audiosignal- Abtastwerte verringert sind,
eine Unterabtastungs-Einrichtung, die eine vorgegebene Anzahl von zweiten Leistungsspektrumwerten durch Unterabtastungs-Verarbeitung erzeugt, indem ei ne vorgegebene Zahl zu jedem Leistungsspektrumwert addiert wird, um einen ein zigen Leistungsspektrumwert zu erzeugen, und
eine Masken-Berechnungseinrichtung, die einen Maskenpegel der zweiten Leistungsspektrumwerte berechnet, indem eine Kontur bestimmt wird, die durch eine vorgegebene Einheits-Maskenfunktion für jeden der zweiten Leistungsspek trumwerte ausgedrückt ist, als eine Maske für jeden Leistungsspektrumwert be stimmt wird, und durch Addieren der Masken aller Leistungsspektrumwerte
wobei die Masken-Berechnungseinrichtung in linke und rechte Masken der Leistungsspektrumwerte aufteilt,
die rechten Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei einer niedrigen Frequenz aus aufsummiert, um einen Maskenpegel der rechten Seite der zweiten Leistungsspektrumwerte zu be rechnen und die linken Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei einer hohen Frequenz aus aufsummiert, um einen Maskenpegel der linken Seite der zweiten Leistungsspektrumwerte zu be rechnen, und
die rechten Masken und die linken Masken der zweiten Leistungsspektrumwer te addiert, um einen Maskenpegel der zweiten Leistungsspektrumwerte zu berech nen.

8. Audiosignal-Verarbeitungsschaltung nach Anspruch 7, dadurch gekennzeichnet, daß die Maske, die durch die Einheits-Maskenfunktion ausgedrückt ist, eine Kontur aufweist, welche eine vorgegebene Steigung auf der linken und rechten Seite des Leistungsspektrumwerts aufweist.

9. Audiosignal-Verarbeitungsschaltung nach Anspruch 7, dadurch gekennzeichnet daß für eine Anzahl n von zweiten Leistungsspektrumwerten bei Frequenzen f[0] bis f[n-1] der i-te (0 i n-1) Wert der Leistungsspektrumwerte dadurch bestimmt ist, daß er einen Wert a [i], eine Frequenz f[i] und eine Maskensteigung (p) auf weist, und daß die Einheits-Maskenfunktion bezüglich des Leistungsspektrumwerts bei einer Frequenz f bestimmt wird durch mi[f] = a [i] _* 10^-p/10 ^| ^f-fi ^|.

10. Audiosignal-Verarbeitungsschaltung nach Anspruch 7, dadurch gekennzeich net, daß
für eine Anzahl (n) von Leistungsspektrumwerten bei Frequenzen f[0] bis f [n-1] die Masken-Berechnungseinrichtung in linke und rechten Masken der Lei stungsspektrumwerte aufteilt, und
die rechten Masken der jeweiligen Leistungsspektrumwerten sequentiell von dem Leistungsspektrumwert bei der Frequenz f[0] aus aufsummiert, um einen Maskenpegel der rechten Seite der zweiten Leistungsspektrumwerte zu berech nen, und die linken Masken der jeweiligen Leistungsspektrumwerte sequentiell von dem Leistungsspektrumwert bei der Frequenz f[n-1] aus aufsummiert, um einen Maskenpegel der linken Seite der Leistungsspektrumwerte zu berechnen.

11. Audiosignal-Verarbeitungsschaltung nach Anspruch 7, dadurch gekennzeich net, daß
für eine Anzahl (n) von Leistungsspektrumwerten Frequenzen f[0] bis f[n-1] der i-te Wert der Leistungsspektrumwerte dadurch bestimmt ist, daß er den Wert a [i], die Frequenz f[i], eine rechte Maskensteigung (-q) und eine linke Maskenstei gung (p) aufweist, und daß
die Masken-Berechnungseinrichtung basierend auf mr [i] = a [i] + 10^{-g/(f[i]-f[i-1])} _* mr[i-1]die rechten Masken der Leistungsspektrumwerte bei der Frequenz f[i] berech net, und basierend aufml [i] =10^{-p/(f[i+1]-f[i])} _* (a[i+1] + ml [i+1])die linken Masken der Leistungsspektrumwerte bei der Frequenz f[i] berech net.

12. Audiosignal-Verarbeitungsschaltung nach Anspruch 11, dadurch gekennzeich net, daß die Masken-Berechnungseinrichtung eine vorbereitete Tabelle aufweist, indem bei der Operation für die rechten Masken 10^{-q/(f[i]-f[i-1])} vorausberechnet wird, und eine vorbereitete Tabelle aufweist, indem bei der Operation für die linken Masken 10^{-p/(f[i+1]-f[i])} vorausberechnet wird.