DE69529393T2

DE69529393T2 - Verfahren zur gewichteten Geräuschfilterung

Info

Publication number: DE69529393T2
Application number: DE69529393T
Authority: DE
Inventors: Yair Shoham; Casimir Wierzynski
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-12-30
Filing date: 1995-12-12
Publication date: 2003-08-21
Anticipated expiration: 2015-12-13
Also published as: EP0720148A1; JPH08278799A; EP0720148B1; CA2165351A1; DE69529393D1; US5699382A; CA2165351C; US5646961A; JP3513292B2

Description

Technisches Gebiet

Die vorliegende Erfindung betrifft die Rauschgewichtungsfilterung in einem Kommunikationssystem.

Allgemeiner Stand der Technik

Durch Fortschritte in digitalen Netzen wie zum Beispiel ISDN (diensteintegriertes digitales Netzwerk) hat das Interesse an Telekonferenzen und der Übertragung von Bild und Ton mit hoher Qualität wieder zugenommen. Im Zeitalter der Kompaktdiscs und des hochauflösenden Fernsehens umfaßt der Trend zu immer besserer Wiedergabetreue nunmehr auch das Telefon.
Außer dem reinen Vergnügen des Zuhörens werden insbesondere in der Geschäftswelt besser klingende Telefone benötigt. Das traditionelle Fernsprechen, das auf eine Bandbreite von 300 bis 3400 Hz zur Übertragung von Schmalbandsprache beschränkt ist, strengt die Zuhörer oft über die Länge eines Telefongesprächs hinweg an. Andererseits bietet Breitbandsprache im Bereich von 50-7000 Hz dem Zuhörer mehr Präsenz (aufgrund des Sendens und Empfangens von Signalen im Bereich von 50-300 Hz) und bessere Verständlichkeit (aufgrund des Sendens und Empfangens von Signalen im Bereich von 3000-7000 Hz) und ist über lange Zeiträume hinweg leicht tolerierbar. Breitbandsprache ist also eine natürliche Wahl zur Verbesserung der Qualität des Fernsprechdienstes.
Um Sprache (entweder breitbandig oder schmalbandig) über das Fernsprechnetz zu senden, muß ein Eingangssprachsignal, das als eine stetige Funktion einer stetigen Zeitvariablen gekennzeichnet werden kann, in ein Digitalsignal umgesetzt werden, d. h. ein Signal, das sowohl bezüglich Zeit als auch Amplitude diskret ist. Die Umsetzung ist ein zweischrittiger Prozeß. Als erstes wird das Eingangssprachsignal zeitlich periodisch abgetastet (d. h. mit einer bestimmten Rate), um eine Sequenz von Abtastwerten zu erzeugen, wobei die Abtastwerte ein Kontinuum von Werten annehmen. Dann werden die Werte zu einer endlichen Menge von Werten quantisiert, die durch binäre Ziffern -(Bit) dargestellt werden, um das Digitalsignal zu erhalten. Das Digitalsignal ist durch eine Bitrate gekennzeichnet, d. h. eine vorgegebene Anzahl von Bit pro Sekunde, die wiedergibt, wie oft das Eingangssignal abgetastet wurde und wieviele Bit zur Quantisierung der abgetasteten Werte verwendet wurden.
Die durch die Übertragung von Breitbandsprache ermöglichte verbesserte Qualität des Fernsprechdienstes erfordert leider jedoch in der Regel eine Übertragung mit höherer Bitrate, wenn nicht das Breitbandsignal ordnungsgemäß codiert wird, d. h. so, daß das Breitbandsignal wesentlich zu einer Darstellung durch weniger Bit komprimiert werden kann, ohne aufgrund von Quantisierungsfehlern offensichtliche Verzerrungen einzuführen. In letzter Zeit verwendeten bestimmte Codierer von Sprache und Audio mit hoher Wiedergabetreue das Konzept, daß Maße des mittleren quadratischen Fehlers der Verzerrung (d. h. Maße der Energiedifferenz zwischen einem Signal und dem Signal nach der Codierung und Decodierung) nicht unbedingt die wahrgenommene Qualität der codierten Signalform beschreiben - kurz, es sind nicht alle Arten von Verzerrung gleichermaßen wahrnehmbar. M. R. Schroeder, B. S. Atal und J. L. Hall, "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear", J. Acous. Soc. Am., Band 66, 1647-1652, 1979. Das Signal/Rausch-Verhältnis zwischen s(t) und -s(t) beträgt zum Beispiel -6 dB, und dennoch kann das Ohr die beiden Signale nicht unterscheiden. Mit einiger Kenntnis darüber, wie das Gehör verschiedene Arten von Rauschen toleriert, war es somit möglich, Codierer zu entwerfen, die die Hörbarkeit - aber nicht unbedingt die Energie - von Quantisierungsfehlern minimieren. Genauer gesagt verwenden diese neueren Codierer ein als Maskierung bekanntes Phänomen des menschlichen Hörens.
Gehörmaskierung ist ein Begriff, der das Phänomen des menschlichen Hörens beschreibt, durch das ein Klang einen anderen überdeckt oder übertönt. Ein gewöhnliches Beispiel ist das Geräusch eines Automotors, das übertönt wird, wenn die Lautstärke des Autoradios hoch genug ist. Ähnlich ist, wenn man sich unter der Dusche befindet und einen Telefonanruf verpaßt, der Grund, daß das Geräusch der Dusche das Geräusch des Klingelns des Telefons maskiert; wenn die Dusche nicht gelaufen wäre, hätte man das Klingeln gehört. Im Fall eines Codierers wird durch den Codierer eingeführtes Rauschen (Rauschen des "Codierers" oder der "Quantisierung") durch das ursprüngliche Signal maskiert und es ergibt sich also eine wahrnehmungsbezogene verlustlose (oder transparente) Komprimierung, wenn der Codierer das Quantisierungsrauschen so formt, daß es zu allen Zeiten vollständig durch das ursprüngliche Signal maskiert wird. In der Regel muß dafür das Codierungsrauschen ungefähr dieselbe spektrale Form wie das Signal aufweisen, da das Ausmaß der Maskierung in einem gegebenen Frequenzband ungefähr von der Signalenergiemenge in diesem Band abhängt. P. Kroon und B. S. Atal "Predictive Coding of Speech Using Analysis- by-Synthesis Techniques" in Advances in Speech Signal Processing (S. Furui und M. M. Sondhi, Hrsg.) Marcel Dekker, Inc., New York, 1992.
Bisher gab es zwei verschiedene Ansätze für die wahrnehmungsbezogene verlustlose Komprimierung, die jeweils zwei kommerziell signifikanten Audioquellen und ihren verschiedenen Eigenschaften entsprechen: Kompakt- Disc-/Hifi-Musik und Breitbandsprache (50-7000 Hz). Hifi-Musik eignete sich aufgrund ihrer größeren spektralen Komplexität gut für einen ersten Ansatz der Verwendung von Transformationscodierungsstrategien.
J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Criteria", IEEE J. Sel. Areas in Comm., 314- 323, Juni 1988; B. S. Atal und M. R. Schroeder, "Predictive Coding of Speech Signals and Subjective Error Criteria" IEEE Trans. ASSP, 247-254, Juni 1979. Auf dem Gebiet der Sprachverarbeitung hat sich dagegen ein zweiter Ansatz als erfolgreich erwiesen, der auf Zeit basierende Maskierungsverfahren verwendet, z. B. codeerregte linear-prädiktive Codierung (CELP) und CELP mit geringer Verzögerung (LD-CELP). E. Ordentlich und Y. Shoham, "Low Delay Code-Excited Linear Predictive Coding of Wideband Speech at 32 Kbps", Proc. ICASSP, 1991; J. H. Chen, "A Robust, Low-Delay CELP Speech Coder at 16 Kb/s", GLOBECOM 89, Band 2, 1237-1240, 1989.
Die zwei Ansätze verwenden verschiedene Techniken zur Formung von Quantisierungsrauschen, um Maskierungseffekte auszunutzen. Transformationscodierer verwenden eine Technik, bei der für jeden Rahmen eines Audiosignals ein Codierer versucht, a priori die wahrnehmungsbezogene Schwelle des Rauschens zu berechnen. Diese Schwelle ist in der Regel als ein Signal/Rausch-Verhältnis charakterisiert, wobei für eine gegebene Signalleistung das Verhältnis durch den Pegel der zu dem Signal hinzugefügten Rauschleistung, der die Schwelle erreicht, bestimmt wird. Eine häufig verwendete wahrnehmungsbezogene Schwelle, die als ein Leistungsspektrum gemessen wird, ist als die gerade wahrnehmbare Differenz (JND just-noticeable difference) bekannt, da sie das meiste Rauschen darstellt, das zu einem gegebenen Audiorahmen hinzugefügt werden kann, ohne wahrnehmbare Verzerrungen einzuführen. Die Berechnung der wahrnehmungsbezogenen Schwelle, die ausführlich in Johnston, supra, beschrieben wird, verwendet Rauschmaskierungsmodelle, die von Schroeder, supra, mittels psychoakustischer Experimente entwickelt wurden. Somit ist das Quantisierungsrauschen bei auf JND basierenden Systemen gut an bekannte Eigenschaften des Ohrs angepaßt. Frequenzbereichs- oder Transformationscodierer können JND-Spektren als Maß der minimalen Wiedergabetreue und deshalb der minimalen Anzahl von Bit verwenden, die zur Darstellung jeder Spektralkomponente erforderlich ist, so daß das codierte Ergebnis nicht von dem Original unterschieden werden kann.
Auf Zeit basierende Maskierungsverfahren mit linearprädiktiver Codierung haben andere Techniken verwendet. Das durch linear-prädiktive Sprachcodierer eingeführte Quantisierungsrauschen ist annähernd weiß, solange der Prädiktor eine ausreichend hohe Ordnung aufweist und eine Tonhöhenschleife enthält. B. Scharf, "Complex Sounds and Critical Bands" Psychol. pull., Band 58, 205-217, 1961; N. S. Jayant und P. Noll, Digital Coding of Waveforms, Prentice-Hall, Englewood Cliffs, NJ, 1984. Da Sprachspektren gewöhnlich nicht flach sind, können diese Verzerrungen jedoch in Bereichen zwischen Formanten oder bei hohen Frequenzen, in denen die Rauschleistung größer als die Sprachleistung sein kann, relativ hörbar werden. Im Fall von Breitbandsprache mit ihrem extremen spektralen Dynamikumfang (bis zu 100 dB) führt die Fehlanpassung zwischen Rauschen und Signal zu starken hörbaren Defekten.
Eine Lösung für die Probleme der auf Zeit basierenden Maskierungsverfahren besteht darin, das Signal durch ein Filter mit Rauschgewichtung (oder wahrnehmungsbezogener Verweißung) zu filtern, das so ausgelegt ist, daß es mit dem Spektrum der JND übereinstimmt. Bei derzeitigen CELP-Systemen wird das Rauschgewichtungsfilter mathematisch aus dem Invers- Filter des linear-prädiktiven Codes (LPC) des Systems so abgeleitet, daß Codierungsverzerrungen in den Formantbereichen konzentriert werden, in denen die Sprachleistung größer ist. Diese Lösung führt zwar zu Verbesserungen bei tatsächlichen Systemen, hat aber zwei wichtige Unzulänglichkeiten. Da das Rauschgewichtungsfilter direkt von dem LPC-Filter abhängt, kann es erstens nicht so genau wie die LPC- Analyse selbst sein. Zweitens ist die spektrale Form des Rauschgewichtungsfilters nur eine grobe Approximation des tatsächlichen JND-Spektrums und hat nichts mit jeglicher relevanten Kenntnis, wie zum Beispiel psychoakustischen Modellen oder Experimenten, zu tun.
Aus EP-A-0 240 330 ist ein Verfahren bekannt, das Rauschpegel bei der Spracherkennung in Betracht zieht. Ein Mikrofon erreichende Signale werden digitalisiert und durch eine Filterbank geleitet, um in Frequenzkanäle aufgetrennt zu werden. Für jeden Kanal werden Messungen der "Distanz", auf denen Erkennung basiert, abgeleitet. Wenn das Signal in einem Kanal über dem Rauschen liegt, dann bestimmt die Erkennungsvorrichtung aus dem negativen Logarithmus einer Wahrscheinlichkeitsdichtefunktion die Distanz, wenn jedoch ein Kanalsignal unter dem Rauschen liegt, dann wird die Distanz aus dem negativen Logarithmus der kumulativen Distanz der Wahrscheinlichkeitsdichtefunktion zu dem Rauschpegel bestimmt.
Aus WO-A-9611467 (Stand der Technik wenn überhaupt nur wegen Art. 54(3) EPC) ist ein Verfahren bekannt, bei dem der erste Schritt zur Berechnung eines Signal- Masken-Verhältnisses für ein Teilband in einem Teilband-Audiocodierer das Berechnen eines Signalpegels für jedes Teilband auf der Grundlage eines Audiorahmens ist. Danach wird für das bestimmte Teilband auf der Grundlage der Signalpegel, einer Offsetfunktion und einer Gewichtungsfunktion der Maskierungspegel berechnet.
Aus EP-A-0 289 080 ist ein System zur Teilbandcodierung eines digitalen Audiosignals bekannt, das im Codierer eine Filterbank zum Aufzweigen des Audiosignalbands mit Abtastratenreduktion zu gegenüberliegenden ungefähr kritischer Bandbreite und im Decodierer eine Filterbank zum Zusammenführen dieser Teilbänder mit Abtastratenzunahme enthält. Für jedes Teilband umfaßt der Codierer einen Detektor zur Bestimmung eines Parameters, der den Signalpegel in einem Block von M Abtastwerten des Teilbandsignals darstellt, sowie einen Quantisierer zum adaptiven Blockieren der Quantisierung dieses Teilbandsignals als Reaktion auf einen Parameter, und der Decodierer umfaßt einen Entquantisierer zum adaptiven Blockieren der Entquantisierung des quantisierten Teilbandsignals als Reaktion auf Parameter.

Kurze Darstellung der Erfindung

Codierungs- und Decodierungsverfahren und ein Decodierungssystem gemäß der Erfindung werden in den unabhängigen Ansprüchen definiert. Bevorzugte Formen werden in den abhängigen Ansprüchen definiert.
Gemäß der Erfindung dient vorteilhafterweise eine Maskierungsmatrix zur Steuerung einer Quantisierung eines Eingangssignals. Die Maskierungsmatrix ist von dem Typ, der in der europäischen Patentanmeldung EP-A- 720 146 beschrieben wird. Bei einer bevorzugten Ausführungsform wird das Eingangssignal in eine Menge von Teilbandsignalkomponenten aufgetrennt und die Quantisierung des Eingangssignals wird als Reaktion auf Steuersignale gesteuert, die auf der folgenden Basis erzeugt werden: a) dem Leistungspegel in jeder Teilbandsignalkomponente und b) der Maskierungsmatrix. Bei konkreten Ausführungsformen der Erfindung dienen die Steuersignale zur Steuerung der Quantisierung des Eingangssignals durch Zuteilen einer Menge von Quantisierungsbit unter einer Menge von Quantisierern. Bei anderen Ausführungsformen dienen die Steuersignale zur Steuerung der Quantisierung durch Vorverarbeitung des zu quantisierenden Eingangssignals durch Multiplizieren von Teilbandsignalkomponenten des Eingangssignals mit jeweiligen Verstärkungsparametern, um so das Spektrum des zu quantisierenden Signals zu formen. In jedem Fall erreicht der Pegel des Quantisierungsrauschens in dem resultierenden quantisierten Signal die wahrnehmungsbezogene Schwelle des Rauschens, die bei dem Prozeß des Ableitens der Maskierungsmatrix verwendet wurde.

Kurze Beschreibung der Zeichnungen

Aus der folgenden ausführlichen Beschreibung in Verbindung mit den Zeichnungen werden Vorteile der Erfindung ersichtlich werden. Es zeigen:
Fig. 1 ein Blockschaltbild eines Kommunikationssystems, in dem das erfindungsgemäße Verfahren ausgeübt werden kann.
Fig. 2 ein Blockschaltbild des erfindungsgemäßen Rauschgewichtungsfilters in einem Kommunikationssystem.
Fig. 3 ein Blockschaltbild des Analyse-durch-Synthese- Codierers und -Decodierers, der das erfindungsgemäße Rauschgewichtungsfilter enthält.
Fig. 4 ein Blockschaltbild eines Teilbandcodierers und -Decodierers, wobei das erfindungsgemäße Rauschgewichtungsfilter zur Zuteilung von Quantisierungsbit verwendet wird.
Fig. 5 ein Blockschaltbild des erfindungsgemäßen Rauschgewichtungsfilters, wobei zur Zuteilung von Quantisierungsbit keine Verstärkung verwendet wird.

Ausführliche Beschreibung

Fig. 1 ist ein Blockschaltbild eines Systems, in dem das erfindungsgemäße Verfahren zur Rauschgewichtungsfilterung verwendet werden kann. Ein Sprachsignal wird in das Rauschgewichtungsfilter 120 eingegeben, das das Spektrum des Signals so filtert, daß die wahrnehmungsbezogene Maskierung des durch den Sprachcodierer 130 eingeführten Quantisierungsrauschens vergrößert wird. Das Ausgangssignal des Rauschgewichtungsfilters 120 wird in den Sprachcodierer 130 eingegeben, wie auch jegliche Informationen, die als Nebeninformationen übertragen werden müssen (siehe unten). Der Sprachcodierer 130 kann entweder ein Frequenzbereichs- oder Zeitbereichscodierer sein. Der Sprachcodierer 130 erzeugt einen Bitstrom, der dann in einen Kanalcodierer 140 eingegeben wird, der den Bitstrom zur Übertragung über den Kanal 145 codiert. Der empfangene codierte Bitstrom wird dann in den Kanaldecodierer 150 eingegeben, um einen decodierten Bitstrom zu erzeugen. Der decodierte Bitstrom wird dann in den Sprachdecodierer 160 eingegeben. Der Sprachdecodierer 160 gibt Schätzungen des gewichteten Sprachsignals und Nebeninformationen aus, die in das Invers-Rauschgewichtungsfilter 170 eingegeben werden, um eine Schätzung des Sprachsignals zu erzeugen.
Das erfindungsgemäße Verfahren erkennt, daß eine Kenntnis von Sprachmaskierungseigenschaften für eine bessere Codierung eines Eingangssignals verwendet werden kann. Insbesondere kann eine solche Kenntnis zum Filtern des Eingangssignals verwendet werden, dergestalt, daß durch einen Sprachcodierer eingeführtes Quantisierungsrauschen verringert wird. Zum Beispiel kann die Kenntnis in Teilbandcodierern verwendet werden. In Teilbandcodierern wird ein Eingangssignal zum Beispiel durch eine Filterbank in Teilbandkomponenten zerlegt, und jede Teilbandkomponente wird dann in einem Teilbandquantisierer quantisiert, d. h. das Kontinuum von Werten der Teilbandkomponente wird zu einer endlichen Menge von Werten quantisiert, die durch eine vorgegebene Anzahl von Quantisierungsbit dargestellt werden. Wie unten gezeigt wird, kann man eine Kenntnis von Sprachmaskierungseigenschaften zum Zuteilen der vorgegebenen Anzahl von Quantisierungsbit unter dem Teilbandquantisierer verwenden, d. h. es werden mehr Quantisierungsbit (und somit weniger Quantisierungsrauschen) den Quantisierern zugeteilt, die den Teilbandkomponenten eines Eingangssprachsignals zugeordnet sind, in denen ohne richtige Zuteilung das Quantisierungsrauschen am stärksten wahrnehmbar wäre.
Gemäß der vorliegenden Erfindung wird vorteilhafterweise eine Maskierungsmatrix zur Erzeugung von Signalen verwendet, die die Quantisierung eines Eingangssignals steuern. Die Steuerung der Quantisierung des Eingangssignals kann durch Steuern von Parametern eines Quantisierers erzielt werden, wie zum Beispiel durch Steuern der Anzahl verfügbarer Quantisierungsbit oder durch Zuteilen von Quantisierungsbit unter Teilbandquantisierern. Die Steuerung der Quantisierung des Eingangssignals kann auch durch Vorverarbeiten des Eingangssignals erzielt werden, um das Eingangssignal so zu formen, daß das quantisierte vorverarbeitete Eingangssignal bestimmte gewünschte Eigenschaften aufweist. Zum Beispiel können die Teilbandkomponenten des Eingangssignals mit Verstärkungsparametern multipliziert werden, so daß das während der Quantisierung eingeführte Rauschen wahrnehmungsbezogen weniger wahrnehmbar ist. In jedem Fall erreicht der Pegel des Quantisierungsrauschens in dem resultierenden quantisierten Signal die wahrnehmungsbezogene Schwelle des Rauschens, die beim Prozeß des Ableitens der Maskierungsmatrix verwendet wurde. Bei dem erfindungsgemäßen Verfahren wird das Eingangssignal in eine Menge von n Teilbandsignalkomponenten aufgetrennt und die Maskierungsmatrix ist eine n · n-Matrix, wobei jedes Element qi,j die Menge (Leistung) des Rauschens in dem Band j darstellt, die zu der Signalkomponente i hinzugefügt werden kann, um so eine Maskierungsschwelle zu erreichen. Somit umfaßt die Maskierungsmatrix Q Kenntnis über Sprachmaskierungseigenschaften. Die zur Steuerung der Quantisierung der Eingangssignale verwendeten Signale sind eine Funktion der Maskierungsmatrix und der Leistung in den Teilbandsignalkomponenten.
Fig. 2 zeigt eine erste Ausführungsform des erfindungsgemäßen Rauschgewichtungsfilters 120 im Kontext des Systems von Fig. 1. Die Quantisierung erfolgt insofern mit offener Schleife, als das Rauschgewichtungsfilter 120 nicht Teil des Quantisierungsprozesses in dem Sprachcodierer 130 ist. Das Sprachsignal wird in das Rauschgewichtungsfilter 120 eingegeben und an eine Filterbank angelegt, die n Filter 121-i, i = 1, 2, ... n umfaßt. Jedes Filter 121- i ist durch eine jeweilige Übertragungsfunktion Hi(z) gekennzeichnet. Das Ausgangssignal jedes Filters 121-i ist die jeweilige Teilbandkomponente si. Die Leistung pi in den jeweiligen Ausgangskomponentensignalen wird durch Leistungsmaße 122-i gemessen, und die Maße werden in einen Maskierungsprozessor 124 eingegeben. Die Leistung des Eingangssprachsignals wird als P = pi bezeichnet.
Der Maskierungsprozessor 124 bestimmt, wie jede Teilbandkomponente si des Spracheingangssignals mit einem jeweiligen Verstärkungssignal gi eingestellt wird, so daß das durch den Sprachcodierer 130 hinzugefügte Rauschen wahrnehmungsbezogen weniger wahrnehmbar ist, wenn es im Empfänger invers gefiltert wird. Die Leistung in dem gewichteten Sprachsignal ist Pw = pig . Das gewichtete Sprachsignal wird durch den Sprachcodierer 130 codiert, und außerdem werden die Verstärkungsparameter durch den Sprachcodierer 130 als Nebeninformationen zur Verwendung durch das Invers- Rauschgewichtungsfilter 170 codiert.
Die Verstärkungssignale gi, i = 1, 2, ... n werden durch den Maskierungsprozessor 124 bestimmt. Man beachte, daß die gi's insofern einen Freiheitsgrad von einem Skalenfaktor aufweisen, als alle gi's mit einer festen Konstante multipliziert werden können, und das Ergebnis gleichbleibt, d. h. wenn man γg&sub1;, γg&sub2; ... γgn wählen würde, dann würde das Invers-Filter 170 einfach die jeweiligen Teilbänder mit 1/γg&sub1;, 1/γg&sub2; ... 1/γgn multiplizieren, um die Schätzung des Sprachsignals zu erzeugen. Vereinfacht ausgedrückt wird also zweckmäßig angenommen, daß die gi's als leistungserhaltend gewählt werden:
Pw = pig . = P
An diesem Punkt ist es vorteilhaft, Notation zur Beschreibung der Funktionsweise des Maskierungsprozessors 124 zu definieren. Insbesondere wird Vp als der Vektor von Eingangsleistungen aus den Leistungsmaßen 122-i definiert.
Der Maskierungsprozessor 124 kann außerdem auf Elemente gi,j der Maskierungsmatrix Q zugreifen. Die Elemente können in einer Speichervorrichtung gespeichert werden (z. B. in einem Nur-Lese-Speicher oder einem Lese-und- Schreibspeicher), die entweder in dem Maskierungsprozessor 124 enthalten ist, oder auf die der Maskierungsprozessor 124 zugreift. Jedes qi,j stellt die Menge an Rauschen in dem Band j dar, die zu der Signalkomponente i hinzugefügt werden kann, um eine Maskierungsschwelle zu erreichen. Ein Verfahren, das beschreibt, wie man die Q-Maskierungsmatrix erhält, wird in der oben angeführten EP-A-720 146 offengelegt. An diesem Punkt ist es zweckmäßig, zu bemerken, daß es vorteilhaft ist, daß die Eigenschaften der Filterbank 121 mit den Eigenschaften einer Filterbank identisch sind, die zur Bestimmung der Q-Matrix verwendet wird (siehe die gleichzeitig anhängige Anmeldung, supra).
Der Vektor W&sub0; ist der "ideale" oder gewünschte Rauschpegelvektor, der die Maskierungsschwelle approximiert, die zur Gewinnung von Werten für die Q- Matrix verwendet wurde.
Der Vektor W stellt die tatsächlichen Rauschleistungen im Empfänger dar, d. h.
Der Vektor W ist eine Funktion der gewichteten Sprachleistung Pw, der Verstärkungen und eines Quantisiererfaktors β. Der Quantisiererfaktor ist eine Funktion des konkreten Codierertyps und der Anzahl von Bit, die zum Quantisieren von Signalen in jedem Band zugeteilt werden.
Das Ziel ist, daß W bis auf einen Skalierungsfaktor α gleich W&sub0; wird, d. h. die Form der beiden Rauschleistungsvektoren sollte dieselbe sein. Also gilt
W = αW&sub0; = αQVp
Nach Einsetzen der Variablen und Auflösen auf die Verstärkungen erhält man
Man beachte:
und Einsetzen ergibt
Um die Verstärkungen gi zu bestimmen, muß das Rauschgewichtungsfilter also die Teilbandleistungen pi messen und die Gesamteingangsleistung P bestimmen. Dann wird der Rauschvektor W&sub0; mit Gleichung (1) berechnet und Gleichung (2) wird dann zur Bestimmung der Verstärkungen verwendet. Der Maskierungsprozessor erzeugt dann Verstärkungssignale zur Skalierung der Teilbandsignale. Die Verstärkungen müssen bei dieser Ausführungsform in bestimmter Form als Nebeninformationen übertragen werden, um die Entzerrung der codierten Sprache während der Decodierung rückgängig zu machen.
Fig. 3 zeigt das erfindungsgemäße Rauschformungsfilter in einem Analyse-durch-Synthese-System wie zum Beispiel CELP, mit geschlossener Schleife. Man beachte, daß die Filterbank 321 und der Maskierungsprozessor 324 die Stelle des Rauschgewichtungsfilters W(z) in einem traditionellen CELP-System eingenommen haben. Man beachte außerdem, daß keine zusätzlichen Nebeninformationen übertragen werden müssen, weil die Rauschgewichtung in einer geschlossenen Schleife ausgeführt wird.
Fig. 4 zeigt eine weitere Ausführungsform der Erfindung, die auf einer Teilbandcodierung basiert, bei der jedes Teilband seinen eigenen Quantisierer 430-i aufweist. Bei dieser Konfiguration dient das Rauschgewichtungsfilter 120 zur Formung des Spektrums des Eingangssignals und zur Erzeugung eines Steuersignals zum Zuteilen von Quantisierungsbit. Der Bitzuteiler 440 verwendet die gewichteten Signale zur Bestimmung, wieviele Bit in jedem Teilbandquantisierer 430-i zur Quantisierung von gisi verwendet werden können. Das Ziel ist, Bit so zuzuteilen, daß alle Quantisierer dieselbe Rauschleistung erzeugen. Es sei Bi der Teilbandquantisiererfaktor des i-ten Quantisierers. Die Bitzuteilungsprozedur bestimmt Bi für alle i so, daß Bi Piqi eine Konstante ist. Der Grund dafür besteht darin, daß für alle 1 die gewichtete Sprache in allen Bändern gleich wichtig ist.
Fig. 5 ist ein Blockschaltbild eines Rauschgewichtungsfilters ohne Verstärkung (d. h. alle gi's = 1), mit dem ein Steuersignal zum Zuteilen von Quantisierungsbit erzeugt wird. Bei dieser Ausführungsform ist das Ziel, Bit unter den Teilbandquantisierern 530-i so zuzuteilen, daß folgendes gilt:
βipi = αW0i für alle i
oder
Wiederum muß eine bestimmte Aufzeichnung der Bitzuteilung als Nebeninformationen gesendet werden.
Die vorliegende Offenlegung beschreibt ein Verfahren eine Vorrichtung zur Rauschgewichtungsfilterung. Das Verfahren und die Vorrichtung wurden ohne Bezugnahme auf spezifische Hardware oder Software beschrieben. Stattdessen wurden das Verfahren und die Vorrichtung so beschrieben, daß Fachleute ohne weiteres solche Hardware oder Software, die verfügbar oder bevorzugt sein kann, anpassen können. Obwohl die obige Lehre der vorliegenden Erfindung im Hinblick auf das Filtern von Sprachsignalen erfolgte, ist für Fachleute auf dem Gebiet der digitalen Signalverarbeitung die Anwendbarkeit der Lehre auf andere spezifische Kontexte, z. B. das Filtern von Musiksignalen, Audiosignalen oder Videosignalen, erkennbar.

Claims

1. Verfahren zur Codierung eines Eingangssignals (120, 130), mit den folgenden Schritten:

Auftrennen (121) des Eingangssignals in eine Menge von n Teilbandsignalkomponenten (S&sub1;-Sn);

Erzeugen (124) einer Menge von Verstärkungssignalen (g1-gn) auf der Grundlage der Leistung in jeder Teilbandsignalkomponente und auf der Grundlage einer Maskierungsmatrix;

Erzeugen einer Menge multiplizierter Teilbandsignale durch Multiplizieren jedes Verstärkungssignals in der Menge von Verstärkungssignalen mit einer jeweiligen Teilbandkomponente in der Menge von Teilbandsignalkomponenten; und

Codieren (130) des Eingangssignals auf der Grundlage einer Kombination der multiplizierten Teilbandsignale.

2. Verfahren nach Anspruch 1, wobei das Eingangssignal ein Sprachsignal ist.

3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei der Schritt des Auftrennens den folgenden Schritt umfaßt: Anlegen des Eingangssignals an eine Filterbank, wobei die Filterbank eine Menge von n Filtern (121) umfaßt, wobei das Ausgangssignal jedes Filters in der Menge von n Filtern eine jeweilige Teilbandsignalkomponente in der Menge von n Teilbandsignalkomponenten ist.

4. Verfahren nach einem der vorhergehenden Ansprüche, weiterhin mit dem Schritt des Steuerns einer Quantisierung (130) des Eingangssignals auf der Grundlage der Menge von Verstärkungssignalen.

5. Verfahren nach Anspruch 4, wobei der Schritt des Steuerns den Schritt des Zuteilens (440) von Quantisierungsbit unter einer Menge von n Quantisierern (430) umfaßt.

6. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Maskierungsmatrix eine n · n-Matrix ist, wobei jedes Element qi,j der Maskierungsmatrix das Verhältnis einer Rauschleistung im Band j, die maskiert werden kann, zu einer Teilbandsignalkomponente ist, die durch den Leistungspegel der Teilbandsignalkomponente im Band i charakterisiert wird.

7. Verfahren nach Anspruch 6, wobei das Verhältnis anzeigt, wie gut Sprachsignale Rauschsignale maskieren.

8. Verfahren nach Anspruch 7, wobei das Verhältnis auf Messungen von Komponenten im Band i der Sprachsignale basiert, die Komponenten im Band j der Rauschsignale maskieren.

9. Verfahren nach Anspruch 1, weiterhin mit dem Schritt des Erzeugens eines transformierten Signals durch Quantisieren des Eingangssignals als Reaktion auf die Leistungen in jeder Teilbandsignalkomponente und auf die Maskierungsmatrix, wobei der Schritt des Erzeugens den Schritt des Multiplizierens einer jeweiligen der Teilbandsignalkomponenten mit einem jeweiligen der Verstärkungssignale in der Menge von Verstärkungssignalen umfaßt.

10. Verfahren nach Anspruch 9, wobei das transformierte Signal ein zugeordnetes Spektrum aufweist und wobei das zugeordnete Spektrum Komponenten umfaßt, wobei jede Komponente in dem zugeordneten Spektrum einen Leistungspegel aufweist und ein Rauschsignal maskiert, wobei das Rauschsignal ein zugeordnetes Spektrum, das Komponenten umfaßt, aufweist, wobei jede Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, einen zugeordneten Leistungspegel aufweist und wobei jede Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, die gleiche Leistung aufweist.

11. Verfahren nach Anspruch 10, wobei das Verhältnis des Leistungspegels, der jeder Komponente des Spektrums zugeordnet ist, das dem transformierten Signal zugeordnet ist, zu dem Leistungspegel einer Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, ein gerade eben wahrnehmbarer Verzerrungspegel ist.

12. Verfahren nach Anspruch 10, wobei das Verhältnis des Leistungspegels, der jeder Komponente des Spektrums zugeordnet ist, das dem transformierten Signal zugeordnet ist, zu dem Leistungspegel einer Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, ein hörbarer, aber nicht lästiger Pegel ist.

13. Verfahren nach Anspruch 9, wobei das Quantisieren von einem einzigen Quantisierer durchgeführt wird.

14. Verfahren zur Decodierung eines codierten Signals (160, 170), mit den folgenden Schritten:

Empfangen (150) eines Signals, das Nebeninformationen und das codierte Signal umfaßt;

Auftrennen des codierten Signals in eine Menge von n Teilbandsignalkomponenten;

Multiplizieren jeder Teilbandsignalkomponente mit einem entsprechenden einer Menge von n Verstärkungswerten (1/g&sub1;-1/gn), um eine entsprechende einer Menge von n multiplizierten Teilbandsignalkomponenten zu erzeugen, wobei die Menge von n Verstärkungswerten auf den Nebeninformationen und auf einer Maskierungsmatrix basiert; und

Kombinieren der n multiplizierten Teilbandsignalkomponenten, um ein decodiertes Signal zu erzeugen.

15. Verfahren nach Anspruch 14, wobei das codierte Signal ein codiertes Sprachsignal ist.

16. Verfahren nach Anspruch 14 oder Anspruch 15, wobei die Nebeninformationen eine Menge von Meßwerten umfassen, wobei jeder Meßwert einen Leistungspegel einer Teilbandkomponente eines Eingangssignals wiedergibt, wobei das Eingangssignal codiert wurde, um das codierte Signal zu bilden.

17. Verfahren nach Anspruch 16, wobei die Maskierungsmatrix eine n · n]-Matrix ist, wobei jedes Element qi,j der Maskierungsmatrix das Verhältnis einer Rauschleistung im Band j, die maskiert werden kann, zu einem Leistungspegel der Teilbandkomponente im Band i ist.

18. Verfahren nach Anspruch 17, wobei die Teilbandkomponente ein Ausgangssignal einer Filterbank ist, die eine Menge von n Filtern umfaßt, wobei das Ausgangssignal jedes Filters eine jeweilige Teilbandsignalkomponente ist.

19. Verfahren nach einem der Ansprüche 14 bis 18, wobei die Nebeninformationen eine Menge von n Verstärkungswerten umfassen.

20. System zur Decodierung eines codierten Signals (160, 170), umfassend:

ein Mittel (150) zum Empfangen eines Signals, das Nebeninformationen und das codierte Signal umfaßt;

ein Mittel zum Auftrennen des codierten Signals in eine Menge von n Teilbandsignalkomponenten;

ein Mittel zum Multiplizieren jeder Teilbandsignalkomponente mit einem entsprechenden einer Menge von n Verstärkungswerten (1/g&sub1;-1/gn), um eine entsprechende einer Menge von n multiplizierten Teilbandsignalkomponenten zu erzeugen, wobei die Menge von n Verstärkungswerten auf den Nebeninformationen und auf einer Maskierungsmatrix basiert; und

ein Mittel zum Kombinieren der n multiplizierten Teilbandsignalkomponenten, um ein decodiertes Signal zu erzeugen.

21. System nach Anspruch 20, wobei das codierte Signal ein codiertes Sprachsignal ist.

22. System nach Anspruch 20 oder Anspruch 21, wobei die Maskierungsmatrix Q eine n · n]-Matrix ist, wobei jedes Element qi,j der Maskierungsmatrix das Verhältnis einer Rauschleistung im Band j, die maskiert werden kann, zu einem Leistungspegel der Teilbandkomponente im Band i ist.

23. System nach einem der Ansprüche 20 bis 22, wobei das Mittel zum Auftrennen eine Filterbank umfaßt, die eine Menge von n Filtern umfaßt, wobei das Ausgangssignal jedes Filters eine jeweilige Teilbandsignalkomponente ist.

24. System nach einem der Ansprüche 20 bis 23, wobei die Nebeninformationen eine Menge von n Verstärkungswerten umfassen.

25. System nach einem der Ansprüche 20 bis 23, wobei die Nebeninformationen eine Menge von Meßwerten umfassen, wobei jeder Meßwert einen Leistungspegel einer Teilbandkomponente eines Eingangssignals wiedergibt, wobei das Eingangssignal codiert wurde, um das codierte Signal zu bilden.