DE69529393T2 - Verfahren zur gewichteten Geräuschfilterung - Google Patents

Verfahren zur gewichteten Geräuschfilterung

Info

Publication number
DE69529393T2
DE69529393T2 DE69529393T DE69529393T DE69529393T2 DE 69529393 T2 DE69529393 T2 DE 69529393T2 DE 69529393 T DE69529393 T DE 69529393T DE 69529393 T DE69529393 T DE 69529393T DE 69529393 T2 DE69529393 T2 DE 69529393T2
Authority
DE
Germany
Prior art keywords
signal
subband
component
noise
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69529393T
Other languages
English (en)
Other versions
DE69529393D1 (de
Inventor
Yair Shoham
Casimir Wierzynski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69529393D1 publication Critical patent/DE69529393D1/de
Publication of DE69529393T2 publication Critical patent/DE69529393T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    Technisches Gebiet
  • Die vorliegende Erfindung betrifft die Rauschgewichtungsfilterung in einem Kommunikationssystem.
  • Allgemeiner Stand der Technik
  • Durch Fortschritte in digitalen Netzen wie zum Beispiel ISDN (diensteintegriertes digitales Netzwerk) hat das Interesse an Telekonferenzen und der Übertragung von Bild und Ton mit hoher Qualität wieder zugenommen. Im Zeitalter der Kompaktdiscs und des hochauflösenden Fernsehens umfaßt der Trend zu immer besserer Wiedergabetreue nunmehr auch das Telefon.
  • Außer dem reinen Vergnügen des Zuhörens werden insbesondere in der Geschäftswelt besser klingende Telefone benötigt. Das traditionelle Fernsprechen, das auf eine Bandbreite von 300 bis 3400 Hz zur Übertragung von Schmalbandsprache beschränkt ist, strengt die Zuhörer oft über die Länge eines Telefongesprächs hinweg an. Andererseits bietet Breitbandsprache im Bereich von 50-7000 Hz dem Zuhörer mehr Präsenz (aufgrund des Sendens und Empfangens von Signalen im Bereich von 50-300 Hz) und bessere Verständlichkeit (aufgrund des Sendens und Empfangens von Signalen im Bereich von 3000-7000 Hz) und ist über lange Zeiträume hinweg leicht tolerierbar. Breitbandsprache ist also eine natürliche Wahl zur Verbesserung der Qualität des Fernsprechdienstes.
  • Um Sprache (entweder breitbandig oder schmalbandig) über das Fernsprechnetz zu senden, muß ein Eingangssprachsignal, das als eine stetige Funktion einer stetigen Zeitvariablen gekennzeichnet werden kann, in ein Digitalsignal umgesetzt werden, d. h. ein Signal, das sowohl bezüglich Zeit als auch Amplitude diskret ist. Die Umsetzung ist ein zweischrittiger Prozeß. Als erstes wird das Eingangssprachsignal zeitlich periodisch abgetastet (d. h. mit einer bestimmten Rate), um eine Sequenz von Abtastwerten zu erzeugen, wobei die Abtastwerte ein Kontinuum von Werten annehmen. Dann werden die Werte zu einer endlichen Menge von Werten quantisiert, die durch binäre Ziffern -(Bit) dargestellt werden, um das Digitalsignal zu erhalten. Das Digitalsignal ist durch eine Bitrate gekennzeichnet, d. h. eine vorgegebene Anzahl von Bit pro Sekunde, die wiedergibt, wie oft das Eingangssignal abgetastet wurde und wieviele Bit zur Quantisierung der abgetasteten Werte verwendet wurden.
  • Die durch die Übertragung von Breitbandsprache ermöglichte verbesserte Qualität des Fernsprechdienstes erfordert leider jedoch in der Regel eine Übertragung mit höherer Bitrate, wenn nicht das Breitbandsignal ordnungsgemäß codiert wird, d. h. so, daß das Breitbandsignal wesentlich zu einer Darstellung durch weniger Bit komprimiert werden kann, ohne aufgrund von Quantisierungsfehlern offensichtliche Verzerrungen einzuführen. In letzter Zeit verwendeten bestimmte Codierer von Sprache und Audio mit hoher Wiedergabetreue das Konzept, daß Maße des mittleren quadratischen Fehlers der Verzerrung (d. h. Maße der Energiedifferenz zwischen einem Signal und dem Signal nach der Codierung und Decodierung) nicht unbedingt die wahrgenommene Qualität der codierten Signalform beschreiben - kurz, es sind nicht alle Arten von Verzerrung gleichermaßen wahrnehmbar. M. R. Schroeder, B. S. Atal und J. L. Hall, "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear", J. Acous. Soc. Am., Band 66, 1647-1652, 1979. Das Signal/Rausch-Verhältnis zwischen s(t) und -s(t) beträgt zum Beispiel -6 dB, und dennoch kann das Ohr die beiden Signale nicht unterscheiden. Mit einiger Kenntnis darüber, wie das Gehör verschiedene Arten von Rauschen toleriert, war es somit möglich, Codierer zu entwerfen, die die Hörbarkeit - aber nicht unbedingt die Energie - von Quantisierungsfehlern minimieren. Genauer gesagt verwenden diese neueren Codierer ein als Maskierung bekanntes Phänomen des menschlichen Hörens.
  • Gehörmaskierung ist ein Begriff, der das Phänomen des menschlichen Hörens beschreibt, durch das ein Klang einen anderen überdeckt oder übertönt. Ein gewöhnliches Beispiel ist das Geräusch eines Automotors, das übertönt wird, wenn die Lautstärke des Autoradios hoch genug ist. Ähnlich ist, wenn man sich unter der Dusche befindet und einen Telefonanruf verpaßt, der Grund, daß das Geräusch der Dusche das Geräusch des Klingelns des Telefons maskiert; wenn die Dusche nicht gelaufen wäre, hätte man das Klingeln gehört. Im Fall eines Codierers wird durch den Codierer eingeführtes Rauschen (Rauschen des "Codierers" oder der "Quantisierung") durch das ursprüngliche Signal maskiert und es ergibt sich also eine wahrnehmungsbezogene verlustlose (oder transparente) Komprimierung, wenn der Codierer das Quantisierungsrauschen so formt, daß es zu allen Zeiten vollständig durch das ursprüngliche Signal maskiert wird. In der Regel muß dafür das Codierungsrauschen ungefähr dieselbe spektrale Form wie das Signal aufweisen, da das Ausmaß der Maskierung in einem gegebenen Frequenzband ungefähr von der Signalenergiemenge in diesem Band abhängt. P. Kroon und B. S. Atal "Predictive Coding of Speech Using Analysis- by-Synthesis Techniques" in Advances in Speech Signal Processing (S. Furui und M. M. Sondhi, Hrsg.) Marcel Dekker, Inc., New York, 1992.
  • Bisher gab es zwei verschiedene Ansätze für die wahrnehmungsbezogene verlustlose Komprimierung, die jeweils zwei kommerziell signifikanten Audioquellen und ihren verschiedenen Eigenschaften entsprechen: Kompakt- Disc-/Hifi-Musik und Breitbandsprache (50-7000 Hz). Hifi-Musik eignete sich aufgrund ihrer größeren spektralen Komplexität gut für einen ersten Ansatz der Verwendung von Transformationscodierungsstrategien.
  • J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Criteria", IEEE J. Sel. Areas in Comm., 314- 323, Juni 1988; B. S. Atal und M. R. Schroeder, "Predictive Coding of Speech Signals and Subjective Error Criteria" IEEE Trans. ASSP, 247-254, Juni 1979. Auf dem Gebiet der Sprachverarbeitung hat sich dagegen ein zweiter Ansatz als erfolgreich erwiesen, der auf Zeit basierende Maskierungsverfahren verwendet, z. B. codeerregte linear-prädiktive Codierung (CELP) und CELP mit geringer Verzögerung (LD-CELP). E. Ordentlich und Y. Shoham, "Low Delay Code-Excited Linear Predictive Coding of Wideband Speech at 32 Kbps", Proc. ICASSP, 1991; J. H. Chen, "A Robust, Low-Delay CELP Speech Coder at 16 Kb/s", GLOBECOM 89, Band 2, 1237-1240, 1989.
  • Die zwei Ansätze verwenden verschiedene Techniken zur Formung von Quantisierungsrauschen, um Maskierungseffekte auszunutzen. Transformationscodierer verwenden eine Technik, bei der für jeden Rahmen eines Audiosignals ein Codierer versucht, a priori die wahrnehmungsbezogene Schwelle des Rauschens zu berechnen. Diese Schwelle ist in der Regel als ein Signal/Rausch-Verhältnis charakterisiert, wobei für eine gegebene Signalleistung das Verhältnis durch den Pegel der zu dem Signal hinzugefügten Rauschleistung, der die Schwelle erreicht, bestimmt wird. Eine häufig verwendete wahrnehmungsbezogene Schwelle, die als ein Leistungsspektrum gemessen wird, ist als die gerade wahrnehmbare Differenz (JND just-noticeable difference) bekannt, da sie das meiste Rauschen darstellt, das zu einem gegebenen Audiorahmen hinzugefügt werden kann, ohne wahrnehmbare Verzerrungen einzuführen. Die Berechnung der wahrnehmungsbezogenen Schwelle, die ausführlich in Johnston, supra, beschrieben wird, verwendet Rauschmaskierungsmodelle, die von Schroeder, supra, mittels psychoakustischer Experimente entwickelt wurden. Somit ist das Quantisierungsrauschen bei auf JND basierenden Systemen gut an bekannte Eigenschaften des Ohrs angepaßt. Frequenzbereichs- oder Transformationscodierer können JND-Spektren als Maß der minimalen Wiedergabetreue und deshalb der minimalen Anzahl von Bit verwenden, die zur Darstellung jeder Spektralkomponente erforderlich ist, so daß das codierte Ergebnis nicht von dem Original unterschieden werden kann.
  • Auf Zeit basierende Maskierungsverfahren mit linearprädiktiver Codierung haben andere Techniken verwendet. Das durch linear-prädiktive Sprachcodierer eingeführte Quantisierungsrauschen ist annähernd weiß, solange der Prädiktor eine ausreichend hohe Ordnung aufweist und eine Tonhöhenschleife enthält. B. Scharf, "Complex Sounds and Critical Bands" Psychol. pull., Band 58, 205-217, 1961; N. S. Jayant und P. Noll, Digital Coding of Waveforms, Prentice-Hall, Englewood Cliffs, NJ, 1984. Da Sprachspektren gewöhnlich nicht flach sind, können diese Verzerrungen jedoch in Bereichen zwischen Formanten oder bei hohen Frequenzen, in denen die Rauschleistung größer als die Sprachleistung sein kann, relativ hörbar werden. Im Fall von Breitbandsprache mit ihrem extremen spektralen Dynamikumfang (bis zu 100 dB) führt die Fehlanpassung zwischen Rauschen und Signal zu starken hörbaren Defekten.
  • Eine Lösung für die Probleme der auf Zeit basierenden Maskierungsverfahren besteht darin, das Signal durch ein Filter mit Rauschgewichtung (oder wahrnehmungsbezogener Verweißung) zu filtern, das so ausgelegt ist, daß es mit dem Spektrum der JND übereinstimmt. Bei derzeitigen CELP-Systemen wird das Rauschgewichtungsfilter mathematisch aus dem Invers- Filter des linear-prädiktiven Codes (LPC) des Systems so abgeleitet, daß Codierungsverzerrungen in den Formantbereichen konzentriert werden, in denen die Sprachleistung größer ist. Diese Lösung führt zwar zu Verbesserungen bei tatsächlichen Systemen, hat aber zwei wichtige Unzulänglichkeiten. Da das Rauschgewichtungsfilter direkt von dem LPC-Filter abhängt, kann es erstens nicht so genau wie die LPC- Analyse selbst sein. Zweitens ist die spektrale Form des Rauschgewichtungsfilters nur eine grobe Approximation des tatsächlichen JND-Spektrums und hat nichts mit jeglicher relevanten Kenntnis, wie zum Beispiel psychoakustischen Modellen oder Experimenten, zu tun.
  • Aus EP-A-0 240 330 ist ein Verfahren bekannt, das Rauschpegel bei der Spracherkennung in Betracht zieht. Ein Mikrofon erreichende Signale werden digitalisiert und durch eine Filterbank geleitet, um in Frequenzkanäle aufgetrennt zu werden. Für jeden Kanal werden Messungen der "Distanz", auf denen Erkennung basiert, abgeleitet. Wenn das Signal in einem Kanal über dem Rauschen liegt, dann bestimmt die Erkennungsvorrichtung aus dem negativen Logarithmus einer Wahrscheinlichkeitsdichtefunktion die Distanz, wenn jedoch ein Kanalsignal unter dem Rauschen liegt, dann wird die Distanz aus dem negativen Logarithmus der kumulativen Distanz der Wahrscheinlichkeitsdichtefunktion zu dem Rauschpegel bestimmt.
  • Aus WO-A-9611467 (Stand der Technik wenn überhaupt nur wegen Art. 54(3) EPC) ist ein Verfahren bekannt, bei dem der erste Schritt zur Berechnung eines Signal- Masken-Verhältnisses für ein Teilband in einem Teilband-Audiocodierer das Berechnen eines Signalpegels für jedes Teilband auf der Grundlage eines Audiorahmens ist. Danach wird für das bestimmte Teilband auf der Grundlage der Signalpegel, einer Offsetfunktion und einer Gewichtungsfunktion der Maskierungspegel berechnet.
  • Aus EP-A-0 289 080 ist ein System zur Teilbandcodierung eines digitalen Audiosignals bekannt, das im Codierer eine Filterbank zum Aufzweigen des Audiosignalbands mit Abtastratenreduktion zu gegenüberliegenden ungefähr kritischer Bandbreite und im Decodierer eine Filterbank zum Zusammenführen dieser Teilbänder mit Abtastratenzunahme enthält. Für jedes Teilband umfaßt der Codierer einen Detektor zur Bestimmung eines Parameters, der den Signalpegel in einem Block von M Abtastwerten des Teilbandsignals darstellt, sowie einen Quantisierer zum adaptiven Blockieren der Quantisierung dieses Teilbandsignals als Reaktion auf einen Parameter, und der Decodierer umfaßt einen Entquantisierer zum adaptiven Blockieren der Entquantisierung des quantisierten Teilbandsignals als Reaktion auf Parameter.
  • Kurze Darstellung der Erfindung
  • Codierungs- und Decodierungsverfahren und ein Decodierungssystem gemäß der Erfindung werden in den unabhängigen Ansprüchen definiert. Bevorzugte Formen werden in den abhängigen Ansprüchen definiert.
  • Gemäß der Erfindung dient vorteilhafterweise eine Maskierungsmatrix zur Steuerung einer Quantisierung eines Eingangssignals. Die Maskierungsmatrix ist von dem Typ, der in der europäischen Patentanmeldung EP-A- 720 146 beschrieben wird. Bei einer bevorzugten Ausführungsform wird das Eingangssignal in eine Menge von Teilbandsignalkomponenten aufgetrennt und die Quantisierung des Eingangssignals wird als Reaktion auf Steuersignale gesteuert, die auf der folgenden Basis erzeugt werden: a) dem Leistungspegel in jeder Teilbandsignalkomponente und b) der Maskierungsmatrix. Bei konkreten Ausführungsformen der Erfindung dienen die Steuersignale zur Steuerung der Quantisierung des Eingangssignals durch Zuteilen einer Menge von Quantisierungsbit unter einer Menge von Quantisierern. Bei anderen Ausführungsformen dienen die Steuersignale zur Steuerung der Quantisierung durch Vorverarbeitung des zu quantisierenden Eingangssignals durch Multiplizieren von Teilbandsignalkomponenten des Eingangssignals mit jeweiligen Verstärkungsparametern, um so das Spektrum des zu quantisierenden Signals zu formen. In jedem Fall erreicht der Pegel des Quantisierungsrauschens in dem resultierenden quantisierten Signal die wahrnehmungsbezogene Schwelle des Rauschens, die bei dem Prozeß des Ableitens der Maskierungsmatrix verwendet wurde.
  • Kurze Beschreibung der Zeichnungen
  • Aus der folgenden ausführlichen Beschreibung in Verbindung mit den Zeichnungen werden Vorteile der Erfindung ersichtlich werden. Es zeigen:
  • Fig. 1 ein Blockschaltbild eines Kommunikationssystems, in dem das erfindungsgemäße Verfahren ausgeübt werden kann.
  • Fig. 2 ein Blockschaltbild des erfindungsgemäßen Rauschgewichtungsfilters in einem Kommunikationssystem.
  • Fig. 3 ein Blockschaltbild des Analyse-durch-Synthese- Codierers und -Decodierers, der das erfindungsgemäße Rauschgewichtungsfilter enthält.
  • Fig. 4 ein Blockschaltbild eines Teilbandcodierers und -Decodierers, wobei das erfindungsgemäße Rauschgewichtungsfilter zur Zuteilung von Quantisierungsbit verwendet wird.
  • Fig. 5 ein Blockschaltbild des erfindungsgemäßen Rauschgewichtungsfilters, wobei zur Zuteilung von Quantisierungsbit keine Verstärkung verwendet wird.
  • Ausführliche Beschreibung
  • Fig. 1 ist ein Blockschaltbild eines Systems, in dem das erfindungsgemäße Verfahren zur Rauschgewichtungsfilterung verwendet werden kann. Ein Sprachsignal wird in das Rauschgewichtungsfilter 120 eingegeben, das das Spektrum des Signals so filtert, daß die wahrnehmungsbezogene Maskierung des durch den Sprachcodierer 130 eingeführten Quantisierungsrauschens vergrößert wird. Das Ausgangssignal des Rauschgewichtungsfilters 120 wird in den Sprachcodierer 130 eingegeben, wie auch jegliche Informationen, die als Nebeninformationen übertragen werden müssen (siehe unten). Der Sprachcodierer 130 kann entweder ein Frequenzbereichs- oder Zeitbereichscodierer sein. Der Sprachcodierer 130 erzeugt einen Bitstrom, der dann in einen Kanalcodierer 140 eingegeben wird, der den Bitstrom zur Übertragung über den Kanal 145 codiert. Der empfangene codierte Bitstrom wird dann in den Kanaldecodierer 150 eingegeben, um einen decodierten Bitstrom zu erzeugen. Der decodierte Bitstrom wird dann in den Sprachdecodierer 160 eingegeben. Der Sprachdecodierer 160 gibt Schätzungen des gewichteten Sprachsignals und Nebeninformationen aus, die in das Invers-Rauschgewichtungsfilter 170 eingegeben werden, um eine Schätzung des Sprachsignals zu erzeugen.
  • Das erfindungsgemäße Verfahren erkennt, daß eine Kenntnis von Sprachmaskierungseigenschaften für eine bessere Codierung eines Eingangssignals verwendet werden kann. Insbesondere kann eine solche Kenntnis zum Filtern des Eingangssignals verwendet werden, dergestalt, daß durch einen Sprachcodierer eingeführtes Quantisierungsrauschen verringert wird. Zum Beispiel kann die Kenntnis in Teilbandcodierern verwendet werden. In Teilbandcodierern wird ein Eingangssignal zum Beispiel durch eine Filterbank in Teilbandkomponenten zerlegt, und jede Teilbandkomponente wird dann in einem Teilbandquantisierer quantisiert, d. h. das Kontinuum von Werten der Teilbandkomponente wird zu einer endlichen Menge von Werten quantisiert, die durch eine vorgegebene Anzahl von Quantisierungsbit dargestellt werden. Wie unten gezeigt wird, kann man eine Kenntnis von Sprachmaskierungseigenschaften zum Zuteilen der vorgegebenen Anzahl von Quantisierungsbit unter dem Teilbandquantisierer verwenden, d. h. es werden mehr Quantisierungsbit (und somit weniger Quantisierungsrauschen) den Quantisierern zugeteilt, die den Teilbandkomponenten eines Eingangssprachsignals zugeordnet sind, in denen ohne richtige Zuteilung das Quantisierungsrauschen am stärksten wahrnehmbar wäre.
  • Gemäß der vorliegenden Erfindung wird vorteilhafterweise eine Maskierungsmatrix zur Erzeugung von Signalen verwendet, die die Quantisierung eines Eingangssignals steuern. Die Steuerung der Quantisierung des Eingangssignals kann durch Steuern von Parametern eines Quantisierers erzielt werden, wie zum Beispiel durch Steuern der Anzahl verfügbarer Quantisierungsbit oder durch Zuteilen von Quantisierungsbit unter Teilbandquantisierern. Die Steuerung der Quantisierung des Eingangssignals kann auch durch Vorverarbeiten des Eingangssignals erzielt werden, um das Eingangssignal so zu formen, daß das quantisierte vorverarbeitete Eingangssignal bestimmte gewünschte Eigenschaften aufweist. Zum Beispiel können die Teilbandkomponenten des Eingangssignals mit Verstärkungsparametern multipliziert werden, so daß das während der Quantisierung eingeführte Rauschen wahrnehmungsbezogen weniger wahrnehmbar ist. In jedem Fall erreicht der Pegel des Quantisierungsrauschens in dem resultierenden quantisierten Signal die wahrnehmungsbezogene Schwelle des Rauschens, die beim Prozeß des Ableitens der Maskierungsmatrix verwendet wurde. Bei dem erfindungsgemäßen Verfahren wird das Eingangssignal in eine Menge von n Teilbandsignalkomponenten aufgetrennt und die Maskierungsmatrix ist eine n · n-Matrix, wobei jedes Element qi,j die Menge (Leistung) des Rauschens in dem Band j darstellt, die zu der Signalkomponente i hinzugefügt werden kann, um so eine Maskierungsschwelle zu erreichen. Somit umfaßt die Maskierungsmatrix Q Kenntnis über Sprachmaskierungseigenschaften. Die zur Steuerung der Quantisierung der Eingangssignale verwendeten Signale sind eine Funktion der Maskierungsmatrix und der Leistung in den Teilbandsignalkomponenten.
  • Fig. 2 zeigt eine erste Ausführungsform des erfindungsgemäßen Rauschgewichtungsfilters 120 im Kontext des Systems von Fig. 1. Die Quantisierung erfolgt insofern mit offener Schleife, als das Rauschgewichtungsfilter 120 nicht Teil des Quantisierungsprozesses in dem Sprachcodierer 130 ist. Das Sprachsignal wird in das Rauschgewichtungsfilter 120 eingegeben und an eine Filterbank angelegt, die n Filter 121-i, i = 1, 2, ... n umfaßt. Jedes Filter 121- i ist durch eine jeweilige Übertragungsfunktion Hi(z) gekennzeichnet. Das Ausgangssignal jedes Filters 121-i ist die jeweilige Teilbandkomponente si. Die Leistung pi in den jeweiligen Ausgangskomponentensignalen wird durch Leistungsmaße 122-i gemessen, und die Maße werden in einen Maskierungsprozessor 124 eingegeben. Die Leistung des Eingangssprachsignals wird als P = pi bezeichnet.
  • Der Maskierungsprozessor 124 bestimmt, wie jede Teilbandkomponente si des Spracheingangssignals mit einem jeweiligen Verstärkungssignal gi eingestellt wird, so daß das durch den Sprachcodierer 130 hinzugefügte Rauschen wahrnehmungsbezogen weniger wahrnehmbar ist, wenn es im Empfänger invers gefiltert wird. Die Leistung in dem gewichteten Sprachsignal ist Pw = pig . Das gewichtete Sprachsignal wird durch den Sprachcodierer 130 codiert, und außerdem werden die Verstärkungsparameter durch den Sprachcodierer 130 als Nebeninformationen zur Verwendung durch das Invers- Rauschgewichtungsfilter 170 codiert.
  • Die Verstärkungssignale gi, i = 1, 2, ... n werden durch den Maskierungsprozessor 124 bestimmt. Man beachte, daß die gi's insofern einen Freiheitsgrad von einem Skalenfaktor aufweisen, als alle gi's mit einer festen Konstante multipliziert werden können, und das Ergebnis gleichbleibt, d. h. wenn man γg&sub1;, γg&sub2; ... γgn wählen würde, dann würde das Invers-Filter 170 einfach die jeweiligen Teilbänder mit 1/γg&sub1;, 1/γg&sub2; ... 1/γgn multiplizieren, um die Schätzung des Sprachsignals zu erzeugen. Vereinfacht ausgedrückt wird also zweckmäßig angenommen, daß die gi's als leistungserhaltend gewählt werden:
  • Pw = pig . = P
  • An diesem Punkt ist es vorteilhaft, Notation zur Beschreibung der Funktionsweise des Maskierungsprozessors 124 zu definieren. Insbesondere wird Vp als der Vektor von Eingangsleistungen aus den Leistungsmaßen 122-i definiert.
  • Der Maskierungsprozessor 124 kann außerdem auf Elemente gi,j der Maskierungsmatrix Q zugreifen. Die Elemente können in einer Speichervorrichtung gespeichert werden (z. B. in einem Nur-Lese-Speicher oder einem Lese-und- Schreibspeicher), die entweder in dem Maskierungsprozessor 124 enthalten ist, oder auf die der Maskierungsprozessor 124 zugreift. Jedes qi,j stellt die Menge an Rauschen in dem Band j dar, die zu der Signalkomponente i hinzugefügt werden kann, um eine Maskierungsschwelle zu erreichen. Ein Verfahren, das beschreibt, wie man die Q-Maskierungsmatrix erhält, wird in der oben angeführten EP-A-720 146 offengelegt. An diesem Punkt ist es zweckmäßig, zu bemerken, daß es vorteilhaft ist, daß die Eigenschaften der Filterbank 121 mit den Eigenschaften einer Filterbank identisch sind, die zur Bestimmung der Q-Matrix verwendet wird (siehe die gleichzeitig anhängige Anmeldung, supra).
  • Der Vektor W&sub0; ist der "ideale" oder gewünschte Rauschpegelvektor, der die Maskierungsschwelle approximiert, die zur Gewinnung von Werten für die Q- Matrix verwendet wurde.
  • Der Vektor W stellt die tatsächlichen Rauschleistungen im Empfänger dar, d. h.
  • Der Vektor W ist eine Funktion der gewichteten Sprachleistung Pw, der Verstärkungen und eines Quantisiererfaktors β. Der Quantisiererfaktor ist eine Funktion des konkreten Codierertyps und der Anzahl von Bit, die zum Quantisieren von Signalen in jedem Band zugeteilt werden.
  • Das Ziel ist, daß W bis auf einen Skalierungsfaktor α gleich W&sub0; wird, d. h. die Form der beiden Rauschleistungsvektoren sollte dieselbe sein. Also gilt
  • W = αW&sub0; = αQVp
  • Nach Einsetzen der Variablen und Auflösen auf die Verstärkungen erhält man
  • Man beachte:
  • und Einsetzen ergibt
  • Um die Verstärkungen gi zu bestimmen, muß das Rauschgewichtungsfilter also die Teilbandleistungen pi messen und die Gesamteingangsleistung P bestimmen. Dann wird der Rauschvektor W&sub0; mit Gleichung (1) berechnet und Gleichung (2) wird dann zur Bestimmung der Verstärkungen verwendet. Der Maskierungsprozessor erzeugt dann Verstärkungssignale zur Skalierung der Teilbandsignale. Die Verstärkungen müssen bei dieser Ausführungsform in bestimmter Form als Nebeninformationen übertragen werden, um die Entzerrung der codierten Sprache während der Decodierung rückgängig zu machen.
  • Fig. 3 zeigt das erfindungsgemäße Rauschformungsfilter in einem Analyse-durch-Synthese-System wie zum Beispiel CELP, mit geschlossener Schleife. Man beachte, daß die Filterbank 321 und der Maskierungsprozessor 324 die Stelle des Rauschgewichtungsfilters W(z) in einem traditionellen CELP-System eingenommen haben. Man beachte außerdem, daß keine zusätzlichen Nebeninformationen übertragen werden müssen, weil die Rauschgewichtung in einer geschlossenen Schleife ausgeführt wird.
  • Fig. 4 zeigt eine weitere Ausführungsform der Erfindung, die auf einer Teilbandcodierung basiert, bei der jedes Teilband seinen eigenen Quantisierer 430-i aufweist. Bei dieser Konfiguration dient das Rauschgewichtungsfilter 120 zur Formung des Spektrums des Eingangssignals und zur Erzeugung eines Steuersignals zum Zuteilen von Quantisierungsbit. Der Bitzuteiler 440 verwendet die gewichteten Signale zur Bestimmung, wieviele Bit in jedem Teilbandquantisierer 430-i zur Quantisierung von gisi verwendet werden können. Das Ziel ist, Bit so zuzuteilen, daß alle Quantisierer dieselbe Rauschleistung erzeugen. Es sei Bi der Teilbandquantisiererfaktor des i-ten Quantisierers. Die Bitzuteilungsprozedur bestimmt Bi für alle i so, daß Bi Piqi eine Konstante ist. Der Grund dafür besteht darin, daß für alle 1 die gewichtete Sprache in allen Bändern gleich wichtig ist.
  • Fig. 5 ist ein Blockschaltbild eines Rauschgewichtungsfilters ohne Verstärkung (d. h. alle gi's = 1), mit dem ein Steuersignal zum Zuteilen von Quantisierungsbit erzeugt wird. Bei dieser Ausführungsform ist das Ziel, Bit unter den Teilbandquantisierern 530-i so zuzuteilen, daß folgendes gilt:
  • βipi = αW0i für alle i
  • oder
  • Wiederum muß eine bestimmte Aufzeichnung der Bitzuteilung als Nebeninformationen gesendet werden.
  • Die vorliegende Offenlegung beschreibt ein Verfahren eine Vorrichtung zur Rauschgewichtungsfilterung. Das Verfahren und die Vorrichtung wurden ohne Bezugnahme auf spezifische Hardware oder Software beschrieben. Stattdessen wurden das Verfahren und die Vorrichtung so beschrieben, daß Fachleute ohne weiteres solche Hardware oder Software, die verfügbar oder bevorzugt sein kann, anpassen können. Obwohl die obige Lehre der vorliegenden Erfindung im Hinblick auf das Filtern von Sprachsignalen erfolgte, ist für Fachleute auf dem Gebiet der digitalen Signalverarbeitung die Anwendbarkeit der Lehre auf andere spezifische Kontexte, z. B. das Filtern von Musiksignalen, Audiosignalen oder Videosignalen, erkennbar.

Claims (25)

1. Verfahren zur Codierung eines Eingangssignals (120, 130), mit den folgenden Schritten:
Auftrennen (121) des Eingangssignals in eine Menge von n Teilbandsignalkomponenten (S&sub1;-Sn);
Erzeugen (124) einer Menge von Verstärkungssignalen (g1-gn) auf der Grundlage der Leistung in jeder Teilbandsignalkomponente und auf der Grundlage einer Maskierungsmatrix;
Erzeugen einer Menge multiplizierter Teilbandsignale durch Multiplizieren jedes Verstärkungssignals in der Menge von Verstärkungssignalen mit einer jeweiligen Teilbandkomponente in der Menge von Teilbandsignalkomponenten; und
Codieren (130) des Eingangssignals auf der Grundlage einer Kombination der multiplizierten Teilbandsignale.
2. Verfahren nach Anspruch 1, wobei das Eingangssignal ein Sprachsignal ist.
3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei der Schritt des Auftrennens den folgenden Schritt umfaßt: Anlegen des Eingangssignals an eine Filterbank, wobei die Filterbank eine Menge von n Filtern (121) umfaßt, wobei das Ausgangssignal jedes Filters in der Menge von n Filtern eine jeweilige Teilbandsignalkomponente in der Menge von n Teilbandsignalkomponenten ist.
4. Verfahren nach einem der vorhergehenden Ansprüche, weiterhin mit dem Schritt des Steuerns einer Quantisierung (130) des Eingangssignals auf der Grundlage der Menge von Verstärkungssignalen.
5. Verfahren nach Anspruch 4, wobei der Schritt des Steuerns den Schritt des Zuteilens (440) von Quantisierungsbit unter einer Menge von n Quantisierern (430) umfaßt.
6. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Maskierungsmatrix eine n · n-Matrix ist, wobei jedes Element qi,j der Maskierungsmatrix das Verhältnis einer Rauschleistung im Band j, die maskiert werden kann, zu einer Teilbandsignalkomponente ist, die durch den Leistungspegel der Teilbandsignalkomponente im Band i charakterisiert wird.
7. Verfahren nach Anspruch 6, wobei das Verhältnis anzeigt, wie gut Sprachsignale Rauschsignale maskieren.
8. Verfahren nach Anspruch 7, wobei das Verhältnis auf Messungen von Komponenten im Band i der Sprachsignale basiert, die Komponenten im Band j der Rauschsignale maskieren.
9. Verfahren nach Anspruch 1, weiterhin mit dem Schritt des Erzeugens eines transformierten Signals durch Quantisieren des Eingangssignals als Reaktion auf die Leistungen in jeder Teilbandsignalkomponente und auf die Maskierungsmatrix, wobei der Schritt des Erzeugens den Schritt des Multiplizierens einer jeweiligen der Teilbandsignalkomponenten mit einem jeweiligen der Verstärkungssignale in der Menge von Verstärkungssignalen umfaßt.
10. Verfahren nach Anspruch 9, wobei das transformierte Signal ein zugeordnetes Spektrum aufweist und wobei das zugeordnete Spektrum Komponenten umfaßt, wobei jede Komponente in dem zugeordneten Spektrum einen Leistungspegel aufweist und ein Rauschsignal maskiert, wobei das Rauschsignal ein zugeordnetes Spektrum, das Komponenten umfaßt, aufweist, wobei jede Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, einen zugeordneten Leistungspegel aufweist und wobei jede Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, die gleiche Leistung aufweist.
11. Verfahren nach Anspruch 10, wobei das Verhältnis des Leistungspegels, der jeder Komponente des Spektrums zugeordnet ist, das dem transformierten Signal zugeordnet ist, zu dem Leistungspegel einer Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, ein gerade eben wahrnehmbarer Verzerrungspegel ist.
12. Verfahren nach Anspruch 10, wobei das Verhältnis des Leistungspegels, der jeder Komponente des Spektrums zugeordnet ist, das dem transformierten Signal zugeordnet ist, zu dem Leistungspegel einer Komponente des Spektrums, das dem Rauschsignal zugeordnet ist, ein hörbarer, aber nicht lästiger Pegel ist.
13. Verfahren nach Anspruch 9, wobei das Quantisieren von einem einzigen Quantisierer durchgeführt wird.
14. Verfahren zur Decodierung eines codierten Signals (160, 170), mit den folgenden Schritten:
Empfangen (150) eines Signals, das Nebeninformationen und das codierte Signal umfaßt;
Auftrennen des codierten Signals in eine Menge von n Teilbandsignalkomponenten;
Multiplizieren jeder Teilbandsignalkomponente mit einem entsprechenden einer Menge von n Verstärkungswerten (1/g&sub1;-1/gn), um eine entsprechende einer Menge von n multiplizierten Teilbandsignalkomponenten zu erzeugen, wobei die Menge von n Verstärkungswerten auf den Nebeninformationen und auf einer Maskierungsmatrix basiert; und
Kombinieren der n multiplizierten Teilbandsignalkomponenten, um ein decodiertes Signal zu erzeugen.
15. Verfahren nach Anspruch 14, wobei das codierte Signal ein codiertes Sprachsignal ist.
16. Verfahren nach Anspruch 14 oder Anspruch 15, wobei die Nebeninformationen eine Menge von Meßwerten umfassen, wobei jeder Meßwert einen Leistungspegel einer Teilbandkomponente eines Eingangssignals wiedergibt, wobei das Eingangssignal codiert wurde, um das codierte Signal zu bilden.
17. Verfahren nach Anspruch 16, wobei die Maskierungsmatrix eine n · n]-Matrix ist, wobei jedes Element qi,j der Maskierungsmatrix das Verhältnis einer Rauschleistung im Band j, die maskiert werden kann, zu einem Leistungspegel der Teilbandkomponente im Band i ist.
18. Verfahren nach Anspruch 17, wobei die Teilbandkomponente ein Ausgangssignal einer Filterbank ist, die eine Menge von n Filtern umfaßt, wobei das Ausgangssignal jedes Filters eine jeweilige Teilbandsignalkomponente ist.
19. Verfahren nach einem der Ansprüche 14 bis 18, wobei die Nebeninformationen eine Menge von n Verstärkungswerten umfassen.
20. System zur Decodierung eines codierten Signals (160, 170), umfassend:
ein Mittel (150) zum Empfangen eines Signals, das Nebeninformationen und das codierte Signal umfaßt;
ein Mittel zum Auftrennen des codierten Signals in eine Menge von n Teilbandsignalkomponenten;
ein Mittel zum Multiplizieren jeder Teilbandsignalkomponente mit einem entsprechenden einer Menge von n Verstärkungswerten (1/g&sub1;-1/gn), um eine entsprechende einer Menge von n multiplizierten Teilbandsignalkomponenten zu erzeugen, wobei die Menge von n Verstärkungswerten auf den Nebeninformationen und auf einer Maskierungsmatrix basiert; und
ein Mittel zum Kombinieren der n multiplizierten Teilbandsignalkomponenten, um ein decodiertes Signal zu erzeugen.
21. System nach Anspruch 20, wobei das codierte Signal ein codiertes Sprachsignal ist.
22. System nach Anspruch 20 oder Anspruch 21, wobei die Maskierungsmatrix Q eine n · n]-Matrix ist, wobei jedes Element qi,j der Maskierungsmatrix das Verhältnis einer Rauschleistung im Band j, die maskiert werden kann, zu einem Leistungspegel der Teilbandkomponente im Band i ist.
23. System nach einem der Ansprüche 20 bis 22, wobei das Mittel zum Auftrennen eine Filterbank umfaßt, die eine Menge von n Filtern umfaßt, wobei das Ausgangssignal jedes Filters eine jeweilige Teilbandsignalkomponente ist.
24. System nach einem der Ansprüche 20 bis 23, wobei die Nebeninformationen eine Menge von n Verstärkungswerten umfassen.
25. System nach einem der Ansprüche 20 bis 23, wobei die Nebeninformationen eine Menge von Meßwerten umfassen, wobei jeder Meßwert einen Leistungspegel einer Teilbandkomponente eines Eingangssignals wiedergibt, wobei das Eingangssignal codiert wurde, um das codierte Signal zu bilden.
DE69529393T 1994-12-30 1995-12-12 Verfahren zur gewichteten Geräuschfilterung Expired - Lifetime DE69529393T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/367,526 US5646961A (en) 1994-12-30 1994-12-30 Method for noise weighting filtering

Publications (2)

Publication Number Publication Date
DE69529393D1 DE69529393D1 (de) 2003-02-20
DE69529393T2 true DE69529393T2 (de) 2003-08-21

Family

ID=23447544

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69529393T Expired - Lifetime DE69529393T2 (de) 1994-12-30 1995-12-12 Verfahren zur gewichteten Geräuschfilterung

Country Status (5)

Country Link
US (2) US5646961A (de)
EP (1) EP0720148B1 (de)
JP (1) JP3513292B2 (de)
CA (1) CA2165351C (de)
DE (1) DE69529393T2 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915235A (en) * 1995-04-28 1999-06-22 Dejaco; Andrew P. Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
US6128593A (en) * 1998-08-04 2000-10-03 Sony Corporation System and method for implementing a refined psycho-acoustic modeler
TW477119B (en) * 1999-01-28 2002-02-21 Winbond Electronics Corp Byte allocation method and device for speech synthesis
WO2001030049A1 (fr) * 1999-10-19 2001-04-26 Fujitsu Limited Unite de traitement et de reproduction de son vocaux reçus
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
US7050965B2 (en) * 2002-06-03 2006-05-23 Intel Corporation Perceptual normalization of digital audio signals
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
AU2003274617A1 (en) * 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7787541B2 (en) * 2005-10-05 2010-08-31 Texas Instruments Incorporated Dynamic pre-filter control with subjective noise detector for video compression
EP1840875A1 (de) * 2006-03-31 2007-10-03 Sony Deutschland Gmbh Signalkodierung und -dekodierung mittels Vor- und Nachverarbeitung
US7783123B2 (en) * 2006-09-25 2010-08-24 Hewlett-Packard Development Company, L.P. Method and system for denoising a noisy signal generated by an impulse channel
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
CA2899134C (en) * 2013-01-29 2019-07-30 Frederik Nagel Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
US10393784B2 (en) 2017-04-26 2019-08-27 Raytheon Company Analysis of a radio-frequency environment utilizing pulse masking
CN111313864B (zh) * 2020-02-12 2023-04-18 电子科技大学 一种改进的步长组合仿射投影滤波方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4048443A (en) * 1975-12-12 1977-09-13 Bell Telephone Laboratories, Incorporated Digital speech communication system for minimizing quantizing noise
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
GB8608288D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US4831624A (en) * 1987-06-04 1989-05-16 Motorola, Inc. Error detection method for sub-band coding
US4802171A (en) * 1987-06-04 1989-01-31 Motorola, Inc. Method for error correction in digitally encoded speech
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US4958871A (en) * 1989-04-17 1990-09-25 Hemans James W Hand tool for picking up animal droppings
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
US5367608A (en) * 1990-05-14 1994-11-22 U.S. Philips Corporation Transmitter, encoding system and method employing use of a bit allocation unit for subband coding a digital signal
DE69124005T2 (de) * 1990-05-28 1997-07-31 Matsushita Electric Ind Co Ltd Sprachsignalverarbeitungsvorrichtung
US5365553A (en) * 1990-11-30 1994-11-15 U.S. Philips Corporation Transmitter, encoding system and method employing use of a bit need determiner for subband coding a digital signal
US5911757A (en) * 1991-05-16 1999-06-15 Seare, Jr.; William J. Methods and apparatus for transcutaneous access
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法

Also Published As

Publication number Publication date
EP0720148A1 (de) 1996-07-03
JPH08278799A (ja) 1996-10-22
EP0720148B1 (de) 2003-01-15
CA2165351A1 (en) 1996-07-01
DE69529393D1 (de) 2003-02-20
US5699382A (en) 1997-12-16
CA2165351C (en) 2000-12-12
US5646961A (en) 1997-07-08
JP3513292B2 (ja) 2004-03-31

Similar Documents

Publication Publication Date Title
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE69615302T2 (de) Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
EP2022043B1 (de) Informationssignalcodierung
DE69620967T2 (de) Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
Carnero et al. Perceptual speech coding and enhancement using frame-synchronized fast wavelet packet transform algorithms
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE69132885T2 (de) CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60012760T2 (de) Multimodaler sprachkodierer
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
EP0954909A1 (de) Verfahren zum codieren eines audiosignals
KR20070017524A (ko) 부호화 장치, 복호화 장치, 및 이들의 방법
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE60124079T2 (de) Sprachverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition