DE69529393T2 - Verfahren zur gewichteten Geräuschfilterung - Google Patents
Verfahren zur gewichteten GeräuschfilterungInfo
- Publication number
- DE69529393T2 DE69529393T2 DE69529393T DE69529393T DE69529393T2 DE 69529393 T2 DE69529393 T2 DE 69529393T2 DE 69529393 T DE69529393 T DE 69529393T DE 69529393 T DE69529393 T DE 69529393T DE 69529393 T2 DE69529393 T2 DE 69529393T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- subband
- component
- noise
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001914 filtration Methods 0.000 title description 6
- 230000000873 masking effect Effects 0.000 claims abstract description 47
- 238000013139 quantization Methods 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000005259 measurement Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft die Rauschgewichtungsfilterung in einem Kommunikationssystem.
- Durch Fortschritte in digitalen Netzen wie zum Beispiel ISDN (diensteintegriertes digitales Netzwerk) hat das Interesse an Telekonferenzen und der Übertragung von Bild und Ton mit hoher Qualität wieder zugenommen. Im Zeitalter der Kompaktdiscs und des hochauflösenden Fernsehens umfaßt der Trend zu immer besserer Wiedergabetreue nunmehr auch das Telefon.
- Außer dem reinen Vergnügen des Zuhörens werden insbesondere in der Geschäftswelt besser klingende Telefone benötigt. Das traditionelle Fernsprechen, das auf eine Bandbreite von 300 bis 3400 Hz zur Übertragung von Schmalbandsprache beschränkt ist, strengt die Zuhörer oft über die Länge eines Telefongesprächs hinweg an. Andererseits bietet Breitbandsprache im Bereich von 50-7000 Hz dem Zuhörer mehr Präsenz (aufgrund des Sendens und Empfangens von Signalen im Bereich von 50-300 Hz) und bessere Verständlichkeit (aufgrund des Sendens und Empfangens von Signalen im Bereich von 3000-7000 Hz) und ist über lange Zeiträume hinweg leicht tolerierbar. Breitbandsprache ist also eine natürliche Wahl zur Verbesserung der Qualität des Fernsprechdienstes.
- Um Sprache (entweder breitbandig oder schmalbandig) über das Fernsprechnetz zu senden, muß ein Eingangssprachsignal, das als eine stetige Funktion einer stetigen Zeitvariablen gekennzeichnet werden kann, in ein Digitalsignal umgesetzt werden, d. h. ein Signal, das sowohl bezüglich Zeit als auch Amplitude diskret ist. Die Umsetzung ist ein zweischrittiger Prozeß. Als erstes wird das Eingangssprachsignal zeitlich periodisch abgetastet (d. h. mit einer bestimmten Rate), um eine Sequenz von Abtastwerten zu erzeugen, wobei die Abtastwerte ein Kontinuum von Werten annehmen. Dann werden die Werte zu einer endlichen Menge von Werten quantisiert, die durch binäre Ziffern -(Bit) dargestellt werden, um das Digitalsignal zu erhalten. Das Digitalsignal ist durch eine Bitrate gekennzeichnet, d. h. eine vorgegebene Anzahl von Bit pro Sekunde, die wiedergibt, wie oft das Eingangssignal abgetastet wurde und wieviele Bit zur Quantisierung der abgetasteten Werte verwendet wurden.
- Die durch die Übertragung von Breitbandsprache ermöglichte verbesserte Qualität des Fernsprechdienstes erfordert leider jedoch in der Regel eine Übertragung mit höherer Bitrate, wenn nicht das Breitbandsignal ordnungsgemäß codiert wird, d. h. so, daß das Breitbandsignal wesentlich zu einer Darstellung durch weniger Bit komprimiert werden kann, ohne aufgrund von Quantisierungsfehlern offensichtliche Verzerrungen einzuführen. In letzter Zeit verwendeten bestimmte Codierer von Sprache und Audio mit hoher Wiedergabetreue das Konzept, daß Maße des mittleren quadratischen Fehlers der Verzerrung (d. h. Maße der Energiedifferenz zwischen einem Signal und dem Signal nach der Codierung und Decodierung) nicht unbedingt die wahrgenommene Qualität der codierten Signalform beschreiben - kurz, es sind nicht alle Arten von Verzerrung gleichermaßen wahrnehmbar. M. R. Schroeder, B. S. Atal und J. L. Hall, "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear", J. Acous. Soc. Am., Band 66, 1647-1652, 1979. Das Signal/Rausch-Verhältnis zwischen s(t) und -s(t) beträgt zum Beispiel -6 dB, und dennoch kann das Ohr die beiden Signale nicht unterscheiden. Mit einiger Kenntnis darüber, wie das Gehör verschiedene Arten von Rauschen toleriert, war es somit möglich, Codierer zu entwerfen, die die Hörbarkeit - aber nicht unbedingt die Energie - von Quantisierungsfehlern minimieren. Genauer gesagt verwenden diese neueren Codierer ein als Maskierung bekanntes Phänomen des menschlichen Hörens.
- Gehörmaskierung ist ein Begriff, der das Phänomen des menschlichen Hörens beschreibt, durch das ein Klang einen anderen überdeckt oder übertönt. Ein gewöhnliches Beispiel ist das Geräusch eines Automotors, das übertönt wird, wenn die Lautstärke des Autoradios hoch genug ist. Ähnlich ist, wenn man sich unter der Dusche befindet und einen Telefonanruf verpaßt, der Grund, daß das Geräusch der Dusche das Geräusch des Klingelns des Telefons maskiert; wenn die Dusche nicht gelaufen wäre, hätte man das Klingeln gehört. Im Fall eines Codierers wird durch den Codierer eingeführtes Rauschen (Rauschen des "Codierers" oder der "Quantisierung") durch das ursprüngliche Signal maskiert und es ergibt sich also eine wahrnehmungsbezogene verlustlose (oder transparente) Komprimierung, wenn der Codierer das Quantisierungsrauschen so formt, daß es zu allen Zeiten vollständig durch das ursprüngliche Signal maskiert wird. In der Regel muß dafür das Codierungsrauschen ungefähr dieselbe spektrale Form wie das Signal aufweisen, da das Ausmaß der Maskierung in einem gegebenen Frequenzband ungefähr von der Signalenergiemenge in diesem Band abhängt. P. Kroon und B. S. Atal "Predictive Coding of Speech Using Analysis- by-Synthesis Techniques" in Advances in Speech Signal Processing (S. Furui und M. M. Sondhi, Hrsg.) Marcel Dekker, Inc., New York, 1992.
- Bisher gab es zwei verschiedene Ansätze für die wahrnehmungsbezogene verlustlose Komprimierung, die jeweils zwei kommerziell signifikanten Audioquellen und ihren verschiedenen Eigenschaften entsprechen: Kompakt- Disc-/Hifi-Musik und Breitbandsprache (50-7000 Hz). Hifi-Musik eignete sich aufgrund ihrer größeren spektralen Komplexität gut für einen ersten Ansatz der Verwendung von Transformationscodierungsstrategien.
- J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Criteria", IEEE J. Sel. Areas in Comm., 314- 323, Juni 1988; B. S. Atal und M. R. Schroeder, "Predictive Coding of Speech Signals and Subjective Error Criteria" IEEE Trans. ASSP, 247-254, Juni 1979. Auf dem Gebiet der Sprachverarbeitung hat sich dagegen ein zweiter Ansatz als erfolgreich erwiesen, der auf Zeit basierende Maskierungsverfahren verwendet, z. B. codeerregte linear-prädiktive Codierung (CELP) und CELP mit geringer Verzögerung (LD-CELP). E. Ordentlich und Y. Shoham, "Low Delay Code-Excited Linear Predictive Coding of Wideband Speech at 32 Kbps", Proc. ICASSP, 1991; J. H. Chen, "A Robust, Low-Delay CELP Speech Coder at 16 Kb/s", GLOBECOM 89, Band 2, 1237-1240, 1989.
- Die zwei Ansätze verwenden verschiedene Techniken zur Formung von Quantisierungsrauschen, um Maskierungseffekte auszunutzen. Transformationscodierer verwenden eine Technik, bei der für jeden Rahmen eines Audiosignals ein Codierer versucht, a priori die wahrnehmungsbezogene Schwelle des Rauschens zu berechnen. Diese Schwelle ist in der Regel als ein Signal/Rausch-Verhältnis charakterisiert, wobei für eine gegebene Signalleistung das Verhältnis durch den Pegel der zu dem Signal hinzugefügten Rauschleistung, der die Schwelle erreicht, bestimmt wird. Eine häufig verwendete wahrnehmungsbezogene Schwelle, die als ein Leistungsspektrum gemessen wird, ist als die gerade wahrnehmbare Differenz (JND just-noticeable difference) bekannt, da sie das meiste Rauschen darstellt, das zu einem gegebenen Audiorahmen hinzugefügt werden kann, ohne wahrnehmbare Verzerrungen einzuführen. Die Berechnung der wahrnehmungsbezogenen Schwelle, die ausführlich in Johnston, supra, beschrieben wird, verwendet Rauschmaskierungsmodelle, die von Schroeder, supra, mittels psychoakustischer Experimente entwickelt wurden. Somit ist das Quantisierungsrauschen bei auf JND basierenden Systemen gut an bekannte Eigenschaften des Ohrs angepaßt. Frequenzbereichs- oder Transformationscodierer können JND-Spektren als Maß der minimalen Wiedergabetreue und deshalb der minimalen Anzahl von Bit verwenden, die zur Darstellung jeder Spektralkomponente erforderlich ist, so daß das codierte Ergebnis nicht von dem Original unterschieden werden kann.
- Auf Zeit basierende Maskierungsverfahren mit linearprädiktiver Codierung haben andere Techniken verwendet. Das durch linear-prädiktive Sprachcodierer eingeführte Quantisierungsrauschen ist annähernd weiß, solange der Prädiktor eine ausreichend hohe Ordnung aufweist und eine Tonhöhenschleife enthält. B. Scharf, "Complex Sounds and Critical Bands" Psychol. pull., Band 58, 205-217, 1961; N. S. Jayant und P. Noll, Digital Coding of Waveforms, Prentice-Hall, Englewood Cliffs, NJ, 1984. Da Sprachspektren gewöhnlich nicht flach sind, können diese Verzerrungen jedoch in Bereichen zwischen Formanten oder bei hohen Frequenzen, in denen die Rauschleistung größer als die Sprachleistung sein kann, relativ hörbar werden. Im Fall von Breitbandsprache mit ihrem extremen spektralen Dynamikumfang (bis zu 100 dB) führt die Fehlanpassung zwischen Rauschen und Signal zu starken hörbaren Defekten.
- Eine Lösung für die Probleme der auf Zeit basierenden Maskierungsverfahren besteht darin, das Signal durch ein Filter mit Rauschgewichtung (oder wahrnehmungsbezogener Verweißung) zu filtern, das so ausgelegt ist, daß es mit dem Spektrum der JND übereinstimmt. Bei derzeitigen CELP-Systemen wird das Rauschgewichtungsfilter mathematisch aus dem Invers- Filter des linear-prädiktiven Codes (LPC) des Systems so abgeleitet, daß Codierungsverzerrungen in den Formantbereichen konzentriert werden, in denen die Sprachleistung größer ist. Diese Lösung führt zwar zu Verbesserungen bei tatsächlichen Systemen, hat aber zwei wichtige Unzulänglichkeiten. Da das Rauschgewichtungsfilter direkt von dem LPC-Filter abhängt, kann es erstens nicht so genau wie die LPC- Analyse selbst sein. Zweitens ist die spektrale Form des Rauschgewichtungsfilters nur eine grobe Approximation des tatsächlichen JND-Spektrums und hat nichts mit jeglicher relevanten Kenntnis, wie zum Beispiel psychoakustischen Modellen oder Experimenten, zu tun.
- Aus EP-A-0 240 330 ist ein Verfahren bekannt, das Rauschpegel bei der Spracherkennung in Betracht zieht. Ein Mikrofon erreichende Signale werden digitalisiert und durch eine Filterbank geleitet, um in Frequenzkanäle aufgetrennt zu werden. Für jeden Kanal werden Messungen der "Distanz", auf denen Erkennung basiert, abgeleitet. Wenn das Signal in einem Kanal über dem Rauschen liegt, dann bestimmt die Erkennungsvorrichtung aus dem negativen Logarithmus einer Wahrscheinlichkeitsdichtefunktion die Distanz, wenn jedoch ein Kanalsignal unter dem Rauschen liegt, dann wird die Distanz aus dem negativen Logarithmus der kumulativen Distanz der Wahrscheinlichkeitsdichtefunktion zu dem Rauschpegel bestimmt.
- Aus WO-A-9611467 (Stand der Technik wenn überhaupt nur wegen Art. 54(3) EPC) ist ein Verfahren bekannt, bei dem der erste Schritt zur Berechnung eines Signal- Masken-Verhältnisses für ein Teilband in einem Teilband-Audiocodierer das Berechnen eines Signalpegels für jedes Teilband auf der Grundlage eines Audiorahmens ist. Danach wird für das bestimmte Teilband auf der Grundlage der Signalpegel, einer Offsetfunktion und einer Gewichtungsfunktion der Maskierungspegel berechnet.
- Aus EP-A-0 289 080 ist ein System zur Teilbandcodierung eines digitalen Audiosignals bekannt, das im Codierer eine Filterbank zum Aufzweigen des Audiosignalbands mit Abtastratenreduktion zu gegenüberliegenden ungefähr kritischer Bandbreite und im Decodierer eine Filterbank zum Zusammenführen dieser Teilbänder mit Abtastratenzunahme enthält. Für jedes Teilband umfaßt der Codierer einen Detektor zur Bestimmung eines Parameters, der den Signalpegel in einem Block von M Abtastwerten des Teilbandsignals darstellt, sowie einen Quantisierer zum adaptiven Blockieren der Quantisierung dieses Teilbandsignals als Reaktion auf einen Parameter, und der Decodierer umfaßt einen Entquantisierer zum adaptiven Blockieren der Entquantisierung des quantisierten Teilbandsignals als Reaktion auf Parameter.
- Codierungs- und Decodierungsverfahren und ein Decodierungssystem gemäß der Erfindung werden in den unabhängigen Ansprüchen definiert. Bevorzugte Formen werden in den abhängigen Ansprüchen definiert.
- Gemäß der Erfindung dient vorteilhafterweise eine Maskierungsmatrix zur Steuerung einer Quantisierung eines Eingangssignals. Die Maskierungsmatrix ist von dem Typ, der in der europäischen Patentanmeldung EP-A- 720 146 beschrieben wird. Bei einer bevorzugten Ausführungsform wird das Eingangssignal in eine Menge von Teilbandsignalkomponenten aufgetrennt und die Quantisierung des Eingangssignals wird als Reaktion auf Steuersignale gesteuert, die auf der folgenden Basis erzeugt werden: a) dem Leistungspegel in jeder Teilbandsignalkomponente und b) der Maskierungsmatrix. Bei konkreten Ausführungsformen der Erfindung dienen die Steuersignale zur Steuerung der Quantisierung des Eingangssignals durch Zuteilen einer Menge von Quantisierungsbit unter einer Menge von Quantisierern. Bei anderen Ausführungsformen dienen die Steuersignale zur Steuerung der Quantisierung durch Vorverarbeitung des zu quantisierenden Eingangssignals durch Multiplizieren von Teilbandsignalkomponenten des Eingangssignals mit jeweiligen Verstärkungsparametern, um so das Spektrum des zu quantisierenden Signals zu formen. In jedem Fall erreicht der Pegel des Quantisierungsrauschens in dem resultierenden quantisierten Signal die wahrnehmungsbezogene Schwelle des Rauschens, die bei dem Prozeß des Ableitens der Maskierungsmatrix verwendet wurde.
- Aus der folgenden ausführlichen Beschreibung in Verbindung mit den Zeichnungen werden Vorteile der Erfindung ersichtlich werden. Es zeigen:
- Fig. 1 ein Blockschaltbild eines Kommunikationssystems, in dem das erfindungsgemäße Verfahren ausgeübt werden kann.
- Fig. 2 ein Blockschaltbild des erfindungsgemäßen Rauschgewichtungsfilters in einem Kommunikationssystem.
- Fig. 3 ein Blockschaltbild des Analyse-durch-Synthese- Codierers und -Decodierers, der das erfindungsgemäße Rauschgewichtungsfilter enthält.
- Fig. 4 ein Blockschaltbild eines Teilbandcodierers und -Decodierers, wobei das erfindungsgemäße Rauschgewichtungsfilter zur Zuteilung von Quantisierungsbit verwendet wird.
- Fig. 5 ein Blockschaltbild des erfindungsgemäßen Rauschgewichtungsfilters, wobei zur Zuteilung von Quantisierungsbit keine Verstärkung verwendet wird.
- Fig. 1 ist ein Blockschaltbild eines Systems, in dem das erfindungsgemäße Verfahren zur Rauschgewichtungsfilterung verwendet werden kann. Ein Sprachsignal wird in das Rauschgewichtungsfilter 120 eingegeben, das das Spektrum des Signals so filtert, daß die wahrnehmungsbezogene Maskierung des durch den Sprachcodierer 130 eingeführten Quantisierungsrauschens vergrößert wird. Das Ausgangssignal des Rauschgewichtungsfilters 120 wird in den Sprachcodierer 130 eingegeben, wie auch jegliche Informationen, die als Nebeninformationen übertragen werden müssen (siehe unten). Der Sprachcodierer 130 kann entweder ein Frequenzbereichs- oder Zeitbereichscodierer sein. Der Sprachcodierer 130 erzeugt einen Bitstrom, der dann in einen Kanalcodierer 140 eingegeben wird, der den Bitstrom zur Übertragung über den Kanal 145 codiert. Der empfangene codierte Bitstrom wird dann in den Kanaldecodierer 150 eingegeben, um einen decodierten Bitstrom zu erzeugen. Der decodierte Bitstrom wird dann in den Sprachdecodierer 160 eingegeben. Der Sprachdecodierer 160 gibt Schätzungen des gewichteten Sprachsignals und Nebeninformationen aus, die in das Invers-Rauschgewichtungsfilter 170 eingegeben werden, um eine Schätzung des Sprachsignals zu erzeugen.
- Das erfindungsgemäße Verfahren erkennt, daß eine Kenntnis von Sprachmaskierungseigenschaften für eine bessere Codierung eines Eingangssignals verwendet werden kann. Insbesondere kann eine solche Kenntnis zum Filtern des Eingangssignals verwendet werden, dergestalt, daß durch einen Sprachcodierer eingeführtes Quantisierungsrauschen verringert wird. Zum Beispiel kann die Kenntnis in Teilbandcodierern verwendet werden. In Teilbandcodierern wird ein Eingangssignal zum Beispiel durch eine Filterbank in Teilbandkomponenten zerlegt, und jede Teilbandkomponente wird dann in einem Teilbandquantisierer quantisiert, d. h. das Kontinuum von Werten der Teilbandkomponente wird zu einer endlichen Menge von Werten quantisiert, die durch eine vorgegebene Anzahl von Quantisierungsbit dargestellt werden. Wie unten gezeigt wird, kann man eine Kenntnis von Sprachmaskierungseigenschaften zum Zuteilen der vorgegebenen Anzahl von Quantisierungsbit unter dem Teilbandquantisierer verwenden, d. h. es werden mehr Quantisierungsbit (und somit weniger Quantisierungsrauschen) den Quantisierern zugeteilt, die den Teilbandkomponenten eines Eingangssprachsignals zugeordnet sind, in denen ohne richtige Zuteilung das Quantisierungsrauschen am stärksten wahrnehmbar wäre.
- Gemäß der vorliegenden Erfindung wird vorteilhafterweise eine Maskierungsmatrix zur Erzeugung von Signalen verwendet, die die Quantisierung eines Eingangssignals steuern. Die Steuerung der Quantisierung des Eingangssignals kann durch Steuern von Parametern eines Quantisierers erzielt werden, wie zum Beispiel durch Steuern der Anzahl verfügbarer Quantisierungsbit oder durch Zuteilen von Quantisierungsbit unter Teilbandquantisierern. Die Steuerung der Quantisierung des Eingangssignals kann auch durch Vorverarbeiten des Eingangssignals erzielt werden, um das Eingangssignal so zu formen, daß das quantisierte vorverarbeitete Eingangssignal bestimmte gewünschte Eigenschaften aufweist. Zum Beispiel können die Teilbandkomponenten des Eingangssignals mit Verstärkungsparametern multipliziert werden, so daß das während der Quantisierung eingeführte Rauschen wahrnehmungsbezogen weniger wahrnehmbar ist. In jedem Fall erreicht der Pegel des Quantisierungsrauschens in dem resultierenden quantisierten Signal die wahrnehmungsbezogene Schwelle des Rauschens, die beim Prozeß des Ableitens der Maskierungsmatrix verwendet wurde. Bei dem erfindungsgemäßen Verfahren wird das Eingangssignal in eine Menge von n Teilbandsignalkomponenten aufgetrennt und die Maskierungsmatrix ist eine n · n-Matrix, wobei jedes Element qi,j die Menge (Leistung) des Rauschens in dem Band j darstellt, die zu der Signalkomponente i hinzugefügt werden kann, um so eine Maskierungsschwelle zu erreichen. Somit umfaßt die Maskierungsmatrix Q Kenntnis über Sprachmaskierungseigenschaften. Die zur Steuerung der Quantisierung der Eingangssignale verwendeten Signale sind eine Funktion der Maskierungsmatrix und der Leistung in den Teilbandsignalkomponenten.
- Fig. 2 zeigt eine erste Ausführungsform des erfindungsgemäßen Rauschgewichtungsfilters 120 im Kontext des Systems von Fig. 1. Die Quantisierung erfolgt insofern mit offener Schleife, als das Rauschgewichtungsfilter 120 nicht Teil des Quantisierungsprozesses in dem Sprachcodierer 130 ist. Das Sprachsignal wird in das Rauschgewichtungsfilter 120 eingegeben und an eine Filterbank angelegt, die n Filter 121-i, i = 1, 2, ... n umfaßt. Jedes Filter 121- i ist durch eine jeweilige Übertragungsfunktion Hi(z) gekennzeichnet. Das Ausgangssignal jedes Filters 121-i ist die jeweilige Teilbandkomponente si. Die Leistung pi in den jeweiligen Ausgangskomponentensignalen wird durch Leistungsmaße 122-i gemessen, und die Maße werden in einen Maskierungsprozessor 124 eingegeben. Die Leistung des Eingangssprachsignals wird als P = pi bezeichnet.
- Der Maskierungsprozessor 124 bestimmt, wie jede Teilbandkomponente si des Spracheingangssignals mit einem jeweiligen Verstärkungssignal gi eingestellt wird, so daß das durch den Sprachcodierer 130 hinzugefügte Rauschen wahrnehmungsbezogen weniger wahrnehmbar ist, wenn es im Empfänger invers gefiltert wird. Die Leistung in dem gewichteten Sprachsignal ist Pw = pig . Das gewichtete Sprachsignal wird durch den Sprachcodierer 130 codiert, und außerdem werden die Verstärkungsparameter durch den Sprachcodierer 130 als Nebeninformationen zur Verwendung durch das Invers- Rauschgewichtungsfilter 170 codiert.
- Die Verstärkungssignale gi, i = 1, 2, ... n werden durch den Maskierungsprozessor 124 bestimmt. Man beachte, daß die gi's insofern einen Freiheitsgrad von einem Skalenfaktor aufweisen, als alle gi's mit einer festen Konstante multipliziert werden können, und das Ergebnis gleichbleibt, d. h. wenn man γg&sub1;, γg&sub2; ... γgn wählen würde, dann würde das Invers-Filter 170 einfach die jeweiligen Teilbänder mit 1/γg&sub1;, 1/γg&sub2; ... 1/γgn multiplizieren, um die Schätzung des Sprachsignals zu erzeugen. Vereinfacht ausgedrückt wird also zweckmäßig angenommen, daß die gi's als leistungserhaltend gewählt werden:
- Pw = pig . = P
- An diesem Punkt ist es vorteilhaft, Notation zur Beschreibung der Funktionsweise des Maskierungsprozessors 124 zu definieren. Insbesondere wird Vp als der Vektor von Eingangsleistungen aus den Leistungsmaßen 122-i definiert.
- Der Maskierungsprozessor 124 kann außerdem auf Elemente gi,j der Maskierungsmatrix Q zugreifen. Die Elemente können in einer Speichervorrichtung gespeichert werden (z. B. in einem Nur-Lese-Speicher oder einem Lese-und- Schreibspeicher), die entweder in dem Maskierungsprozessor 124 enthalten ist, oder auf die der Maskierungsprozessor 124 zugreift. Jedes qi,j stellt die Menge an Rauschen in dem Band j dar, die zu der Signalkomponente i hinzugefügt werden kann, um eine Maskierungsschwelle zu erreichen. Ein Verfahren, das beschreibt, wie man die Q-Maskierungsmatrix erhält, wird in der oben angeführten EP-A-720 146 offengelegt. An diesem Punkt ist es zweckmäßig, zu bemerken, daß es vorteilhaft ist, daß die Eigenschaften der Filterbank 121 mit den Eigenschaften einer Filterbank identisch sind, die zur Bestimmung der Q-Matrix verwendet wird (siehe die gleichzeitig anhängige Anmeldung, supra).
- Der Vektor W&sub0; ist der "ideale" oder gewünschte Rauschpegelvektor, der die Maskierungsschwelle approximiert, die zur Gewinnung von Werten für die Q- Matrix verwendet wurde.
- Der Vektor W stellt die tatsächlichen Rauschleistungen im Empfänger dar, d. h.
- Der Vektor W ist eine Funktion der gewichteten Sprachleistung Pw, der Verstärkungen und eines Quantisiererfaktors β. Der Quantisiererfaktor ist eine Funktion des konkreten Codierertyps und der Anzahl von Bit, die zum Quantisieren von Signalen in jedem Band zugeteilt werden.
- Das Ziel ist, daß W bis auf einen Skalierungsfaktor α gleich W&sub0; wird, d. h. die Form der beiden Rauschleistungsvektoren sollte dieselbe sein. Also gilt
- W = αW&sub0; = αQVp
- Nach Einsetzen der Variablen und Auflösen auf die Verstärkungen erhält man
- Man beachte:
- und Einsetzen ergibt
- Um die Verstärkungen gi zu bestimmen, muß das Rauschgewichtungsfilter also die Teilbandleistungen pi messen und die Gesamteingangsleistung P bestimmen. Dann wird der Rauschvektor W&sub0; mit Gleichung (1) berechnet und Gleichung (2) wird dann zur Bestimmung der Verstärkungen verwendet. Der Maskierungsprozessor erzeugt dann Verstärkungssignale zur Skalierung der Teilbandsignale. Die Verstärkungen müssen bei dieser Ausführungsform in bestimmter Form als Nebeninformationen übertragen werden, um die Entzerrung der codierten Sprache während der Decodierung rückgängig zu machen.
- Fig. 3 zeigt das erfindungsgemäße Rauschformungsfilter in einem Analyse-durch-Synthese-System wie zum Beispiel CELP, mit geschlossener Schleife. Man beachte, daß die Filterbank 321 und der Maskierungsprozessor 324 die Stelle des Rauschgewichtungsfilters W(z) in einem traditionellen CELP-System eingenommen haben. Man beachte außerdem, daß keine zusätzlichen Nebeninformationen übertragen werden müssen, weil die Rauschgewichtung in einer geschlossenen Schleife ausgeführt wird.
- Fig. 4 zeigt eine weitere Ausführungsform der Erfindung, die auf einer Teilbandcodierung basiert, bei der jedes Teilband seinen eigenen Quantisierer 430-i aufweist. Bei dieser Konfiguration dient das Rauschgewichtungsfilter 120 zur Formung des Spektrums des Eingangssignals und zur Erzeugung eines Steuersignals zum Zuteilen von Quantisierungsbit. Der Bitzuteiler 440 verwendet die gewichteten Signale zur Bestimmung, wieviele Bit in jedem Teilbandquantisierer 430-i zur Quantisierung von gisi verwendet werden können. Das Ziel ist, Bit so zuzuteilen, daß alle Quantisierer dieselbe Rauschleistung erzeugen. Es sei Bi der Teilbandquantisiererfaktor des i-ten Quantisierers. Die Bitzuteilungsprozedur bestimmt Bi für alle i so, daß Bi Piqi eine Konstante ist. Der Grund dafür besteht darin, daß für alle 1 die gewichtete Sprache in allen Bändern gleich wichtig ist.
- Fig. 5 ist ein Blockschaltbild eines Rauschgewichtungsfilters ohne Verstärkung (d. h. alle gi's = 1), mit dem ein Steuersignal zum Zuteilen von Quantisierungsbit erzeugt wird. Bei dieser Ausführungsform ist das Ziel, Bit unter den Teilbandquantisierern 530-i so zuzuteilen, daß folgendes gilt:
- βipi = αW0i für alle i
- oder
- Wiederum muß eine bestimmte Aufzeichnung der Bitzuteilung als Nebeninformationen gesendet werden.
- Die vorliegende Offenlegung beschreibt ein Verfahren eine Vorrichtung zur Rauschgewichtungsfilterung. Das Verfahren und die Vorrichtung wurden ohne Bezugnahme auf spezifische Hardware oder Software beschrieben. Stattdessen wurden das Verfahren und die Vorrichtung so beschrieben, daß Fachleute ohne weiteres solche Hardware oder Software, die verfügbar oder bevorzugt sein kann, anpassen können. Obwohl die obige Lehre der vorliegenden Erfindung im Hinblick auf das Filtern von Sprachsignalen erfolgte, ist für Fachleute auf dem Gebiet der digitalen Signalverarbeitung die Anwendbarkeit der Lehre auf andere spezifische Kontexte, z. B. das Filtern von Musiksignalen, Audiosignalen oder Videosignalen, erkennbar.
Claims (25)
1. Verfahren zur Codierung eines Eingangssignals
(120, 130), mit den folgenden Schritten:
Auftrennen (121) des Eingangssignals in eine Menge
von n Teilbandsignalkomponenten (S&sub1;-Sn);
Erzeugen (124) einer Menge von
Verstärkungssignalen (g1-gn) auf der Grundlage der Leistung in
jeder Teilbandsignalkomponente und auf der
Grundlage einer Maskierungsmatrix;
Erzeugen einer Menge multiplizierter
Teilbandsignale durch Multiplizieren jedes
Verstärkungssignals in der Menge von Verstärkungssignalen mit
einer jeweiligen Teilbandkomponente in der Menge
von Teilbandsignalkomponenten; und
Codieren (130) des Eingangssignals auf der
Grundlage einer Kombination der multiplizierten
Teilbandsignale.
2. Verfahren nach Anspruch 1, wobei das
Eingangssignal ein Sprachsignal ist.
3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei
der Schritt des Auftrennens den folgenden Schritt
umfaßt: Anlegen des Eingangssignals an eine
Filterbank, wobei die Filterbank eine Menge von n
Filtern (121) umfaßt, wobei das Ausgangssignal
jedes Filters in der Menge von n Filtern eine
jeweilige Teilbandsignalkomponente in der Menge
von n Teilbandsignalkomponenten ist.
4. Verfahren nach einem der vorhergehenden Ansprüche,
weiterhin mit dem Schritt des Steuerns einer
Quantisierung (130) des Eingangssignals auf der
Grundlage der Menge von Verstärkungssignalen.
5. Verfahren nach Anspruch 4, wobei der Schritt des
Steuerns den Schritt des Zuteilens (440) von
Quantisierungsbit unter einer Menge von n
Quantisierern (430) umfaßt.
6. Verfahren nach einem der vorhergehenden Ansprüche,
wobei die Maskierungsmatrix eine n · n-Matrix ist,
wobei jedes Element qi,j der Maskierungsmatrix das
Verhältnis einer Rauschleistung im Band j, die
maskiert werden kann, zu einer
Teilbandsignalkomponente ist, die durch den Leistungspegel der
Teilbandsignalkomponente im Band i charakterisiert
wird.
7. Verfahren nach Anspruch 6, wobei das Verhältnis
anzeigt, wie gut Sprachsignale Rauschsignale
maskieren.
8. Verfahren nach Anspruch 7, wobei das Verhältnis
auf Messungen von Komponenten im Band i der
Sprachsignale basiert, die Komponenten im Band j
der Rauschsignale maskieren.
9. Verfahren nach Anspruch 1, weiterhin mit dem
Schritt des Erzeugens eines transformierten
Signals durch Quantisieren des Eingangssignals als
Reaktion auf die Leistungen in jeder
Teilbandsignalkomponente und auf die Maskierungsmatrix,
wobei der Schritt des Erzeugens den Schritt des
Multiplizierens einer jeweiligen der
Teilbandsignalkomponenten mit einem jeweiligen der
Verstärkungssignale in der Menge von
Verstärkungssignalen umfaßt.
10. Verfahren nach Anspruch 9, wobei das
transformierte Signal ein zugeordnetes Spektrum
aufweist und wobei das zugeordnete Spektrum
Komponenten umfaßt, wobei jede Komponente in dem
zugeordneten Spektrum einen Leistungspegel
aufweist und ein Rauschsignal maskiert, wobei das
Rauschsignal ein zugeordnetes Spektrum, das
Komponenten umfaßt, aufweist, wobei jede
Komponente des Spektrums, das dem Rauschsignal
zugeordnet ist, einen zugeordneten Leistungspegel
aufweist und wobei jede Komponente des Spektrums,
das dem Rauschsignal zugeordnet ist, die gleiche
Leistung aufweist.
11. Verfahren nach Anspruch 10, wobei das Verhältnis
des Leistungspegels, der jeder Komponente des
Spektrums zugeordnet ist, das dem transformierten
Signal zugeordnet ist, zu dem Leistungspegel einer
Komponente des Spektrums, das dem Rauschsignal
zugeordnet ist, ein gerade eben wahrnehmbarer
Verzerrungspegel ist.
12. Verfahren nach Anspruch 10, wobei das Verhältnis
des Leistungspegels, der jeder Komponente des
Spektrums zugeordnet ist, das dem transformierten
Signal zugeordnet ist, zu dem Leistungspegel einer
Komponente des Spektrums, das dem Rauschsignal
zugeordnet ist, ein hörbarer, aber nicht lästiger
Pegel ist.
13. Verfahren nach Anspruch 9, wobei das Quantisieren
von einem einzigen Quantisierer durchgeführt wird.
14. Verfahren zur Decodierung eines codierten Signals
(160, 170), mit den folgenden Schritten:
Empfangen (150) eines Signals, das
Nebeninformationen und das codierte Signal umfaßt;
Auftrennen des codierten Signals in eine Menge von
n Teilbandsignalkomponenten;
Multiplizieren jeder Teilbandsignalkomponente mit
einem entsprechenden einer Menge von n
Verstärkungswerten (1/g&sub1;-1/gn), um eine
entsprechende einer Menge von n multiplizierten
Teilbandsignalkomponenten zu erzeugen, wobei die
Menge von n Verstärkungswerten auf den
Nebeninformationen und auf einer Maskierungsmatrix
basiert; und
Kombinieren der n multiplizierten
Teilbandsignalkomponenten, um ein decodiertes
Signal zu erzeugen.
15. Verfahren nach Anspruch 14, wobei das codierte
Signal ein codiertes Sprachsignal ist.
16. Verfahren nach Anspruch 14 oder Anspruch 15, wobei
die Nebeninformationen eine Menge von Meßwerten
umfassen, wobei jeder Meßwert einen Leistungspegel
einer Teilbandkomponente eines Eingangssignals
wiedergibt, wobei das Eingangssignal codiert
wurde, um das codierte Signal zu bilden.
17. Verfahren nach Anspruch 16, wobei die
Maskierungsmatrix eine n · n]-Matrix ist, wobei jedes
Element qi,j der Maskierungsmatrix das Verhältnis
einer Rauschleistung im Band j, die maskiert
werden kann, zu einem Leistungspegel der
Teilbandkomponente im Band i ist.
18. Verfahren nach Anspruch 17, wobei die
Teilbandkomponente ein Ausgangssignal einer Filterbank
ist, die eine Menge von n Filtern umfaßt, wobei
das Ausgangssignal jedes Filters eine jeweilige
Teilbandsignalkomponente ist.
19. Verfahren nach einem der Ansprüche 14 bis 18,
wobei die Nebeninformationen eine Menge von n
Verstärkungswerten
umfassen.
20. System zur Decodierung eines codierten Signals
(160, 170), umfassend:
ein Mittel (150) zum Empfangen eines Signals, das
Nebeninformationen und das codierte Signal umfaßt;
ein Mittel zum Auftrennen des codierten Signals in
eine Menge von n Teilbandsignalkomponenten;
ein Mittel zum Multiplizieren jeder
Teilbandsignalkomponente mit einem entsprechenden einer
Menge von n Verstärkungswerten (1/g&sub1;-1/gn), um eine
entsprechende einer Menge von n multiplizierten
Teilbandsignalkomponenten zu erzeugen, wobei die
Menge von n Verstärkungswerten auf den
Nebeninformationen und auf einer Maskierungsmatrix
basiert; und
ein Mittel zum Kombinieren der n multiplizierten
Teilbandsignalkomponenten, um ein decodiertes
Signal zu erzeugen.
21. System nach Anspruch 20, wobei das codierte Signal
ein codiertes Sprachsignal ist.
22. System nach Anspruch 20 oder Anspruch 21, wobei
die Maskierungsmatrix Q eine n · n]-Matrix ist, wobei
jedes Element qi,j der Maskierungsmatrix das
Verhältnis einer Rauschleistung im Band j, die
maskiert werden kann, zu einem Leistungspegel der
Teilbandkomponente im Band i ist.
23. System nach einem der Ansprüche 20 bis 22, wobei
das Mittel zum Auftrennen eine Filterbank umfaßt,
die eine Menge von n Filtern umfaßt, wobei das
Ausgangssignal jedes Filters eine jeweilige
Teilbandsignalkomponente ist.
24. System nach einem der Ansprüche 20 bis 23, wobei
die Nebeninformationen eine Menge von n
Verstärkungswerten umfassen.
25. System nach einem der Ansprüche 20 bis 23, wobei
die Nebeninformationen eine Menge von Meßwerten
umfassen, wobei jeder Meßwert einen Leistungspegel
einer Teilbandkomponente eines Eingangssignals
wiedergibt, wobei das Eingangssignal codiert
wurde, um das codierte Signal zu bilden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/367,526 US5646961A (en) | 1994-12-30 | 1994-12-30 | Method for noise weighting filtering |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69529393D1 DE69529393D1 (de) | 2003-02-20 |
DE69529393T2 true DE69529393T2 (de) | 2003-08-21 |
Family
ID=23447544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69529393T Expired - Lifetime DE69529393T2 (de) | 1994-12-30 | 1995-12-12 | Verfahren zur gewichteten Geräuschfilterung |
Country Status (5)
Country | Link |
---|---|
US (2) | US5646961A (de) |
EP (1) | EP0720148B1 (de) |
JP (1) | JP3513292B2 (de) |
CA (1) | CA2165351C (de) |
DE (1) | DE69529393T2 (de) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5915235A (en) * | 1995-04-28 | 1999-06-22 | Dejaco; Andrew P. | Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer |
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
JP2891193B2 (ja) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | 広帯域音声スペクトル係数量子化装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
TW477119B (en) * | 1999-01-28 | 2002-02-21 | Winbond Electronics Corp | Byte allocation method and device for speech synthesis |
WO2001030049A1 (fr) * | 1999-10-19 | 2001-04-26 | Fujitsu Limited | Unite de traitement et de reproduction de son vocaux reçus |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
DE10150519B4 (de) * | 2001-10-12 | 2014-01-09 | Hewlett-Packard Development Co., L.P. | Verfahren und Anordnung zur Sprachverarbeitung |
US7050965B2 (en) * | 2002-06-03 | 2006-05-23 | Intel Corporation | Perceptual normalization of digital audio signals |
US7146316B2 (en) * | 2002-10-17 | 2006-12-05 | Clarity Technologies, Inc. | Noise reduction in subbanded speech signals |
AU2003274617A1 (en) * | 2002-11-29 | 2004-06-23 | Koninklijke Philips Electronics N.V. | Audio coding |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US7787541B2 (en) * | 2005-10-05 | 2010-08-31 | Texas Instruments Incorporated | Dynamic pre-filter control with subjective noise detector for video compression |
EP1840875A1 (de) * | 2006-03-31 | 2007-10-03 | Sony Deutschland Gmbh | Signalkodierung und -dekodierung mittels Vor- und Nachverarbeitung |
US7783123B2 (en) * | 2006-09-25 | 2010-08-24 | Hewlett-Packard Development Company, L.P. | Method and system for denoising a noisy signal generated by an impulse channel |
CN101308655B (zh) * | 2007-05-16 | 2011-07-06 | 展讯通信(上海)有限公司 | 一种音频编解码方法与装置 |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US8538749B2 (en) | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466673B (en) * | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
US9202456B2 (en) * | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
CA2899134C (en) * | 2013-01-29 | 2019-07-30 | Frederik Nagel | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information |
US10393784B2 (en) | 2017-04-26 | 2019-08-27 | Raytheon Company | Analysis of a radio-frequency environment utilizing pulse masking |
CN111313864B (zh) * | 2020-02-12 | 2023-04-18 | 电子科技大学 | 一种改进的步长组合仿射投影滤波方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4048443A (en) * | 1975-12-12 | 1977-09-13 | Bell Telephone Laboratories, Incorporated | Digital speech communication system for minimizing quantizing noise |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
GB8608288D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4831624A (en) * | 1987-06-04 | 1989-05-16 | Motorola, Inc. | Error detection method for sub-band coding |
US4802171A (en) * | 1987-06-04 | 1989-01-31 | Motorola, Inc. | Method for error correction in digitally encoded speech |
US5341457A (en) * | 1988-12-30 | 1994-08-23 | At&T Bell Laboratories | Perceptual coding of audio signals |
US4958871A (en) * | 1989-04-17 | 1990-09-25 | Hemans James W | Hand tool for picking up animal droppings |
JPH03117919A (ja) * | 1989-09-30 | 1991-05-20 | Sony Corp | ディジタル信号符号化装置 |
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5367608A (en) * | 1990-05-14 | 1994-11-22 | U.S. Philips Corporation | Transmitter, encoding system and method employing use of a bit allocation unit for subband coding a digital signal |
DE69124005T2 (de) * | 1990-05-28 | 1997-07-31 | Matsushita Electric Ind Co Ltd | Sprachsignalverarbeitungsvorrichtung |
US5365553A (en) * | 1990-11-30 | 1994-11-15 | U.S. Philips Corporation | Transmitter, encoding system and method employing use of a bit need determiner for subband coding a digital signal |
US5911757A (en) * | 1991-05-16 | 1999-06-15 | Seare, Jr.; William J. | Methods and apparatus for transcutaneous access |
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
-
1994
- 1994-12-30 US US08/367,526 patent/US5646961A/en not_active Expired - Lifetime
-
1995
- 1995-12-12 DE DE69529393T patent/DE69529393T2/de not_active Expired - Lifetime
- 1995-12-12 EP EP95309006A patent/EP0720148B1/de not_active Expired - Lifetime
- 1995-12-15 CA CA002165351A patent/CA2165351C/en not_active Expired - Fee Related
- 1995-12-26 JP JP33840995A patent/JP3513292B2/ja not_active Expired - Lifetime
-
1996
- 1996-11-12 US US08/747,953 patent/US5699382A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0720148A1 (de) | 1996-07-03 |
JPH08278799A (ja) | 1996-10-22 |
EP0720148B1 (de) | 2003-01-15 |
CA2165351A1 (en) | 1996-07-01 |
DE69529393D1 (de) | 2003-02-20 |
US5699382A (en) | 1997-12-16 |
CA2165351C (en) | 2000-12-12 |
US5646961A (en) | 1997-07-08 |
JP3513292B2 (ja) | 2004-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69529393T2 (de) | Verfahren zur gewichteten Geräuschfilterung | |
DE69615302T2 (de) | Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters | |
DE69621393T2 (de) | Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens | |
EP2022043B1 (de) | Informationssignalcodierung | |
DE69620967T2 (de) | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter | |
DE60110679T3 (de) | Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz | |
Carnero et al. | Perceptual speech coding and enhancement using frame-synchronized fast wavelet packet transform algorithms | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69401514T2 (de) | Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung | |
CN1838239B (zh) | 一种用于增强信源解码器的设备及方法 | |
DE60120734T2 (de) | Vorrichtung zur erweiterung der bandbreite eines audiosignals | |
DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE60103424T2 (de) | Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden | |
DE69816810T2 (de) | Systeme und verfahren zur audio-kodierung | |
DE69132885T2 (de) | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69923555T2 (de) | Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals | |
DE60319590T2 (de) | Verfahren zur codierung und decodierung von audio mit variabler rate | |
DE60012760T2 (de) | Multimodaler sprachkodierer | |
DE60128479T2 (de) | Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer | |
EP0954909A1 (de) | Verfahren zum codieren eines audiosignals | |
KR20070017524A (ko) | 부호화 장치, 복호화 장치, 및 이들의 방법 | |
DE69932861T2 (de) | Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung | |
DE60131766T2 (de) | Wahrnehmungsbezogen verbesserte codierung akustischer signale | |
DE60124079T2 (de) | Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |