DE60212617T2 - Vorrichtung zur sprachverbesserung - Google Patents

Vorrichtung zur sprachverbesserung Download PDF

Info

Publication number
DE60212617T2
DE60212617T2 DE60212617T DE60212617T DE60212617T2 DE 60212617 T2 DE60212617 T2 DE 60212617T2 DE 60212617 T DE60212617 T DE 60212617T DE 60212617 T DE60212617 T DE 60212617T DE 60212617 T2 DE60212617 T2 DE 60212617T2
Authority
DE
Germany
Prior art keywords
background
frequency
noise
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60212617T
Other languages
English (en)
Other versions
DE60212617D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LSI Corp
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60212617D1 publication Critical patent/DE60212617D1/de
Application granted granted Critical
Publication of DE60212617T2 publication Critical patent/DE60212617T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Massaging Devices (AREA)
  • Vehicle Body Suspensions (AREA)
  • Valve-Gear Or Valve Arrangements (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung zur Sprachverbesserung für die Reduzierung von Hintergrundrauschen, die Folgendes umfasst: eine Zeit-Frequenz-Transformationseinheit zum Transformieren von Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich, Mittel zum Reduzieren von Hintergrundrauschen für die Durchführung einer Rauschminderung im Frequenzbereich und eine Frequenz-Zeit-Transformationseinheit zum Transformieren von Audiosignalen mit vermindertem Rauschem vom Frequenzbereich in den Zeitbereich.
  • Eine derartige Vorrichtung zur Sprachverbesserung kann in einem Sprachcodiersystem beispielsweise für Speicheranwendungen, wie digitale Telefonanrufbeantworter und Sprachnachrichtenanwendungen, für Sprachantwortsysteme wie Navigationssysteme im Fahrzeug und für Kommunikationsanwendungen wie die Sprachübermittlung im Internet eingesetzt werden.
  • Zur Verbesserung der Qualität verrauschter Sprachaufzeichnung muss der Rauschpegel bekannt sein. Für die Aufnahme mit einem einzelnen Mikrofon steht nur die verrauschte Sprache zur Verfügung. Der Rauschpegel muss allein von diesem Signal geschätzt werden. Eine Art der Messung des Rauschens besteht darin, die Bereiche der Aufzeichnung zu nutzen, in denen keine Sprachaktivität auftritt, und das Spektrum der Rahmen von Abtastwerten während der Sprachaktivität mit denjenigen ohne Sprachaktivität zu vergleichen und zu aktualisieren, siehe beispielsweise das Dokument US-A-6.070.137. Das Problem bei diesem Verfahren besteht darin, dass ein Sprachaktivitätsdetektor eingesetzt werden muss. Die Herstellung eines robusten Sprachdetektors, der auch bei relativ hohem Rauschabstand richtig funktioniert, ist schwierig. Ein weiteres Problem besteht darin, dass die Bereiche ohne Sprachativität sehr kurz oder sogar nicht vorhanden sein können. Ist das Rauschen nicht stationär, können sich seine Merkmale während der Sprachaktivität ändern, wodurch dieser Lösungsansatz noch schwieriger wird.
  • Es ist ferner der Einsatz eines statistischen Modells bekannt, das die Varianz jeder spektralen Komponente im Signal misst, ohne eine binäre Auswahl zwischen vorhandener und nicht vorhandener Sprache zu nutzen, siehe das Dokument „Speech Enhance ment Using MMSE Short-Time Spectral Amplitude Estimator" von Malah Ephraim, erschienen in IEEE Trans. on ASSP, Band 32, Nr. 6, im Dezember 1984. Das Problem bei diesem Verfahren besteht darin, dass bei nicht stationärem Hintergrundrauschen die Schätzung auf den am nächsten liegenden Zeitrahmen basieren muss. Bei einer langen Sprachäußerung können manche Bereiche des Sprachspektrums immer über dem tatsächlichen Rauschpegel liegen. Daraus ergibt sich eine falsche Schätzung des Rauschpegels für diese spektralen Bereiche.
  • In dem Dokument US-A-5.706.395 wird ein akustischer Rauschunterdrückungsfilter dargelegt, der Dämpfungsfilterung mit einem Rauschunterdrückungsfaktor umfasst, der von dem Verhältnis der geschätzten Rauschenergie eines Rahmens geteilt durch die geschätzte Signalenergie abhängt.
  • In dem Dokument „Spectral Subtraction Based on Minimum Statistics" von R. Martin, erschienen in Signal Processing VII, 1994, auf den Seiten 1182, 1185 wird ein Algorithmus für die Verbesserung von verrauschten Sprachsignalen mit Hilfe spektraler Subtraktion dargelegt. Ein Schätzwert der Rauschleistung wird mit Hilfe von Minimalwerten eines geglätteten Leistungsschätzwertes des verrauschten Sprachsignals erzielt.
  • Die Aufgabe der Erfindung besteht darin, den Pegel des Hintergrundrauschens bei der Sprachaufzeichnung mit einem einzelnen Mikrofon vorherzusagen, ohne einen Sprachaktivitätsdetektor einzusetzen und mit einer erheblichen Reduzierung falscher Schätzungen des Rauschpegels.
  • Dementsprechend schafft die vorliegende Erfindung eine Vorrichtung zur Sprachverbesserung für die Reduzierung des Hintergrundrauschens, die Folgendes umfasst:
    • – eine Zeit-Frequenz-Transformationseinheit zum Transformieren von Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich,
    • – Mittel zum Reduzieren von Hintergrundrauschen für die Durchführung einer Rauschminderung im Frequenzbereich, und
    • – eine Frequenz-Zeit-Transformationseinheit zum Transformieren von Audiosignalen mit vermindertem Rauschem vom Frequenzbereich in den Zeitbereich, wobei die Mittel zum Reduzieren von Hintergrundrauschen Folgendes umfassen: einen Hintergrundpegel-Aktualisierungsblock, der für jede Frequenzkomponente in einem aktuellen Rahmen der Audiosignale eine vorhergesagte Hintergrundgröße B[k] in Reaktion auf die gemessene Eingangsgröße S[k] von der Zeit-Frequenz-Transformationseinheit und in Reaktion auf die vorher berechnete Hintergrundgröße B-1[k] berechnet; einen Rauschabstandsblock, der für jede der genannten Frequenzkomponenten den Rauschabstand SNR[k] in Reaktion auf die vorhergesagte Hintergrundgröße B[k] und in Reaktion auf die genannte gemessene Eingangsgröße S[k] berechnet; und einen Filteraktualisierungsblock, der für jede der genannten Frequenzkomponenten die Filtergröße F[k] für die genannte gemessene Eingangsgröße S[k] in Reaktion auf den Rauschabstand SNR[k] berechnet, wobei die genannte Vorrichtung dadurch gekennzeichnet ist, dass der Hintergrundpegel-Aktualisierungsblock Folgendes umfasst: eine Speichereinheit um die vorher berechnete Hintergrundgröße B-1[k] zu erhalten, Verarbeitungs- und Komparatormittel zur Aktualisierung der zuvor vorhergesagten Hintergrundgröße entsprechend der Beziehung: B[k] = max{min{B'[k], B''[k]}, Bmin},mit Bmin als dem kleinsten zulässigen Hintergrundpegel, während B'[k] = B-1[k]·U[k] und B''[k] = (B'[k]·D[k]) + (|S[k]|·C·(1 – D[k]))wobei U[k] und D[k] frequenzabhängige Skalierfaktoren sind und C eine Konstante ist.
  • Die Erfindung bezieht sich ferner auf ein Sprachcodiersystem und einen Sprachcodierer für ein derartiges Sprachcodiersystem, insbesondere für ein P2CM-Audiocodiersystem, das mit einer erfindungsgemäßen Vorrichtung zur Sprachverbesserung ausgestattet ist. Insbesondere der Codierer des P2CM-Audiocodiersystems ist mit einem ADPCM-Codierer (adaptive Delta-Pulscodemodulation, engl. adaptive differential pulse code modulation) und einer Vorprozessoreinheit mit der oben genannten Vorrichtung zur Sprachverbesserung versehen.
  • Diese und weitere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 ein grundlegendes Blockschaltbild einer Vorrichtung zur Sprachverbesserung mit einem separaten erfindungsgemäßen Hintergrundrauschen-Subtrahierer (engl. background noise subtractor, BNS);
  • 2 die Rahmen- und Fensterbildung in dem BNS;
  • 3 ein Blockschaltbild der adaptiven Frequenzbereichfilterung in dem BNS;
  • 4 ein Blockschaltbild der Hintergrundpegelaktualisierung in dem BNS;
  • 5 ein Blockschaltbild der Filteraktualisierung in dem BNS; und
  • 6 ein durch Hintergrundrauschen mit dem gemessenen Hintergrundpegel verunreinigtes Sprachsegment und die resultierende Frequenzbereichfilterung.
  • Als Beispiel wird in der Vorrichtung zur Sprachverbesserung das Eingangs-Audiosignal in Rahmen von beispielsweise 10 ms segmentiert. Bei einer Abtastfrequenz von beispielsweise 8 kHz besteht ein Rahmen aus 80 Abtastwerten. Jeder Abtastwert wird beispielsweise durch 16 Bits dargestellt.
  • Der BNS ist im Grunde ein adaptiver Filter im Frequenzbereich. Vor der tatsächlichen Filterung müssen die Eingangsrahmen der Vorrichtung zur Sprachverbesserung in den Frequenzbereich transformiert werden. Nach der Filterung werden die Frequenzbereichsinformationen zurück in den Zeitbereich transformiert. Es muss besonders darauf geachtet werden, dass Unterbrechungen an den Rahmengrenzen vermieden werden, da sich die Filtermerkmale des BNS über die Zeit verändern.
  • 1 zeigt das Blockschaltbild der Vorrichtung zur Sprachverbesserung mit dem BNS. Die Vorrichtung zur Sprachverbesserung umfasst eine Einheit zum Bilden von Eingangsfenstern 1, eine FFT-Einheit 2, einen Hintergrundrauschen-Subtrahierer (BNS) 3, eine inverse FFT (IFFT)-Einheit 4, eine Einheit zum Bilden von Ausgangsfenstern 5 und eine Überlappungs- und Additionseinheit (engl. overlap-and-add) 6. In dem vorliegenden Beispiel werden die Eingangsrahmen mit 80 Abtastwerten der Einheit zum Bilden von Eingangsfenstern 1 in einen Puffer mit doppelter Rahmengröße, d.h. 160 Abtastwerten, verschoben, um ein Eingangsfenster s[n] zu bilden. Das Eingangsfenster wird mit einem Sinusfenster w[n] gewichtet. In dem vorliegenden Beispiel wird das Spektrum S[k] mit Hilfe einer 256-Punkt-FFT 2 berechnet. Der BNS-Block 3 wendet die Frequenzbereichfilterung auf dieses Spektrum an. Das Ergebnis Sb[k] wird mit Hilfe der IFFT 4 zurück in den Zeitbereich transformiert. Dies ergibt die Zeitbereichsdarstellung sb[n]. In der Einheit 5 wird das Ausgangssignal im Zeitbereich mit dem gleichen Sinusfenster gewichtet, wie es für das Eingangssignal verwendet wurde. Das Nettoergebnis der doppelten Gewichtung mit einem Sinusfenster ergibt die Gewichtung mit einem Hanning-Fenster. Das Ausgangssignal der Einheit 5 wird durch sb w[n] dargestellt. Für den nächsten Verarbeitungsblock 6, die Überlappung und Addition, wird ein Hanning-Fenster als Fenstertyp bevorzugt. Die Überlappungs- und Additionsfunktion wird eingesetzt, um einen glatten Übergang zwischen zwei aufeinander folgenden Ausgangsrahmen zu erzielen. Das Ausgangssignal der Überlappungs- und Additionseinheit 6 für den Rahmen „i" wird dargestellt durch: s*b w,i[n] = sb w,i[n] + sb w,i-1[n + 80] mit 0 ≤ n < 80.
  • 2 zeigt die verwendete Rahmen- und Fensterbildung. Das Ausgangssignal der Vorrichtung zur Sprachverbesserung ist eine verarbeitete Version des Eingangssignals mit einer Gesamtverzögerung von einem Rahmen, d.h. in dem vorliegenden Beispiel von 10 ms.
  • 3 zeigt ein Blockschaltbild der adaptiven Filterung im Frequenzbereich, die einen Größenblock 7, einen Hintergrundpegel-Aktualisierungsblock 8 eine Rauschabstandsblock 9, einen Filteraktualisierungsblock 10 und Verarbeitungsmittel 11 umfasst. Die folgenden Operationen werden darin auf jede Frequenzkomponente k des Spektrums S[k] angewendet. Erst wird im Größenblock 7 die absolute Größe |S[k]| berechnet mit Hilfe der Beziehung |S[k]| = [(R{S[k]})2 + (I{S[k]})2]½ wobei R{S[k]} und I{S[k]} der reelle bzw. der imaginäre Teil des Spektrums sind mit in dem vorliegenden Beispiel 0 ≤ k < 129. Danach nutzt der Hintergrundpegel-Aktualisierungsblock die Eingangsgröße |S[k]| dazu, die vorhergesagte Hintergrundgröße B[k] für den aktuellen Rahmen zu berechnen.
  • Ein Rauschabstand (SNR) wird berechnet mit Hilfe der Beziehung SNR[k] = |S[k]|/B[k]und vom Filteraktualisierungsblock 10 verwendet, um die Filtergröße F[k] zu berechnen. Schließlich wird die Filterung mit Hilfe der folgenden Formeln durchgeführt: Rb{Sb[k]} = R{S[k]}·F[k] und Ib{Sb[k]} = I{S[k]}·F[k].
  • Es wird angenommen, dass der Gesamtphasenbeitrag des Hintergrundrauschens gleichmäßig über den reellen und den imaginären Teil des Spektrums verteilt ist, so dass eine lokale Reduzierung der Amplitude im Frequenzbereich auch die hinzugefügte Phaseninformationen reduziert. Es kann jedoch darüber gestritten werden, ob es ausreicht, lediglich das Amplitudenspektrum zu ändern und nicht den Phasenbeitrag des Hintergrundsignals zu verändern. Bestünde der Hintergrund nur aus einem periodischen Signal, wäre es einfach, seine Amplitude und Phasenkomponenten zu messen und ein synthetisches Signal mit der gleichen Periodizität und Amplitude, jedoch mit einer um 180° gedrehten Phase, hinzuzufügen. Da der Phasenbeitrag eines verrauschten Signals während des Analyseintervalls nicht konstant ist und nur der Rauschabstand gemessen wird, ist es lediglich möglich, die Energie des Eingangssignals mit einem getrennten Faktor für jeden Frequenzbereich zu unterdrücken. Dadurch würde normalerweise nicht nur die Hintergrundenergie sondern auch die Energie des Sprachsignals unterdrückt. Die für die Hörbarkeit wichtigen Elemente des Sprachsignals besitzen jedoch normalerweise einen größeren Rauschabstand als andere Bereiche, so dass das vorliegende Verfahren in der Praxis ausreicht.
  • 4 zeigt den Hintergrundpegel-Aktualisierungsblock 8 im Detail. Der Block 8 umfasst die Verarbeitungsmittel 1216, die Komparatormittel 17 mit den Komparatoren 18 und 19 und eine Speichereinheit 20.
  • Der Hintergrundpegel wird in den folgenden Schritten aktualisiert:
    • – Erst wird über die Speichereinheit 20 und die Verarbeitungsmittel 14 der vorherige Wert des Hintergrundpegels B-1[k] um einen Faktor U[k] erhöht, wodurch sich B'[k] ergibt.
    • – Dann wird das Ergebnis mit einem Wert B''[k] verglichen, der eine skalierte Kombination des erhöhten Hintergrundpegels B'[k] und des aktuellen absoluten Eingangspegels |S[k]| ist, der über die Verarbeitungsmittel 12, 13, 15 und 16 erlangt wird. Mit Hilfe des Komparators 18 wird der kleinere Wert als Kandidat für den Hintergrundpegel B'''[k] gewählt.
    • – Schließlich wird mit Hilfe des Komparators 19 der Hintergrundpegel B'''[k] durch den kleinsten zulässigen Hintergrundpegel Bmin eingeschränkt, woraus sich der neue Hintergrundpegel ergibt. Dieser ist auch das Ausgangssignal des Hintergrundpegel-Aktualisierungsblocks 8.
  • Somit kann die berechnete Hintergrundgröße durch die folgende Beziehung dargestellt werden: B[k] = max{min{B'[k], B''[k]}, Bmin},mit Bmin als kleinstem zulässigen Hintergrundpegel, während B'[k] = B-1[k]·U[k] und B''[k] = (B'[k]·D[k]) + (|S[k]|·C·(1 – D[k])), wobei U[k] und D[k] frequenzabhängige Skalierfaktoren sind und C eine Konstante ist.
  • Bei dem vorliegenden Ausführungsbeispiel ist der Eingangsskalierfaktor C auf 4 eingestellt. Bmin ist auf 64 eingestellt. Die Skalierfunktionen U[k] und D[k] sind für jeden Rahmen konstant und hängen nur von dem Frequenzindex k ab. Diese Funktionen sind folgendermaßen definiert: U[k] = a + k/b und D[k] = c – k/d,wobei a auf 1,002, b auf 16384, c auf 0,97 und d auf 1024 eingestellt werden kann.
  • 5 zeigt den Filteraktualisierungsblock 10 im Detail. Der Block 10 umfasst die Verarbeitungsmittel 2127, die Komparatormittel 28 mit den Komparatoren 29 und 30 und eine Speichereinheit 31.
  • Der Block 10 umfasst zwei Stufen: eine für die Anpassung des internen Filterwertes F'[k] und einen für die Skalierung und das Kappen der Spitzen des Ausgangsfilterwertes. Die Anpassung des internen Filterwertes F'[k] erfolgt durch die Erhöhung des nach unten skalierten internen Filterwertes des vorherigen Rahmens um eine vom Eingangs- und Filterpegel abhängige Sprunggröße gemäß den folgenden Beziehungen: F''[k] = F'-1[k]·E, δ[k] = (1 – F''[k])·SNR[k] und F'[k] = F''[k] wenn δ[k] ≤ 1 oder sonst F'[k] = F''[k] + G·δ[k],wobei E auf 0,9375 und G auf 0,0416 eingestellt werden können.
  • Die Skalierung und das Kappen der Spitzen des Ausgangsfilterwertes erfolgt mit Hilfe von F[k] = max{min{H·F'[k, 1}, Fmin},wobei H auf 1,5 und Fmin auf 0,2 eingestellt werden können.
  • Der Grund für die zusätzliche Skalierung und das Kappen der Spitzen des Ausgangsfilterwertes besteht darin, dass ein Filter benötigt wird, der eine Bandpasskennlinie für spektrale Bereiche mit erheblich höherer Energie als der Hintergrund aufweist.
  • 6 zeigt eine Darstellung des Ausgangssignals der Hintergrundpegel- und Filteraktualisierungsblöcke für einen Rahmen eines Sprachsegments, das mit Hintergrundrauschen kontaminiert ist.
  • Die Vorrichtung zur Sprachverbesserung mit einem separaten Hintergrundrauschen-Subtrahierer (engl. background noise subtractor, BNS) wie oben beschrieben kann in dem Codierer eines Sprachcodiersystems, insbesondere eines P2CM-Codiersystems, eingesetzt werden. Der Codierer des genannten P2CM-Codiersystems umfasst einen Vorprozessor und einen ADPCM-Codierer. Der Vorprozessor verändert das Signalspektrum des Eingangs-Audiosignals vor der Codierung, insbesondere durch die Verzerrung der Amplitude (engl. amplitude warping), wie es beispielsweise von R. Lefebre und C. Laflamme in „Spectral Amplitude Warping (SAW) for Noise Spectrum Shaping in Audio Coding", erschienen 1997 in ICASSP, Band 1, auf den Seiten 335–338 beschrieben wird. Da eine derartige Verzerrung der Amplitude im Frequenzbereich durchgeführt wird, kann die Reduzierung des Hintergrundrauschens in den Vorprozessor integriert werden. Nach der Zeit- Frequenz-Transformation werden die Reduzierung des Hintergrundrauschens und die Verzerrung der Amplitude nacheinander durchgeführt, wonach die Frequenz-Zeit-Transformation erfolgt. In diesem Fall wird das Eingangssignal der Vorrichtung zur Sprachverbesserung durch das Eingangssignal des Vorprozessors gebildet. In dem Vorprozessor wird dieses Eingangssignal derart verändert, dass eine Reduzierung des Rauschens in dem resultierenden Signal erzielt wird, so dass die Verzerrung an den rauschreduzierten Signalen durchgeführt wird. Das in Reaktion auf das genannte Eingangssignal erzielte Ausgangssignal des Vorprozessors bildet eine verzögerte Version des Eingangsrahmens und wird dem ADPCM-Codierer zugeführt. Diese Verzögerung, in dem vorliegenden Beispiel 10 ms, ist im Wesentlichen auf die interne Verarbeitung des BNS zurückzuführen. Ein weiteres Eingangssignal für den ADPCM-Codierer wird durch ein Codec-Modussignal gebildet, das die Bitzuordnung für die Codewörter im Bitstromausgang des ADPCM-Codierers bestimmt. Der ADPCM-Codierer erzeugt ein Codewort für jeden Abtastwert in dem vorverarbeiteten Signalrahmen. Die Codewörter werden dann in Rahmen von in dem vorliegenden Beispiel 80 Codes gepackt. In Abhängigkeit von dem ausgewählten Codec-Modus hat der resultierende Bitstrom eine Übertragungsgeschwindigkeit von beispielsweise 11,2, 12,8, 16, 21,6, 24 oder 32 KBit/s.
  • Das oben beschriebene Ausführungsbeispiel wird durch einen Algorithmus ausgeführt, der die Form eines Computerprogramms haben kann, das auf Signalverarbeitungsmitteln in einem P2CM-Audiocodierer laufen kann. Insoweit ein Teil der Figuren Einheiten zur Durchführung bestimmter programmierbarer Funktionen zeigt, müssen diese Einheiten als untergeordnete Teile des Computerprogramms angesehen werden.
  • Die beschriebene Erfindung ist nicht auf die beschriebenen Ausführungsformen beschränkt. Es sind Abwandlungen möglich. Es ist insbesondere anzumerken, dass die Werte von a, b, c, d, E, G und H nur als Beispiele gegeben sind; es sind auch andere Werte möglich.
  • Text in den Figuren
  • 2
    • Sample
      Abtastwert
      Frame
      Rahmen
      Input frame
      Eingangsrahmen
      Input window
      Eingangsfenster
      Output window
      Ausgangsfenster
      Product of both windows
      Produkt der beiden Fenster
      Output frame
      Ausgangsrahmen
  • 5
    • Speech + noise
      Sprache + Rauschen
      Background – level
      Hintergrundpegel
      Magnitude spectrum
      Größenspektrum
      Filter magnitude
      Filtergröße
      Frequency
      Frequenz

Claims (9)

  1. Vorrichtung zur Sprachverbesserung für die Reduzierung von Hintergrundrauschen, die Folgendes umfasst: – eine Zeit-Frequenz-Transformationseinheit (2) zum Transformieren von Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich, – Mittel zum Reduzieren von Hintergrundrauschen (3) für die Durchführung einer Rauschminderung im Frequenzbereich, und – eine Frequenz-Zeit-Transformationseinheit (4) zum Transformieren von Audiosignalen mit vermindertem Rauschem vom Frequenzbereich in den Zeitbereich, wobei die Mittel zum Reduzieren von Hintergrundrauschen (3) Folgendes umfassen: einen Hintergrundpegel-Aktualisierungsblock (8), der für jede Frequenzkomponente k in einem aktuellen Rahmen der Audiosignale eine vorhergesagte Hintergrundgröße B[k] in Reaktion auf eine gemessene Eingangsgröße S[k] von der Zeit-Frequenz-Transformationseinheit (2) und in Reaktion auf eine vorher berechnete Hintergrundgröße B-1[k] berechnet; einen Rauschabstandsblock (9), der für jede der genannten Frequenzkomponenten den Rauschabstand SNR[k] in Reaktion auf die vorhergesagte Hintergrundgröße B[k] und in Reaktion auf die genannte gemessene Eingangsgröße S[k] berechnet; und einen Filteraktualisierungsblock (10), der für jede der genannten Frequenzkomponenten die Filtergröße F[k] für die genannte gemessene Eingangsgröße S[k] in Reaktion auf den Rauschabstand SNR[k] berechnet, dadurch gekennzeichnet, dass der Hintergrundpegel-Aktualisierungsblock (8) Folgendes umfasst: eine Speichereinheit (20) um die vorher berechnete Hintergrundgröße B-1[k] zu erhalten, Verarbeitungsmittel (1216) und Komparatormittel (17) zur Aktualisierung der vorher vorhergesagten Hintergrundgröße entsprechend der Beziehung: B[k] = max{min{B'[k], B''[k]},Bmin},mit Bmin als dem kleinsten zulässigen Hintergrundpegel, während B'[k] = B-1[k]·U[k] und B''[k] = (B'[k]·D[k]) +(|S[k]|·C·(1 – D[k])) wobei U[k] und D[k] frequenzabhängige Skalierfaktoren sind und C eine Konstante ist.
  2. Vorrichtung zur Sprachverbesserung nach Anspruch 1, dadurch gekennzeichnet, dass U[k] = a + k/b.
  3. Vorrichtung zur Sprachverbesserung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass D[k] = c – k/d.
  4. Vorrichtung zur Sprachverbesserung nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der Rauschabstandsblock (9) Mittel zum Berechnen des Rauschabstands SNR[k] in Reaktion auf die vorhergesagte Hintergrundgröße B[k] und auf die gemessene Eingangsgröße S[k] entsprechend der Beziehung SNR[k] = |S[k]|/B[k]umfasst.
  5. Vorrichtung zur Sprachverbesserung nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der Filteraktualisierungsblock (10) Folgendes umfasst: erste Mittel zum Berechnen eines internen Filterwertes F'[k] und zweite Mittel, um davon die Filtergröße für die gemessene Eingangsgröße abzuleiten, wobei die ersten Mittel eine Speichereinheit (31) zum Erhalten einer vorher berechneten internen Filtergröße F-1[k] und Verarbeitungsmittel (2123, 2527) zum Aktualisieren der vorher berechneten interen Filtergröße umfassen.
  6. Vorrichtung zur Sprachverbesserung nach Anspruch 5, dadurch gekennzeichnet, dass die zweiten Mittel Komparatormittel (28) umfassen zum Skalieren und Kappen der Spitzen der Filtergröße entsprechend der Beziehung F[k] = max{min{H·F'[k], 1}, Fmin},wobei H eine Konstante, Fmin ein kleinster Filterwert und F'[k] der interne Filterwert ist.
  7. Sprachcodierer für ein Sprachcodiersystem, insbesondere für ein P2CM-Audiocodiersystem, der mit einer Vorrichtung zur Sprachverbesserung nach einem der vorherigen Ansprüche ausgestattet ist.
  8. Sprachcodiersystem, insbesondere ein P2CM-Audiocodiersystem, das mit einem Spracheodierer mit einer Vorrichtung zur Sprachverbesserung nach einem der vorherigen Ansprüche 1 bis 6 ausgestattet ist.
  9. P2CM-Audiocodiersystem mit einem P2CM-Codierer, der einen Vorprozessor mit Mitteln zum Verzerren der spektralen Amplitude und einen ADPCM-Codierer umfasst, dadurch gekennzeichnet, dass der Vorprozessor mit einer Vorrichtung zur Sprachverbesserung nach einem der Ansprüche 1 bis 6 ausgestattet ist, wobei die Vorrichtung zur Sprachverbesserung über Mittel zum Reduzieren des Hintergrundrauschens (3) verfügt, die in den Mitteln zum Verzerren der spektralen Amplitude des Vorprozessors integriert sind.
DE60212617T 2001-04-09 2002-03-25 Vorrichtung zur sprachverbesserung Expired - Lifetime DE60212617T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01201304 2001-04-09
EP01201304 2001-04-09
PCT/IB2002/001050 WO2002082427A1 (en) 2001-04-09 2002-03-25 Speech enhancement device

Publications (2)

Publication Number Publication Date
DE60212617D1 DE60212617D1 (de) 2006-08-03
DE60212617T2 true DE60212617T2 (de) 2007-06-14

Family

ID=8180126

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60212617T Expired - Lifetime DE60212617T2 (de) 2001-04-09 2002-03-25 Vorrichtung zur sprachverbesserung

Country Status (8)

Country Link
US (1) US6996524B2 (de)
EP (1) EP1386313B1 (de)
JP (1) JP4127792B2 (de)
KR (1) KR20030009516A (de)
CN (1) CN1240051C (de)
AT (1) ATE331279T1 (de)
DE (1) DE60212617T2 (de)
WO (1) WO2002082427A1 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984637B1 (ko) * 2002-01-25 2010-10-05 엔엑스피 비 브이 양자화 노이즈 제거 방법 및 장치
JP2006084754A (ja) * 2004-09-16 2006-03-30 Oki Electric Ind Co Ltd 音声録音再生装置
US9318119B2 (en) * 2005-09-02 2016-04-19 Nec Corporation Noise suppression using integrated frequency-domain signals
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8731913B2 (en) * 2006-08-03 2014-05-20 Broadcom Corporation Scaled window overlap add for mixed signals
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP5086442B2 (ja) * 2007-12-20 2012-11-28 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 雑音抑圧方法及び装置
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN104464745A (zh) * 2014-12-17 2015-03-25 中航华东光电(上海)有限公司 一种双通道语音增强系统及其方法
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
EP3651365A4 (de) * 2017-07-03 2021-03-31 Pioneer Corporation Signalverarbeitungsvorrichtung, steuerungsverfahren, programm und speichermedium
US11409512B2 (en) * 2019-12-12 2022-08-09 Citrix Systems, Inc. Systems and methods for machine learning based equipment maintenance scheduling

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity

Also Published As

Publication number Publication date
JP4127792B2 (ja) 2008-07-30
EP1386313A1 (de) 2004-02-04
ATE331279T1 (de) 2006-07-15
US6996524B2 (en) 2006-02-07
CN1460248A (zh) 2003-12-03
CN1240051C (zh) 2006-02-01
KR20030009516A (ko) 2003-01-29
DE60212617D1 (de) 2006-08-03
WO2002082427A1 (en) 2002-10-17
JP2004519737A (ja) 2004-07-02
US20020156624A1 (en) 2002-10-24
EP1386313B1 (de) 2006-06-21

Similar Documents

Publication Publication Date Title
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE112009000805B4 (de) Rauschreduktion
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
US7313518B2 (en) Noise reduction method and device using two pass filtering
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
Chen et al. Speech enhancement using perceptual wavelet packet decomposition and teager energy operator
DE69920461T2 (de) Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung
CA2310491A1 (en) Noise suppression for low bitrate speech coder
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung
JP2015007805A (ja) 符号器の量子化ノイズを復号化中に低減するための後処理方法及び装置
Nongpiur Impulse noise removal in speech using wavelets
DE602004003209T2 (de) Vorrichtung und Verfahren zur Sprachaktivitätsdetektion

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: EISENFUEHR, SPEISER & PARTNER, 10178 BERLIN

8327 Change in the person/name/address of the patent owner

Owner name: NXP B.V., EINDHOVEN, NL

R082 Change of representative

Ref document number: 1386313

Country of ref document: EP

Representative=s name: PATENTANWAELTE LIPPERT, STACHOW & PARTNER, DE

R081 Change of applicant/patentee

Ref document number: 1386313

Country of ref document: EP

Owner name: LSI CORP. (N.D.GES.D. STAATES DELAWARE), US

Free format text: FORMER OWNER: NXP B.V., EINDHOVEN, NL

Effective date: 20121102

R082 Change of representative

Ref document number: 1386313

Country of ref document: EP

Representative=s name: PATENTANWAELTE LIPPERT, STACHOW & PARTNER, DE

Effective date: 20121102