DE69630580T2 - Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation - Google Patents

Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation Download PDF

Info

Publication number
DE69630580T2
DE69630580T2 DE69630580T DE69630580T DE69630580T2 DE 69630580 T2 DE69630580 T2 DE 69630580T2 DE 69630580 T DE69630580 T DE 69630580T DE 69630580 T DE69630580 T DE 69630580T DE 69630580 T2 DE69630580 T2 DE 69630580T2
Authority
DE
Germany
Prior art keywords
noise
signal
speech
calculation
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69630580T
Other languages
English (en)
Other versions
DE69630580D1 (de
Inventor
Antti VÄHÄTALO
Erkki Paajanen
Juha Häkkinen
Ville-Veikko Mattila
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE69630580D1 publication Critical patent/DE69630580D1/de
Publication of DE69630580T2 publication Critical patent/DE69630580T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)

Description

  • Diese Erfindung betrifft ein Rauschunterdrückungsverfahren, eine mobile Station und einen Rauschunterdrücker zum Unterdrücken von Rauschen in einem Sprachsignal, wobei der Unterdrücker Mittel zum Aufteilen des Sprachsignals in einer erste Menge von Untersignalen, welche bestimmte erste Frequenzbereiche darstellen, und Unterdrückungsmittel zum Unterdrücken von Rauschen in einem Untersignal gemäß einem bestimmten Unterdrückungskoeffizienten umfasst. Ein Rauschunterdrücker gemäß der Erfindung kann zum Aufheben akustischer Hintergrundrauschens genutzt werden, insbesondere in einer mobilen Station, die in einem zellularen Netz arbeitet. Die Erfindung betrifft insbesondere Hintergrundrauschunterdrückung, die auf Grundlage von Spektralsubtraktion unterdrückt ist.
  • Verschiedene Verfahren zur Rauschunterdrückung auf Grundlage von Spektralsubtraktion sind aus dem Stand der Technik bekannt. Algorithmen, die Spektralsubtraktion nutzen, liegt im Allgemeinen das Aufteilen eines Signals in Frequenzkomponenten gemäß der Frequenz zu Grunde, das heißt in kleinere Frequenzbereiche, entweder unter Verwendung der schnellen Fourier-Transformation (FFT), wie in den Patentveröffentlichungen WO 89/06877 und US 5,012,519 vorgelegt, oder unter Verwendung von Filterbänken, wie in den Patentveröffentlichungen US 4,630,305 , US 4,630,304 , US 4,628,529 , US 4,811,404 und EP 343 792 vorgelegt. Bei Lösungen des Stands der Technik auf Grundlage von Spektralsubtraktion werden die Komponenten, die jedem Frequenzbereich des Leistungsspektrums (Amplitudenspektrum) entsprechen, berechnet, und jeder Frequenzbereich wird separat verarbeitet, das heißt, dass Rauschen separat für jeden Frequenzbereich unterdrückt wird. Gewöhnlich wird dies auf solche Weise durchgeführt, dass separat für jeden Frequenzbereich ermittelt wird, ob das Signal in dem Bereich Sprache enthält oder nicht. Wenn nicht, ist Rauschen beinhaltet, und das Signal wird unterdrückt. Schließlich werden Signale jeden Frequenzbereichs rekombiniert, was zu einer Ausgabe führt, die ein rauschunterdrücktes Signal ist. Der Nachteil von Verfahren des Stands der Technik auf Grundlage von Spektralsubtraktion ist die große Menge von Berechnungen, da das Berechnen individuell für jeden Frequenzbereich erfolgen muss.
  • Rauschunterdrückungsverfahren auf Grundlage von Spektralsubtraktion liegt im Allgemeinen die Schätzung eines Rauschsignals und dessen Nutzung zum Anpassen von Rauschdämpfungen auf verschiedenen Frequenzbändern zu Grunde. Es ist im Stand der Technik bekannt, die Variable, die Rauschleistung darstellt, zu quantifizieren und diese Variable zur Verstärkungsanpassung zu nutzen. In US-Patentschrift 4,630,305 ist ein Rauschunterdrückungsverfahren vorgelegt, das Unterdrückungswerttabellen für verschiedene Umgebungsrauschwerte nutzt, und anstrebt, einen Durchschnittsrauschpegel für die Dämpfungsanpassung zu nutzen. Ein anderes Beispiel eines Rauschunterdrückungsverfahrens ist in DE-A-3230391 offenbart.
  • In Verbindung mit Spektralsubtraktion ist Fensterung bekannt. Der Zweck der Fensterung ist im Allgemeinen, die Qualität der Spektralschätzung eines Signals durch Aufteilen des Signals in Zeitbereichsrahmen zu steigern. Ein anderer grundlegender Zweck der Fensterung ist, ein nicht ortsgebundenes Signal, z. B. Sprache, in Segmente (Rahmen) zu gliedern, die als ortsgebunden betrachtet werden können. Bei der Fensterung ist es im Allgemeinen bekannt, die Hamming-, Hanning- oder Kaiser-Fensterung zu nutzen. Bei Verfahren auf Grundlage der Spektralsubtraktion ist es üblich, eine so genannte zur Hälfte überlappende Hanning-Fensterung und ein so genanntes Overlap-Add-Verfahren einzusetzen, das in Verbindung mit inverser FFT (IFFT) eingesetzt wird.
  • Das Problem bei all diesen Verfahren des Stands der Technik ist, dass die Fensterungsverfahren eine spezifische Rahmenlänge aufweisen, und die Länge eines Fensterungsrahmens ist schwer mit einer anderen Rahmenlänge abzustimmen. Bei digitalen Mobiltelefonnetzen beispielsweise wird Sprache durch Rahmen codiert und ein spezifischer Sprachrahmen in dem System genutzt, und dementsprechend weist jeder Sprachrahmen dieselbe spezifizierte Länge, z. B. 20 ms, auf. Wenn sich die Rahmenlänge für die Fensterung von der Rahmenlänge für die Sprachcodierung unterscheidet, ist das Problem die erzeugte Gesamtverzögerung, die durch Rauschunterdrückung und Sprachcodieren aufgrund unterschiedlicher, dabei verwendeter Rahmenlängen bewirkt ist.
  • Bei dem Verfahren zur Rauschunterdrückung gemäß der vorliegenden Erfindung, wie in den beiliegenden Ansprüchen beansprucht, wird ein Eingangssignal zunächst in eine erste Menge von Frequenzbändern aufgeteilt, eine Leistungsspektrumkomponente entsprechend jedem Frequenzband wird berechnet und eine zweite Menge von Leistungsspektrumkomponenten wird in eine Berechnungsspektrumkomponente rekombiniert, die ein bestimmtes zweites Frequenzband darstellt, welches größer als die ersten Frequenzbänder ist, ein Unterdrückungskoeffizient für die Berechnungsspektrumkomponente wird auf Grundlage des darin enthaltenen Rauschens bestimmt, und die zweite Menge von Leistungsspektrumkomponenten wird unter Verwendung eines Unterdrückungskoeffizienten auf Grundlage der Berechnungsspektrumkomponente unterdrückt.
  • Vorzugsweise werden mehrere Berechnungsspektrumkomponenten, die mehrere benachbarte Frequenzbänder darstellen, gebildet, wobei jede Berechnungsspektrumkomponente durch Rekombinieren verschiedener Leistungsspektrumkomponenten gebildet wird. Jede Berechnungsspektrumkomponente kann eine Anzahl von Leistungsspektrumkomponenten umfassen, die sich von den anderen unterscheidet, oder sie kann eine Anzahl von Leistungsspektrumkomponenten umfassen, die gleich den anderen Berechnungsspektrumkomponenten ist. Die Unterdrückungskoeffizienten zur Rauschunterdrückung werden daher für jede Berechnungsspektrumkomponente gebildet, und jede Berechnungsspektrumkomponente wird gedämpft, wobei die Berechnungsspektrumkomponenten nach der Dämpfung wieder in Zeitbereiche umgewandelt und in ein rauschunterdrücktes Ausgangssignal rekombiniert werden. Vorzugsweise sind die Berechnungsspektrumkomponenten weniger als die erste Menge von Frequenzbändern, was zu einer verminderten Menge von Berechnungen ohne einen Verlust an Sprachqualität führt.
  • Eine Ausführungsform gemäß dieser Erfindung wendet vorzugsweise eine Aufteilung in Frequenzkomponenten auf Grundlage der FFT-Transformation an. Einer der Vorteile dieser Erfindung ist, dass bei dem Verfahren gemäß der Erfindung die Anzahl von Frequenzbereichskomponenten verringert ist, was entsprechend zu einem erheblichen Vorteil in Gestalt von weniger Berechnungen beim Berechnen von Unterdrückungskoeffizienten führt. Wenn jeder Unterdrückungskoeffizient auf Grundlage eines größeren Frequenzbereichs ausgebildet wird, kann Zufallsrauschen keine starken Änderungen in den Werten der Unterdrückungskoeffizienten bewirken. Auf diese Weise wird hier außerdem gesteigerte Sprachqualität erzielt, weil starke Abweichungen der Unterdrückungskoeffizienten unangenehm klingen.
  • Bei einem Verfahren gemäß der Erfindung werden durch Fensterung Rahmen aus dem Eingangssignal gebildet, und bei der Fensterung wird ein solcher Rahmen genutzt, dessen Länge ein gerader Quotient der Rahmenlänge ist, die zum Sprachcodieren verwendet wird. In diesem Zusammenhang bedeutet ein gerader Quotient eine Zahl, die gerade durch die Rahmenlänge, die zum Sprachcodieren verwendet wird, teilbar ist, was bedeutet, dass z. B. die geraden Quotienten der Rahmenlänge 160 die Zahlenwerte 80, 40, 32, 20, 16, 8, 6, 4, 2 und 1 sind. Diese Lösungsart verringert die auferlegte Gesamtverzögerung erheblich.
  • Zudem entfällt ein weiterer Unterschied des Verfahrens gemäß der Erfindung im Vergleich mit der oben genannten US-Patentschrift 4,630,305 auf Durchschnittsgeschwindigkeitsleistung und Bestimmen eines relativen Rauschpegels. Durch Bestimmen des geschätzten Sprachpegels und Rauschpegels und Nutzen derselben zur Rauschunterdrückung wird ein besseres Ergebnis erzielt als durch Nutzen nur des Rauschpegels, da in Hinsicht auf einen Rauschunterdrückungsalgorithmus das Verhältnis zwischen Sprachpegel und Rauschpegel wesentlich ist.
  • Ferner wird bei dem Verfahren gemäß der Erfindung die Unterdrückung gemäß einem kontinuierlichen Rauschpegelwert (kontinuierlichen relativen Rauschpegelwert) angepasst, im Gegensatz zu Verfahren des Stands der Technik, die feste Werte in Tabellen einsetzen. Bei der Lösung gemäß der Erfindung wird Unterdrückung gemäß der relativen Rauschschätzung abhängig vom gegenwärtigen Signal-Rausch-Verhältnis auf jedem Band vermindert, wie später detaillierter erläutert wird. Auf Grund dessen bleibt Sprache so natürlich wie möglich, und es ist der Sprache ermöglicht, Rauschen auf den Bändern zu überlagern, auf denen Sprache dominant ist. Die kontinuierliche Unterdrückungsanpassung wurde unter Verwendung von Variablen mit kontinuierlichen Werten verwirklicht. Die Verwendung kontinuierlicher, das heißt nicht tabellarischer Parameter ermöglicht eine Rauschunterdrückung, bei der keine beträchtlichen, momentanen Abweichungen bei Rauschunterdrückungswerten vorkommen. Zudem besteht kein Bedarf an einer großen Speicherkapazität, die für die im Stand der Technik bekannte tabellarische Aufstellung von Verstärkungswerten erforderlich ist.
  • Ein Rauschunterdrücker und eine mobile Station gemäß der Erfindung ist dadurch gekennzeichnet, dass er ferner die Rekombinationsmittel zum Rekombinieren einer zweiten Menge von Untersignalen in ein Berechnungssignal, das einen bestimmten zweiten Frequenzbereich darstellt, welcher größer als die ersten Frequenzbereiche ist, Bestimmungsmittel zum Bestimmen eines Unterdrückungskoeffizienten für das Berechnungssignal auf Grundlage von Rauschen, das darin enthalten ist, umfasst, und dass Unterdrückungsmittel zum Unterdrücken der Untersignale, die in dem Berechnungssignal durch den Unterdrückungskoeffizienten rekombiniert sind, welcher auf Grundlage des Berechnungssignals bestimmt wird.
  • Ein Rauschunterdrückungsverfahren gemäß der Erfindung ist dadurch gekennzeichnet, dass vor der Rauschunterdrückung eine zweite Menge von Untersignalen in ein Berechnungssignal rekombiniert wird, das einen bestimmten zweiten Frequenzbereich darstellt, welcher größer als die ersten Frequenzbereiche ist, ein Unterdrückungskoeffizient für das Berechnungssignal auf Grundlage des Rauschens, das darin enthalten ist, bestimmt wird, und dass Untersignale, die in das Berechnungssignal rekombiniert sind, durch den Unterdrückungskoeffizienten unterdrückt werden, der auf Grundlage des Berechnungssignals bestimmt wird.
  • Im Folgenden ist ein Rauschunterdrückungssystem gemäß der Erfindung im Detail unter Bezugnahme auf die beiliegenden Figuren dargestellt.
  • Es zeigen:
  • 1 ein Blockdiagramm der Grundfunktionen einer Vorrichtung gemäß der Erfindung zum Unterdrücken von Rauschen in einem Sprachsignal,
  • 2 ein detaillierteres Blockdiagramm eines Rauschunterdrückers gemäß der Erfindung,
  • 3 in Gestalt eines Blockdiagramms die Gestaltung eines Fensterungsblocks,
  • 4 die Gestaltung eines Quadrierungsblocks,
  • 5 die Gestaltung eines Spektralrekombinationsblocks,
  • 6 die Gestaltung eines Blocks zur Berechnung eines relativen Rauschpegels,
  • 7 die Gestaltung eines Blocks zur Berechnung von Unterdrückungskoeffizienten,
  • 8 eine Anordnung zur Berechnung eines Signal-Rausch-Verhältnisses,
  • 9 die Anordnung zur Berechnung eines Hintergrundrauschenmodells,
  • 10 aufeinander folgende Sprachsignalrahmen bei der Fensterung gemäß der Erfindung,
  • 11 in Gestalt eines Blockdiagramms die Gestaltung eines Sprachaktivitätsdetektors und
  • 12 in Gestalt eines Blockdiagramms eine mobile Station gemäß der Erfindung.
  • 1 zeigt ein Blockdiagramm einer Vorrichtung gemäß der Erfindung zur Darstellung der Grundfunktionen der Vorrichtung. Eine Ausführungsform der Vorrichtung ist in 2 detaillierter beschrieben. Ein Sprachsignal, das vom Mikrofon 1 kommt, wird in einem A/D-Wandler 2 in ein digitales Signal x(n) gesampelt.
  • Eine Menge von Samples, die einem geraden Quotienten der Rahmenlänge entspricht, welche vom Sprach-Codierer-Decodierer verwendet wird, wird vom digitalen Signal x(n) genommen und zu einem Fensterungsblock 10 geleitet. Im Fensterungsblock 10 werden die Samples mit einem vorgegebenes Fenster multipliziert, um einen Rahmen zu bilden. In Block 10 werden, falls nötig, Samples zum Anpassen des Rahmens auf eine Länge, die für die Fourier-Transformation geeignet ist, zu dem gefensterten Rahmen hinzugefügt. Nach der Fensterung wird unter Einsatz der schnellen Fourier-Transformation (FFT) ein Spektrum für den Rahmen in FFT-Block 20 berechnet.
  • Nach der FFT-Berechnung 20 erfolgt im Berechnungsblock 200 eine Berechnung zur Rauschunterdrückung zur Unterdrückung von Rauschen in dem Signal. Zur Durchführung der Berechnung zur Rauschunterdrückung wird ein Spektrum einer gewünschten Art, z. B. Amplituden- oder Leistungsspektrum P(f), im Spektrumbildungsblock 50 auf Grundlage der Spektrumkomponenten X(f) gebildet, die aus dem FFT-Block 20 erhalten werden. Jede Spektrumkomponente P(f) stellt im Frequenzbereich einen bestimmten Frequenzbereich dar, was bedeutet, dass bei Verwendung von Spektren das Signal, das verarbeitet wird, in mehrere Signale mit unterschiedlichen Frequenzen, anders gesagt: in Spektrumkomponenten P(f) aufgeteilt wird. Um die Menge von Berechnungen zu vermindern, werden benachbarte Spektrumkomponenten P(f) in Berechnungsblock 60 summiert, so dass eine Anzahl von Spektrumkomponentenkombinationen, die kleiner als die Anzahl der Spektrumkomponenten P(f) ist, erzielt wird, und die Spektrumkomponentenkombinationen werden als Berechnungsspektrumkomponenten S(s) zum Berechnen von Unterdrückungskoeffizienten genutzt. Auf Grundlage der Berechnungsspektrumkomponenten S(s) wird in einem Schätzungsblock 190 ermittelt, ob ein Signal Sprache oder Hintergrundrauschen enthält, ein Modell für Hintergrundrauschen gebildet und ein Signal-Rausch-Verhältnis für jeden Frequenzbereich einer Berechnungsspektrumkomponente gebildet. Auf Grundlage der auf diese Weise erzielten Signal-Rausch-Verhältnisse und auf Grundlage des Hintergrundrauschenmodells werden im Berechnungsblock 130 für jede Berechnungsspektrumkomponente S(s) Unterdrückungswerte G(s) berechnet.
  • Zum Unterdrücken von Rauschen wird jede Spektrumkomponente X(f), die aus dem FFT-Block 20 erhalten wird, in der Vervielfachereinheit 30 mit einem Unterdrückungskoeffizienten G(s) multipliziert, der dem Frequenzbereich entspricht, in dem sich die Spektrumkomponente X(f) befindet. Eine inverse schnelle Fourier-Transformation (IFFT) wird für die Spektrumkomponenten, die durch die Rauschunterdrückungskoeffizienten G(s) angepasst sind, in IFFT-Block 40 ausgeführt, von dem Samples zur Ausgabe ausgewählt werden, die den Samples entsprechen, die für den Fensterungsblock 10 ausgewählt sind, was zu einer Ausgabe führt, das heißt einem rauschunterdrückten, digitalen Signal y(n), das in einer mobilen Station an einen Sprach-Codierer-Decodierer zur Sprachcodierung übermittelt wird. Da die Menge von Samples des digitalen Signals y(n) ein gerader Quotient der Rahmenlänge ist, die vom Sprach-Codierer-Decodierer angewendet wird, wird eine notwendige Menge von aufeinander folgenden rauschunterdrückten Signalen y(n) am Sprach-Copdierer-Decodierer angesammelt, bis ein solcher Signalrahmen erzielt ist, der der Rahmenlänge des Sprach-Copdierer-Decodierers entspricht, wonach der Sprach-Copdierer-Decodierer die Sprachcodierung für den Sprachrahmen ausführen kann. Da die Rahmenlänge, die im Rauschunterdrücker angewendet wird, ein gerader Quotient der Rahmenlänge des Sprach-Copdierer-Decodierers ist, ist eine Verzögerung, die durch unterschiedliche Längen von Rauschunterdrückungssprachrahmen und Sprach-Copdierer-Decodierer-Rahmen bewirkt ist, auf diese Weise vermieden.
  • Da es weniger Berechnungsspektrumkomponenten S(s) als Spektrumkomponenten P(f) gibt, ist das Berechnen von Unterdrückungskomponenten auf deren Grundlage erheblich leichter, als wenn die Leistungsspektrumkomponenten P(f) in der Berechnung verwendet würden. Da jede neue Berechnungsspektrumkomponente S(s) für einen größeren Frequenzbereich berechnet wurde, sind die Abweichungen bei ihnen kleiner als die Abweichungen der Spektrumkomponenten P(f). Diese Abweichungen sind insbesondere durch Zufallsrauschen in dem Signal verursacht. Da Zufallsabweichungen bei den Komponenten S(s), die für die Berechnung genutzt werden, kleiner sind, sind auch die Abweichungen von berechneten Unterdrückungskoeffizienten G(s) zwischen aufeinander folgenden Rahmen kleiner. Da derselbe Unterdrückungskoeffizient G(s) gemäß dem Vorstehenden zum Multiplizieren mehrerer Samples der Frequenzantwort X(f) angewendet wird, führt er zu kleineren Frequenzbereichsabweichungen innerhalb desselben Rahmens. Dies führt zu gesteigerter Sprachqualität, da eine zu starke Abweichung von Unterdrückungskoeffizienten unangenehm klingt.
  • Folgendes ist eine eingehendere Beschreibung einer Ausführungsform gemäß der Erfindung unter Bezugnahme hauptsächlich auf 2. Die Parameterwerte, die in der folgenden Beschreibung dargelegt sind, sind Beispielswerte und beschreiben eine Ausführungsform der Erfindung, sie schränken die Funktion des Verfahrens gemäß der Erfindung jedoch keineswegs auf nur bestimmte Parameterwerte ein. In der Beispielslösung wird angenommen, dass die Länge der FFT-Berechnung 128 Samples beträgt und dass die Rahmenlänge, die vom Sprach-Copdierer-Decodierer verwendet wird, 160 Samples beträgt, wobei jeder Sprachrahmen 20 ms Sprache umfasst. Zudem ist in dem Beispielfall ein Rekombinieren von Spektrumkomponenten dargelegt, das die Anzahl von Spektrumkomponenten von 65 auf 8 vermindert.
  • 2 zeigt ein detaillierteres Blockdiagramm einer Ausführungsform einer Vorrichtung gemäß der Erfindung. In 2 ist die Eingabe in die Vorrichtung ein A/D-gewandeltes Mikrofonsignal, was bedeutet, dass ein Sprachsignal in einen digitalen Sprachrahmen gesampelt wurde, der 80 Samples umfasst. Ein Sprachrahmen wird zu Fensterungsblock 10 geleitet, in dem er mit dem Fenster multipliziert wird. Da bei der Fensterung, die in diesem Beispiel angewendet wird, Fenster teilweise überlappen, werden die überlappenden Samples im Speicher (Block 15) für den nächsten Rahmen gespeichert. 80 Samples werden von dem Signal genommen und mit 16 Samples kombiniert, die während des vorhergehenden Rahmens gespeichert wurden, was eine Gesamtmenge von 96 Samples ergibt. Jeweils aus den zuletzt gesammelten 80 Samples werden die letzten 16 Samples zum Berechnen des nächsten Rahmens gespeichert.
  • Auf diese Weise werden jede gegebenen 96 Samples im Fensterungsblock 10 mit einem Fenster multipliziert, das 96 Samplewerte umfasst, wobei die 8 ersten Werte des Fensters den aufsteigenden Streifen lU des Fensters bilden und die 8 letzten Werte den absteigenden Streifen lD des Fensters bilden, wie in 10 gezeigt. Das Fenster l(n) kann folgendermaßen definiert werden und ist in Block 11 (3) ausgeführt: l(n) = (n + 1)/9 = lU n = 0, ..., 7 l(n) = 1 = lM n = 8, ..., 87 l(n) = (96 – n)/9 = lD n = 88, ..., 95 (1)
  • Das digitale Ausführen einer Fensterung (Block 11) ist dem Fachmann aus dem Stand der Technik von der digitalen Signalverarbeitung bekannt. Es ist darauf hinzuweisen, dass in dem Fenster die mittleren 80 Werte (n = 8, ..., 87 oder der mittlere Streifen lM) = 1 sind, und dementsprechend ändert eine Multiplikation mit ihnen das Ergebnis nicht, und die Multiplikation kann unterbleiben. Daher müssen nur die ersten 8 Samples und die letzten 8 Samples in dem Fenster multipliziert werden. Da die Länge einer FFT eine Potenz von 2 sein muss, werden in Block 12 (3) 32 Nullen (0) am Ende der 96 Samples, die aus Block 11 erhalten werden, hinzugefügt, was einen Sprachrahmen ergibt, der 128 Samples umfasst. Das Hinzufügen von Samples am Ende einer Samplesequenz ist ein leichter Vorgang und die digitale Ausführung von Block 12 ist dem Fachmann aus dem Stand der Technik bekannt.
  • Nach der Fensterung, die im Fensterungsblock 10 ausgeführt wird, wird das Spektrum eines Sprachrahmens in Block 20 unter Anwendung der schnellen Fourier-Transformation, FFT, berechnet. Die realen und imaginären Komponenten, die aus der FFT erhalten werden, werden nach Größenordnung quadriert und in Paaren in Quadrierungsblock 50 zusammen addiert, dessen Ausgabe das Leistungsspektrum des Sprachrahmens ist. Wenn die FFT-Länge 128 beträgt, beträgt die Anzahl der erhaltenen Leistungsspektrumkomponenten 65, die durch Dividieren der Länge der FFT-Transformation durch zwei und Erhöhen des Ergebnisses um 1 erhalten wird, anders gesagt die Länge von FFT/2 + 1.
  • Die Samples x(0), x(1), ..., x(n); n = 127 (oder die 128 Samples) in dem Rahmen, der am FFT-Block 20 ankommt, werden zu Frequenzbereich unter Anwendung von schneller FFT (schneller Fourier-Transformation) transformiert, wodurch sich Frequenzbereichssamples X(0), X(1), ..., X8f); f = 64 (allgemeiner: f = (n + 1)/2) ergeben, bei denen jeder Sample eine reale Komponente Xr(f) und eine imaginäre Komponente Xi(f) umfasst: X(f) = xr(f) + jXi(f), f = 0, ..., 64 (2)
  • Das digitale Ausführen einer schnellen Fourier-Transformation ist dem Fachmann aus dem Stand der Technik bekannt. Das Leistungsspektrum wird vom Quadrierungsblock 50 durch Berechnen der Summe der zweiten Potenzen der realen und imaginären Komponenten, Komponente für Komponente, erhalten: P(f) = X2r (f) + X2i (f), f = 0, ..., 64 (3)
  • Die Funktion des Quadrierens von Block 50 kann, wie in 4 gezeigt, durch Zuleiten der realen und imaginären Komponenten zu Quadrierungsblock 51 und 52 (die eine einfache mathematische Quadrierung durchführen, welche im Stand der Technik digital ausgeführt wurde) und Summieren der quadrierten Komponenten in einer Summierungseinheit 53 durchgeführt werden. Auf diese Weise werden als die Ausgabe von Quadrierungsblock 50 Leistungsspektrumkomponenten P(0), P(1), ..., P(f); f = 64 erzielt, und sie entsprechen den Leistungen der Komponenten im Zeitbereichssignal auf verschiedenen Frequenzen wie folgend (unter der Annahme, dass eine 8-kH-Samplefrequenz verwendet ist): P(f) für Werte f = 0, ..., 64 entspricht Mittelfrequenzen (f 4000/64 Hz) (4)
  • 8 neue Leistungsspektrumkomponenten oder Leistungsspektrumkomponentenkombinationen S(s), s = 0, ..., 7 werden in Block 60 gebildet, und sie werden hier Berechnungsspektrumkomponenten genannt. Die Berechnungsspektrumkomponenten S(s) werden durch Summieren von jeweils 7 benachbarten Leistungsspektrumkomponenten P(f) für jede Berechnungsspektrumkomponente S(s) wie folgt gebildet: S(0) = P(1) + P(2) + ... P(7) S(1) = P(8) + P(9) + ... P(14) S(2) = P(15) + P(16) + ... P(21) S(3) = P(22) + ... + P(28) S(4) = P (29) + ... + P(35) S(5) = P (36) + ... + P(42) S(6) = P (43) + ... + P(49) S(7) = P (50) + ... + P(56)
  • Dies kann, wie in 5 gezeigt, durch Verwendung von Zähler 61 und Summiereinheit 62 durchgeführt werden, sodass der Zähler 61 jeweils bis sieben zählt und Summiereinheit 62, gesteuert vom Zähler, jeweils sieben aufeinander folgende Komponenten summiert und eine Summe als Ausgabe erzeugt. In diesem Falle entspricht die niedrigste Kombinationskomponente S(0) Mittelfrequenzen [62,5 Hz bis 437,5 Hz], und die höchste Kombinationskomponente (S7) entspricht Mittelfrequenzen [3125 Hz bis 3500 Hz]. Die Frequenzen, die darunter (unter 62,5 Hz) oder darüber (über 3500 Hz) liegen, sind für Sprache nicht wesentlich und werden in Telefonsystemen ohnehin gedämpft, und dementsprechend ist ihre Verwendung für die Berechnung von Unterdrückungskoeffizienten unerwünscht.
  • Andere Aufteilungsarten des Frequenzbereichs könnten ebenso zum Ausbilden der Berechnungsspektrumkomponenten S(s) aus den Leistungsspektrumkomponenten P(f) genutzt werden. Zum Beispiel könnte die Anzahl von Leistungsspektrumkomponenten P(f), die in eine Berechnungsspektrumkomponente S(s) kombiniert sind, für verschiedene Frequenzbänder, die verschiedenen Berechnungsspektrumkomponenten entsprechen, oder verschiedene Werte von s unterschiedlich sein. Überdies könnte eine andere Anzahl von Berechnungsspektrumkomponenten S(s) verwendet sein, z. B. eine Anzahl, die größer oder kleiner als acht ist.
  • Es ist zu beachten, dass es abgesehen vom Summieren benachbarter Komponenten mehrere andere Verfahren zum Rekombinieren von Komponenten gibt. Im Allgemeinen können die Berechnungsspektrumkomponenten S(s) durch Gewichten der Leistungsspektrumkomponenten P(f) mit geeigneten Koeffizienten wie folgt berechnet werden: S(s) = a(0)P(0) + a(1)P(1) + ... + a(64)P(64), (5)wobei die Koeffizienten a(0) bis a(64) Konstanten sind (verschiedene Koeffizienten für jede Komponente S(s), s = Wie oben gezeigt, wurde die Menge von Spektrumkomponenten oder Frequenzbereichen durch Summieren von Komponenten mehrerer Bereiche erheblich vermindert. Der nächste Schritt nach dem Bilden von Berechnungsspektrumkomponenten ist die Berechnung von Unterdrückungskoeffizienten.
  • Beim Berechnen von Unterdrückungskoeffizienten werden die oben genannten Berechnungsspektrumkomponenten S(s) verwendet und im Berechnungsblock 130 ihnen entsprechende Unterdrückungskoeffizienten G(s), s = 0, ..., 7 berechnet. Frequenzbereichssamples X(0), X(1), ..., X(f), f = 0, ..., 64 werden mit den Unterdrückungskoeffizienten multipliziert. Jeder Koeffizient G(s) wird zum Multiplizieren der Samples genutzt, auf deren Grundlage die Komponenten S(s) berechnet wurden, z. B. werden die Samples X(15), ..., X(21) mit G(2) multipliziert. Zudem wird das niedrigste Sample X(0) mit demselben Koeffizienten wie Sample X(1) und die höchsten Samples X(57), ..., X(64) mit demselben Koeffizienten wie Sample X(56) multipliziert.
  • Die Multiplikation wird durch Multiplizieren realer und imaginärer Komponenten getrennt in Multiplizierungseinheit 30 durchgeführt, wobei als deren Ausgabe folgendes erzielt wird: Y(f) = G(s)X(f) = G(s)Xr(f) + jG(s)Xi (f), f = 0, ..., 64, s = 0, ..., 7 (6)
  • Auf diese Weise werden Samples Y(f), f = 0, ... 64 erzielt, von denen in IFFT-Block 40 eine reale, inverse schnelle Fourier-Transformation berechnet wird, wobei als dessen Ausgabe Zeitbereichssamples y(n), n = 0, ..., 127 erzielt werden, in denen Rauschen unterdrückt wurde.
  • Allgemeiner ausgedrückt kann eine Unterdrückung für jedes Frequenzbereichssample X(0), X(1), ..., X(f), f = 0, ..., 64 als gewichtete Summe mehrerer Unterdrückungskoeffizienten wie folgt berechnet werden: Y(s) = (b(0)G(0) + b(1)G(1) + ... + b(7)G(7))X(f), (6a)wobei die Koeffizienten b(0) bis b(7) Konstanten sind (verschiedene Koeffizienten für jede Komponente X(f), f = 0, ..., 64).
  • Da es nur 8 Berechnungsspektrumkomponenten S(s) gibt, ist das Berechnen von Unterdrückungskoeffizienten auf deren Grundlage erheblich leichter als wenn die Leistungsspektrumkomponenten P(f), deren Menge 65 beträgt, zur Berechnung verwendet würden. Da jede neue Berechnungsspektrumkomponente S(s) für einen größeren Bereich berechnet wurde, sind ihre Abweichungen geringer als die Abweichungen des Leistungsspektrumkomponenten P(f). Diese Abweichungen werden insbesondere durch Zufallsrauschen im Signal bewirkt. Da Zufallsabweichungen bei den Berechnungsspektrumkomponenten S(s), die für die Berechnung genutzt werden, kleiner sind, sind auch die Abweichungen von berechneten Unterdrückungskoeffizienten G(s) zwischen aufeinander folgenden Rahmen kleiner. Da derselbe Unterdrückungskoeffizient G(s) gemäß dem Vorstehenden zum Multiplizieren mehrerer Samples der Frequenzantwort X(f) angewendet wird, führt er zu kleineren Frequenzbereichsabweichungen innerhalb eines Rahmens. Dies führt zu gesteigerter Sprachqualität, da eine zu starke Abweichung von Unterdrückungskoeffizienten unangenehm klingt.
  • Im Berechnungsblock 90 wird ein a posteriori Signal-Rausch-Verhältnis auf jedem Frequenzband als das Verhältnis zwischen der Leistungsspektrumkomponente des betreffenden Rahmens und der entsprechenden Komponente des Hintergrundrauschenmodells berechnet, wie im Folgenden gezeigt.
  • Das Rauschspektrum N(s), s = 0, ... 7 wird in Schätzungsblock 80, welcher detaillierter in 9 gezeigt ist, geschätzt, wenn der Sprachaktivitätsdetektor keine Sprache erkennt. Die Schätzung erfolgt in Block 80 durch rekursives Berechnen eines zeitlichen Mittelwerts für jede Komponente des Spektrums S(s), s = 0, ..., 7 des Signals, das von Block 60 hergeleitet wurde: Nn(s) = λNn–l(s) + (1 – λ)S(s) s = 0, ..., 7 (7)
  • In diesem Kontext bedeutet Nn–l(s) eine berechnete Rauschspektrumschätzung für den vorhergehenden Rahmen, erhalten aus Speicher 83, wie in 9 gezeigt, und Nn(s) bedeutet eine Schätzung für den gegenwärtigen Rahmen (n = Rahmenordnungszahl) gemäß der oben stehenden Gleichung. Diese Berechnung erfolgt vorzugsweise digital in Block 81, dessen Eingaben Spektrumkomponenten S(s) von Block 60, die Schätzung für den vorhergehenden Rahmen Nn–l (s), die aus Speicher 83 erhalten wird, und der Wert für die Variable λ, der in Block 82 berechnet wurde. Die Variable λ hängt von den Werten Vind' (der Ausgabe des Sprachaktivitätsdetektors) und STcount (Variable, die die Steuerung der Aktualisierung der Hintergrundrauschenspektrumschätzung betrifft) ab, deren Berechnung später dargelegt wird. Der Wert der Variablen λ wird gemäß der folgenden Tabelle (typische Werte für ë) bestimmt:
  • Figure 00190001
  • Später wird ein kürzeres Symbol N(s) für die Rauschspektrumschätzung verwendet, die für den gegenwärtigen Rahmen berechnet wird. Die Berechnung gemäß der oben stehenden Schätzung erfolgt vorzugsweise digital. Das digitale Ausführen von Multiplikationen, Additionen und Subtraktionen gemäß der oben stehenden Gleichung ist dem Fachmann allgemein bekannt.
  • Vom Eingangsspektrum und Rauschspektrum wird im Berechnungsblock 90 Komponente für Komponente ein Verhältnis γ(s), s = 0, ..., 7 berechnet, und das Verhältnis wird a posteriori Signal-Rausch-Verhältnis genannt:
  • Figure 00200001
  • Der Berechnungsblock wird auch vorzugsweise digital ausgeführt und führt die obige Division durch. Das digitale Durchführen einer Division ist dem Fachmann als solches aus dem Stand der Technik bekannt. Unter Verwendung dieser a posteriori Signal-Rausch-Verhältnisschätzung γ(s) und der Unterdrückungskoeffizienten G ~(s), s = o, ..., 7 des vorhergehenden Rahmens wird eine a priori Signal-Rausch-
  • Verhältnisschätzung ^(s), die zum Berechnen von Unterdrückungskoeffizienten verwendet werden soll, in einer zweiten Berechnungseinheit 140 für jedes Frequenzband berechnet, wobei die Schätzung vorzugsweise digital gemäß der folgenden Gleichung durchgeführt wird: ^n(s, n) = max(ξ_min, μG ~ 2n1 (s)γ n–1(s) + (l – μ)P(γn(s) – l)). (9)
  • Hierbei steht n für die Ordnungszahl des Rahmens, wie vorher, und die tief gestellten Indizes beziehen sich auf einen Rahmen, in dem jede Schätzung (a priori Signal-Rausch-Verhältnis, Unterdrückungskoeffizienten, a posteriori Signal-Rausch-Verhältnis) berechnet wird. Eine detailliertere Ausführung von Berechnungsblock 140 ist in 8 gezeigt. Der Parameter μ ist eine Konstante, deren Wert 0,0 bis 1,0 beträgt, mit der die Information über die gegenwärtigen und vorhergehenden Rahmen gewichtet wird und die z. B. im voraus in Speicher 141 gespeichert sein kann, von dem sie zu Block 145 aufgerufen wird, der die Berechnung der oben stehenden Gleichung ausführt. Dem Koeffizienten μ können verschiedene Werte für Sprach- und Rauschrahmen gegeben werden, und der korrekte Wert wird gemäß der Bestimmung des Sprachaktivitätsdetektors ausgewählt (typischerweise wird μ ein höherer Wert für Rauschrahmen als für Sprachrahmen gegeben). ξ_min min ist ein Minimum des a priori Signal-Rausch-Verhältnisses, das zum Vermindern von Restrauschen verwendet wird, das durch schnelle Signal-Rausch-Verhältnisabweichungen bewirkt ist, in solchen Sequenzen des Eingangssignals, die keine Sprache enthalten. ξ_min wird in Speicher 146 bewahrt, in dem es im Voraus gespeichert ist. Typischerweise ist der Wert von ξ_min 0,35 bis 0,8. In der vorhergehenden Gleichung führt die Funktion P(γn(s) – 1) Einweggleichrichtung aus:
    Figure 00210001
    deren Berechnung in Berechnungsblock 144 ausgeführt wird, zu dem, gemäß der vorhergehenden Gleichung, das a posteriori Signal-Rausch-Verhältnis γ(s), das aus Block 90 erhalten wird, als eine Eingabe geleitet wird. Als eine Ausgabe aus Berechnungsblock 144 wird der Wert der Funktion P(γn(s) – 1) an Block 145 übermittelt. Zudem wird beim Berechnen der a priori Signal-Rausch-Verhältnisschätzung ^(s) das a priori Signal-Rausch-Verhältnis γn–l(s) für den vorhergehenden Rahmen eingesetzt, multipliziert mit der zweiten Potenz des entsprechenden Unterdrückungskoeffizienten des vorhergehenden Rahmens. Dieser Wert wird in Block 145 durch Speichern in Speicher 146 des Produkts des Werts des a posteriori Signal-Rausch-Verhältnisses γ(s) und der zweiten Potenz des entsprechenden Unterdrückungskoeffizienten erhalten, der im selben Rahmen berechnet wurde. Unterdrückungskoeffizienten G(s) werden aus Block 130 erhalten, der detaillierter in
  • 7 gezeigt ist und in dem zunächst Koeffizienten G ~(s) aus Gleichung
    Figure 00220001
    berechnet werden, in der eine modifizierte Schätzung ~(s)(s), s = 0, ... 7 der a priori Signal-Rausch-Verhältnisschätzung ^(s, n) angewendet wird, wobei die Berechnung von ~(s) später unter Bezugnahme auf 7 gezeigt wird. Auch die digitale Ausführung dieser Berechnungsart ist einem Fachmann aus dem Stand der Technik bekannt.
  • Wenn diese modifizierte Schätzung ~(s) berechnet wird, wird eine Einsicht gemäß dieser Erfindung des Nutzens eines relativen Rauschpegels eingesetzt, die im Folgenden erklärt wird:
  • Bei einem Verfahren gemäß der Erfindung wird die Anpassung der Rauschunterdrückung auf Grundlage eines relativen Rauschpegels η (dessen Berechnung später beschrieben wird) und unter zusätzlicher Verwendung eines Parameters gesteuert, der aus dem gegenwärtigen Rahmen berechnet wird, wobei der Parameter die Spektraldistanz DSNR zwischen dem Eingangssignal und einem Rauschmodell darstellt, deren Berechnung später beschrieben wird. Dieser Parameter wird zum Skalieren des Parameters, der den relativen Rauschpegel und durch diesen die Werte eines Signal-Rausch-Verhältnisses ^(s, n) beschreibt. Die Werte des Spektrumdistanzparameters stellen die Vorkommenswahrscheinlichkeit von Sprache im gegenwärtigen Rahmen dar. Dementsprechend werden die Werte eines a priori Signal-Rausch-Verhältnisses ^(s, n) am wenigstens erhöht, je sauberer nur Hintergrundrauschen in dem Rahmen enthalten ist, und hierdurch wird in der Praxis effektivere Rauschunterdrückung erreicht. Wenn ein Rahmen Sprache enthält, ist die Unterdrückung geringer, aber Sprache maskiert Rauschen effektiv sowohl im Frequenz- als auch im Zeitbereich. Da der Wert des Spektrumdistanzparameters, der zur Unterdrückungsanpassung genutzt wird, einen kontinuierlichen Wert aufweist und sofort auf Änderungen bei der Signalleistung anspricht, sind der Unterdrückungsanpassung keine Unstetigkeiten auferlegt, die unangenehm klingen würden.
  • Es ist kennzeichnend für Rauschunterdrückungsverfahren des Stands der Technik, dass, je stärker Rauschen mit Sprache verglichen wird, desto mehr Verzerrungsrauschunterdrückung der Sprache auferlegt ist. Bei der vorliegenden Erfindung wurde der Betrieb verbessert, sodass gleitende Mittelwerte S -(n) und N -(n) rekursiv aus Sprach- und Rauschleistungen berechnet werden. Auf deren Grundlage wird der Parameter η, der den relativen Rauschpegel darstellt, berechnet, und die Rauschunterdrückung G(s) wird durch ihn angepasst.
  • Die Mittelwerte und Parameter werden in Block 70 berechnet, von dem eine detailliertere Ausführung in 6 gezeigt ist und der im Folgenden beschrieben wird. Die Unterdrückungsanpassung erfolgt durch Erhöhen der Werte eines a priori Signal-Rausch-Verhältnisses ^n(s, n) auf Grundlage des relativen Rauschpegels η. Hierbei kann die Rauschunterdrückung gemäß dem relativen Rauschpegel η angepasst werden, sodass der Sprache keine erhebliche Verzerrung auferlegt ist.
  • Zum Gewährleisten eines guten Ansprechens auf Einschwingvorgänge in der Sprache müssen die Unterdrückungskoeffizienten G(s) in Gleichung (11) schnell auf Sprachaktivität ansprechen. Leider erhöht erhöhte Sensibilität der Unterdrückungskoeffizienten auf Spracheinschwingvorgänge auch ihre Sensibilität für nicht ortsgebundenes Rauschen, wodurch sie den Restrauschklang weniger glatt als das ursprüngliche Rauschen machen.
  • Überdies kann, da die Schätzung der Form und des Pegels des Hintergrundrauschspektrums N(s) in Gleichung (7) rekursiv durch arithmetische Mittelwertbildung ausgeführt wird, der Schätzungsalgorithmus nicht schnell genug umstellen, um schnell variierende Rauschkomponenten zu modellieren, wodurch er ihre Dämpfung ineffizient macht. Tatsächlich könnten solche Komponenten nach der Steigerung wegen der verminderten Maskierung dieser Komponenten durch das gedämpfte, ortsgebundene Rauschen besser unterschieden werden.
  • Unerwünschtes Variieren von Restrauschen wird auch erzeugt, wenn die Spektralauflösung der Errechnung der Unterdrückungskoeffizienten durch Erhöhen der Anzahl von Spektrumkomponenten erhöht ist. Diese herabgesetzte Glattheit ist eine Folge der schwächeren Mittelwertbildung der Leistungsspektrumkomponenten im Frequenzbereich. Angemessene Auflösung wird andererseits zur richtigen Dämpfung während einer Sprachaktivität und Minimierung von Verzerrung, die an der Sprache bewirkt ist, gebraucht.
  • Eine nicht optimale Aufteilung des Frequenzbereichs kann unerwünschte Schwankung von Hintergrundrauschen mit niedriger Frequenz bei der Unterdrückung bewirken, wenn das Rauschen auf niedrigen Frequenzen hoch konzentriert ist. Wegen des hohen Gehalts an Rauschen auf niedriger Frequenz bei der Sprache ist die Dämpfung des Rauschens auf derselben niedrigen Frequenz bei Rahmen, die Sprache enthalten, herabgesetzt, was zu einer unangenehm klingenden Modulation des Restrauschens im Sprachrhythmus führt.
  • Die drei Probleme, die oben beschrieben sind, können durch eine Minimumverstärkungssuche effektiv verkleinert werden. Das Prinzip dieses Ansatzes ist durch die Tatsache angeregt, dass sich bei jeder Frequenzkomponente die Signalleistung bei Sprache langsamer und weniger zufällig als bei Rauschen ändert. Der Ansatz glättet und stabilisiert das Ergebnis von Hintergrundrauschunterdrückung und lässt Sprache weniger beeinträchtigt und Resthintergrundrauschen glatter klingen, wodurch die subjektive Qualität der aufgewerteten Sprache verbessert ist. Insbesondere können alle Arten schnell variierender, nicht ortsgebundener Hintergrundrauschkomponenten durch das Verfahren während Sprache sowie Rauschen gedämpft werden. Überdies erzeugt das Verfahren keinerlei Verzerrungen an der Sprache, sondern lässt sie von beeinträchtigendem Rauschen befreiter klingen. Zudem gestattet die Minimalverstärkungssuche die Nutzung einer erhöhten Anzahl von Frequenzkomponenten bei der Errechnung der Unterdrückungskoeffizienten G(s) in Gleichung (11), ohne eine zusätzliche Abweichung am Restrauschen zu verursachen.
  • Beim Minimalverstärkungssuche-Verfahren werden die Minimumwerte der Unterdrückungskoeffizienten G'(s) in Gleichung (24) an jeder Frequenzkomponente s aus dem laufenden und aus beispielsweise 1 bis 2 vorhergehenden Rahmen gesucht, abhängig davon, ob der laufende Rahmen Sprache enthält oder nicht. Der Minimumverstärkungssuche-Ansatz kann folgendermaßen dargestellt werden:
    Figure 00260001
    wobei G(s, n) den Unterdrückungskoeffizienten auf Frequenz s in Rahmen n nach der Minimumverstärkungssuche bezeichnet und Vind' die Ausgabe des Sprachaktivitätsdetektors darstellt, deren Berechnung später gezeigt wird.
  • Die Unterdrückungskoeffizienten G'(s) werden durch die Minimumverstärkungssuche gemäß Gleichung (12) vor der Multiplikation in Block 30 (in 2) der komplexen FFT mit den Unterdrückungskoeffizienten modifiziert. Die Minimumverstärkung kann in Block 130 oder in einem separaten Block, der zwischen Block 130 und Block 120 eingefügt ist, erfolgen.
  • Die Anzahl von vorhergehenden Rahmen, über die die Minima der Unterdrückungskoeffizienten gesucht werden, kann auch größer als zwei sein. Zudem können auch andere Arten von nicht linearen (z. B. Median, eine Kombination aus Minimum und Median usw.) oder linearen (z. B. Durchschnitt) Filtervorgängen der Unterdrückungskoeffizienten, die dann das Minimum übernehmen, auch in der vorliegenden Erfindung genutzt werden.
  • Die arithmetische Komplexität des gezeigten Ansatzes ist niedrig. Wegen der Beschränkung der Maximumdämpfung durch Einführen einer niedrigeren Grenze für die Unterdrückungskoeffizienten bei der Rauschunterdrückung, und weil die Unterdrückungskoeffizienten zum Amplitudenbereich in Beziehung stehen und keine Leistungsvariablen sind, daher einen gemäßigten Dynamikbereich belegen, können diese Koeffizienten effektiv komprimiert werden. Daher ist der Verbrauch statischen Speichers niedrig, obwohl Unterdrückungskoeffizienten einiger vorhergehender Rahmen gespeichert werden müssen. Die Speichervoraussetzungen des beschriebenen Verfahrens zum Glätten des Rauschunterdrückungsergebnisses schneiden im Vergleich zu beispielsweise dem Verwenden von Leistungsspektren mit hoher Auflösung von vorherigen Rahmen für denselben Zweck, was in einigen vorhergehenden Ansätzen vorgeschlagen wurde, günstig ab.
  • In dem Block, der in 6 gezeigt ist, wird der zeitliche Mittelwert für Sprache S ^(n) unter Verwendung der Leistungsspektrumsschätzung S(s), S = 0, ..., 7 berechnet. Der zeitliche Mittelwert S ^(n) wird aktualisiert, wenn der Sprachaktivitätsdetektor 110 (VAD) Sprache erkennt. Der Mittelwert für Komponenten S -(n) im gegenwärtigen Rahmen wird zunächst in Block 71 berechnet, in dem Spektrumkomponenten S(s) als eine Eingabe von Block 60 erhalten werden, wie folgt:
  • Figure 00280001
  • Der zeitliche Mittelwert S -(n) wird durch Berechnen in Block 72 (z. B. rekursiv) auf Grundlage eines zeitlichen Mittelwerts S ^(n – 1) für den vorhergehenden Rahmen, der aus Speicher 78 erhalten wird, in dem der zeitliche Mittelwert während des vorhergehenden Rahmens gespeichert wurde, des Berechnungsspektrumsmittelwerts S -(n), der aus Block 71 erhalten wird, und Zeitkonstante á, die im voraus in Speicher 79a gespeichert wurde, erhalten: S -(n) = α S -(n – 1) + (1 – α)S -(n) (14)wobei n die Ordnungszahl eines Rahmens und á die Zeitkonstante ist, deren Wert von 0,0 bis 1,0, typischerweise zwischen 0,9 und 1,0 beträgt. Um nicht sehr schwache Sprache in dem zeitlichen Mittelwert zu enthalten (z. B. am Ende eines Satzes), wird er nur aktualisiert, wenn der Mittelwert der Spektrumkomponenten für den gegenwärtigen Rahmen einen Schwellenwert übersteigt, der vom zeitlichen Mittelwert abhängt. Dieser Schwellenwert beträgt typischerweise ein Viertel des zeitlichen Mittelwerts. Die Berechnung der zwei vorhergehenden Gleichungen wird vorzugsweise digital ausgeführt.
  • Dementsprechend wird der zeitliche Mittelwert von Rauschleistung N -(n) aus Berechnungsblock 73 unter Verwendung der Leistungsspektrumschätzung von Rauschen N(s), s = 0, ... 7 und Komponentenmittelwert N -(n), der daraus gemäß der nächsten Gleichung berechnet wird: N -(n) = β N -(n – 1) + (1 – β)N -(n) (15)in der ä eine Zeitkonstante ist, deren Wert 0,0 bis 1,0, typischerweise zwischen 0,9 und 1,0 beträgt. Der zeitliche Rauschleistungsmittelwert wird in jedem Rahmen aktualisiert. Der Mittelwert der Rauschspektrumkomponenten N -(n) wird in Block 76 auf Grundlage der Spektrumkomponenten N(s) folgendermaßen berechnet:
    Figure 00300001
    und der zeitliche Rauschleistungsmittelwert N ^(n – 1) für den vorhergehenden Rahmen wird aus Speicher 74 erhalten, in dem er während des vorhergehenden Rahmens gespeichert wurde. Der relative Rauschpegel η wird in Block 75 als ein skalierter und Maximum begrenzter Quotient der zeitlichen Mittelwerte von Rauschen und Sprache berechnet
    Figure 00300002
    wobei κ eine Skalierkonstante (typischer Wert: 4,0) ist, die im Voraus in Speicher 77 gespeichert wurde, und max_n der Maximumwert des relativen Rauschpegels (typischerweise 1,0) ist, der in Speicher 79b gespeichert wurde.
  • Aus diesem Parameter für den relativen Rauschpegel η wird der endgültige Term, der bei der Unterdrückungsanpassung verwendet wird, erhalten, indem er mit einem Parameter skaliert wird, der die Distanz zwischen Eingangssignal und Rauschmodell, DSNR, darstellt, welche im Sprachaktivitätsdetektor 110 unter Verwendung eines a posteriori Signal-Rausch-Verhältnisses γ(s) berechnet wird, das folgende Gleichung durch digitale Berechnung ausführt:
    Figure 00310001
    wobei s_l und s_h die Indexwerte der niedrigsten und höchsten beteiligten Frequenzkomponenten sind und νs = Gewichtungskoeffizient pro Komponente, welche vorgegeben und im Voraus in einem Speicher gespeichert sind, aus dem sie zur Berechnung aufgerufen werden. Typischerweise werden alle a posteriori Signal-Rausch-Verhältnisschätzwertkomponenten s_1 = 0 und s_h = 7 verwendet, und sie werden gleich gewichtet νs = 1,0/8,0; S = 0, ..., 7.
  • Folgendes ist eine eingehendere Beschreibung der Ausführungsform eines Sprachaktivitätsdetektors 110 unter Bezugnahme auf 11. Die Ausführungsform des Sprachaktivitätsdetektors ist neuartig und insbesondere zum Gebrauch in einem Rauschunterdrücker gemäß der Erfindung geeignet, der Sprachaktivitätsdetektor könnte jedoch auch mit anderen Arten von Rauschunterdrückern oder für andere Zwecke gebraucht werden, bei denen Spracherkennung eingesetzt wird, z. B. zum Steuern einer diskontinuierlichen Verbindung und zur akustischen Echokompensierung. Die Erkennung von Sprache in dem Sprachaktivitätsdetektor gründet auf dem Signal-Rausch-Verhältnis oder auf dem a posteriori Signal-Rausch-Verhältnis auf verschiedenen Frequenzbändern, das in Block 90 berechnet wird, wie in 2 zu sehen. Die Signal-Rausch-Verhältnisse werden durch Dividieren der Leistungsspektrumkomponenten N(s) für einen Rahmen (aus Block 60) durch entsprechende Komponenten N(s) der Hintergrundrauschschätzung (aus Block 80) berechnet. Eine Summiereinheit 111 im Sprachaktivitätsdetektor summiert die Werte der a posteriori Signal-Rausch-Verhältnisse, die von verschiedenen Frequenzbändern erhalten werden, wobei der Parameter DSNR, der die Spektrumdistanz zwischen Eingangssignal und Rauschmodell beschreibt, gemäß der obigen Gleichung (18) erhalten wird, und der Wert aus der Summiereinheit wird mit einem vorgegebenen Schwellenwert vth in Vergleichereinheit 112 verglichen. Wenn der Schwellenwert überschritten wird, wird angenommen, dass der Rahmen Sprache enthält. Das Summieren kann auch auf solche Weise gewichtet werden, dass mehr Gewicht auf die Frequenzen gelegt wird, auf denen erwartet werden kann, dass das Signal-Rausch-Verhältnis gut ist. Die Ausgabe des Sprachaktivitätsdetektors kann mit einer Variablen Vind' für die Werte präsentiert sein, von denen folgende Bedingungen erhalten werden:
  • Figure 00320001
  • Da der Sprachaktivitätsdetektor 110 das Aktualisieren von Hintergrundspektrumschätzung N(s) steuert und letztere ihrerseits die Funktion des Sprachaktivitätsdetektors auf eine Weise beeinflusst, die oben beschrieben ist, ist es möglich, dass die Hintergrundspektrumschätzung N(s) auf einem zu niedrigen Pegel bleibt, wenn der Hintergrundrauschpegel plötzlich ansteigt. Um dies zu verhindern, wird die Zeitdauer (Anzahl von Rahmen), während der angenommen wird, dass aufeinander folgende Rahmen Sprache enthalten, überwacht, wenn diese Anzahl von aufeinander folgenden Rahmen einen Schwellenwert max_spf übersteigt, dessen Wert z. B. 50 ist, wird der Wert von Variable STcount auf 1 gestellt. Die Variable STcount wird auf null zurück gestellt, wenn Ving' einen Wert 0 erhält.
  • Ein Zähler für aufeinander folgende Rahmen (in der Figur nicht gezeigt, jedoch in 9, Block 82, enthalten, in dem auch der Wert von Variable STcount gespeichert wird) wird jedoch nicht erhöht, wenn die Änderung der Energien von aufeinander folgenden Rahmen Block 80 anzeigt, dass das Signal nicht ortsgebunden ist. Ein Parameter STind, der Ortsgebundenheit anzeigt, wird in Block 100 berechnet. Wenn die Energieänderung ausreichend groß ist, wird der Zähler zurück gestellt. Das Ziel dieser Bedingungen ist zu gewährleisten, dass eine Hintergrundspektrumschätzung während Sprache nicht aktualisiert wird. Zudem wird die Hintergrundspektrumschätzung N(s) auf jedem Frequenzband immer dann vermindert, wenn die Leistungsspektrumkomponente des fraglichen Rahmens kleiner als die entsprechende Komponente der Hintergrundspektrumschätzung N(s) ist. Dieser Vorgang stellt seinerseits sicher, dass die Hintergrundspektrumschätzung N(s) nach einer möglichen irrtümlichen Aktualisierung schnell auf einen korrekten Pegel zurückkehrt.
  • Die Ortsgebundenheitsbedingungen sind aus Gleichung (27) ersichtlich, die später in diesem Dokument dargelegt wird. Punkt a) entspricht einer Situation mit einem ortsgebundenen Signal, bei der der Zähler von aufeinander folgenden Sprachrahmen erhöht wird. Punkt b) entspricht nicht ortsgebundenem Status, bei dem der Zähler zurück gestellt wird, und Punkt c) einer Situation, bei der der Wert des Zählers nicht geändert wird.
  • Zudem sind in der Erfindung durch Anpassen des Schwellenwerts vth des Sprachaktivitätsdetektors unter Verwendung des relativen Rauschpegels η (der in Block 70 berechnet wird) die Exaktheit von Sprachaktivitätsdetektor 110 und Hintergrundspektrumschätzung N(s) gesteigert. In einer Umgebung, in der das Signal-Rausch-Verhältnis sehr gut ist (oder der relative Rauschpegel η niedrig ist), ist der Schwellenwert vth auf Grundlage des relativen Rauschpegels η erhöht. Hierbei ist das Auslegen von schnellen Änderungen im Hintergrundrauschen als Sprache verringert. Eine Anpassung des Schwellenwerts wird in Block 113 gemäß der folgenden Gleichung ausgeführt: vth = max(vth_min, vth_fix + vth_slope*η) (20)wobei vth_fix; vth_min und vth_slope Konstanten sind, für die typische Werte z. B. vth_fix = 2,5; vth_min = 2,0; vth_slope = 8,0 sind.
  • Ein häufig auftretendes Problem bei einem Sprachaktivitätsdetektor 110 ist, dass genau bei Beginnen der Sprache die Sprache nicht sofort erkannt wird und auch das Ende der Sprache nicht korrekt erkannt wird. Dies bewirkt daher, dass die Hintergrundrauschschätzung N(s) einen inkorrekten Wert erhält, der wiederum die späteren Ergebnisse des Sprachaktivitätsdetektors beeinflusst. Dieses Problem kann durch Aktualisieren der Hintergrundrauschschätzung unter Anwendung einer Verzögerung beseitigt werden. In diesem Fall wird eine bestimmte Anzahl N (z. B. N = 4) von Leistungsspektren Sl(s), ..., SN(s) der letzten Rahmen vor dem Aktualisieren der Hintergrundrauschschätzung N(s) gespeichert. Wenn während der letzten Doppelmenge von Rahmen (oder während 2*N Rahmen) der Sprachaktivitätsdetektor 110 keine Sprache erkannt hat, wird die Hintergrundrauschschätzung N(s) mit dem ältesten Leistungsspektrum Sl(s) im Speicher aktualisiert, in jedem anderen Fall erfolgt keine Aktualisierung. Damit ist gewährleistet, dass N Rahmen vor und nach dem beim Aktualisieren verwendeten Rahmen Rauschen waren. Das Problem bei diesem Verfahren ist, dass es ziemlich viel Speicher oder N*8 Speicherplätze erfordert. Der Speicherverbrauch kann ferner dadurch optimiert werden, dass zuerst die Mittelwerte der nächsten M Leistungsspektren S ~ 1(s) zu Speicherplatz A und danach die Mittelwerte von M (z. B. M = 4) der nächsten Leistungsspektren S - 2(n) zu Speicherplatz B berechnet werden. Wenn während der letzten 3*M Rahmen der Sprachaktivitätsdetektor nur Rauschen erkannt hat, wird die Hintergrundrauschschätzung mit den Werten aktualisiert, die in Speicherplatz A gespeichert sind. Danach wird Speicherplatz A zurück gestellt und der Leistungsspektrummittelwert
    Figure 00350001
    (n) für die nächsten M Rahmen berechnet. Wenn er berechnet wurde, wird die Hintergrundrauschspektrumschätzung N(s) mit den Werten in Speicherplatz B aktualisiert, wenn nur Rauschen während der 3*M Rahmen erfolgte. Der Vorgang wird auf diese Weise wiederholt, wobei Mittelwerte abwechselnd zu Speicherplatz A und B berechnet werden. Auf diese Weise werden nur 2*8 Speicherplätze gebraucht (Speicherplatz A und B enthalten jeweils 8 Werte).
  • Der Sprachaktivitätsdetektor 110 kann auch solcherart verbessert werden, dass der Sprachaktivitätsdetektor gezwungen ist, immer noch nach einem Sprach-Burst, Entscheidungen, die Sprache bedeuten, während N Rahmen (z. B. N = 1) weiterzugeben (dieser Zeitraum wird Verweilzeit genannt), obwohl der Sprachaktivitätsdetektor nur Rauschen erkennt. Dies verbessert den Betrieb, da es ansonsten passieren könnte, weil Sprache langsam leiser wird, dass das Ende von Sprache für Rauschen gehalten wird.
  • Die Verweilzeit kann anpassungsfähig vom relativen Rauschpegel n abhängig gemacht werden. In diesem Fall wird während starkem Hintergrundrauschen die Verweilzeit im Vergleich zu einer stillen Situation langsam erhöht. Das Verweilmerkmal kann folgendermaßen ausgeführt sein: der Verweilzeit n werden Werte 0, 1, ..., N gegeben, und Schwellenwerte η0, η1, ..., ηN–1; ηl < η1+1 für den relativen Rauschpegel werden berechnet, wobei die Werte als den Verweilzeiten entsprechend betrachtet werden können. In Echtzeit wird eine Verweilzeit durch Vergleichen des momentanen Werts des relativen Rauschpegels mit den Schwellenwerten ausgewählt. Zum Beispiel (N = 1, η0 = 0,01):
  • Figure 00360001
  • Die VAD-Entscheidung, die dieses Verweilzeitmerkmal beinhaltet, ist durch Vind bezeichnet.
  • Vorzugsweise kann das Verweilmerkmal unter Verwendung eines Verzögerungsblocks 114 ausgeführt sein, der im Ausgang des Sprachaktivitätsdetektors angeordnet ist, wie in 11 gezeigt. In US-Patent 4,811,404 wurde ein Verfahren zum Aktualisieren einer Hintergrundspektrumschätzung dargelegt, bei dem, wenn eine bestimmte Zeit nach dem vorigen Aktualisieren der Hintergrundspektrumschätzung vergangen ist, automatisch eine neue Aktualisierung ausgeführt wird. Bei dieser Erfindung wird ein Aktualisieren der Hintergrundrauschspektrumschätzung nicht in bestimmten Zeiträumen ausgeführt, sondern, wie im Vorstehenden genannt, abhängig vom Ergebnis des Sprachaktivitätsdetektors. Wenn die Hintergrundrauschspektrumschätzung berechnet wurde, wird die Aktualisierung der Hintergrundrauschspektrumschätzung nur ausgeführt, wenn der Sprachaktivitätsdetektor keine Sprache vor oder nach dem gegenwärtigen Rahmen erkannt hat. Durch diesen Vorgang kann der Hintergrundrauschspektrumschätzung ein so korrekt wie möglicher Wert gegeben werden. Dieses Merkmal u. a. und andere im Vorstehenden genannte Merkmale (z. B., dass der Wert des Schwellenwerts vth, auf dessen Grundlage bestimmt wird, ob Sprache vorliegt oder nicht, auf Grundlage des relativen Rauschpegels angepasst wird, der den Pegel von sowohl Sprache als auch Rauschen berücksichtigt) steigern sowohl die Genauigkeit der Hintergrundrauschspektrumschätzung als auch den Betrieb des Sprachaktivitätsdetektors wesentlich.
  • Im Folgenden wird die Berechnung von Unterdrückungskoeffizienten G'(s) unter Bezugnahme auf
  • 7 beschrieben. Ein korrekter Term φ, der die Berechnung von Unterdrückungskoeffizienten steuert, wird aus Block 131 durch Multiplizieren des Parameters für den relativen Rauschpegel η mit dem Parameter für die Spektrumdistanz DSNR und durch Skalieren des Produkts mit einer Skalierungskonstante n ~, die in Speicher 132 gespeichert wurde, und durch Begrenzen der Maxima des Produkts erhalten: ö = min(max_φ, ρDSNRη) (22)wobei n ~ = Skalierungskonstante (typischer Wert 8,0) und max_φ der Maximumwert des korrigierenden Terms (typischerweise 1,0) ist, der im Voraus in Speicher 135 gespeichert wurde.
  • Eine Anpassung der Berechnung von Unterdrückungskoeffizienten G ~(s)(s = 0, ..., 7) wird solcherart ausgeführt, dass die Werte eines a priori Signal-Rausch-Verhältnisses ^(s), gemäß Gleichung (9) aus Berechnungsblock 140 erhalten, zunächst unter Verwendung des Korrekturterms φ, der in Block 131 berechnet wurde, durch eine Berechnung in Block 133 folgendermaßen umgewandelt werden: ~(s) = (l + φ) ^(s) (23)und Unterdrückungskoeffizienten G ~(s) ferner in Block 134 aus Gleichung (11) berechnet werden.
  • Wenn der Sprachaktivitätsdetektor 110 erkennt, dass das Signal keine Sprache mehr enthält, wird das Signal unter Einsatz einer geeigneten Zeitkonstante weiter unterdrückt. Der Sprachaktivitätsdetektor 110 zeigt an, ob das Signal Sprache enthält oder nicht, indem er eine Sprachanzeigeausgabe Vind' weitergibt, das z. B. ein Bit, dessen Wert 0 ist, wenn keine Sprache vorkommt, und 1 betragen kann, wenn das Signal Sprache enthält. Die zusätzliche Unterdrückung wird ferner auf Grundlage eines Signal-Ortsgebundenheitanzeigers STind angepasst, der im Mobilitätsdetektor 100 berechnet wird. Durch dieses Verfahren kann die Unterdrückung leiserer Sprachsequenzen verhindert werden, die der Sprachaktivitätsdetektor 110 als Hintergrundrauschen auslegen könnte.
  • Die zusätzliche Unterdrückung wird in Block 138 ausgeführt, der die Unterdrückungskoeffizienten G'(s) berechnet. Beim Beginn von Sprache wird die zusätzliche Unterdrückung unter Verwendung einer geeigneten Zeitkonstante beseitigt. Die zusätzliche Unterdrückung wird gestartet, wenn gemäß dem Sprachaktivitätsdetektor 110 nach dem Ende von Sprachaktivität eine Anzahl, die eine vorgegebene Konstante (Nachwirkzeitraum) ist, von Rahmen, welche keine Sprache enthalten, erkannt wurde. Da die Anzahl von Rahmen, die in dem betreffenden Zeitraum (Nachwirkzeitraum) beinhaltet sind, bekannt ist, kann das Ende des Zeitraums unter Verwendung eines Zählers CT, der die Anzahl von Rahmen zählt, erkannt werden.
  • Unterdrückungskoeffizienten G'(s), die die zusätzliche Unterdrückung enthalten, werden in Block 138 auf Grundlage von Unterdrückungswerten G ~(s), die vorher in Block 134 berechnet wurden, und einem zusätzlichen Unterdrückungskoeffizienten σ, der in Block 137 berechnet wird, gemäß der folgenden Gleichung berechnet: G'(s) = σG ~(s) (24)wobei σ der zusätzliche Unterdrückungskoeffizient ist, dessen Wert in Block 137 unter Verwendung des Werts von Differenzterm δ(n), der in Block 136 auf Grundlage des Ortsgebundenheitanzeigers STind bestimmt wird, des Werts des zusätzlichen Unterdrückungskoeffizienten σ(n – 1) für den vorhergehenden Rahmen, der aus Speicher 139a erhalten wird, und des Minimumwerts von Unterdrückungskoeffizient min_σ, der im voraus in Speicher 139b gespeichert wurde, berechnet wird. Anfänglich ist der zusätzliche Unterdrückungskoeffizient σ = 1 (keine zusätzliche Unterdrückung), und sein Wert wird auf Grundlage von Anzeiger Vind' angepasst, wenn der Sprachaktivitätsdetektor 110 Rahmen erkennt, die keine Sprache enthalten, wie folgt:
    Figure 00400001
    wobei n = Ordnungszahl für einen Rahmen und n0 = der Wert der Ordnungszahl des letzten Rahmens ist, der zum Zeitraum vor der zusätzlichen Unterdrückung gehört. Das Minimum des zusätzlichen Unterdrückungskoeffizienten σ ist minimal begrenzt durch min_σ, was die höchste Endunterdrückung bestimmt (typischerweise ein Wert von 0,5 ... 1,0). Der Wert des Differenzterms δ(n) hängt von der Ortsgebundenheit des Signals ab. Um die Ortsgebundenheit zu bestimmen, wird die Änderung im Signalleistungsspektrum-Mittelwert S -(n) zwischen dem vorherigen und dem laufenden Rahmen verglichen. Der Wert des Differenzterms δ(n) wird in Block 136 folgendermaßen bestimmt:
    Figure 00410001
    wobei der Wert Des Differenzterms daher gemäß den Bedingungen a), b), und c) bestimmt wird, die auf Grundlage von Ortsgebundenheitsanzeiger STind bestimmt werden. Das Vergleichen der Bedingungen a), b) und c) erfolgt in Block 100, woraufhin der Ortsgebundenheitsanzeiger STind, der als eine Ausgabe erhalten wird, Block 136 anzeigt, welcher der Bedingungen a), b) und c) entsprochen wurde, woraufhin Block 100 folgenden Vergleich durchführt:
  • Figure 00410002
  • Die Konstanten th_s und yh_n sind höher als 1 (typische Werte sind z. B. th_s = 6,0/5,0 und th_n = 2,0 oder z. B. th s = 3,0/2,0 und th n = 8,0). Die Werte der Differenzterme δs, δn und δm werden solchermaßen ausgewählt, dass die Differenz von zusätzlicher Unterdrückung zwischen aufeinander folgenden Rahmen nicht störend klingt, auch wenn der Wert des Ortsgebundenheitsanzeigers STind häufig schwanken würde (typischerweise δ3 ∈ [–0,014,0), δn ∈ (0, 00,028) und δm = 0).
  • Wenn der Sprachaktivitätsdetektor 110 erneut Sprache entdeckt, wird die zusätzliche Unterdrückung durch Berechnen des zusätzlichen Unterdrückungskoeffizienten σ in Block 137 wie folgt beseitigt: σ(n) = min(1,(1 + δr)σ(n – 1)): n = n1, n1 + 1, ... (28)wobei n1 = die Ordnungszahl des ersten Rahmens nach einer Rauschsequenz und δr eine positive Konstante ist, deren absoluter Wert im Allgemeinen erheblich höher als der der oben angegebenen Differenzkonstanten ist, die die zusätzliche Unterdrückung anpassen (typischer Wert z. B. (1,0 – min_σ)/4,0), und die im voraus in einem Speicher, z. B. in Speicher 139b, gespeichert wurde. Die Funktionen der Blocks, die in 7 gezeigt sind, werden vorzugsweise digital ausgeführt. Das digitale Ausführen der Berechnungsvorgänge der Gleichungen, die in Block 130 durchgeführt werden sollen, ist dem Fachmann aus dem Stand der Technik bekannt.
  • Die acht Unterdrückungswerte G(s), die aus dem Unterdrückungswertberechnungsblock 130 erhalten werden, werden in einem Interpolator 120 solcherart in fünfundsechzig Samples interpoliert, dass die Unterdrückungswerte, die Frequenzen (0 bis 62,5 Hz und 3500 Hz bis 4000 Hz) außerhalb des verarbeiteten Frequenzbereichs entsprechen, den Unterdrückungswerten für das benachbarte verarbeitete Frequenzband gleichgesetzt werden. Auch der Interpolator 120 wird vorzugsweise digital ausgeführt.
  • Im Vervielfacher 30 werden die realen und imaginären Komponenten Xr(f) und Xi(f), die durch FFT-Block 20 erzeugt wurden, in Paaren mit Unterdrückungswerten multipliziert, die aus dem Interpolator 120 erhalten werden, wobei in der Praxis jeweils acht aufeinander folgende Samples X(f) aus dem FFT-Block mit demselben Unterdrückungswert G(s) multipliziert werden, wobei Samples, gemäß der bereits früher dargelegten Gleichung (6) als die Ausgabe von Vervielfacher 30 erhalten werden.
  • Hierbei werden Samples Y(f) f = 0, ..., 64 erhalten, aus denen eine reale, inverse schnelle Fourier-Transformation in IFFT-Block 40 berechnet wird, wobei als seine Ausgabe Zeitbereichssamples y(n), n = 0, ..., 127 erhalten werden, bei denen Rauschen unterdrückt wurde. Die Samples y(n), aus denen Rauschen unterdrückt wurde, entsprechen den Samples x(n), die in den FFT-Block geleitet wurden.
  • Aus den Samples y(n) werden 80 Samples in Auswahlblock 160 zur Ausgabe ausgewählt, zur Übertragung, wobei diese Sample y(n); n = 8, ..., 87 sind, die x(n) Werte entsprechend denen, die nicht mit einem Fensterstreifen multipliziert wurden, und daher können sie direkt zur Ausgabe gesendet werden. In diesem Fall werden zur Ausgabe 80 Samples erhalten, die den Samples entsprechen, die als Fenstereingangssignal an Fensterungsblock 10 eingelesen wurden. Da in der vorgelegten Ausführungsform Samples aus dem achten Sample zur Ausgabe ausgewählt werden, die Samples, die dem laufenden Rahmen entsprechen, jedoch am sechzehnten Sample beginnen (die ersten 6 waren Samples, die vom vorhergehenden Rahmen im Speicher gespeichert wurden), wird in dem Signal eine Verzögerung um 8 Samples oder 1 ms bewirkt. Wenn anfänglich mehr Samples eingelesen wurden, z. B. 112 (112 + 16 Samples des vorhergehenden Rahmens = 128), würde keinerlei Notwenigkeit bestehen, dem Signal Nullen hinzuzufügen, und infolgedessen wären die 112 Samples direkt in der Ausgabe erhalten worden. Es war nun jedoch gewünscht, 80 Samples gleichzeitig zur Ausgabe zu bekommen, so dass nach Berechnungen auf zwei aufeinander folgenden Rahmen 160 Samples erhalten werden, was wiederum dem gleichkommt, das die meisten der gegenwärtig genutzten Sprach-Codierer-Decodierer (z. B. in GSM-Mobiltelefonen) verwenden. Hierbei kann Rauschunterdrückung und Sprachcodierung effektiv und ohne Verzögerung, ausgenommen der oben genannten 1 ms, kombiniert werden. Vergleichsweise kann gesagt werden, dass bei Lösungen gemäß dem Stand der Technik die Verzögerung typischerweise die Hälfte der Länge des Fensters beträgt, wobei die Verzögerung unter Verwendung eines Fensters gemäß der hier dargelegten Beispielslösung, dessen Länge 96 Rahmen beträgt, 48 Samples oder 6 ms betrüge, womit diese Verzögerung sechs Mal so lang wie die Verzögerung ist, die mit der Lösung gemäß der Erfindung erreicht ist.
  • Das Verfahren gemäß der Erfindung und die Vorrichtung zur Rauschunterdrückung sind insbesondere zum Gebrauch in einer mobilen Station oder einem mobilen Kommunikationssystem geeignet, und sie sind auf keinerlei besonderen Aufbau beschränkt (TDMA, CDMA, digital/analog). 12 zeigt eine mobile Station gemäß der Erfindung, bei der Rauschunterdrückung gemäß der Erfindung eingesetzt ist. Das Sprachsignal, das übertragen werden soll und aus einem Mikrofon 1 kommt, wird in einem A/D-Wandler gesampelt, in einem Rauschunterdrücker 3 gemäß der Erfindung rauschunterdrückt und in einem Sprachcodierer 4 sprachcodiert, wonach in Block 5 eine Basisfrequenzsignalverarbeitung ausgeführt wird, z. B. Kanalcodierung, Verschachtelung, wie im Stand der Technik bekannt. Danach wird das Signal in Hochfrequenz umgewandelt und durch einen Sender 6 über einen Duplexfilter DPLX und eine Antenne ANT übertragen. Die bekannten Vorgänge eines Empfangszweigs 7 werden für Sprache, die bei Empfang empfangen wird, ausgeführt, und sie wird durch Lautsprecher 8 wiederholt.
  • Gestaltung und Ausführungsformen der Erfindung wurden hierin als Beispiele für das Verfahren und die Vorrichtung dargelegt. Es ist für den Fachmann offensichtlich, dass die Erfindung nicht auf die Details der dargelegten Ausführungsformen beschränkt ist, und dass die Erfindung auch in anderer Ausbildung ausgeführt sein kann, ohne von den Kennzeichen der Erfindung abzuweichen. Die dargelegten Ausführungsformen sollten nur als veranschaulichend, nicht als einschränkend betrachtet werden. Daher sind die Möglichkeiten, die Erfindung auszuführen und zu nutzen, nur durch die beiliegenden Ansprüche eingeschränkt. Hierbei sind verschiedene Alternativen zur Implementierung der Erfindung, die durch die Ansprüche definiert sind, einschließlich äquivalenter Ausführungen, im Anwendungsbereich der Erfindung wie durch die beiliegenden Ansprüche definiert beinhaltet.

Claims (13)

  1. Rauschunterdrücker zum Unterdrücken von Rauschen in einem Sprachsignal, wobei der Unterdrücker Mittel (20, 50) zum Aufteilen des Sprachsignals in eine erste Menge von Untersignalen (X, P), welche Leistungsspektrumkomponenten von bestimmten ersten Frequenzbereichen darstellen, und Unterdrückungsmittel (30) zum Unterdrücken von Rauschen in einem Untersignal (X, P) auf Grundlage eines bestimmten Unterdrückungskoeffizienten (G) umfasst, dadurch gekennzeichnet, dass er außerdem Rekombinationsmittel (60) zum Rekombinieren einer zweiten Menge von Untersignalen (X, P) zum Bilden eines Berechnungssignals (s) durch Erzeugen einer Summe einer vorgegebenen Anzahl von benachbarten Leistungsspektrumkomponenten des berechneten Signals (S), das einen bestimmten zweiten Frequenzbereich darstellt, der größer als die ersten Frequenzbereiche ist, Bestimmungsmittel (200) zum Bestimmen eines Unterdrückungskoeffizienten (G) für das Berechnungssignal (S) auf Grundlage von Rauschen, das darin enthalten ist, umfasst, und dass die Unterdrückungsmittel (30) zum Unterdrücken der Untersignale (X, P), die in dem Berechnungssignal (S) rekombiniert sind, angeordnet sind, wobei der Unterdrückungskoeffizient (G) auf Grundlage des Berechnungssignals (S) bestimmt wird.
  2. Rauschunterdrücker nach Anspruch 1, dadurch gekennzeichnet, dass er spektrumbildende Mittel (20, 50) zum Aufteilen des Sprachsignals in Spektrumkomponenten (X, P) umfasst, die die Untersignale darstellen.
  3. Rauschunterdrücker nach Anspruch 1, dadurch gekennzeichnet, dass er Samplingmittel (2) zum Sampeln des Sprachsignals in Zeitbereichs-Samples, Fensterungsmittel (10) zum Rahmen von Samples in einen Rahmen, Verarbeitungsmittel (20) zum Bilden von Frequenzbereichskomponenten (X) aus dem Rahmen umfasst, dass die spektrumbildenden Mittel (20, 50) zum Bilden der Spektrumkomponenten (X, P) aus den Frequenzbereichskomponenten (X) angeordnet sind, dass die Rekombinationsmittel (60) zum Rekombinieren der zweiten Menge von Spektrumkomponenten (X, P) in eine Berechnungsspektrumkomponente (S) angeordnet sind, die das Berechnungssignal (S) darstellt, dass die Bestimmungsmittel (200) Berechnungsmittel (190, 130) zum Berechnen eines Unterdrückungskoeffizienten (G) für die Berechnungsspektrumkomponente (S) auf Grundlage von Rauschen, das in letzterer enthalten ist, umfassen, und dass die Unterdrückungsmittel (30) einen Vervielfacher zum Multiplizieren der Frequenzbereichskomponenten (X), die den Spektrumkomponenten (P) entsprechen, welche in der Berechnungsspektrumkomponente (S) rekombiniert sind, mit dem Unterdrückungskoeffizienten (G) umfassen, um rauschunterdrückte Frequenzbereichskomponenten (Y) zu bilden, und dass er Mittel zum Umwandeln der rauschunterdrückten Frequenzbereichskomponenten (Y) in ein Zeitbereichssignal (y) und zum Ausgeben desselben als ein rauschunterdrücktes Ausgangssignal umfasst.
  4. Rauschunterdrücker nach Anspruch 3, dadurch gekennzeichnet, dass die Berechnungsmittel (190) Mittel (70) zum Bestimmen des Mittelpegels einer Rauschkomponente und einer Sprachkomponente (N, S), die in dem Eingangssignal enthalten sind, und Mittel (130) zum Berechnen des Unterdrückungskoeffizienten (G) für die Berechnungsspektrumkomponente (S) auf Grundlage der Rausch- und Sprachpegel (N, S) umfassen.
  5. Rauschunterdrücker nach Anspruch 3, dadurch gekennzeichnet, dass das Ausgabesignal zum Einspeisen in einen Sprach-Codierer-Decodierer zum Sprachcodieren angeordnet wurde und die Menge von Samples des Ausgangsignals ein gerader Quotient der Anzahl von Samples in einem Sprachrahmen ist.
  6. Rauschunterdrücker nach Anspruch 3, dadurch gekennzeichnet, dass die Verarbeitungsmittel (20) zum Bilden der Frequenzbereichskomponenten (X) eine bestimmte Spektrallänge umfassen, und dass die Fensterungsmittel (10) Vervielfachermittel (11) zum Multiplizieren von Samples mit einem bestimmten Fenster und sampleerzeugende Mittel (12) zum Hinzufügen von Samples zu den multiplizierten Samples umfassen, um einen Rahmen zu bilden, dessen Länge gleich der Spektrallänge ist.
  7. Rauschunterdrücker nach Anspruch 4, dadurch gekennzeichnet, dass er einen Sprachaktivitätsdetektor (110) zum Erkennen von Sprache und Pausen in einem Sprachsignal und zum Weitergeben eines Erkennungsergebnisses an das Mittel (130) zum Berechnen des Unterdrückungskoeffizienten zum Anpassen einer Unterdrückung abhängig vom Vorkommen von Sprache in dem Sprachsignal umfasst.
  8. Rauschunterdrücker nach Anspruch 4, dadurch gekennzeichnet, dass er Mittel (130) zum Berechnen des Unterdrückungskoeffizienten umfasst und gegenwärtige und vorherige Unterdrückungskoeffizienten G'(s) zum Errechnen neuer Unterdrückungskoeffizienten G(s) für den gegenwärtigen Rahmen nutzt.
  9. Rauschunterdrücker nach Anspruch 7, dadurch gekennzeichnet, dass er Mittel (112) zum Vergleichen des Signals, das in den Detektor eingeleitet wurde, mit einem bestimmten Schwellenwert, um eine Spracherkennungsentscheidung zu treffen, und Mittel (113) zum Anpassen des Schwellenwerts auf Grundlage des Mittelpegels der Rauschkomponente und der Sprachkomponente (N, S) umfasst.
  10. Rauschunterdrücker nach Anspruch 7, dadurch gekennzeichnet, dass er Rauschschätzungsmittel (80) zum Schätzen des Rauschpegels und zum Speichern des Pegelwerts umfasst, und dass während jedem analysierten Sprachsignal der Wert einer Rauschschätzung nur dann aktualisiert wird, wenn der Sprachaktivitätsdetektor (110) keine Sprache während einer bestimmten Zeitdauer vor und nach jedem erkannten Sprachsignal erkannt hat.
  11. Rauschunterdrücker nach Anspruch 10, dadurch gekennzeichnet, dass er Ortsgebundenheitsangabemittel (100) zum Angeben der Ortsgebundenheit des Sprachsignals umfasst und die Rauschschätzungsmittel (80) zum Aktualisieren des Rauschschätzwerts auf Grundlage der Ortsgebundenheitsangabe angeordnet sind, wenn die Angabe angibt, dass das Signal ortsgebunden ist.
  12. Mobile Station für Sprachübertragung und -empfang, umfassend ein Mikrofon (1) zum Umwandeln der Sprache, die übertragen werden soll, in ein Sprachsignal, und zur Unterdrückung von Rauschen im Sprachsignal umfassend Mittel (20, 50) zum Aufteilen des Sprachsignals in eine erste Menge von Untersignalen (X, P), welche Leistungsspektrumkomponenten von bestimmten ersten Frequenzbereichen darstellen, und Unterdrückungsmittel (30) zum Unterdrücken von Rauschen in einem Untersignal (X, P) auf Grundlage eines bestimmten Unterdrückungskoeffizienten (G), dadurch gekennzeichnet, dass sie ferner Rekombinationsmittel (60) zum Rekombinieren einer zweiten Menge von Untersignalen (X, P) zum Bilden eines Berechnungssignals (s) durch Erzeugen einer Summe einer vorgegebenen Anzahl von benachbarten Leistungsspektrumkomponenten des berechneten Signals (S), das einen zweiten Frequenzbereich darstellt, der größer als die ersten Frequenzbereiche ist, Bestimmungsmittel (200) zum Bestimmen eines Unterdrückungskoeffizienten (G) für das Berechnungssignal (S) auf Grundlage des Rauschens, das darin enthalten ist, umfasst, und dass die Unterdrückungsmittel (30) zum Unterdrücken der Untersignale (X, P), die in dem Berechnungssignal (S) kombiniert sind, angeordnet sind, wobei der Unterdrückungskoeffizient (G) auf Grundlage des Berechnungssignals (S) bestimmt wird.
  13. Rauschunterdrückungsverfahren zum Unterdrücken von Rauschen in einem Sprachsignal, wobei das Sprachsignal in eine erste Menge von Untersignalen (X, P), welche Leistungsspektrumkomponenten von bestimmten ersten Frequenzbereichen darstellen, aufgeteilt wird und Rauschen in einem Untersignal (X, P) auf Grundlage eines bestimmten Unterdrückungskoeffizienten (G) unterdrückt wird, dadurch gekennzeichnet, dass vor der Rauschunterdrückung eine zweite Menge von Untersignalen (X, P) zum Bilden eines Berechnungssignals (s) durch Erzeugen einer Summe einer vorgegebenen Anzahl von benachbarten Leistungsspektrumkomponenten der ersten Menge von Untersignalen für jede Komponente des Berechnungssignals (S), das einen bestimmten zweiten Frequenzbereich darstellt, der größer als die ersten Frequenzbereiche ist, rekombiniert wird, ein Unterdrückungskoeffizient (G) für das Berechnungssignal (S) auf Grundlage von Rauschen, das darin enthalten ist, bestimmt wird und die Untersignale (X, P), die in dem Berechnungssignal (S) rekombiniert sind, um den Unterdrückungskoeffizienten (G) unterdrückt werden, der auf Grundlage des Berechnungssignals (S) bestimmt wird.
DE69630580T 1995-12-12 1996-11-08 Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation Expired - Lifetime DE69630580T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI955947 1995-12-12
FI955947A FI100840B (fi) 1995-12-12 1995-12-12 Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin

Publications (2)

Publication Number Publication Date
DE69630580D1 DE69630580D1 (de) 2003-12-11
DE69630580T2 true DE69630580T2 (de) 2004-09-16

Family

ID=8544524

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69630580T Expired - Lifetime DE69630580T2 (de) 1995-12-12 1996-11-08 Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE69614989T Expired - Lifetime DE69614989T2 (de) 1995-12-12 1996-11-19 Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69614989T Expired - Lifetime DE69614989T2 (de) 1995-12-12 1996-11-19 Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung

Country Status (7)

Country Link
US (2) US5839101A (de)
EP (2) EP0790599B1 (de)
JP (4) JP4163267B2 (de)
AU (2) AU1067897A (de)
DE (2) DE69630580T2 (de)
FI (1) FI100840B (de)
WO (2) WO1997022116A2 (de)

Families Citing this family (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69716266T2 (de) * 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6766176B1 (en) * 1996-07-23 2004-07-20 Qualcomm Incorporated Method and apparatus for automatically adjusting speaker and microphone gains within a mobile telephone
US6510408B1 (en) * 1997-07-01 2003-01-21 Patran Aps Method of noise reduction in speech signals and an apparatus for performing the method
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
CN1494055A (zh) 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
FI116505B (fi) 1998-03-23 2005-11-30 Nokia Corp Menetelmä ja järjestelmä suunnatun äänen käsittelemiseksi akustisessa virtuaaliympäristössä
US6182035B1 (en) 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6067646A (en) * 1998-04-17 2000-05-23 Ameritech Corporation Method and system for adaptive interleaving
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
JPH11344999A (ja) * 1998-06-03 1999-12-14 Nec Corp ノイズキャンセラ
JP2000047696A (ja) * 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
US6272460B1 (en) * 1998-09-10 2001-08-07 Sony Corporation Method for implementing a speech verification system for use in a noisy environment
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
FI114833B (fi) 1999-01-08 2004-12-31 Nokia Corp Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6604071B1 (en) 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6349278B1 (en) 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
SE514875C2 (sv) 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US7161931B1 (en) * 1999-09-20 2007-01-09 Broadcom Corporation Voice and data exchange over a packet based network
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
FI19992453A (fi) 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Kohinanvaimennus
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
JP4510977B2 (ja) * 2000-02-10 2010-07-28 三菱電機株式会社 音声符号化方法および音声復号化方法とその装置
US6885694B1 (en) 2000-02-29 2005-04-26 Telefonaktiebolaget Lm Ericsson (Publ) Correction of received signal and interference estimates
US6671667B1 (en) * 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
US7225001B1 (en) 2000-04-24 2007-05-29 Telefonaktiebolaget Lm Ericsson (Publ) System and method for distributed noise suppression
DE10026904A1 (de) * 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
JP4580508B2 (ja) * 2000-05-31 2010-11-17 株式会社東芝 信号処理装置及び通信装置
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6741873B1 (en) * 2000-07-05 2004-05-25 Motorola, Inc. Background noise adaptable speaker phone for use in a mobile communication device
US6898566B1 (en) 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US20020054685A1 (en) * 2000-11-09 2002-05-09 Carlos Avendano System for suppressing acoustic echoes and interferences in multi-channel audio systems
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US6707869B1 (en) * 2000-12-28 2004-03-16 Nortel Networks Limited Signal-processing apparatus with a filter of flexible window design
US20020103636A1 (en) * 2001-01-26 2002-08-01 Tucker Luke A. Frequency-domain post-filtering voice-activity detector
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
FI110564B (fi) * 2001-03-29 2003-02-14 Nokia Corp Järjestelmä automaattisen kohinanvaimennuksen (ANC) kytkemiseksi päälle ja poiskytkemiseksi matkapuhelimessa
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
FR2824978B1 (fr) * 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
US6978010B1 (en) * 2002-03-21 2005-12-20 Bellsouth Intellectual Property Corp. Ambient noise cancellation for voice communication device
JP3946074B2 (ja) * 2002-04-05 2007-07-18 日本電信電話株式会社 音声処理装置
US7116745B2 (en) * 2002-04-17 2006-10-03 Intellon Corporation Block oriented digital communication system and method
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
KR100506224B1 (ko) * 2003-05-07 2005-08-05 삼성전자주식회사 이동 통신 단말기에서 노이즈 제어장치 및 방법
US20040234067A1 (en) * 2003-05-19 2004-11-25 Acoustic Technologies, Inc. Distributed VAD control system for telephone
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
US6873279B2 (en) * 2003-06-18 2005-03-29 Mindspeed Technologies, Inc. Adaptive decision slicer
GB0317158D0 (en) * 2003-07-23 2003-08-27 Mitel Networks Corp A method to reduce acoustic coupling in audio conferencing systems
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
KR101058003B1 (ko) * 2004-02-11 2011-08-19 삼성전자주식회사 소음 적응형 이동통신 단말장치 및 이 장치를 이용한통화음 합성방법
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
FR2875633A1 (fr) * 2004-09-17 2006-03-24 France Telecom Procede et dispositif d'evaluation de l'efficacite d'une fonction de reduction de bruit destinee a etre appliquee a des signaux audio
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
CN1763844B (zh) * 2004-10-18 2010-05-05 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
KR100677396B1 (ko) 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
CN100593197C (zh) * 2005-02-02 2010-03-03 富士通株式会社 信号处理方法和装置
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
EP1861846B1 (de) * 2005-03-24 2011-09-07 Mindspeed Technologies, Inc. Adaptive stimmenmodus-erweiterung für einen stimmenaktivitäts-detektor
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP4395772B2 (ja) * 2005-06-17 2010-01-13 日本電気株式会社 ノイズ除去方法及び装置
US8300834B2 (en) * 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
DE102006032967B4 (de) * 2005-07-28 2012-04-19 S. Siedle & Söhne Telefon- und Telegrafenwerke OHG Hausanlage und Verfahren zum Betreiben einer Hausanlage
GB2430129B (en) * 2005-09-08 2007-10-31 Motorola Inc Voice activity detector and method of operation therein
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
CN101379548B (zh) * 2006-02-10 2012-07-04 艾利森电话股份有限公司 语音检测器和用于其中抑制子频带的方法
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
JP4890195B2 (ja) * 2006-10-24 2012-03-07 日本電信電話株式会社 ディジタル信号分波装置及びディジタル信号合波装置
EP1939859A3 (de) * 2006-12-25 2013-04-24 Yamaha Corporation Vorrichtung und Verfahren zur Verarbeitung von Tonsignalen
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
JP4840149B2 (ja) * 2007-01-12 2011-12-21 ヤマハ株式会社 発音期間を特定する音信号処理装置およびプログラム
EP1947644B1 (de) * 2007-01-18 2019-06-19 Nuance Communications, Inc. Verfahren und vorrichtung zur bereitstellung eines tonsignals mit erweiterter bandbreite
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8195454B2 (en) 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
KR101009854B1 (ko) * 2007-03-22 2011-01-19 고려대학교 산학협력단 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US9191740B2 (en) * 2007-05-04 2015-11-17 Personics Holdings, Llc Method and apparatus for in-ear canal sound suppression
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US8526645B2 (en) 2007-05-04 2013-09-03 Personics Holdings Inc. Method and device for in ear canal echo suppression
WO2008137870A1 (en) 2007-05-04 2008-11-13 Personics Holdings Inc. Method and device for acoustic management control of multiple microphones
JP4580409B2 (ja) * 2007-06-11 2010-11-10 富士通株式会社 音量制御装置および方法
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8374851B2 (en) * 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US20100207689A1 (en) * 2007-09-19 2010-08-19 Nec Corporation Noise suppression device, its method, and program
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8554550B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8180634B2 (en) * 2008-02-21 2012-05-15 QNX Software Systems, Limited System that detects and identifies periodic interference
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8589152B2 (en) * 2008-05-28 2013-11-19 Nec Corporation Device, method and program for voice detection and recording medium
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
JP4660578B2 (ja) * 2008-08-29 2011-03-30 株式会社東芝 信号補正装置
JP5103364B2 (ja) 2008-11-17 2012-12-19 日東電工株式会社 熱伝導性シートの製造方法
JP2010122617A (ja) * 2008-11-21 2010-06-03 Yamaha Corp ノイズゲート、及び収音装置
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
GB2473266A (en) * 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
US8571231B2 (en) 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
CA2778342C (en) 2009-10-19 2017-08-22 Martin Sehlstedt Method and background estimator for voice activity detection
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
JP5621786B2 (ja) * 2009-12-24 2014-11-12 日本電気株式会社 音声検出装置、音声検出方法、および音声検出プログラム
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
JP5424936B2 (ja) * 2010-02-24 2014-02-26 パナソニック株式会社 通信端末及び通信方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP5870476B2 (ja) * 2010-08-04 2016-03-01 富士通株式会社 雑音推定装置、雑音推定方法および雑音推定プログラム
DK3493205T3 (da) * 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
EP2656341B1 (de) 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Vorrichtung zur durchführung von sprachaktivitätserkennung
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
US20120265526A1 (en) * 2011-04-13 2012-10-18 Continental Automotive Systems, Inc. Apparatus and method for voice activity detection
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US9280984B2 (en) 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN112992188B (zh) * 2012-12-25 2024-06-18 中兴通讯股份有限公司 一种激活音检测vad判决中信噪比门限的调整方法及装置
US9210507B2 (en) * 2013-01-29 2015-12-08 2236008 Ontartio Inc. Microphone hiss mitigation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6339896B2 (ja) * 2013-12-27 2018-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置および雑音抑圧方法
US9978394B1 (en) * 2014-03-11 2018-05-22 QoSound, Inc. Noise suppressor
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
RU2713852C2 (ru) 2014-07-29 2020-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9450788B1 (en) 2015-05-07 2016-09-20 Macom Technology Solutions Holdings, Inc. Equalizer for high speed serial data links and method of initialization
JP6447357B2 (ja) * 2015-05-18 2019-01-09 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
CN109076294B (zh) 2016-03-17 2021-10-29 索诺瓦公司 多讲话者声学网络中的助听系统
WO2018152034A1 (en) * 2017-02-14 2018-08-23 Knowles Electronics, Llc Voice activity detector and methods therefor
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
US10339962B2 (en) 2017-04-11 2019-07-02 Texas Instruments Incorporated Methods and apparatus for low cost voice activity detector
US10332545B2 (en) * 2017-11-28 2019-06-25 Nuance Communications, Inc. System and method for temporal and power based zone detection in speaker dependent microphone environments
US10911052B2 (en) 2018-05-23 2021-02-02 Macom Technology Solutions Holdings, Inc. Multi-level signal clock and data recovery
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
US11005573B2 (en) 2018-11-20 2021-05-11 Macom Technology Solutions Holdings, Inc. Optic signal receiver with dynamic control
CN115191090B (zh) 2020-01-10 2024-06-14 Macom技术解决方案控股公司 最佳均衡划分
US11575437B2 (en) 2020-01-10 2023-02-07 Macom Technology Solutions Holdings, Inc. Optimal equalization partitioning
CN111508514A (zh) * 2020-04-10 2020-08-07 江苏科技大学 基于补偿相位谱的单通道语音增强算法
US12013423B2 (en) 2020-09-30 2024-06-18 Macom Technology Solutions Holdings, Inc. TIA bandwidth testing system and method
US11658630B2 (en) 2020-12-04 2023-05-23 Macom Technology Solutions Holdings, Inc. Single servo loop controlling an automatic gain control and current sourcing mechanism
US11616529B2 (en) 2021-02-12 2023-03-28 Macom Technology Solutions Holdings, Inc. Adaptive cable equalizer
CN113707167A (zh) * 2021-08-31 2021-11-26 北京地平线信息技术有限公司 残留回声抑制模型的训练方法和训练装置

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4071826A (en) * 1961-04-27 1978-01-31 The United States Of America As Represented By The Secretary Of The Navy Clipped speech channel coded communication system
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
DE3230391A1 (de) * 1982-08-14 1984-02-16 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur signalverbesserung von gestoerten sprachsignalen
JPS5999497A (ja) * 1982-11-29 1984-06-08 松下電器産業株式会社 音声認識装置
EP0127718B1 (de) * 1983-06-07 1987-03-18 International Business Machines Corporation Verfahren zur Aktivitätsdetektion in einem Sprachübertragungssystem
JPS6023899A (ja) * 1983-07-19 1985-02-06 株式会社リコー 音声認識装置における音声切り出し方式
JPS61177499A (ja) * 1985-02-01 1986-08-09 株式会社リコー 音声区間検出方式
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630305A (en) 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4630304A (en) 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
GB8801014D0 (en) 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5276765A (en) 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5285165A (en) * 1988-05-26 1994-02-08 Renfors Markku K Noise elimination method
FI80173C (fi) 1988-05-26 1990-04-10 Nokia Mobile Phones Ltd Foerfarande foer daempning av stoerningar.
US5027410A (en) * 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JP2701431B2 (ja) * 1989-03-06 1998-01-21 株式会社デンソー 音声認識装置
JPH0754434B2 (ja) * 1989-05-08 1995-06-07 松下電器産業株式会社 音声認識装置
JPH02296297A (ja) * 1989-05-10 1990-12-06 Nec Corp 音声認識装置
EP0763812B1 (de) * 1990-05-28 2001-06-20 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
JP2658649B2 (ja) * 1991-07-24 1997-09-30 日本電気株式会社 車載用音声ダイヤラ
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
JP3176474B2 (ja) * 1992-06-03 2001-06-18 沖電気工業株式会社 適応ノイズキャンセラ装置
DE69331719T2 (de) * 1992-06-19 2002-10-24 Agfa Gevaert Nv Verfahren und Vorrichtung zur Geräuschunterdrückung
JPH0635498A (ja) * 1992-07-16 1994-02-10 Clarion Co Ltd 音声認識装置及び方法
FI100154B (fi) * 1992-09-17 1997-09-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä kohinan vaimentamiseksi
SG49709A1 (en) * 1993-02-12 1998-06-15 British Telecomm Noise reduction
US5459814A (en) 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5533133A (en) * 1993-03-26 1996-07-02 Hughes Aircraft Company Noise suppression in digital voice communications systems
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5446757A (en) * 1993-06-14 1995-08-29 Chang; Chen-Yi Code-division-multiple-access-system based on M-ary pulse-position modulated direct-sequence
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
US5406622A (en) * 1993-09-02 1995-04-11 At&T Corp. Outbound noise cancellation for telephonic handset
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
PL174216B1 (pl) * 1993-11-30 1998-06-30 At And T Corp Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
US5471527A (en) * 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
SG49334A1 (en) * 1993-12-06 1998-05-18 Koninkl Philips Electronics Nv A noise reduction system and device and a mobile radio station
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
US5550893A (en) * 1995-01-31 1996-08-27 Nokia Mobile Phones Limited Speech compensation in dual-mode telephone
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech

Also Published As

Publication number Publication date
EP0790599A1 (de) 1997-08-20
EP0784311B1 (de) 2001-09-05
EP0784311A1 (de) 1997-07-16
AU1067897A (en) 1997-07-03
FI955947A (fi) 1997-06-13
US5839101A (en) 1998-11-17
DE69630580D1 (de) 2003-12-11
EP0790599B1 (de) 2003-11-05
JPH09204196A (ja) 1997-08-05
DE69614989D1 (de) 2001-10-11
FI100840B (fi) 1998-02-27
JP5006279B2 (ja) 2012-08-22
JP4163267B2 (ja) 2008-10-08
JP2008293038A (ja) 2008-12-04
WO1997022116A3 (en) 1997-07-31
WO1997022117A1 (en) 1997-06-19
JP2007179073A (ja) 2007-07-12
DE69614989T2 (de) 2002-04-11
WO1997022116A2 (en) 1997-06-19
AU1067797A (en) 1997-07-03
US5963901A (en) 1999-10-05
JPH09212195A (ja) 1997-08-15
FI955947A0 (fi) 1995-12-12

Similar Documents

Publication Publication Date Title
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE112009000805B4 (de) Rauschreduktion
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE60032797T2 (de) Geräuschunterdrückung
DE69931580T2 (de) Identifikation einer akustischer Anordnung mittels akustischer Maskierung
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE19806015C2 (de) Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
DE10043064B4 (de) Verfahren und Vorrichtung zur Elimination von Lautsprecherinterferenzen aus Mikrofonsignalen
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
DE60026570T2 (de) Geräuschunterdrücker
EP1055317A1 (de) Verfahren zur verbesserung der akustischen rückhördämpfung in freisprecheinrichtungen
AT504164B1 (de) Vorrichtung zur gerauschunterdruckung bei einem audiosignal
DE112016004394T5 (de) Heulunterdrückungsvorrichtung
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE102018117558A1 (de) Adaptives nachfiltern
EP1453355B1 (de) Signalverarbeitung in einem Hörgerät
DE69930109T2 (de) Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch
DE60225505T2 (de) Verfahren und Vorrichtung zur Analyse von Prädiktionsparametern
DE69736198T2 (de) System und verfahren zur regelung der kanalverstärkung für geräuschunterdrückung in der sprachkommunikation

Legal Events

Date Code Title Description
8364 No opposition during term of opposition