DE69736198T2 - System und verfahren zur regelung der kanalverstärkung für geräuschunterdrückung in der sprachkommunikation - Google Patents

System und verfahren zur regelung der kanalverstärkung für geräuschunterdrückung in der sprachkommunikation Download PDF

Info

Publication number
DE69736198T2
DE69736198T2 DE69736198T DE69736198T DE69736198T2 DE 69736198 T2 DE69736198 T2 DE 69736198T2 DE 69736198 T DE69736198 T DE 69736198T DE 69736198 T DE69736198 T DE 69736198T DE 69736198 T2 DE69736198 T2 DE 69736198T2
Authority
DE
Germany
Prior art keywords
noise
gain
audio signal
speech
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69736198T
Other languages
English (en)
Other versions
DE69736198D1 (de
Inventor
P. Anthony San Diego MAURO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/921,492 external-priority patent/US6122384A/en
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority claimed from PCT/US1997/017656 external-priority patent/WO1999012155A1/en
Application granted granted Critical
Publication of DE69736198D1 publication Critical patent/DE69736198D1/de
Publication of DE69736198T2 publication Critical patent/DE69736198T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Sprachverarbeitung. Insbesondere bezieht sich die vorliegende Erfindung auf ein Rauschunterdrückungssystem und ein Verfahren zur Verwendung in Sprachverarbeitung.
  • II. Beschreibung verwandter Techniken
  • Die Übertragung von Sprache durch digitale Techniken ist inzwischen weit verbreitet. Insbesondere in Anwendungen von zellularen Telefonen und persönlichen Kommunikationssystemen (PCS = personal communication system). Dies hat wiederum ein Interesse geschaffen, die Sprachverarbeitungstechniken zu verbessern. Ein Gebiet in dem Verbesserungen entwickelt werden sind Rauschunterdrückungstechniken.
  • Rauschunterdrückung dient in einem Sprachkommunikationssystem im Allgemeinen dazu, die gesamte Qualität des gewünschten Audiosignals zu verbessern, und zwar durch Filtern von Umgebungshintergrundrauschen aus dem gewünschten Sprachsignal. Dieser Sprachverbesserungsprozess ist insbesondere nötig in Umgebungen mit abnormal hohen Pegeln von Umgebungshintergrundrauschen, wie zum Beispiel in einem Flugzeug, einem sich bewegenden Fahrzeug oder einer lärmintensiven Fabrik.
  • Eine Rauschunterdrückungstechnik ist die spektrale Subtraktionstechnik oder Spektralverstärkungsmodifikationstechnik (spectral gain modification technique). Unter Verwendung dieses Ansatzes wird das Eingangsaudiosignal in Frequenzkanäle unterteilt und bestimmte Frequenzkanäle werden gemäß ihrem Rauschenergieinhalt gedämpft. Eine Hintergrundrauschschätzung für jeden Frequenzkanal wird verwendet, um ein Signal-zu-Rausch-Verhältnis (SNR = signal-to-noise ratio) der Sprache in dem Kanal zu generieren und das SNR wird verwendet, um einen Verstärkungsfaktor für jeden Kanal zu berech nen. Der Verstärkungsfaktor bestimmt dann die Dämpfung für den bestimmten Kanal. Die gedämpften Kanäle werden erneut zusammengefügt, um das rauschunterdrückte Ausgangssignal zu erzeugen.
  • In speziellen Anwendungen, die Umgebungen mit relativ hohem Hintergrundrauschen beinhalten, weisen die meisten Rauschunterdrückungstechniken signifikante Performancegrenzen auf. Ein Beispiel für solch eine Anwendung ist die Fahrzeuglautsprechoption (speakerphone option) eines zellularen Mobilkommunikationssystems. Die Lautsprecheroption sieht einen händefreien Betrieb für den Fahrzeugfahrer vor. Das Händefrei- bzw. Freisprechmikrophon ist typischerweise mit einem größeren Abstand vom Benutzer angeordnet, wie zum Beispiel über dem Kopf in dem Visor bzw. der Dachverkleidung. Das entfernte Mikrophon sieht ein schlechtes SNR gegenüber dem landseitigen Gesprächspartner vor aufgrund von Straßen- und Windgeräuschbedingungen. Obwohl die empfangene Sprache auf der Landseite normalerweise verständlich ist, führt ein kontinuierliches Ausgesetztsein gegenüber solchen Hintergrundrauschpegeln oft zu einer erhöhten Zuhörermüdigkeit.
  • Damit ein Rauschunterdrückungssystem ordentlich funktioniert ist es wichtig, genau das SNR der Sprache zu bestimmen. Es ist jedoch schwierig das SNR für das Sprachsignal genau zu bestimmen, aufgrund der Einschränkungen von momentan zur Verfügung stehenden Rauschdetektoren. Spektrale Subtraktionstechniken aktualisieren die Hintergrundrauschschätzung während Perioden, in denen keine Sprache vorhanden ist. Wenn keine Sprache vorhanden ist, wird die gemessene Spektralenergie dem Rauschen zugeordnet und die Rauschschätzung wird basierend auf der gemessenen Spektralenergie aktualisiert. Daher ist es wichtig, zwischen Perioden von Sprache und dem Nicht-Vorhandensein von Sprache zu unterscheiden, um eine genaue Rauschenergieschätzung zur Berechnung des SNR zu erhalten.
  • Eine beispielhafte Technik für die Sprachdetektion verwendet einen Stimmmetrikberechner, um die Rauschaktualisierungsentscheidung auszuführen. Eine Stimmmetrik ist eine Messung der gesamtstimmähnlichen Charakteristi ken der Kanalenergie. Zuerst werden rohe SNR-Schätzungen verwendet, als ein Index in einer Stimmmetriktabelle, um Stimmmetrikwerte für jeden Kanal zu erhalten. Die individuellen Kanalstimmmetrikwerte werden summiert, um einen Energieparameter zu erzeugen, der verglichen wird mit einer Hintergrundrauschaktualisierungsschwelle. Wenn die Stimmmetriksumme mit der Schwelle übereinstimmt oder diese überschreitet, dann wird festgestellt, dass das Signal Sprache enthält. Wenn die Stimmmetriksumme nicht die Schwelle erreicht, wird der Eingangsrahmen als Rauschen betrachtet und eine Hintergrundrauschaktualisierung wird ausgeführt. Für den Fall von einem Hoch-Hintergrundsrauschzustand, einem plötzlichen Hintergrundrauschen oder einer anschwellenden Rauschquelle, werden SNR-Messungen groß sein, was in einer hohen Stimmmetrik resultiert, welche eine Rauschschätzungsaktualisierung negiert.
  • Bei einer Verfeinerung der Stimmmetrikberechnungstechnik wird die Kanalenergieabweichung gemessen. Dieses Verfahren geht davon aus, dass Rauschen über die Zeit hinweg eine konstante Spektralenergie aufweist, während Sprache eine variable Spektralenergie über die Zeit hinweg aufzeigt. Somit wird die Kanalenergie über die Zeit integriert und Sprache wird detektiert, wenn es eine wesentliche Kanalenergieabweichung gibt, während Rauschen detektiert wird, wenn es eine geringe Kanalenergieabweichung gibt. Ein Sprachdetektor, der Kanalenergieabweichung misst, wird einen plötzlichen Anstieg in dem Rauschpegel detektieren. Das Kanalenergieabweichungsverfahren liefert jedoch ein ungenaues Ergebnis, wenn das Eingabesprachsignal eine konstante Energie besitzt. Weiterhin für den Fall einer ansteigenden Rauschquelle, werden Veränderungen in der Eingabeenergie eine große Energieabweichung bewirken, was eine Rauschschätzungsaktualisierung negiert, obwohl eine Aktualisierung nötig ist.
  • Zusätzlich zu einem genauen Sprachdetektor muss ein Rauschunterdrückungssystem auf geeignete Weise die Kanalverstärkungen (channel gains) anpassen. Kanalverstärkungen sollten angepasst werden, so dass eine Rauschunterdrückung erreicht wird ohne die Stimmqualität zu opfern. Ein Ver fahren für die Kanalverstärkungsanpassung berechnet die Verstärkung als eine Funktion der Gesamtrauschschätzung und des SNR des Sprachsignals. Im Allgemeinen resultiert eine Erhöhung in der Gesamtrauschschätzung in einem niedrigeren Verstärkungsfaktor für ein gegebenes SNR. Ein niedriger Verstärkungsfaktor ist anzeigend für einen größeren Dämpfungsfaktor. Diese Technik erzwingt einen minimalen Verstärkungswert, um übermäßige Dämpfung der Kanalverstärkung zu verhindern, wenn die Gesamtrauschschätzung sehr hoch ist. Aufgrund einer Verwendung eines harten festgelegten Minimumverstärkungswertes wird eine Abwägung zwischen Rauschunterdrückung und Sprachqualität eingeführt. Wenn die Festlegung relativ niedrig ist, wird die Rauschunterdrückung verbessert, jedoch wird die Sprachqualität verschlechtert. Wenn die Festlegung relativ hoch ist, wird die Rauschunterdrückung verschlechtert, jedoch wird die Sprachqualität verbessert.
  • US-Patent Nr. 4,811,404 "Motorola Inc." offenbart ein Verfahren und Vorrichtung zum Unterdrücken von Hintergrundrauschen in Umgebungen mit hohem Hintergrundrauschen. Dieses US-Patent beinhaltet das Hinzufügen eines Signal-zu-Rausch-Verhältnis- bzw. SNR-Schwellenmechanismus um Hintergrundrauschflutter bzw. -änderungen zu reduzieren, und zwar durch Versetzen des Verstärkungsanstieges einer Verstärkungstabelle, bis eine bestimmte SNR-Schwelle erreicht ist.
  • Um ein verbessertes Rauschunterdrückungssystem vorzusehen, müssen die Grenzen der momentanen Techniken zur Sprachdetektierung und Kanalverstärkungsberechnung berücksichtigt werden. Diese Probleme und Nachteile werden durch die vorliegende Erfindung auf die unten beschriebene Art und Weise gelöst.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung, wie sie in den angefügten Ansprüchen dargelegt ist, ist ein Rauschunterdrückungssystem und Verfahren zur Verwendung in Sprachverarbeitungssystemen. Ein Ziel der vorliegenden Erfindung ist das Vorsehen eines Sprachdetektors der das Vorliegen von Sprache in einem Eingangssignal bestimmt. Ein zuverlässiger Sprachdetektor wird benötigt für eine genaue Bestimmung des Signal-zu-Rausch-Verhältnisses (SNR = signal-to-noise ratio) der Sprache. Wenn Sprache als nicht vorhanden bestimmt wird, wird angenommen, dass das Eingangssignal vollständig ein Rauschsignal ist und die Rauschenergie kann gemessen werden. Die Rauschenergie wird dann für die Bestimmung des SNR verwendet. Ein weiteres Ziel der vorliegenden Erfindung ist das Vorsehen eines verbesserten Verstärkungsbestimmungselements für die Realisierung der Rauschunterdrückung.
  • Gemäß der vorliegenden Erfindung weist das Rauschunterdrückungssystem einen Sprachdetektor auf, der bestimmt, ob Sprache in einem Rahmen des Eingangssignals vorliegt. Die Sprachentscheidung kann basiert werden auf der SNR-Messung von Sprache in einem Eingangs- bzw. Eingabesignal. Ein SNR-Schätzelement schätzt das SNR basierend auf der Signalenergieschätzung generiert durch ein Energieschätzelement und der Rauschenergieschätzung generiert von einem Rauschenergieschätzer. Die Sprachentscheidung kann ebenfalls auf der Codierrate des Eingabesignals basiert sein. In einem Kommunikationssystem mit variabler Rate wird jedem Eingaberahmen eine Codierrate, ausgewählt von einem vorbestimmten Satz von Raten basierend auf dem Inhalt des Eingaberahmens, zugewiesen. Im Allgemeinen ist die Rate abhängig von dem Pegel der Sprachaktivität, so dass einem Rahmen der Sprache enthält eine höhere Rate zugewiesen wird, wobei einem Rahmen, der nicht Sprache enthält, eine niedrige Rate zugewiesen wird. Weiterhin kann die Sprachentscheidung auf einer oder mehreren Modusmessungen basiert werden, die die Charakteristiken des Eingabesignals beschreiben. Wenn bestimmt wird, dass Sprache nicht vorliegt in dem Eingaberahmen, dann aktualisiert das Rauschenergieschätzelement die Rauschenergieschätzung.
  • Ein Kanalverstärkungsschätzelement bestimmt die Verstärkung für den Rahmen des Eingabesignals. Wenn Sprache in dem Rahmen nicht vorliegt, dann wird die Verstärkung auf ein vorbestimmtes Minimum gesetzt. Anderenfalls wird die Verstärkung bestimmt basierend auf dem Frequenzinhalt des Rah mens. In einem bevorzugten Ausführungsbeispiel wird ein Verstärkungsfaktor für jeden Kanal eines Satzes von vorbestimmten Frequenzkanälen bestimmt. Für jeden Kanal wird die Verstärkung bestimmt gemäß dem SNR der Sprache in dem Kanal. Für jeden Kanal wird die Verstärkung definiert unter Verwendung einer Funktion, die geeignet ist für die Charakteristiken des Frequenzbandes, in dem der Kanal angeordnet ist. Typischerweise für ein vorbestimmtes Frequenzband wird die Verstärkung so eingestellt, dass sie linear mit ansteigendem SNR ansteigt. Zusätzlich kann die minimale Verstärkung für jedes Frequenzband einstellbar sein, basierend auf den Umgebungscharakteristiken. Zum Beispiel kann eine benutzerauswählbare Minimalverstärkung implementiert sein. Die Kanal-SNRs sind auf Kanalenergieschätzungen basiert, die von einem Energieschätzelement generiert werden, und Kanalrauschenergieschätzungen, die von einem Rauschenergieschätzelement generiert werden. Die Verstärkungsfaktoren werden verwendet um die Verstärkung des Signals in den unterschiedlichen Kanälen anzupassen und die verstärkungsangepassten Kanäle werden kombiniert, um das rauschunterdrückte Ausgabesignal zu erzeugen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung werden noch offensichtlicher von der unten folgenden detaillierten Beschreibung, wenn diese zusammen mit den Zeichnungen gesehen wird, in denen gleiche Bezugszeichen Entsprechendes durchgängig identifizieren, wobei die Figuren Folgendes zeigen:
  • 1 ist ein Blockdiagramm eines Kommunikationssystems, in dem ein Rauschunterdrücker verwendet wird;
  • 2 ist ein Blockdiagramm, das einen Rauschunterdrücker gemäß der vorliegenden Erfindung darstellt;
  • 3 ist ein Graph von Verstärkungsfaktoren basierend auf Frequenz, und zwar für die Realisierung der Rauschunterdrückung gemäß der vorliegenden Erfindung; und
  • 4 ist ein Flussdiagramm, das ein beispielhaftes Ausführungsbeispiel der Verarbeitungsschritte darstellt, die bei der Rauschunterdrückung gemäß Implementierung durch die Verarbeitungselemente der 2 auftreten.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • In Sprachkommunikationssystemen werden Rauschunterdrücker im Allgemeinen verwendet um unerwünschtes Umgebungshintergrundrauschen zu unterdrücken. Die meisten Rauschunterdrücker operieren durch Schätzen der Hintergrundrauschcharakteristiken in dem Eingabedatensignal in einem oder mehreren Frequenzbändern und durch Subtrahieren eines Durchschnitts der Schätzung bzw. der Schätzungen von dem Eingabesignal. Die Schätzung des Durchschnittshintergrundsrauschens wird aktualisiert während Perioden, in denen Sprache nicht vorhanden ist. Rauschunterdrücker benötigen eine genaue Bestimmung des Hintergrundrauschpegels um korrekt zu operieren. Zusätzlich muss der Pegel des Rauschunterdrückens geeignet angepasst werden basierend auf den Sprach- und Rauschcharakteristiken des Eingabesignals. Diese Anforderungen werden durch das Rauschunterdrückungssystem der vorliegenden Erfindung adressiert.
  • Ein beispielhaftes Sprachverarbeitungssystem 100, in dem die vorliegende Erfindung ausgeführt werden kann, ist in 1 dargestellt. System 100 weist Mikrofon 102, A/D-Wandler 104, Sprachprozessor 106, Sender 110 und Antenne 112 auf. Mikrofon 102 kann in einem zellularen Telefon zusammen mit anderen Elementen, die in 1 dargestellt sind, angeordnet sein. Alternativ kann das Mikrofon 102 ein handfreies Mikrofon der Fahrzeuglautsprechoption eines zellularen Kommunikationssystems sein. Die Fahrzeuglautsprechanordnung wird manchmal auch als Carkit bzw. Freisprechanlage bezeichnet. Da wo Mikrofon 102 ein Teil einer Freisprechanlage ist, ist die Rauschunterdrückungsfunktion besonders wichtig. Da das Freisprechmikrofon im Allgemeinen in einem gewissen Abstand von dem Benutzer positioniert ist, tendiert das empfangene akustische Signal dazu ein schlechtes Sprach-SNR zu besitzen, aufgrund von Straßen- und Windrauschbedingungen.
  • Noch immer Bezug nehmend auf 1 wird das Eingabeaudiosignal, das Sprache und/oder Hintergrundrauschen aufweist, von Mikrofon 102 empfangen. Das Eingabeaudiosignal wird vom Mikrofon 102 in ein elektroakustisches Signal, dargestellt durch den Ausdruck s(t), umgewandelt. Das elektroakustische Signal kann von einem Analogsignal zu pulscodemodulierten bzw. PCM-Samples durch Analog-zu-Digital-Wandler 104 umgewandelt werden. In einem beispielhaften Ausführungsbeispiel werden PCM-Abtastungen von A/D-Wandler 104 mit 64 kbps ausgegeben und werden durch Signal s(n), wie in 1 gezeigt, dargestellt. Das Digitalsignal s(n) wird vom Sprachprozessor 106 empfangen, der neben anderen Elementen den Rauschunterdrücker 108 aufweist. Der Rauschunterdrücker 108 unterdrückt Rauschen im Signal s(n) gemäß der vorliegenden Erfindung. In Freisprechanwendungen bestimmt der Rauschunterdrücker 108 den Pegel von Hintergrundumgebungsrauschen und passt die Verstärkung des Signals an, um die Effekte eines solchen Umgebungsrauschens zu bewältigen. Zusätzlich zum Rauschunterdrücker 108 weist der Sprachprozessor 106 im Allgemeinen einen Sprachcodierer oder einen Vocoder (nicht gezeigt) auf, der die Sprache durch Extrahieren von Parametern, die sich auf ein Modell der menschlichen Sprachgenerierung beziehen, komprimiert. Sprachprozessor 106 kann außerdem einen Echolöscher (nicht gezeigt) aufweisen, der akustisches Echo resultierend von der Rückkopplung zwischen einem Lautsprecher (nicht gezeigt) und einem Mikrofon 102 eliminiert.
  • Nachfolgend zu der Verarbeitung durch den Sprachprozessor 106 wird das Signal an einen Sender 110 vorgesehen, der eine Modulation gemäß einem vorbestimmten Format, wie zum Beispiel Codemultiplex-Vielfachzugriff (CDMA), Zeitmultiplex-Vielfachzugriff (TDMA = time division multiple access) oder Frequenzmultiplex-Vielfachzugriff (FDMA = frequency division multiple access) ausführt. In dem beispielhaften Ausführungsbeispiel moduliert der Sender 110 das Signal gemäß einem CDMA-Modulationsformat, wie es in dem US-Patent Nr. 4,901,307, betitelt "SPREAD SPECTRUM MULTIPLE ACCESS COMMUNICATION SYSTEM USING SATELLITE OR TERRESTRIAL REPEATERS", das dem Rechtsnachfolger der vorliegenden Erfindung zugewiesen ist, beschrieben wird. Der Sender 110 wandelt das modulierte Signal hoch, verstärkt es und das modulierte Signal wird dann durch Antenne 112 gesendet.
  • Es sei zu erkennen, dass der Rauschunterdrücker 108 in einem Sprachverarbeitungssystem ausgeführt werden kann, das nicht identisch ist zu dem System 100 der 1. Zum Beispiel kann der Rauschunterdrücker 108 in einer elektronischen Mailanwendung mit einer Sprachmailoption verwendet werden. Für solch eine Anwendung würde Sender 110 und Antenne 112 der 1 nicht nötig sein. Stattdessen würde das rauschunterdrückte Signal durch Sprachprozessor 106 für die Übertragung durch das Email-Netzwerk formatiert werden.
  • Ein beispielhaftes Ausführungsbeispiel des Rauschunterdrückers 108 ist in der 2 dargestellt. Das Eingabeaudiosignal wird vom Vorprozessor 202, wie in 2 gezeigt, empfangen. Der Vorprozessor 202 verarbeitet das Eingabesignal für die Rauschunterdrückung und zwar durch Ausführen von Vorbetonung (preemphasis) und Rahmengenerierung. Die Vorbetonung verteilt die Leistungsspektraldichte des Sprachsignals neu, und zwar durch Betonen der hohen Frequenzsprachkomponenten des Signals. Durch ein Ausführen einer Hochpassfilterfunktion betont die Vorbetonung die wichtigen Sprachkomponenten um das SNR dieser Komponenten in der Frequenzdomäne zu verbessern. Der Vorprozessor 202 kann außerdem Rahmen für die Samples des Eingabesignals generieren. In einem bevorzugten Ausführungsbeispiel werden 10-ms-Rahmen mit 80 Abtastungen/Rahmen generiert. Die Rahmen können überlappende Samples bzw. Abtastungen für eine bessere Verarbeitungsgenauigkeit besitzen. Die Rahmen können generiert werden durch die Fensterung und Nullauskleidung der Abtastungen des Eingabesignals. Das vorverarbeitete Signal wird dem Transformationselement 204 präsentiert. In einem bevorzugten Ausführungsbeispiel generiert das Transformationsele ment 204 eine 128-Punkt-Schnell-Fourier-Transformation (FFT = Fast Fourier Transform) für jeden Rahmen des Eingabesignals. Es sei anzumerken, dass alternative Schemata jedoch verwendet werden können, um die Frequenzkomponenten des Eingabesignals zu analysieren. Die transformierten Komponenten werden an den Kanalenergieschätzer 206a vorgesehen, der eine Energieschätzung für jeden der N Kanäle des transformierten Signals generiert. Für jeden Kanal schätzt eine Technik zum Aktualisieren der Kanalenergie die Aktualisierung als die momentane Kanalenergie, und zwar geglättet über Kanalenergien der vorhergehenden Rahmen und zwar wie folgt: Eu(t) = αEch + (1 – a)Eu(t – 1) (1)wobei die aktualisierte Schätzung Eu(t) als eine Funktion der momentanen Kanalenergie Ech und der vorhergehenden geschätzten Kanalrauschenergie Eu(t – 1) definiert. Ein beispielhaftes Ausführungsbeispiel setzt α = 0,55.
  • Ein bevorzugtes Ausführungsbeispiel bestimmt eine Energieschätzung für einen Niedrigfrequenzkanal und eine Energieschätzung für einen Hochfrequenzkanal, so dass N = 2 ist. Der Niedrigfrequenzkanal entspricht einem Frequenzbereich von 250 bis 2250 Hz, während der Hochfrequenzkanal einem Frequenzbereich von 2250 bis 3500 Hz entspricht. Die momentane Kanalenergie des Niedrigfrequenzkanals kann bestimmt werden durch Summieren der Energie der FFT-Punkte entsprechend zu 250–2250 Hz und die momentane Kanalenergie des Hochfrequenzkanals kann bestimmt werden durch Summieren der Energie der FFT-Punkte entsprechend zu 2250–3500 Hz.
  • Die Energieschätzungen werden an Sprachdetektor 208 vorgesehen, der bestimmt, ob Sprache in dem empfangenen Audiosignal vorliegt oder nicht. Das SNR-Schätzelement 210a des Sprachdetektors 208 empfängt die Energieschätzungen. Das SNR-Schätzelement 210a bestimmt das Signal-zu-Rausch-Verhältnis (SNR = signal-to-noise ratio) der Sprache in jedem der N Kanäle basierend auf den Kanalenergieschätzungen und den Kanalrauschenergieschätzungen. Die Kanalrauschenergieschätzungen werden an Rauschener gieschätzelement 214a geliefert und entsprechen im Allgemeinen der geschätzten Rauschenergie geglättet über die vorhergehenden Rahmen, die nicht Sprache enthalten.
  • Sprachdetektor 208 weist außerdem Ratenentscheidungselement 212 auf, das die Datenrate des Eingabesignals von einem vorbestimmten Satz von Datenraten bestimmt. In bestimmten Kommunikationssystemen werden Daten so codiert, dass die Datenrate von einem Rahmen zum anderen variiert werden kann. Dies ist als ein Kommunikationssystem mit variabler Rate bekannt. Der Sprachcodierer, der Daten basierend auf einem variablen Ratenschema codiert, wird typischerweise als ein Vocoder mit variabler Rate bezeichnet. Ein beispielhaftes Ausführungsbeispiel eines Vocoders mit variabler Rate ist im US-Patent Nr. 5,414,796, betitelt "VARIABLE RATE VOCODER", dem Rechtsnachfolger der vorliegenden Erfindung zugewiesen, beschrieben. Die Verwendung von Kommunikationskanälen mit variabler Rate eliminiert unnötige Übertragungen, wenn es keine nützliche Sprache für die Übertragung gibt. Algorithmen werden innerhalb des Vocoders verwendet zum Generieren einer variierenden Anzahl von Informationsbits für jeden Rahmen gemäß den Variationen in der Sprachaktivität. Zum Beispiel kann ein Vocoder mit einem Satz von vier Raten 20-ms-Datenrahmen produzieren, die 16, 40, 80 oder 171 Informationsbits in Abhängigkeit von der Aktivität des Sprechers enthalten. Es ist wünschenswert jeden Datenrahmen in einem festgelegten Zeitbetrag zu übertragen, und zwar durch Variieren der Übertragungsrate der Kommunikationen.
  • Da die Rate eines Rahmens abhängig ist von der Sprachaktivität während eines Zeitrahmens wird das Bestimmen der Rate Information dahingehend vorsehen, ob Sprache vorliegt oder nicht. In einem System, das variable Raten verwendet, zeigt eine Bestimmung, dass ein Rahmen mit der höchsten Rate codiert werden soll, im Allgemeinen das Vorhandensein von Sprachrahmen, während eine Bestimmung, dass ein Rahmen mit der niedrigsten Rate codiert werden soll, im Allgemeinen anzeigt, dass keine Sprache vorliegt. Zwischen raten weisen typischerweise auf einen Übergang zwischen dem Vorliegen und dem Nicht-Vorhandensein von Sprache hin.
  • Ratenentscheidungselement 212 kann beliebige einer Anzahl von Ratenentscheidungsalgorithmen implementieren. Ein solcher Entscheidungsalgorithmus ist in der ebenfalls anhängigen US-Patentanmeldung mit der Seriennummer 08/286,842, betitelt "METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING", das dem Rechtsnachfolger der vorliegenden Erfindung zugewiesen ist, offenbart. Diese Technik sieht einen Satz von Ratenentscheidungskriterien vor, auf die als Modusmessungen Bezug genommen wird. Eine erste Modusmessung ist das Zielübereinstimmungssignal-zu-Rausch-Verhältnis (TMSNR = target matching signal to noise ratio) von dem vorhergehenden Codierungsrahmen, das Information dahingehend vorsieht, wie gut das Codierungsmodell funktioniert, und zwar durch Vergleichen eines synthetisierten Sprachsignals mit dem Eingabesprachsignal. Eine zweite Modusmessung ist die normalisierte Autokorrelationsfunktion (NACF = normalised autocorrelation function), die die Periodizität in dem Sprachrahmen misst. Eine dritte Modusmessung ist der Nulldurchgangsparameter (ZC = zero crossings) der den Hochfrequenzinhalt in einem Eingabesprachrahmen misst. Eine vierte Messung ist das Prädiktionsverstärkungsdifferenzial (PGD = predicition gain differential), das bestimmt, ob der Codierer seine Prädiktionseffezienz beibehält. Eine fünfte Messung ist das Energiedifferential (ED = energy differential), das die Energie in dem momentanen Rahmen mit einer Durchschnittsrahmenenergie vergleicht. Unter Verwendung dieser Modusmessungen wählt eine Ratenbestimmungslogik eine Codierrate für den Rahmen mit der Eingabe aus.
  • Es sei anzumerken, dass obwohl das Ratenentscheidungselement 212 in 2 als ein Element gezeigt ist, das in dem Rauschunterdrücker 108 enthalten ist, die Rateninformation stattdessen an den Rauschunterdrücker 108 durch eine andere Komponente des Sprachprozessors 106 (1) vorgesehen werden könnte. Zum Beispiel könnte der Sprachprozessor 106 einen Vocoder mit variabler Rate aufweisen (nicht gezeigt), der die Codierrate für jeden Rahmen des Eingabesignals bestimmt. Statt dass der Rauschunterdrücker 108 unabhängig eine Ratenbestimmung ausführt, kann die Rateninformation an den Rauschunterdrücker 108 durch den Vocoder mit variabler Rate vorgesehen werden.
  • Es sei anzumerken, dass anstatt der Verwendung der Ratenentscheidung, um zu bestimmen ob Sprache vorliegt, der Sprachdetektor 208 einen Untersatz der Modusmessungen, die zu der Ratenentscheidung beitragen, verwenden kann. Zum Beispiel kann das Ratenentscheidungselement 212 durch ein NACF-Element (nicht gezeigt) ersetzt werden, dass wie hierin früher erklärt, die Periodizität in dem Sprachrahmen misst. Die NACF wird gemäß der unten folgenden Beziehung berechnet:
    Figure 00130001
    wobei N sich auf die Anzahl von Abtastungen des Sprachrahmens bezieht, t1 und t2 sich auf die Grenzen zwischen den T Abtastungen beziehen, für die die NACF berechnet wird. Die NACF wird berechnet basierend auf dem Formant-Restsignal e(n). Formant-Frequenzen sind die Resonanzfrequenzen der Sprache. Ein Kurzzeitfilter wird verwendet, um das Sprachsignal zu filtern um die Formant-Frequenzen zu erhalten. Das Restsignal, das nach der Filterung durch den Kurzzeitfilter erhalten wird, ist das Formant-Restsignal und enthält die Langzeitsprachinformation, wie zum Beispiel den Pitch- bzw. die Tonlage des Signals.
  • Die NACF-Modusmessung ist geeignet zur Bestimmung des Vorliegens von Sprache, da die Periodizität eines Signals, das stimmhafte Sprache enthält, unterschiedlich ist von einem Signal, das nicht stimmhafte Sprache enthält.
  • Ein Signal mit stimmhafter Sprache tendiert dazu, durch periodische Komponenten charakterisiert zu sein. Wenn stimmhafte Sprache nicht vorliegt, wird das Signal im Allgemeinen nicht periodische Komponenten besitzen. Somit ist die NACF-Messung ein guter Indikator, der von dem Sprachdetektor 208 verwendet werden könnte.
  • Sprachdetektor 208 kann Messungen, wie zum Beispiel die NACF anstelle der Ratenentscheidung verwenden in Situationen, wo es nicht praktikabel ist, die Ratenentscheidung zu generieren. Zum Beispiel wenn die Ratenentscheidung nicht zur Verfügung steht von dem Vocoder mit variabler Rate und Rauschprozessor 108 nicht die Verarbeitungsleistung besitzt, um seine eigene Ratenentscheidung zu generieren, dann bieten Modusmessungen wie die NACF eine wünschenswerte Alternative. Dies kann der Fall sein in einer Freisprechanwendung, in der Verarbeitungsleistung im Allgemeinen eingeschränkt ist.
  • Zusätzlich ist zu verstehen, dass der Sprachdetektor 208 eine Bestimmung hinsichtlich des Vorliegens von Sprache basierend auf der Ratenentscheidung, der bzw. den Modusmessungen oder der SNR-Schätzung alleine ausführen kann. Obwohl zusätzliche Messungen die Genauigkeit der Bestimmung verbessern sollten, könnte jede einzelne Messung alleine ein adäquates Ergebnis liefern.
  • Die Ratenentscheidung (oder die Modusmessung bzw. -messungen) und die SNR-Schätzung, die von dem SNR-Schätzelement 210a generiert wird, werden an Sprachentscheidungselement 216 geliefert. Sprachentscheidungselement 216 generiert eine Entscheidung, ob Sprache in dem Eingabesignal vorliegt, und zwar basierend auf seinen Eingaben. Die Entscheidung hinsichtlich des Vorliegens von Sprache wird bestimmen, ob eine Rauschenergieschätzungsaktualisierung ausgeführt werden sollte. Die Rauschenergieschätzung wird vom SNR-Schätzelement 210a verwendet, um das SNR der Sprache in dem Eingabesignal zu bestimmen. Das SNR wird wiederum verwendet, um den Dämpfungspegel des Eingabesignals für die Rauschunterdrückung zu bestimmen. Wenn bestimmt wird, dass Sprache vorliegt, dann öffnet das Sprachentscheidungselement 216 den Schalter 218a, was das Rauschenergieschätzelement 214 daran hindert, die Rauschenergieschätzung zu aktualisieren. Wenn es bestimmt wird, dass Sprache nicht vorliegt, dann wird angenommen, dass das Eingabesignal Rauschen ist und Sprachentscheidungselement 216 schließt den Schalter 218a, was das Rauschenergieschätzelement 214a veranlasst, die Rauschschätzung zu aktualisieren. Obwohl als Schalter 218a in der 2 dargestellt, sei zu verstehen, dass ein Aktualisierungssignal geliefert vom Sprachentscheidungselement 216 an das Rauschenergieschätzelement 214a dieselbe Funktion ausführen könnte.
  • In einem bevorzugten Ausführungsbeispiel, in dem zwei Kanal-SNRs berechnet werden, generiert das Sprachentscheidungselement 216 die Rauschaktualisierungsentscheidung basierend auf der unten folgenden Prozedur:
    Figure 00150001
  • Die Kanal-SNR-Schätzungen, die von SNR-Schätzelement 210a geliefert werden, werden mit chsnr1 und chsnr2 bezeichnet. Die Rate des Eingabesignals, die von dem Ratenentscheidungselement 212 vorgesehen wird, wird mit Rate bezeichnet. Ein Zähler, Ratenzählung, verfolgt die Anzahl von Rahmen basierend auf bestimmten Bedingungen, wie unten beschrieben.
  • Sprachentscheidungselement 216 bestimmt, dass Sprache nicht vorliegt, und dass die Rauschschätzung aktualisiert werden sollte, wenn die Rate die Minimalrate der variablen Rate ist, entweder chsnr1 größer ist als Schwelle T1 oder chsnr2 größer ist als Schwelle T2, und Ratenzählung größer ist als Schwelle T3. Wenn die Rate das Minimum ist, und entweder chsnr1 größer ist als T1 oder chsnr2 größer ist als T2, Ratenzählung jedoch kleiner als T3 ist, dann wird Ratenzählung um 1 erhöht, jedoch wird keine Rauschschätzungsaktualisierung ausgeführt. Der Zähler, Ratenzählung, detektiert den Fall eines plötzlich erhöhten Pegels des Rauschens oder einer ansteigenden Rauschquelle durch Zählen der Zahl von Rahmen, die die Minimalrate besitzen, jedoch eine hohe Energie besitzen in zumindest einem der Kanäle. Der Zähler, der eine Anzeige dafür vorsieht, dass das Hoch-SNR-Signal keine Sprache enthält, wird eingestellt zu zählen, bis Sprache in dem Signal detektiert wird. Ein bevorzugtes Ausführungsbeispiel setzt T1 = T2 = 5 dB und T2 = 100 Rahmen, wobei 10-ms-Rahmen bewertet werden.
  • Wenn die Rate das Minimum ist, chsnr1 kleiner ist als T1 und chsnr2 kleiner ist als T2, dann wird Sprachentscheidungselement 216 bestimmen, dass Sprache nicht vorliegt, und dass eine Rauschschätzungsaktualisierung ausgeführt werden sollte. Zusätzlich wird Ratenzählung auf Null zurückgesetzt.
  • Wenn die Rate nicht das Minimum ist, dann wird Sprachentscheidungselement 216 bestimmen, dass der Rahmen Sprache enthält und keine Rauschschätzungsaktualisierung wird ausgeführt, jedoch wird Ratenzählung auf Null zurückgesetzt.
  • Anstelle von dem Verwenden der Ratenmessung um das Vorliegen von Sprache zu bestimmen, soll daran erinnert werden, dass Modusmessungen, wie zum Beispiel eine NACF-Messung stattdessen verwendet werden können. Sprachentscheidungselement 216 könnte die NACF-Messung verwenden, um das Vorliegen von Sprache zu bestimmen und somit die Rauschaktualisierungsentscheidung zu bestimmen, und zwar gemäß der unten dargelegten Prozedur:
    Figure 00170001
  • Wiederum werden Kanal-SNR-Schätzungen, die vom SNR-Schätzelement 210 vorgesehen werden, durch chsnr1 und chsnr2 bezeichnet. Ein NACF-Element (nicht gezeigt) generiert eine Messung anzeigend für das Vorliegen von Pitch, Pitch-Vorliegend, wie oben definiert. Ein Zähler, Pitch-Zählung, verfolgt die Anzahl von Rahmen basierend auf bestimmten Bedingungen, wie unten beschrieben.
  • Die Messung Pitch-Vorliegendbestimmt, dass Pitch vorliegt, wenn NACF über der Schwelle TT1 liegt. Wenn NACF in einem Mittelbereich (TT2 ≤ NACF ≤ TT1) für eine Anzahl von Rahmen größer als Schwelle TT3 liegt, dann wird ebenfalls bestimmt, dass Pitch vorliegt. Ein Zähler, NACFZählung, verfolgt die Anzahl von Rahmen, für die TT2 ≤ NACF ≤ TT1 ist. In einem bevorzugten Ausführungsbeispiel ist TT1 = 0,6, TT2 = 0,4 und TT3 = 8 Rahmen, wobei 10-ms-Rahmen bewertet werden.
  • Sprachentscheidungselement 216 bestimmt, dass Sprache nicht vorliegt, und dass die Rauschschätzung nicht aktualisiert werden sollte, wenn Pitch-Vorliegend-Messung anzeigt, dass Pitch nicht vorliegt (Pitch-Vorliegend = FALSCH), entweder chsnr1 größer als Schwelle TH1 ist oder chsnr2 größer als Schwelle TH2 ist, und Pitch-Zählungt größer ist als Schwelle TH3. Wenn Pitch-Vorliegend = FALSCH und entweder chsnr1 größer ist als TH1 oder chnsr2 größer ist als TH2, jedoch Pitch-Zählung kleiner ist als TH3, dann wird Pitch-Zählung um 1 erhöht, aber keine Rauschschätzungsaktualisierung wird ausgeführt. Der Zähler, Pitch-Zählung, wird verwendet, um den Fall eines plötzlich ansteigenden Rauschpegels oder einer ansteigenden Rauschquelle zu detektieren. Ein bevorzugtes Ausführungsbeispiel setzt T1 = T2 = 5 dB und T2 = 100 Rahmen, wobei 10-ms-Rahmen bewertet werden.
  • Wenn Pitch-Vorliegendanzeigt, dass kein Pitch nicht vorliegt und chsnr1 weniger als TH1 ist und chsnr2 weniger als TH2 ist, dann wird das Sprachentscheidungselement 216 bestimmen, dass Sprache nicht vorliegt und dass eine Rauschschätzungsaktualisierung ausgeführt werden sollte. Zusätzlich wird Pitch-Zählungauf Null gesetzt.
  • Wenn Pitch-Vorliegendanzeigt, dass ein Pitch vorhanden ist (Pitch-Vorliegend = WAHR), dann wird das Sprachentscheidungselement 216 bestimmen, dass der Rahmen Sprache enthält und keine Rauschschätzungs aktualisierung wird ausgeführt. Jedoch wird Pitch-Zählung auf Null zurückgesetzt.
  • Wenn bestimmt wird, dass Sprache nicht vorliegt, wird der Schalter 218a geschlossen, was bewirkt, dass das Rauschenergieschätzelement 214a die Rauschschätzung aktualisiert. Rauschenergieschätzelement 214a generiert im Allgemeinen eine Rauschenergieschätzung für jeden der N Kanäle des Eingabesignals. Da Sprache nicht vorliegt, wird angenommen, dass die Energie vollständig zum Rauschen beiträgt. Für jeden Kanal wird die Rauschenergieaktualisierung als die momentane Kanalenergie geschätzt, und zwar geglättet über Kanalenergien von vorhergehenden Rahmen, die nicht Sprache enthalten. Zum Beispiel kann die aktualisierte Schätzung erhalten werden basierend auf der unten folgenden Beziehung: En(t) = βEch + (1 – β)En(t – 1), (3)wobei die aktualisierte Schätzung, En(t), definiert ist als eine Funktion der momentanen Kanalenergie, Ech, und der vorhergehenden geschätzten Kanalrauschenergie, En(t – 1). Ein beispielhaftes Ausführungsbeispiel setzt β = 0,1. Die aktualisierten Kanalrauschenergieschätzungen werden an SNR-Schätzelement 210a vorgesehen. Diese Kanalrauschenergieschätzungen werden verwendet, um Kanal-SNR-Schätzungsaktualisierung für die nächsten Rahmen des Eingabesignals zu erhalten.
  • Die Bestimmung bezüglich des Vorliegens von Sprache wird ebenfalls an Kanalverstärkungsschätzelement 220 geliefert. Kanalverstärkungsschätzelement 220 bestimmt die Verstärkung und somit den Pegel der Rauschunterdrückung für den Rahmen des Eingabesignals. Wenn Sprachentscheidungselement 216 bestimmt hat, dass Sprache nicht vorliegt, dann wird die Verstärkung für den Rahmen als ein vorbestimmter Minimalverstärkungspegel gesetzt. Anderenfalls wird die Verstärkung als eine Funktion der Frequenz bestimmt. In einem bevorzugten Ausführungsbeispiel wird die Verstärkung basierend auf dem Graphen, gezeigt in der 3, berechnet. Obwohl graphisch in der Form von 3 gezeigt, sei anzumerken, das die Funktion, die in der 3 dargestellt ist, als eine Nachschlagetabelle im Kanalverstärkungsschätzelement 220 implementiert werden kann.
  • Bezug nehmend auf 3, kann erkannt werden, dass ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung eine separate Verstärkungskurve für jedes der L Frequenzbänder definiert. In 3 werden drei Bänder (L = 3) dargestellt, obwohl L eine beliebige Zahl größer als oder gleich zu Eins sein kann. Somit kann der Verstärkungsfaktor für einen Kanal in dem niedrigen Band bestimmt werden unter Verwendung der Niedrigbandkurve, wobei der Verstärkungsfaktor für einen Kanal in dem mittleren Band bestimmt werden kann unter Verwendung der mittleren Bandkurve, und der Verstärkungsfaktor für einen Kanal in dem höheren Band bestimmt werden kann unter Verwendung der Hochbandkurve.
  • Obwohl eine Rauschunterdrückung ausgeführt werden kann unter Verwendung von nur einer Verstärkungskurve für das Eingabesignal (L = 1) wurde herausgefunden, dass die Verwendung von mehreren Bändern eine geringere Sprachqualitätsdegradierung vorsieht. In dem Fall von Umgebungsrauschen, wie zum Beispiel Straßen- und Windrauschen, ist die Energie des Rauschsignals größer bei den niedrigeren Frequenzen, und die Energie sinkt im Allgemeinen mit ansteigender Frequenz.
  • In 3 wird eine Liniengleichung mit festgelegter Steigung und einem y-Achsenabschnitt verwendet um den Verstärkungsfaktor für jedes Band zu bestimmen. Die Bestimmung der Verstärkungsfaktoren kann beschrieben werden durch die folgenden Beziehungen: Verstärkung[Niedrigband](dB) = Steigung1·SNR + Niedrigband-Y-Achsenabschnitt; (4) Verstärkung[Mittelband](dB) = Steigung2·SNR + Mittelband-Y-Achsenabschnitt; (5) Verstärkung[Hochband](dB) = Steigung3·SNR + Hochband-Y-Achsenabschnitt; (6)
  • Das bevorzugte Ausführungsbeispiel weist das Niedrigband als 125–375 Hz, das mittlere Band als 375–2625 Hz und das Hochband als 2625–4000 Hz zu. Die Steigungen und die Y-Achsenabschnitte (y-Intercepts) werden experimentell bestimmt. Das bevorzugte Ausführungsbeispiel verwendet dieselbe Steigung, 0,39, für jedes der drei Bänder, obwohl eine unterschiedliche Steigung für jedes Frequenzband verwendet werden kann. Außerdem ist der Niedrigband-Y-Achsenabschnitt auf –17 dB, der Mittelband-Y-Achsenabschnitt auf –13 dB und der Hochband-Y-Achsenabschnitt auf –13 dB gesetzt. Ein optionales Merkmal würde dem Benutzer eines Geräts, das den Rauschunterdrücker aufweist, die Möglichkeit geben, die gewünschten Y-Achsenabschnitte auszuwählen. Somit kann mehr Rauschunterdrückung (ein niedrigerer Y-Achsenabschnitt (Y-Intercept)) gewählt werden auf Kosten einer gewissen Sprachverschlechterung. Alternativ können die Y-Achsenabschnitte variabler sein als eine Funktion einer Messung bestimmt durch den Rauschunterdrücker 108. Zum Beispiel könnte mehr Rauschunterdrückung (ein niedrigerer Y-Achsenabschnitt) gewünscht sein, wenn eine exzessive Rauschenergie für eine bestimmte Zeitperiode detektiert wird. Alternativ kann eine geringe Rauschunterdrückung (ein hoher Y-Achsenabschnitt) gewünscht sein, wenn eine Bedingung wie zum Beispiel Babble bzw. Brabbeln detektiert wird. Während eines Brabbel-Zustandes sind Hintergrundsprecher vorhanden und eine geringere Rauschunterdrückung könnte vonnöten sein, um das Herausschneiden des Hauptsprechers zu verhindern. Ein anderes optionales Merkmal wäre das Vorsehen von auswählbaren Steigungen der Verstärkungskurven. Weiterhin ist zu verstehen, dass eine andere Kurve als die Linien, die durch Gleichungen (4)–(6) beschrieben werden, gefunden werden können und geeigneter sein können zum Bestimmen des Verstärkungsfaktors unter bestimmten Umständen.
  • Für jeden Rahmen, der Sprache enthält, wird ein Verstärkungsfaktor bestimmt für jeden der M Frequenzkanäle des Eingabesignals, wobei M die vorbe stimmte Anzahl von Kanälen, die zu bewerten sind, ist. Ein bevorzugtes Ausführungsbeispiel bewertet 16 Kanäle (M = 16). Wiederum Bezug nehmend auf 3 werden die Verstärkungsfaktoren für die Kanäle mit Frequenzkomponenten in dem Bereich des Niedrigbandes bestimmt unter Verwendung der Niedrigbandkurve. Die Verstärkungsfaktoren für die Kanäle mit Frequenzkomponenten in dem Bereich des mittleren Bandes werden bestimmt unter Verwendung der mittleren Bandkurve. Die Verstärkungsfaktoren für die Kanäle mit Frequenzkomponenten in dem Bereich des Hochbandes werden bestimmt unter Verwendung der Hochbandkurve.
  • Für jeden bewerteten Kanal wird das Kanal-SNR verwendet, um den Verstärkungsfaktor basierend auf der geeigneten Kurve herzuleiten. Die Kanal-SNRs sind dargestellt in 2, und zwar bewertet durch Kanalenergieschätzelement 206b, Rauschenergieschätzelement 214b und SNR-Schätzelement 210b. Für jeden Rahmen des Eingabesignals generiert Kanalenergieschätzelement 206b Energieschätzungen für jeden der M Kanäle des transformierten Eingabesignals, und liefert die Energieschätzungen an SNR-Schätzelement 210b. Die Kanalenergieschätzungen können aktualisiert werden unter Verwendung der Beziehung von Gleichung (1) oben. Wenn durch Sprachentscheidungselement 216 bestimmt wird, dass keine Sprache in dem Eingabesignal vorliegt, dann wird Schalter 218b geschlossen und Rauschenergieschätzelement 214b aktualisiert die Schätzungen der Kanalrauschenergie. Für jeden der M Kanäle wird die aktualisierte Rauschenergieschätzung auf die Kanalenergieschätzung, bestimmt durch das Kanalenergieschätzelement 206b, basiert. Die aktualisierte Schätzung kann berechnet werden unter Verwendung der Beziehung der Gleichung (3) oben. Die Kanalrauschschätzungen werden an SNR-Schätzelement 210b vorgesehen. Somit bestimmt SNR-Schätzelement 210b Kanal-SNR-Schätzungen für jeden Rahmen von Sprache basierend auf den Kanalenergieschätzungen für den bestimmten Sprachrahmen und die Kanalrauschenergieschätzungen, vorgesehen durch Rauschenergieschätzelement 214b.
  • Ein Fachmann wird erkennen, dass Kanalenergieschätzelement 206a, Rauschenergieschätzelement 214a, Schalter 218a und SNR-Schätzelement 210a Funktionen ausführen ähnlich zu Kanalenergieschätzelement 206b, Rauschenergieschätzelement 214b, Schalter 218b bzw. SNR-Schätzelement 210b. Somit, obwohl sie als separate Verarbeitungselemente in 2 dargestellt sind, können Kanalenergieschätzelemente 206a und 206b als ein Verarbeitungselement kombiniert werden, Rauschenergieschätzelemente 214a und 214b als ein Verarbeitungselement kombiniert werden und Schalter 218a und 218b als ein Verarbeitungselement kombiniert werden sowie SNR-Schätzelemente 210a und 210b als ein Verarbeitungselement kombiniert werden. Als kombinierte Elemente würden die Kanalenergieschätzelemente Kanalenergieschätzungen für beide der N Kanäle, verwendet für die Sprachdetektierung, und die M Kanäle, verwendet für die Bestimmung der Kanalverstärkungsfaktoren, bestimmen. Es sei anzumerken, dass N = M möglich sein kann. Ebenso würden das Rauschenergieschätzelement und das SNR-Schätzelement auf beiden, den N Kanälen und den M Kanälen operieren. Das SNR-Schätzelement liefert dann die N SNR-Schätzungen an Sprachentscheidungselement 216 und liefert die M SNR-Schätzungen an Kanalverstärkungsschätzelement 220.
  • Die Kanalverstärkungsfaktoren werden von Kanalverstärkungsschätzelement 220 an Verstärkungsanpasser 224 geliefert. Verstärkungsanpasser 224 empfängt außerdem das FFT-transformierte Eingabesignal vom Transformationselement 204. Die Verstärkung des transformierten Signals wird auf geeignete Weise angepasst gemäß den Kanalverstärkungsfaktoren. Zum Beispiel, in dem Ausführungsbeispiel beschrieben oben, wobei M = 16 ist, werden die transformierten (FFT) Punkte bezüglich des bestimmten einen Kanals der sechzehn Kanäle angepasst basierend auf dem geeigneten Kanalverstärkungsfaktor.
  • Das verstärkungsangepasste Signal, das vom Verstärkungsanpasser 224 generiert wird, wird dann an das inverse Transformationselement 226 geliefert, das in einem bevorzugten Ausführungsbeispiel die inverse schnelle Fourier- Transformation (IFFT = Inverse Fast Fourier Transform) des Signals generiert. Das invers transformierte Signal wird an Nachverarbeitungselement 228 geliefert. Wenn die Rahmen der Eingabe mit überlappenden Abtastungen gebildet wurden, passt das Nachverarbeitungselement 228 das Ausgabesignal hinsichtlich der Überlappung an. Nachverarbeitungselement 228 führt außerdem eine entgegen gesetzte Betonung (deemphasis) aus, wenn das Signal einer Vorbetonung (preemphasis) unterzogen wurde. Die entgegengesetzte Betonung dämpft die Frequenzkomponenten, die während der Vorbetonung betont bzw. verstärkt wurden. Der Vorbetonungs/entgegengesetzte Betonungsprozess trägt effektiv zur Rauschunterdrückung bei durch Reduzieren der Rauschkomponenten, die außerhalb des Bereichs der verarbeiteten Frequenzkomponenten liegen.
  • Es sei anzumerken, dass verschiedene Verarbeitungsblöcke des Rauschunterdrückers, gezeigt in 2, in einem Digitalsignalprozessor (DSP) oder einem anwendungsspezifischen integrierten Schaltkreis (ASIC = application specific integrated circuit) konfiguriert sein können. Die Beschreibung der Funktionalität der vorliegenden Erfindung würde es einem Fachmann erlauben, die vorliegende Erfindung in einem DSP oder einem ASIC ohne unnötiges Experimentieren zu implementieren.
  • Bezug nehmend nun auf 4 wird ein Flussdiagramm gezeigt, das einige der Schritte darstellt, die in der Verarbeitung, wie sie bezüglich der 2 und 3 diskutiert wurde, vorkommt. Obwohl die Schritte als aufeinander folgende Schritte dargestellt sind, würde der Fachmann erkennen, dass die Reihenfolge einiger dieser Schritte austauschbar ist.
  • Der Prozess beginnt im Schritt 402. Im Schritt 404 transformiert das Transformationselement 204 das Eingabeaudiosignal in ein transformiertes Signal, im Allgemeinen ein FFT-Signal. Im Schritt 406 bestimmt das SNR-Schätzelement 210b die Sprach-SNR für M Kanäle des Eingabesignals basierend auf den Kanalenergieschätzungen, vorgesehen von Kanalenergieschätzelement 206b und den Kanalrauschenergieschätzungen vorgesehen vom Rauschenergieschätzelement 214b. Im Schritt 408 bestimmt Kanalverstärkungsschätzelement 220 Verstärkungsfaktoren für die M Kanäle des Eingabesignals basierend auf der Frequenz der Kanäle. Kanalverstärkungsschätzelement 220 setzt die Verstärkung auf einen Minimalpegel, wenn Sprache in dem Rahmen des Eingabesignals nicht gefunden wurde. Anderenfalls wird ein Verstärkungsfaktor bestimmt, für jeden der M Kanäle, basierend auf einer vorbestimmten Funktion. Zum Beispiel Bezug nehmend auf 3, kann eine Funktion verwendet werden, definiert durch Liniengleichungen mit festgelegten Steigungen und Y-Achsenabschnitten, wobei jede Liniengleichung die Verstärkung für ein vorbestimmtes Frequenzband definiert. Im Schritt 410 passt der Verstärkungsanpasser 224 die Verstärkung der M Kanäle des transformierten Signals unter Verwendung der M Verstärkungsfaktoren an. Im Schritt 412 transformiert das Inverstransformationselement 226 das verstärkungsangepasste transformierte Signal invers um das rauschunterdrückte Audiosignal zu erzeugen.
  • Im Schritt 414 bestimmt das SNR-Schätzelement 210a das Sprach-SNR für N Kanäle des Eingabesignals basierend auf den Kanalenergieschätzungen vorgesehen von Kanalenergieschätzelement 206a und die Kanalrauschenergieschätzungen vorgesehen von Rauschenergieschätzelement 214a. Im Schritt 416 bestimmt das Ratenentscheidungselement 212 die Codierrate für das Eingabesignal durch Analyse des Eingabesignals. Alternativ können eine oder mehrere Modusmessungen, wie die NACF, bestimmt werden. Im Schritt 418 bestimmt Sprachentscheidungselement 216, ob Sprache in dem Eingabesignal vorliegt basierend auf dem SNR, vorgesehen vom SNR-Schätzelement 210a, der Rate vorgesehen von Ratenentscheidungselement 212 und/oder der/den Modusmessungen. Wenn im Entscheidungsblock 420 bestimmt wird, dass Sprache nicht vorliegt, dann wird angenommen, dass das Eingabesignal vollständig Rauschen ist und eine Rauschschätzungsaktualisierung wird von Rauschenergieschätzelement 214a im Schritt 422 ausgeführt. Rauschenergieschätzelement 214a aktualisiert die Rauschschätzung basierend auf der Kanalenergie bestimmt durch Kanalenergieschätzelement 206a. Unabhängig davon, ob Sprache detektiert wird oder nicht, fährt die Prozedur damit fort, den nächsten Rahmen des Eingabesignals zu verarbeiten.
  • Die vorhergehende Beschreibung der bevorzugten Ausführungsbeispiele wird vorgesehen, um einen Fachmann auf dem Fachgebiet in die Lage zu versetzen, die vorliegende Erfindung herzustellen oder zu verwenden. Der Schutzumfang der Erfindung wird durch die angefügten Ansprüche definiert.

Claims (32)

  1. Ein Rauschunterdrücker (108) zum Unterdrücken des Hintergrundrauschens eines Audiosignals, der Folgendes aufweist: Ein Signal-zu-Rausch-Verhältnis bzw. SNR-Schätzelement (SNR = signal to noise ratio) (210b) zum Generieren von Kanal-SNR-Schätzungen für einen ersten vordefinierten Satz von Frequenzkanälen des Audiosignals; ein Verstärkungsschätzungselement (220) zum Generieren eines Verstärkungsfaktors für jeden der Frequenzkanäle basierend auf einer entsprechenden Schätzung der Kanal-SNR-Schätzungen, wobei der Verstärkungsfaktor hergeleitet wird unter Verwendung einer Verstärkungsfunktion, die den Verstärkungsfaktor als eine ansteigende Funktion von SNR definiert; ein Verstärkungsanpassungselement (224) zum Anpassen des Verstärkungspegels eines jeden Kanals der Frequenzkanäle basierend auf den entsprechenden Verstärkungsfaktor; ein Sprachdetektor (208) zum Bestimmen des Vorliegens von Sprache in dem Audiosignal, dadurch gekennzeichnet, dass der Sprachdetektor (208) ein Sprachentscheidungselement (216) zum Bestimmen des Vorliegens von Sprache, gemäß der SNR-Schätzungen, für einen zweiten vordefinierten Satz von Frequenzkanälen des Audiosignals aufweist, und zwar gemäß entweder a) einer Codierungs- bzw. Codierate aus einem Satz von Codierungsraten für das Audiosignal, oder b) zumindest einer Modusmessung, die das Audiosignal charakterisiert.
  2. Rauschunterdrücker (108) nach Anspruch 1, wobei der Sprachdetektor (208) weiterhin ein weiteres Signal-zu-Rausch-Verhältnis bzw. SNR-Schätzelement (210) zum Generieren der SNR-Schätzungen für einen zweiten vordefinierten Satz von Frequenzkanälen des Audiosignals aufweist.
  3. Rauschunterdrücker (108) nach Anspruch 2, wobei der Sprachdetektor (208) weiterhin ein Ratenentscheidungselement (212) aufweist zum Bestimmen der Codierrate aus einem Satz von Codierraten für das Audiosignal.
  4. Rauschunterdrücker (108) nach Anspruch 2, wobei der Sprachdetektor (208) weiterhin ein Modus-Messelement aufweist zum Bestimmen der erwähnten mindestens einen Modusmessung.
  5. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, wobei die Modusmessungen eine Messung einer normalisierten Autokorrelationsfunktion (NACF = normalized autocorrelation function) aufweist.
  6. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, wobei die Verstärkungsfunktion frequenzabhängig ist.
  7. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, wobei die Verstärkungsfunktion als eine Nachschlagetabelle implementiert ist.
  8. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, wobei die Verstärkungsfunktion eine lineare Funktion mit einer Steigung und einem y-Schnittpunkt bzw. -Achsenabschnitt (y-intercept).
  9. Rauschunterdrücker (108) nach Anspruch 8, wobei der y-Achsenabschnitt vom Benutzer auswählbar ist.
  10. Rauschunterdrücker (108) nach Anspruch 8, wobei der y-Achsenabschnitt anpassbar ist basierend auf den gemessen Charakteristiken des Rauschens in dem Audiosignal.
  11. Rauschunterdrücker (108) nach Anspruch 8, wobei die Steigung vom Benutzer auswählbar ist.
  12. Rauschunterdrücker (108) nach Anspruch 8, wobei die Steigung anpassbar ist basierend auf den gemessenen Charakteristiken des Rauschens in dem Audiosignal.
  13. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, der weiterhin Folgendes aufweist: ein Rauschenergieschätzelement (214b) zum Generieren einer aktualisierten Kanalrauschenergieschätzung für jeden der Frequenzkanäle, wenn der Sprachdetektor (208) bestimmt, dass Sprache nicht in dem Audiosignal vorliegt, wobei die aktualisierten Kanalrauschenergieschätzungen an das SNR-Schätzelement (210b) vorgesehen wird zum Generieren der Kanal-SNR-Schätzungen.
  14. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, wobei das Verstärkungsschätzelement (220) einen Minimalverstärkungsfaktor für jeden der Frequenzkanäle bestimmt, wenn der Sprachdetektor bestimmt, dass Sprache nicht vorliegt.
  15. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, wobei das Verstärkungsschätzelement (220) folgendes aufweist: Mittel zum Bestimmen eines Verstärkungsfaktors für jeden der Frequenzkanäle, wenn die Mittel zum Bestimmen des Vorliegens von Sprache bestimmen, dass Sprache vorliegt, wobei eine Verstärkungsfunktion für jedes Frequenzband aus einem Satz von Frequenzbändern definiert ist, und für jedes Frequenzband ein Verstärkungsfaktor definiert ist, und zwar für einen Anstieg mit ansteigendem SNR, so dass für jeden Frequenzkanal ein Kanalverstärkungsfaktor bestimmt wird basierend auf der Verstärkungsfunktion für das Frequenzband dessen Bereich den Frequenzkanal enthält.
  16. Rauschunterdrücker (108) nach einem der vorhergehenden Ansprüche, der weiterhin folgendes aufweist: Mittel zum Transformieren des Audiosignals in eine Frequenzdarstellung des Audiosignals; und Mittel zum inversen Transformieren der verstärkungsangepassten Frequenzdarstellung, um ein rauschunterdrücktes Audiosignal zu generieren.
  17. Ein Verfahren zum Unterdrücken des Hintergrundrauschens eines Audiosignals, das folgende Schritte aufweist: Generieren von Kanal-SNR-Schätzungen für einen ersten vordefinierten Satz von Frequenzkanälen des Audiosignals; Generieren eines Verstärkungsfaktors für jeden der Frequenzkanäle basierend auf einer entsprechenden Schätzung der Kanal-SNR-Schätzungen, wobei der Verstärkungsfaktor hergeleitet wird unter Verwendung einer Verstärkungsfunktion, die den Verstärkungsfaktor als eine ansteigende Funktion von SNR definiert; Anpassen des Verstärkungspegels eines jeden Frequenzkanals basierend auf dem entsprechenden Verstärkungsfaktor; und Bestimmen des Vorliegens von Sprache in dem Audiosignal, dadurch gekennzeichnet, dass das Vorliegen von Sprache gemäß SNR-Schätzungen für einen zweiten vordefinierten Satz von Frequenzkanälen des Audiosignals bestimmt wird, und gemäß entweder a) einer Codierrate eines Satzes von Codierraten für das Audiosignal oder b) mindestens einer Modusmessung, die das Audiosignal charakterisiert.
  18. Verfahren nach Anspruch 17, das weiterhin den Schritt des Generierens der SNR-Schätzungen für einen zweiten vordefinierten Satz von Frequenzkanälen des Audiosignals aufweist.
  19. Verfahren nach Anspruch 18, das weiterhin den Schritt des Bestimmens der Codierrate aus einem Satz von Codierraten für das Audiosignal aufweist.
  20. Verfahren nach Anspruch 18, das weiterhin den Schritt des Bestimmens der mindestens einen Modusmessung aufweist.
  21. Verfahren nach einem der Ansprüche 17 bis 20, wobei die Verstärkungsfunktion frequenzabhängig ist.
  22. Verfahren nach einem der Ansprüche 17 bis 21, wobei die Verstärkungsfunktion als eine Nachschlagetabelle implementiert ist.
  23. Verfahren nach einem der Ansprüche 17 bis 22, wobei jedem der Verstärkungsfunktionen eine lineare Funktion mit einer Steigung und einem y-Achsenabschnitt ist.
  24. Verfahren nach Anspruch 23, wobei der y-Achsenabschnitt durch einen Benutzer auswählbar ist.
  25. Verfahren nach Anspruch 23, wobei der y-Achsenabschnitt anpassbar ist basierend auf den gemessenen Charakteristiken des Rauschens in dem Audiosignal.
  26. Verfahren nach Anspruch 23, wobei die Steigung vom Benutzer auswählbar ist.
  27. Verfahren nach Anspruch 23, wobei die Steigung anpassbar ist basierend auf den gemessenen Charakteristiken des Rauschens in dem Audiosignal.
  28. Verfahren nach einem der Ansprüche 17 bis 27, das weiterhin den folgenden Schritt aufweist: Generieren einer aktualisierten Kanalrauschenergieschätzung für einen jeden der Frequenzkanäle, wenn der Schritt des Bestimmens des Vorliegens von Sprache bestimmt, dass Sprache nicht in dem Audiosignal vorliegt, wobei die aktualisierten Kanalrauschenergieschätzungen dafür verwendet werden, die Kanal-SNR-Schätzungen zu generieren.
  29. Verfahren nach einem der Ansprüche 17 bis 28, das weiterhin folgende Schritte aufweist: Transformieren des Audiosignals in einer Frequenzdarstellung des Audiosignals; und inverses Transformieren der verstärkungsangepassten Frequenzdarstellung um ein rauschunterdrücktes Audiosignal zu generieren.
  30. Verfahren nach einem der Ansprüche 17 bis 29, wobei der Schritt des Generierens eines Verstärkungsfaktors folgenden Schritt aufweist: Bestimmen eines Verstärkungsfaktors für jeden der Frequenzkanäle, wenn bestimmt wird, dass Sprache in dem Audiosignal vorliegt, wobei eine Verstärkungsfunktion für jedes Frequenzband aus einem Satz von Frequenzbändern definiert ist, und für jedes der Frequenzbänder die Verstärkung definiert ist, so dass sie mit ansteigendem SNR ansteigt, so dass für jeden der Frequenzkanäle ein Kanalverstärkungsfaktor bestimmt wird basierend auf der Verstärkungsfunktion für das Frequenzband, dessen Bereich den Frequenzkanal enthält.
  31. Verfahren nach einem der Ansprüche 17 bis 30, wobei die Modusmessung eine Messung der normalisierten Autokorrelationsfunktionen (NACF) aufweist.
  32. Verfahren nach einem der Ansprüche 17 bis 31, das weiterhin den Schritt des Bestimmens eines Minimalverstärkungsfaktors für jeden der Frequenzkanäle aufweist, und zwar wenn bestimmt wird, dass Sprache nicht in den Audiosignal vorliegt.
DE69736198T 1997-09-02 1997-09-30 System und verfahren zur regelung der kanalverstärkung für geräuschunterdrückung in der sprachkommunikation Expired - Lifetime DE69736198T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/921,492 US6122384A (en) 1997-09-02 1997-09-02 Noise suppression system and method
US921492 1997-09-02
PCT/US1997/017656 WO1999012155A1 (en) 1997-09-30 1997-09-30 Channel gain modification system and method for noise reduction in voice communication

Publications (2)

Publication Number Publication Date
DE69736198D1 DE69736198D1 (de) 2006-08-03
DE69736198T2 true DE69736198T2 (de) 2007-05-03

Family

ID=56289795

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69736198T Expired - Lifetime DE69736198T2 (de) 1997-09-02 1997-09-30 System und verfahren zur regelung der kanalverstärkung für geräuschunterdrückung in der sprachkommunikation

Country Status (3)

Country Link
EP (1) EP1010169B1 (de)
JP (1) JP4194749B2 (de)
DE (1) DE69736198T2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
JP4580508B2 (ja) * 2000-05-31 2010-11-17 株式会社東芝 信号処理装置及び通信装置
JP5131149B2 (ja) * 2008-10-24 2013-01-30 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法

Also Published As

Publication number Publication date
DE69736198D1 (de) 2006-08-03
EP1010169A1 (de) 2000-06-21
JP4194749B2 (ja) 2008-12-10
JP2003526109A (ja) 2003-09-02
EP1010169B1 (de) 2006-06-21

Similar Documents

Publication Publication Date Title
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE69830721T2 (de) Verfahren und vorrichtung zur bestimmung der übertragungsrate in einem kommunikationssystem
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
KR100546468B1 (ko) 잡음 억제 시스템 및 방법
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60032797T2 (de) Geräuschunterdrückung
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE112009000805B4 (de) Rauschreduktion
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
DE69915711T2 (de) Verfahren und signalprozessor zur verstärkung von sprachsignal-komponenten in einem hörhilfegerät
DE69634841T2 (de) Verfahren und Vorrichtung zur Echokompensation
EP0912974A1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE4330143A1 (de) Anordnung zur Siganlverarbeitung akustischer Eingangssignale
DE60308336T2 (de) Verfahren und system zur messung der übertragungsqualität eines systems
DE60300267T2 (de) Verfahren und Vorrichtung zur multi-referenz Korrektur der durch ein Kommunikationsnetzwerk verursachten spektralen Sprachverzerrungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition