DE60026570T3 - Geräuschunterdrücker - Google Patents

Geräuschunterdrücker Download PDF

Info

Publication number
DE60026570T3
DE60026570T3 DE60026570T DE60026570T DE60026570T3 DE 60026570 T3 DE60026570 T3 DE 60026570T3 DE 60026570 T DE60026570 T DE 60026570T DE 60026570 T DE60026570 T DE 60026570T DE 60026570 T3 DE60026570 T3 DE 60026570T3
Authority
DE
Germany
Prior art keywords
noise
estimate
speech
signal
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60026570T
Other languages
English (en)
Other versions
DE60026570T2 (de
DE60026570D1 (de
Inventor
Beghdad San Diego AYAD
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8555599&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60026570(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE60026570D1 publication Critical patent/DE60026570D1/de
Publication of DE60026570T2 publication Critical patent/DE60026570T2/de
Publication of DE60026570T3 publication Critical patent/DE60026570T3/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)

Description

  • Diese Erfindung bezieht sich auf Rauschunterdrückung und steht insbesondere, aber nicht ausschließlich, mit Rauschunterdrückung in einem Sprachsignal in Beziehung, das von einem mobilen Endgerät wie etwa einem Mobiltelefon aufgenommen wird.
  • Wenn ein Kommunikationsendgerät verwendet wird, um eine Aufzeichnung von einem Sprache enthaltenden Sprachsignal zu machen oder ein solches zu übertragen, ist es unvermeidlich, dass dessen Mikrofon Umgebungs- oder Hintergrundrauschen aus der Umgebung aufnehmen wird, in der sich eine sprechende Person befindet. Das Hintergrundrauschen verringert die Fähigkeit eines Zuhörers, die Sprache zu hören oder zu verstehen, und verhindert in einigen Fällen, falls der Rauschpegel ausreichend hoch ist, dass der Zuhörer irgendetwas anderes als das Hintergrundrauschen hört. Zusätzlich kann ein derartiges Hintergrundrauschen eine negative Auswirkung auf die Leistungsfähigkeit digitaler Signalverarbeitungssysteme in dem Kommunikationsendgerät oder in einem zugehörigen Kommunikationsnetzwerk haben, wie etwa auf Sprachcodierung oder Spracherkennung. Typischerweise sind Rauschunterdrückungssysteme in Kommunikationsendgeräten und Kommunikationsnetzwerken eingebunden, um die Auswirkung von Hintergrundrauschen zu begrenzen.
  • Eine Rauschunterdrückung ist seit etlichen Jahren wohl bekannt. Es wurden viele unterschiedliche Ansätze und Verfahren vorgeschlagen, um die drei Hauptziele zu erreichen:
    • (i) Erhebliches Unterdrücken des Rauschens bei Beibehaltung einer guten Sprachqualität;
    • (ii) Schnelle Konvergenz zu der optimalen Lösung unabhängig von der Beschaffenheit des verarbeiteten Rauschens; und
    • (iii) Verbessern der Sprachverständlichkeit für sehr niedrige Sprache-Rausch-Verhältnisse (SNR).
  • Es wird ein Rauschunterdrückungsverfahren beschrieben, das auf dem linearen Kriterium des minimalen mittleren quadratischen Fehlers (MMSE: ”Minimum Mean Squared Error”) beruht. Das Verfahren arbeitet auf einem rauschbehafteten bzw. verrauschten Sprachsignal x(t), das ein Sprachsignal s(t) und ein Rauschsignal n(t) enthält, so dass x(t) = s(t) + n(t) gilt. Das rauschbehaftete Sprachsignal x(t) liegt im Zeitbereich vor. Es wird unter Verwendung einer Fensterungsfunktion in eine Aufeinanderfolge von Rahmen gewandelt, die fortlaufende Rahmennummern k haben. Die Rahmen werden dann unter Verwendung einer Fast-Fourier-Transformation (FFT) alle in den Frequenzbereich transformiert, um so eine Aufeinanderfolge von rauschbehafteten Sprachrahmen zu erzeugen, wobei ein rauschbehaftetes Sprachsignal X(f, k) im Frequenzbereich ein Sprachsignal S(f, k) und ein Rauschsignal N(f, k) enthält, so dass X(f, k) = S(f, k) + N(f, k) gilt. Die Rahmen im Frequenzbereich umfassen eine Anzahl von Frequenzplätzen bzw. -behältern f. Im Frequenzbereich beinhaltet der MMSE-Ansatz eine Minimierung der folgenden Fehlerfunktion: ε2(f, k) = E{(S(f, k) – S ^(f, k))·(S(f, k) – S ^(f, k))*} (1) wobei E{·} der Erwartungswertoperator ist, (*) eine komplexe Konjugation bezeichnet und S ^(f, k) einen linearen Schätzwert des Eingangssprachsignals darstellt. Der Fehler ε2(f, k), der durch Gleichung 1 definiert ist, stellt die quadrierte Differenz zwischen der wahren Sprachkomponente, die in dem rauschbehafteten Sprachsignal enthalten ist, und dem Schätzwert dieser Sprachkomponente, S ^(f, k), dar, d. h. den Schätzwert der rauschfreien Sprachkomponente. Demnach ist eine Minimierung von ε2(f, k) äquivalent zu einer Gewinnung des bestmöglichen Schätzwerts der Sprachkomponente. S ^(f, k) ist gegeben durch: S ^(f, k) = G(f, k)·X(f, k) (2)wobei G(f, k) ein Verstärkungs- bzw. Gewinnkoeffizient ist. Die entsprechende Lösung der Minimierung von ε2(f, k) für jeden Rahmen nimmt die Form einer Berechnung des Verstärkungs- bzw. Gewinnkoeffizienten G(f, k) an, der mit dem zugehörigen Eingangsfrequenzplatz von diesem Rahmen multipliziert wird, um die geschätzte rauschfreie Sprachkomponente S ^(f, k) zu erzeugen. Dieser Verstärkungskoeffizient, der als das Wiener-Filter im Frequenzbereich bekannt ist, ist gegeben durch das nachstehende Verhältnis:
    Figure 00030001
  • Das Wiener-Filter G(f, k) wird für jeden Frequenzplatz f von jedem Rahmen generiert.
  • Die rauschunterdrückten Rahmen werden dann in Block 14 zurück in den Zeitbereich transformiert und dann miteinander kombiniert, um ein rauschunterdrücktes Sprachsignal s ^(t) zu bilden. Idealerweise gilt s ^(t) = s(t).
  • Bei Herleitung des Wiener-Filters ist der MMSE-Ansatz äquivalent zu dem Orthogonalitätsprinzip. Dieses Prinzip legt fest, dass das Eingangssignal X(f, k) für jede Frequenz orthogonal zu dem Fehler S(f, k) – S ^(f, k) ist. Dies bedeutet, dass gilt: E{(S(f, k) – S ^(f, k))·X*(f, k)} = 0 (4)
  • Da der Schätzprozess linear ist, wird durch Schätzung der Signalkomponente eines rauschbehafteten. Signals, das eine Signalkomponente und eine Rauschkomponente enthält, effektiv auch ein Schätzwert des Rauschens erhalten, N ^(f, k). Außerdem wird das folgende Orthogonalitätsverhältnis ebenfalls gelten: E{(N(f, k) – N ^(f, k))·X*(f, k)} = 0 (5)wobei N ^(f, k) den Rauschschätzwert bezeichnet. Es folgt auch, dass für jede Frequenz die folgende Gleichheit zutrifft: S(f, k) – S ^(f, k) = N ^(f, k) – N(f, k) (6)
  • Das heißt, dass der mit dem Schätzwert der Rauschkomponente N ^(f, k) in Zusammenhang stehende Fehler der Gleiche ist wie der mit der geschätzten rauschfreien Sprachkomponente S ^(f, k) in Zusammenhang stehende Fehler.
  • Im Rest dieses Dokuments wird die folgende Schreibweise eingesetzt: PUV(f, k) ist die spektrale Kreuzleistungsdichte zwischen U(f, k) und V(f, k) (PUV(f, k) = E{U(f, k)·V*(f, k)}). PUU(f, k) ist die Spektralleistungsdichte (psd: „power sepctral density”) von U(f, k) (PUU(f, k) = E{U(f, k)·U*(f, k)}).
  • Als Folge des vorstehend genannten Orthogonalitätsprinzips ist es möglich, einen Ausdruck für die Kreuz-psd PSX(f, k) herzuleiten, die benötigt wird, um das durch Gleichung 3 beschriebene Wiener-Filter zu berechnen: PSX(f, k) = E{(X(f, k) – N ^(f, k))·X*(f, k)} (7)
  • Außerdem ist die Kreuz-psd PNX(f, k) gegeben durch: PNX(f, k) = E{(X(f, k) – S ^(f, k))·X*(f, k)} (8)
  • Unter Berücksichtigung der trivialen Gleichheit PXX(f, k) = PSX(f, k) + PNX(f, k) führen Gleichungen 3, 6, 7 und 8 ein Konzept einer adaptiven Berechnung ein und veranschaulichen dieses, da das Wiener-Filter (PSX(f, k)/PXX(f, k)) in Gleichung 3 von dem geschätzten Signal S ^(f, k) abhängt ((6, 7) und (8)).
  • Wird ein Minimum erreicht, nimmt der den Fehler in Gleichung 2 beschreibende Ausdruck die folgende Form an:
    Figure 00050001
  • Es ist offensichtlich, dass ein minimaler Fehler, das heißt ε2 min(f, k), nur dann gleich Null ist, wenn das gewünschte Signal S(f, k) vollständig kohärent mit dem Eingangssignal X(f, k) ist (das heißt, PNN(f, k) tendiert zu Null). Dies ist wünschenswert. Andernfalls liegt ein Fehler vor, wenn das Wiener-Filter angewandt wird. Der obere Grenzwert dieses Fehlers ist PSS(f, k). Dies ist nicht wünschenswert. Mit anderen Worten kann ein fehlerfreies Ergebnis nur dann erhalten werden, wenn überhaupt kein Rauschen in dem Eingangssignal X(f, k) vorliegt. Für jeden endlichen Rauschpegel wird ein endlicher Fehler erhalten. Es folgt, dass der Fehler des ungünstigsten Falls auftritt, wenn kein Sprachsignal S(f, k) in X(f, k) vorhanden ist.
  • Die Erfindung stellt ein Verfahren zum Unterdrücken von Rauschen bereit, wie es später in Anspruch 1 definiert ist.
  • Bevorzugte Merkmale des Verfahrens sind in den abhängigen Ansprüchen 2 bis 7 dargelegt.
  • Die Erfindung stellt einen wichtigen Vorteil bereit. Sie beseitigt auf effektive Weise das Erfordernis eines Sprachaktivitätsdetektors (VAD) in einem Rauschunterdrücker, der gemäß der Erfindung implementiert ist. Ein VAD ist grundsätzlich ein Energiedetektor. Er empfängt ein rauschbehaftetes Sprachsignal, vergleicht die Energie des gefilterten Signals mit einer vorbestimmten Schwelle und weist immer dann, wenn die Schwelle überschritten wird, darauf hin, dass Sprache in dem empfangenen Signal vorhanden ist. In vielen Sprachcodierungs/-decodierungssystemen, insbesondere im Gebiet der mobilen Telekommunikation, verändert ein Betrieb des VAD die Art und Weise, auf die Hintergrundrauschen in einem Sprachsignal verarbeitet wird. Im Speziellen kann während Zeiträumen, in denen keine Sprache detektiert wird, eine Übertragung abgeschnitten und ein sogenanntes ”Komfortrauschen” an dem empfangenen Endgerät erzeugt werden. Folglich kann eine Verwendung derartiger Maßnahmen von diskontinuierlicher Übertragung und Sprachaktivitätsdetektion die Verwendung von Rauschunterdrückung verkomplizieren und zu ungewünschten Effekten führen. Eine Beseitigung des Erfordernisses eines Sprachaktivitätsdetektors und die Schaffung einer Rauschunterdrückungsmaßnahme, die sich automatisch an Änderungen von Rauschbedingungen anpasst, ist daher hochgradig wünschenswert. Da die Erfindung ein Verfahren einer Rauschunterdrückung einführt, bei dem eine Schätzung sowohl von Sprache als auch von Hintergrundrauschen erhalten wird, besteht effektiv kein Erfordernis, eine Entscheidung darüber zu treffen, ob ein Eingangssignal Sprache und Rauschen oder nur Rauschen enthält. Als Folge hiervon wird die VAD-Funktion überflüssig.
  • Vorzugsweise wird die erste Schätzung zum Aktualisieren des geschätzten Rauschens verwendet.
  • Gemäß weiteren Aspekten der Erfindung sind ein Rauschunterdrücker, wie er in Anspruch 8 spezifiziert ist, und ein Kommunikationsendgerät und ein Kommunikationsnetzwerk, wie sie später in Ansprüchen 15 bis 16 definiert sind, bereitgestellt.
  • Vorzugsweise ist das Kommunikationsendgerät mobil. Wahlweise kann die Erfindung in einem Netzwerk oder einem festen Kommunikationsendgerät verwendet werden.
  • Vorzugsweise dient das Verfahren zur Rauschunterdrückung im Frequenzbereich. Es kann eine Berechnung des Zählers und des Nenners eines Wiener-Filters aufweisen, das für ein Rauschreduktionssystem verwendet wird. Das Rauschunterdrückungssystem, das in diesem Dokument beschrieben wird, ist insbesondere zur Anwendung in einem System geeignet, das einen einzelnen Sensor wie etwa ein Mikrofon aufweist.
  • Vorzugsweise ist das Filter ein Wiener-Filter. Vorzugsweise basiert es auf einer Schätzung eines Periodogramms bzw. Wellendiagramms, das eine Kombination von Sprache und Rauschen aufweist. Vorzugsweise umfasst das Verfahren ein kontinuierliches Aktualisieren von Rauschspektralleistungsdichten.
  • Ein Ausführungsbeispiel der Erfindung wird nun lediglich beispielhaft unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, bei denen zeigen:
  • 1 ein mobiles Endgerät gemäß der Erfindung;
  • 2 einen Rauschunterdrücker gemäß der Erfindung;
  • 3 den von Frequenz und Geräuschpegel abhängigen Maskierungseffekt des menschlichen Hörsystems;
  • 4 ein Blockschaltbild eines Algorithmus gemäß der Erfindung; und
  • 5 ein funktionales Blockschaltbild eines Algorithmus gemäß der Erfindung.
  • Im Folgenden stellt das Symbol P im Allgemeinen eine Leistung dar. Wenn es gestrichen ist, d. h. P', stellt es ein Periodogramm bzw. Wellendiagramm dar, und wenn es nicht gestrichen ist, d. h. P, stellt es eine Spektralleistungsdichte (psd) dar. In Übereinstimmung mit ihren allgemeingültigen Bedeutungen wird der Ausdruck ”Periodogramm” verwendet, um einen über eine kurze Zeitdauer berechneten Durchschnittswert zu bezeichnen, und wird der Ausdruck „Spektralleistungsdichte” verwendet, um einen längerfristigen Durchschnittswert darzustellen.
  • Ein Ausführungsbeispiel eines mobilen Endgeräts 10, das einen Rauschunterdrücker 20 gemäß der Erfindung aufweist, wird nun unter Bezugnahme auf 1 beschrieben. 1 entspricht einer Anordnung eines mobilen Endgeräts gemäß dem Stand der Technik, obwohl solche Endgeräte nach Stand der Technik herkömmliche Rauschunterdrücker nach Stand der Technik aufweisen. Das mobile Endgerät und das drahtlose Kommunikationssystem, mit dem es kommuniziert, arbeiten gemäß dem GSM-Standard („Global System for Mobile Telecommunications”).
  • Das mobile Endgerät 10 umfasst einen Sende-(Sprachcodierungs-)Zweig 12 und einen Empfangs-(Sprachdecodierungs-)Zweig 14. Im Sende-(Sprachcodierungs-)Zweig 12 wird ein Sprachsignal von einem Mikrofon 16 empfangen bzw. aufgenommen und von einem Analog-Digital-(A/D)Wandler 18 abgetastet, sowie im Rauschunterdrücker 20 rauschunterdrückt, um ein verbessertes Signal zu erzeugen. Dies erfordert, dass das Spektrum des Hintergrundrauschens geschätzt wird, so dass Hintergrundrauschen in dem abgetasteten Signal unterdrückt werden kann. Ein typischer Rauschunterdrücker arbeitet im Frequenzbereich. Das Zeitbereichssignal wird zuerst in den Frequenzbereich transformiert, was unter Verwendung einer Fast-Fourier-Transformation (FFT) effizient durchgeführt werden kann. Im Frequenzbereich wird Sprachaktivität von Hintergrundrauschen unterschieden, und wenn keine Sprachaktivität vorliegt, wird das Spektrum des Hintergrundrauschen geschätzt. Dann werden Rauschunterdrückungs-Verstärkungskoeffizienten auf Grundlage des momentanen Eingangssignalspektrums und der Hintergrundrauschschätzung berechnet. Schließlich wird das Signal unter Verwendung einer inversen FFT (IFFT) zurück in den Zeitbereich transformiert.
  • Das verbesserte (rauschunterdrückte) Signal wird von einem Sprachcodierer 22 codiert, um einen Satz von Sprachparametern zu extrahieren, die dann in einem Kanalcodierer 24 kanalcodiert werden, wobei Redundanz zu dem codierten Sprachsignal hinzugefügt wird, um einen gewissen Grad an Fehlerschutz zu schaffen. Das resultierende Signal wird dann in ein Hochfrequenz-(HF-)Signal aufwärtsgewandelt und von einer Sende-/Empfangseinheit 26 übertragen. Die Sende-/Empfangseinheit 26 umfasst ein (nicht gezeigtes) Duplexfilter, das mit einer Antenne verbunden ist, um zu ermöglichen, dass sowohl Übertragung als auch Empfang erfolgt.
  • Ein Rauschunterdrücker, der zur Verwendung in dem mobilen Endgerät gemäß 1 geeignet ist, ist in dem veröffentlichten Dokument WO-97/22116 beschrieben.
  • Um die Batterielebensdauer zu verlängern, werden in Mobiltelekommunikationssystemen typischerweise unterschiedliche Arten von eingangssignalabhängigen Niedrigenergiebetriebsarten angewandt. Diese Anordnungen werden landläufig als diskontinuierliche Übertragung (DTX) bezeichnet. Die grundlegende Idee bei DTX besteht darin, den Sprachcodierungs-/decodierungsprozess in Nichtsprachzeiträumen zu unterbrechen. Typischerweise wird als Ersatz für eigentliches Hintergrundrauschen eine gewissen Art von Komfortrauschsignal erzeugt, das dazu gedacht ist, dem Hintergrundrauschen auf der Empfangsseite zu ähneln.
  • Der Sprachcodierer 22 ist mit einer Sende-(TX-)DTX-Behandlungsroutine 28 verbunden. Die TX-DTX-Behandlungsroutine 28 empfängt von einem Sprachaktivitätsdetektor (VAD) 30 eine Eingabe, die angibt, ob in dem rauschunterdrückten Signal, das als die Ausgabe eines Rauschunterdrückerblocks 20 bereitgestellt wird, eine Sprachkomponente vorhanden ist. Wird in einem Signal Sprache detektiert, wird deren Übertragung fortgesetzt. Wird keine Sprache detektiert, wird eine Übertragung des rauschunterdrückten Signals gestoppt, bis erneut Sprache detektiert wird.
  • In dem Empfangs-(Sprachdecodierungs-)Zweig 14 des mobilen Endgeräts wird von der Sende-/Empfangseinheit 26 ein HF-Signal empfangen und von HF in ein Basisbandsignal abwärtsgewandelt. Das Basisbandsignal wird von einem Kanaldecodierer 32 kanadecodiert. Detektiert der Kanaldecodierer Sprache in dem kanaldecodierten Signal, wird das Signal von einem Sprachdecodierer 34 sprachdecodiert.
  • Das mobile Endgerät umfasst auch eine Fehlerrahmen-Behandlungseinheit 38, um fehlerhafte, das heißt beschädigte, Rahmen zu bearbeiten.
  • Das von dem Sprachdecodierer erzeugte Signal, egal ob es sich um decodierte Sprache, Komfortrauschen oder wiederholte und gedämpfte Rahmen handelt, wird von einem Digital-Analog-Wandler 40 von digitaler in analoge Form gewandelt und dann über einen Lautsprecher oder einen Hörer 42, zum Beispiel für einen Zuhörer, abgespielt.
  • Weitere Einzelheiten des Rauschunterdrückers 20 sind gemäß 2 gezeigt. Er umfasst eine Fast-Fourier-Transformation, einen Verstärkungskoeffizienten- oder Wiener-Filter-Berechnungsblock und eine inverse Fast-Fourier-Transformation. Eine Rauschunterdrückung wird im Frequenzbereich durch Multiplikation von Rahmen mit Verstärkungskoeffizienten/Wiener-Filtern durchgeführt.
  • Es wird nun der Betrieb des Rauschunterdrückers 20 beschrieben. Gemäß der Erfindung wird ein Wiener-Filter anstatt zu versuchen, die ”wahre” Sprachkomponente S(f, k) in einem rauschbehafteten Sprachsignal zu schätzen, dazu verwendet, eine Kombination von Sprache und einer gewissen Menge an Rauschen gemäß der Beziehung S(f, k) + ξ·N(f, k) zu schätzen. Das modifizierte Wiener-Filter, das auf diese Weise geschaffen wird, nimmt die folgende Form an:
    Figure 00120001
  • Unter der Annahme, dass die Sprach- und die Rauschkomponente unkorreliert sind (das heißt, dass die Kreuz-psd zwischen der Sprach- und der Rauschkomponente gleich Null sein muss, PSN(f, k) = 0), kann Gleichung 10 in folgender Form anders ausgedrückt werden:
    Figure 00120002
  • Die Rolle des Faktors ξ wird nachstehend erläutert.
  • Wie vorstehend erläutert besteht der Hauptvorteil einer Schätzung einer Kombination von Sprache und einer gewissen Menge an Rauschen darin, dass ein geringerer Fehler mit der Schätzung verknüpft sein sollte. Dieser Vorteil wird in Verbindung mit nachstehend dargestellter Gleichung 12 noch besser ersichtlich, die den minimalen Fehler definiert, der in dieser Situation erhalten wird:
    Figure 00130001
  • Es ist nun verständlich, dass Gleichung 12, wenn PNN(f, k) zu Null tendiert, zu Null tendiert und der Fehler daher wie im Fall des Stands der Technik zu Null tendiert. Ebenso wie beim Stand der Technik ist dies wünschenswert. Da Gleichung 12 jedoch den Faktor (1 – ξ)2 enthält, erreicht sie Null schneller als im Fall des Stand der Technik. Andererseits tendiert ε2 min zu (1 – ξ)2·PSS(f, k), wenn PNN(f, k) steigt. Ebenso wie beim Stand der Technik ist dies nicht wünschenswert. Der durch das Verfahren gemäß der Erfindung hervorgerufene Fehler ist jedoch immer kleiner als derjenige, der durch das vorstehend beschriebene Verfahren gemäß dem Stand der Technik hervorgerufen wird. Dieser Vorteil ergibt sich, weil der Multiplikationsfaktor (1 – ξ)2 immer dazu dient, den Fehlerbetrag zu reduzieren. Außerdem kann der Faktor (1 – ξ)2 durch Einstellen von ξ auf einen geeigneten Wert minimiert werden, wobei der Fehler in diesem Fall weiter minimiert wird.
  • Bei der Erfindung wurde erkannt, dass der Wert von ξ bestimmt werden kann, um die folgende Ergebnisse zu erreichen:
    • 1. Um einen Wert des Produkts ξ·PNN(f, k) bereitzustellen, der durch PSS(f, k) ”maskiert” wird. Selbst wenn eine Schätzung von kombinierter Sprache und Rauschen berechnet wird, wird ein Hörer bzw. Zuhörer nur Sprache hören, weil das Produkt ξ·PNN(f, k) unterhalb seines hörbaren Wahrnehmungspegels liegen wird. Auf diese Weise werden sich die Eigenschaften des menschlichen Hörsystems zu Nutze gemacht, was ermöglicht, dass das Sprachperiodogramm zusammen mit dem Maximum eines maskierten Rauschperiodogramms berechnet wird. Wird ξ angewandt, um dieses Ergebnis zu erreichen, wird auf ξ1 Bezug genommen. Der ”Maskierungs”-Effekt ist eine Eigenschaft des menschlichen Hörsystems, das effektiv eine frequenzabhängige und geräuschpegelabhängige niedrigere Grenze oder Schwelle bei einer auditiven Wahrnehmung einstellt. Folglich werden alle Rausch- oder Sprachkomponenten unterhalb der Maskierungsschwelle von dem Zuhörer nicht wahrgenommen (gehört). Es ist allgemein anerkannt, dass die Maskierungsschwelle ungeachtet der Frequenz ungefähr 13 dB unter dem aktuellen Eingangspegel liegt. Dies ist in 3 dargestellt. Um das reine Sprachsignal zu schätzen (das heißt beim Versuch, das gesamte Hintergrundrauschen zu eliminieren), ist es gemäß der Erfindung ausreichend, das reine Sprachsignal zusammen mit demjenigen Teil des Rauschens zu schätzen, der eben gerade unterhalb der Maskierungsschwelle liegt.
    • 2. Um zu ermöglichen, dass der Pegel für eine Rauschreduktion am Ausgang frei gewählt wird. Dies kann verwendet werden, um Kontext des nahen Endes in dem Signal für den Zuhörer am entfernten Ende wiederherzustellen. Wird ξ angewandt, um dieses Ergebnis zu erreichen, wird auf ξ2 Bezug genommen. Dies bedeutet, dass ξ derart gewählt werden kann, um eine adäquate Rauschunterdrückung sicherzustellen, aber auch um zu erlauben, dass eine gewisse Rauschkomponente in dem Signal an dem Empfangsendgerät verbleibt, so dass das Hintergrundrauschen das in der Umgebung eines Sendeendgeräts vorhandene Hintergrundrauschen auf natürliche Weise darzustellen scheint. Mit anderen Worten ist es möglich, einen Wert von ξ derart zu wählen, dass die Rauschkomponente in einem rauschbehafteten Sprachsignal in Folge des Maskierungseffekts nicht vollständig eliminiert wird.
  • In praktischen Situationen sind Sprachsignale nicht stationär und erfordern daher eine kurzfristige Schätzung. Anstelle einer Verwendung von psd-Funktionen wie gemäß Gleichung 11 gezeigt werden daher bestimmte Ausdrücke durch Periodogramme ersetzt. Rauschen kann ebenfalls nicht stationär sein, aber es wird im Allgemeinen als stationär betrachtet, wodurch weiterhin eine langfristige Schätzung verwendet werden kann. Folglich ist die Form des gewünschten Wiener-Filters wie folgt:
    Figure 00150001
  • Es sollte beachtet werden, dass es auch möglich ist, den Ausdruck PNN(f, k) für die Spektralleistungsdichte des Hintergrundrauschens im Nenner von Gleichung 13 zu verwenden. Es sollte auch anerkannt werden, das der Ausdruck P'SS(f, k) + ξ1·P'NN(f, k) eine Kombination des Sprachperiodogramms und des Periodogramms maskierten Rauschens darstellt, wenn ξ = ξ1 in vorstehender Gleichung 13 verwendet wird, und der Ausdruck P'SS(f, k) + ξ2·P'NN(f, k) eine Kombination des Sprachperiodogramms und des Periodogramms erlaubten Rauschens darstellt, wenn ξ = ξ2 verwendet wird. Der Nenner P'SS(f, k) + PNN(f, k) besteht aus dem Sprachperiodogramm und der Rausch-psd.
  • Eine Berechnung des Wiener-Filters für einen aktuellen Rahmen k basiert wie folgt auf einem vorhergehenden Rahmen k – 1. Die Rausch-psd PNN(f, k – 1), das Sprachperiodogramm P'SS(f, k – 1) und die Anzahl von Rahmen T(f, k – 1) zur Zeitmittelung vorhergehender Rahmen sind bekannt. Für den aktuellen Rahmen k ist auch eine Kombination der eingegebenen Sprache und des Rauschperiodogramms |X(f, k)|2 bekannt. Statt PNN(f, k – 1) kann vielmehr RNN(f, k – 1) oder LNN(f, k – 1) verwendet werden, wenn Quadratwurzel- oder Logarithmusmaße eingesetzt werden, wie es in dieser Beschreibung nachstehend beschrieben ist.
  • Zum Berechnen des Wiener-Filters wird ein Algorithmus mit acht Schritten verwendet. Die acht Schritte sind in 4 gezeigt und werden nachstehend beschrieben.
  • Schritt 1: Schätzung einer Kombination des Sprach- und des Rauschperiodogramms P'SS(f, k)
  • Dieses Periodogramm berechnet sich wie folgt: P'SS(f, k) = α·P'SS(f, k – 1) + (1 – α)·|X(f, k)|2 (14)
  • Es sollte beachtet werden, dass P'SS(f, k) auf dem vorhergehenden Sprachperiodogramm P'SS(f, k – 1) und einem Betrag des aktuellen rauschbehafteten Sprachsignals |X(f, k)|2, bemessen durch einen Faktor α, beruht. Der Wert von α wird gewählt, um einen größtmöglichen Beitrag von der aktuellen Sprachkomponente |S(f, k)|2 des rauschbehafteten Sprachsignals |X(f, k)|2 bereitzustellen, aber er wird beschränkt, um sicherzustellen, dass der Faktor (1 – α)·|N(f, k)|2, der den Betrag des aktuellen Rauschsignals darstellt, der einbezogen wird, durch die Summe α·P'SS(f, k – 1) + (1 – α)·|S(f, k)|2 maskiert wird, die eine Schätzung des aktuellen Sprachperiodogramms darstellt. Folglich sollte anerkannt werden, dass es notwendig ist, den Vergessensfaktor α für jeden Frequenzplatz f von jedem Rahmen k erneut zu berechnen. Es sollte auch beachtet werden, dass der Faktor (1 – α), auf den in Gleichung 14 Bezug genommen wird, analog zu ξ1 ist.
  • In der Praxis wird Schritt 1 implementiert, indem zuerst das aktuelle Sprachperiodogramm unter Verwendung des Spektralsubtraktionsverfahrens geschätzt wird, das beschrieben ist in ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. On Acoustics Speech and Signal Processing, Bd. 27, Nr. 2, Seiten 113 bis 120, April 1979. Dann wird der Maskierungspegel auf einen Wert eingestellt, der ungefähr 13 dB unter dem geschätzten Sprachperiodogrammpegel liegt. Das Rauschperiodogramm wird auf die gleiche Weise wie das Sprachperiodogramm geschätzt. Der Wert von α wird dann unter Verwendung der Maske, des Rauschperiodogramms und des Eingangsperiodogramms berechnet.
  • Schritt 2: Schätzung einer Kombination von Sprach- und Rausch-psd P XX(f, k)
  • Diese psd stellt die Gesamtleistung der Eingabe dar und wird geschätzt durch:
    Figure 00170001
  • Diese Spektralleistungsdichte bzw. psd kombiniert eine kurzfristige Mittelung (ein Periodogramm für Sprache) nebst einer langfristigen Mittelung (eine psd für Rauschen).
  • Schritt 3: Schätzung des Wiener-Filters
  • Das Wiener-Filter von Gleichung 11 kann in der folgenden Form neu geschrieben werden:
    Figure 00180001
    und kann so aus den Ergebnissen von Gleichungen 14 und 15 berechnet werden. Da S ^1(f, k) = G1(f, k)·X(f, k) gilt, sollte verstanden werden, dass die geschätzte Sprache S ^1(f) die Sprache und den maskierten Teil des Rauschens enthält. Der minimale Wert für die Verstärkung bzw. den Gewinn G1(f, k) ist auf (1 – α) gesetzt.
  • Schritt 4: Aktualisieren der Rausch-psd PNN(f, k)
  • Um die Rausch-psd zu aktualisieren, wird das in Gleichung 8 dargestellte theoretische Ergebnis verwendet, wobei das Produkt (X(f, k) – S ^(f, k))·X*(f, k) gegebenenfalls durch das Produkt (1 – G1(f, k))·|X(f, k)|2 ersetzt wird. Die folgenden drei Verfahren können verwendet werden:
    • (i) Leistungs-psd-Schätzung;
    • (ii) Quadratwurzel-psd-Schätzung; und
    • (iii) Logarithmus-psd-Schätzung.
  • Bei allen der nachstehend beschriebenen Verfahren stellt λ einen Vergessensfaktor zwischen 0 und 1 dar.
  • (i) Leistungs-psd-Schätzung
  • Dieses Verfahren verwendet das Orthogonalitätsprinzip und beruht auf dem Welch-Verfahren, das beschrieben ist in ”The Use of Fast Fourier Transform for the Estimation of Power Spectra: A Method Based an Time Averaging Over Short, Modified Periodograms”, IEEE Trans. On Audio and Electroacoustics, Bd. AU-15, Nr. 2, Seiten 70 bis 73, Juni 1967. Es verwendet eine Technik, die bekannt ist als ”exponentielle Zeitmittelung”, gemäß der gilt: PNN(f, k) = λ·PNN(f, k – 1) + (1 – λ)·(1 – G1(f, k))·|X(f, k)|2 (17)wobei G1(f, k) das Wiener-Filter ist, das gemäß Gleichung 16 berechnet wird.
  • (ii) Quadratwurzel-psd-Schätzung
  • Dieses Verfahren verwendet eine Modifikation des Welch-Verfahrens und beruht auf einer Amplitudenmittelung:
    Figure 00190001
  • RNN(f, k) stellt eine durchschnittliche Rauschamplitude dar.
  • (iii) Logarithmische psd-Schätzung
  • Dieses Verfahren verwendet eine Zeitmittelung im Logarithmusbereich:
    Figure 00190002
    PNN(f, k) = exp[LNN(f, k) + γ]
  • LNN(f, k) bezieht sich auf einen Mittelwert im logarithmischen Leistungsbereich. γ ist die Euler'sche Konstante und hat einen Wert von 0,5772156649.
  • Bei jedem der drei vorstehend beschriebenen Verfahren spielt der Vergessensfaktor λ bei der Aktualisierung der Rausch-psd eine wichtige Rolle und ist definiert, um eine gute psd-Schätzung bereitzustellen, wenn sich eine Rauschamplitude schnell ändert. Dies wird bewerkstelligt, indem λ zu Differenzen zwischen dem aktuellen Eingangsperiodogramm |X(f, k)|2 und der Rausch-psd PNN(f, k – 1) im vorhergehenden Rahmen in Beziehung gesetzt wird. λ hängt ab von einem Wert T(f, k), der die Anzahl von Rahmen definiert, die zur Zeitmittelung verwendet werden, und wird wie folgt bestimmt:
    Figure 00200001
    und λ wird wie folgt aus T(f, k) hergeleitet:
    Figure 00200002
  • Es sollte beachtet werden, dass es notwendig ist, den Vergessensfaktor λ für jeden Rahmen k und für jeden Frequenzplatz f neu zu berechnen. Da λ in Schritt 2 benötigt wird, muss es klarerweise so berechnet werden, dass es für diesen Schritt verfügbar ist. Es sollte auch anerkannt werden, dass, da die Rausch-psd kontinuierlich aktualisiert wird, dies das Erfordernis beseitigt, einen Sprachaktivitätsdetektor in dem Rauschunterdrücker 20 zu haben.
  • Schritt 5: Schätzung von aktuellem Sprachperiodogramm P'SS(f, k)
  • Das aktuelle Sprachperiodogramm P'SS(f, k) spielt in dem Algorithmus eine wichtige Rolle. Es wird für einen aktuellen Rahmen geschätzt, so dass es in einem nächsten Rahmen verwendet werden kann, das heißt in Gleichungen 14 und 15. Wie nachstehend erläutert sollte P'SS(f, k) nur Sprache enthalten und sollte keinerlei Rauschen enthalten.
  • Nach Erhalt einer Schätzung einer Sprachamplitude S ^(f, k) in Schritt 3 erfordert dieser Schritt tatsächlich eine Schätzung von P'SS(f, k), was das aktuelle Sprachperiodogramm darstellt.
  • Es ist weitgehend anerkannt, dass P'SS(f, k) einfach durch die quadrierte geschätzte Sprachamplitude ersetzt werden kann, das heißt: P'SS(f, k) = |S ^(f, k)|2. Schätzung von |S(f, k)|2.
  • Unglücklicherweise impliziert eine gute Schätzung S ^(f, k) eigentlich nicht, dass eine gute Schätzung für |S(f, k)|2 erhalten werden kann, indem einfach das Quadrat genommen wird. Folglich strebt das Verfahren gemäß der Erfindung danach, eine genauere Schätzung P'SS(f, k) von |S(f, k)|2 zu erhalten, indem das MMSE-Kriterium angewandt wird.
  • Bei Untersuchung des kombinierten Sprach- und Rauschperiodogramms ist ersichtlich, dass gilt: Y(f, k) = |X(f, k)|2 = |S(f, k)2 + |N(f, k)|2 + S*(f, k)·N(f, k) + S(f, k)·N*(f, k).
  • Demnach kann eine gute Schätzung von |S(f, k)|2 erhalten werden durch Minimierung des folgenden Fehlers (MMSE-Kriterium): χ2(f, k) = E{∥⁣S(f, k)|2 – H(f, k)·Y(f, k)|2} (22)wobei H(f, k)·|X(f, k)|2 eine Schätzung des Sprachperiodogramms |S(f, k)|2 darstellt.
  • Eine direkte Lösung von Gleichung 22 erfordert eine Lösung von Gleichungen höherer Ordnung, aber die Lösung kann vereinfacht werden, indem angenommen wird, dass die Sprache und das Rauschen unkorrelierte Gauß'sche Prozesse mit Mittelwert Null sind, um eine Näherung des entsprechenden Wiener-Filters höherer Ordnung H(f, k) bereitzustellen. Die bei diesem Verfahren verwendete Näherung ist in nachstehender Gleichung 23 dargestellt. (Es sollte anerkannt werden, dass in dieser Phase unterschiedliche Näherungen verwendet werden können, ohne von den wesentlichen Merkmalen des erfinderischen Prinzips abzuweichen).
  • Figure 00220001
  • Hierbei bezieht sich SNR(f, k) auf das Signal-Rausch-Verhältnis und wird wie folgt berechnet:
    Figure 00220002
  • Gleichung 24 ist der Kehrwert einer wohl bekannten Funktion, die das Wiener-Filter und das Signal-Rausch-Verhältnis in Beziehung setzt. (Wiener = SNR/(SNR + 1)).
  • Demzufolge wird das Sprachperiodogramm wie folgt berechnet: P'SS(f, k) = H(f, k)·|X(f, k)|2 (25)
  • Schritt 6: Die Verstärkungsfunktion
  • In Zuständen mit hohem SNR tendiert das geschätzte Wiener-Filter G1(f, k) zu 1, wenn die Sprachkomponente des rauschbehafteten Eingangssignals im Vergleich zu der Rauschkomponente groß ist. Außerdem kann G1(f, k) vergleichsweise genau geschätzt werden, wenn das Sprache-Rausch-Verhältnis hoch ist. Demnach besteht ein guter Grad an Sicherheit, dass das in Schritt 3 bestimmte Wiener-Filter eine optimale Filterung bietet und eine Ausgabe bereitstellt, die eine hochgenaue Schätzung der Sprache S ^1(f) mit einer Restmenge von (maskiertem) Rauschen enthält. Da die Verstärkung des Filters in dieser Situation nahe 1 ist, ist es vorteilhaft, eine Verstärkung geringen Betrags vorzusehen, um die Verstärkung noch näher an 1 heranzubringen. Die zusätzliche Verstärkung sollte jedoch auch beschränkt sein, um sicherzustellen, dass die Wiener-Filter-Verstärkung unter keinen Umständen 1 überschreitet.
  • Andererseits gilt bei Zuständen, in denen die Sprachkomponente in dem rauschbehafteten Eingangssignal verglichen mit der Rauschkomponente klein ist, das Gegenteil. Die Wiener-Filter-Verstärkung ist gering und es ist wahrscheinlich, dass G1(f, k) nicht so genau wie in Zuständen mit hohem SNR bestimmt werden kann. In dieser Situation ist es nicht so vorteilhaft, die Wiener-Filter-Ausgabe zu verstärken, und das geschätzte Wiener-Filter sollte in der Form beibehalten werden, wie es in Schritt 3 ursprünglich geschätzt wurde.
  • Um diese beiden widersprüchlichen Anforderungen zu berücksichtigen, die bei unterschiedlichen SNR-Zuständen existieren, wird das in Schritt 3 bestimmte Wiener-Filter gemäß der folgenden Gleichung modifiziert:
    Figure 00240001
    um ein Wiener-Filter Gα(f, k) zu erzeugen, das bei Schätzung der endgültigen Ausgabe zu verwenden ist. Gα(f, k) ist eine Funktion von G1(f, k).
  • Gleichung 26 nutzt die Tatsache aus, dass eine Funktion wie etwa y = x1-x (x > 0) eine Verstärkung bereitstellt, wenn x kleiner als 1 ist. Sie erfüllt daher die Anforderung, bei guten SNR-Zuständen mehr Verstärkung und bei Zuständen mit geringem SNR weniger Verstärkung bereitzustellen.
  • Die Variable Kb(f) kann Werte zwischen 0 und 1 annehmen und ist in dem Exponenten von Gleichung 26 enthalten, um auf Wunsch die Verwendung von unterschiedlichen (z. B. vorbestimmten) Verstärkungspegeln für unterschiedliche Frequenzbänder f zu ermöglichen.
  • Schritt 7: Auswahl des Rauschreduktionspegels
  • In diesem Schritt wird der gewünschte Pegel einer Rauschreduktion ausgewählt. Für das in Gleichung 11 angegebene Wiener-Filter hat die entsprechende ideale zeitliche Ausgabe die Form s ^(t) = s(t) + ξ·n(t). Wenn man sich erinnert, dass das rauschbehaftete Eingangssignal die Form x(t) = s(t) + n(t) hat, beträgt die durch das Filter bereitgestellte Rauschreduktion theoretisch ungefähr 20·log[ξ] dB. Dieses Ergebnis kann begründet werden, indem das Verhältnis des Rauschpegels in dem Eingangssignal zu demjenigen in dem Ausgangssignal (d. h. dem nach Rauschunterdrückung erhaltenen Signal) berücksichtigt wird. Dieses Verhältnis ist einfach ξ·n(t)/n(t), was zu 20·log[ξ] dB wird, wenn es als Leistungsverhältnis in Dezibel ausgedrückt wird. Demzufolge entspricht der Faktor 0 < ξ < 1 der durch das Filter eingeführten Rauschreduktion.
  • Nachdem ein gewünschter Rauschreduktionspegel gewählt und der Wert von ξ bestimmt wurde, der notwendig ist, um diese Rauschreduktion zu erreichen (z. B. ξ = 025 für –12 dB Rauschreduktion), wird ein Faktor η bestimmt, so dass gilt:
    Figure 00250001
  • Gleichung 27 stellt eine Art und Weise dar, ein Wiener-Filter, das optimiert ist, um eine Ausgabe bereitzustellen, die nur maskiertes Rauschen enthält, mit einem Wiener-Filter in Beziehung zu setzen, das eine Ausgabe einschließlich eines gewissen Betrags an erlaubtem Rauschen bereitstellt. Gemäß Schritten 1 bis 3 wird das Wiener-Filter G1(f, k) derart eingerichtet, um eine Schätzung der Sprachkomponente eines rauschbehafteten Sprachsignals plus einen Rauschbetrag bereitzustellen, der durch die Sprachkomponente effektiv maskiert ist. Demnach muss das Wiener-Filter unter der Bedingung, dass ein gewisser Rauschbetrag in der Ausgabe erlaubt (gewünscht) ist, entsprechend modifiziert werden. In Gleichung 27 stellt G1(f, k) das Wiener-Filter dar, das in Schritt 3 optimiert ist, um eine Ausgabe bereitzustellen, die sprachmaskiertes Rauschen enthält. Der Ausdruck
    Figure 00260001
    stellt ein Wiener-Filter dar, das einen Betrag an Rauschreduktion ξ bereitstellt, was ein Ausgabesignal erzeugt, das Sprache und eine gewünschte/erlaubte Menge an Rauschen enthält. Der Ausdruck η·(1 – G1(f, k)) stellt somit eine Menge an nicht maskiertem Rauschen dar und ist im Wesentlichen die Differenz zwischen
    Figure 00260002
    und G1(f, k). Unter Berücksichtigung der Tatsache, dass G1(f, k) Rauschen mit einem Pegel von ungefähr dem (1 – α)-fachen des Raschens enthält, das in dem ursprünglichen rauschbehafteten Sprachsignal vorhanden ist, gilt die folgende Beziehung zwischen α, η und ξ: 1 – α + η·α ⇔ ξ (28)
  • Schritt 8: Schätzung des endgültigen geschätzten Wiener-Filters
  • Unter Verwendung von Gleichungen 16, 26 und 28 ist das endgültige Wiener-Filter G(f, k), das auf die Eingabe anzuwenden ist, gegeben durch:
    Figure 00270001
  • Obwohl η von α abhängt und für jeden Frequenzplatz f von jedem Rahmen k einen anderen Wert hat, wird der Gesamtrauschreduktionspegel bei ungefähr 20·log[ξ] dB konstant gehalten.
  • Wahlweise können Schritte 1 bis 8 unter Verwendung von Formeln implementiert werden, die Signal-Rausch-Verhältnis-Formeln beinhalten. Bei der ausführlichen Implementierung von Schritten 1 bis 8, die vorstehend dargestellt ist, hat die Diskussion auf Berechnungen von Rausch-psd-Funktionen, Sprachperiodogrammen und Eingangsleistung (Periodogramm + psd) beruht. Eine alternative Darstellung kann jedoch erhalten werden, indem Gleichung 11 und/oder Gleichung 13 durch die Rausch-psd dividiert werden. Diese alternative Darstellung erfordert eine Schätzung eines (Signal + maskiertes Rauschen)-Rausch-Verhältnisses anstelle eines Sprachperiodogramms.
  • Ein Algorithmus 50, der die Erfindung verkörpert, ist in 5 gezeigt. Der Algorithmus 50 ist in einer Menge von Schritten 52, die einen adaptiven Prozess darstellen, und eine Menge von Schritten 54, die einen nicht adaptiven Prozess darstellen, aufgeteilt gezeigt. Der adaptive Prozess verwendet eine Berechnung des Wiener-Filters, um das Wiener-Filter neu zu berechnen. Dementsprechend ist der Schritt der Berechnung des Wiener-Filters sowohl dem adaptiven Prozess als auch dem nicht adaptiven Prozess gemeinsam.
  • Diese Wiener-Filter-Berechnung ist auch zum Minimieren des Restechos in einem kombinierten Akustikecho- und Rauschsteuerungssystem mit einem Sensor und einem Lautsprecher geeignet.
  • Während bevorzugte Ausführungsbeispiele der Erfindung gezeigt und beschrieben wurden, wird es selbstverständlich sein, dass derartige Ausführungsbeispiel nur beispielhaft beschrieben sind. Obwohl die Erfindung in einem Rauschunterdrücker beschrieben ist, der in dem Aufwärtsstreckenpfad eines Mobilendgeräts angeordnet ist, das heißt unter Bereitstellung eines rauschunterdrückten Signals an einen Sprachcodierer, kann sie zum Beispiel gleichermaßen anstelle von oder zusätzlich zu dem Rauschunterdrücker in dem Aufwärtsstreckenpfad in einem Rauschunterdrücker in dem Abwärtsstreckenpfad eines Mobilendgeräts vorhanden sein. In diesem Fall kann sie ein Signal bearbeiten, das von einem Sprachdecodierer bereitgestellt wird. Außerdem kann die Erfindung, obwohl sie in einem Mobilendgerät beschrieben ist, wahlweise in einem Rauschunterdrücker in einem Kommunikationsnetzwerk vorhanden sein, gleich ob dieses in Zusammenhang mit einem Sprachcodierer oder einem Sprachdecodierer verwendet wird.
  • Einem Fachmann fallen zahlreiche Variationen, Änderungen und Ersetzungen ein, ohne von dem Umfang der vorliegenden Erfindung abzuweichen. Dementsprechend ist es vorgesehen, dass die folgenden Ansprüche nur den Umfang der Erfindung definieren.

Claims (16)

  1. Verfahren zum Unterdrücken von Rauschen in einem rauschbehafteten Signal (X(f, k)), um ein rauschunterdrücktes Signal bereitzustellen, wobei eine Schätzung des Rauschens und eine Schätzung von Sprache (S(f, k)) gemeinsam mit einigem aber nicht dem gesamten Rauschen, ξPNN(f, k), wobei 0 < ξ < 1, vorgenommen wird, und die Schätzungen zum Erzeugen eines Rauschreduktionsfilters mit einem Verstärkungskoeffizienten (G) verwendet werden, um die Verstärkung des rauschbehaftenden Signals (X(f, k)) zur Unterdrückung des Rauschens zu steuern, wobei eine erste Schätzung des Verstärkungskoeffizienten adaptiv erfolgt und diese erste Schätzung verwendet wird zum Erzeugen einer Rauschschätzung (PNN(f, k)), die dann verwendet wird zum Erzeugen einer zweiten Schätzung des Verstärkungskoeffizienten, wobei eine Sprachaktivitätserfassung zum Erfassen sprachloser Perioden nicht verwendet wird.
  2. Verfahren nach Anspruch 1, wobei der Pegel des bei der Schätzung der Sprache gemeinsam mit einigem Rauschen enthaltenen Rauschens variabel ist, um eine gewünschte Rauschmenge in dem rauschunterdrückten Signal zu beinhalten.
  3. Verfahren nach Anspruch 2, wobei der Pegel des Rauschens einen akzeptablen Pegel einer Kontextinformation bereitstellt.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Pegel des Rauschens unterhalb der Maskierungsgrenze der Sprache liegt und somit für einen Hörer nicht hörbar ist.
  5. Verfahren nach einem der Ansprüche 1 bis 3, wobei sich der Pegel des Rauschens der Maskierungsgrenze der Sprache annähert und somit etwas Rauschkontextinformation in dem Signal verbleibt.
  6. Verfahren nach Anspruch 1, wobei das geschätzte Rauschen eine Leistungsspektraldichte ist.
  7. Verfahren nach Anspruch 1 oder Anspruch 6, wobei die erste Schätzung zum Aktualisieren des geschätzten Rauschens verwendet wird.
  8. Rauschunterdrücker zum Unterdrücken eines Rauschens in einem rauschbehaftenden Signal (X(f, k)), um ein rauschunterdrücktes Signal bereitzustellen, wobei der Rauschunterdrücker Mittel umfasst zum Schätzen eines Rauschens (PNN(f, k)) und Mittel zum Schätzen einer Sprache (S(f, k)) gemeinsam mit einigem aber nicht dem gesamten Rauschen, ξPNN(f, k), wobei 0 < ξ < 1, wobei die Schätzungen verwendet werden zum Erzeugen eines Rauschreduktionsfilters mit einem Verstärkungskoeffizienten (G) zum Steuern der Verstärkung des rauschbehaftenden Signals (X(f, k)), um das Rauschen zu unterdrücken, wobei eine erste Schätzung des Verstärkungskoeffizienten adaptiv erfolgt und diese erste -Schätzung verwendet wird zum Erzeugen einer Rauschschätzung (PNN(f, k)), die dann verwendet wird zum Erzeugen einer zweiten Schätzung des Verstärkungskoeffizienten, wobei ein Sprachaktivitätsdetektor zum Erfassen sprachloser Perioden nicht verwendet wird.
  9. Rauschunterdrücker nach Anspruch 8, wobei der Pegel des bei der Schätzung der Sprache gemeinsam mit einigem Rauschen enthaltenen Rauschens variabel ist, um eine gewünschte Menge des Rauschen in dem rauschunterdrückten Signal zu beinhalten.
  10. Rauschunterdrücker nach Anspruch 9, wobei der Pegel des Rauschens einen akzeptablen Pegel einer Kontextinformation bereitstellt.
  11. Rauschunterdrücker nach einem der Ansprüche 8 bis 10, wobei der Pegel des Rauschens unterhalb der Maskierungsgrenze der Sprache liegt und somit für einen Hörer nicht hörbar ist.
  12. Rauschunterdrücker nach einem der Ansprüche 8 bis 10, wobei sich der Pegel des Rauschens der Maskierungsgrenze der Sprache annähert und somit etwas Rauschkontextinformation in dem Signal verbleibt.
  13. Rauschunterdrücker nach Anspruch 8, wobei das geschätzte Rauschen eine Leistungsspektraldichte ist.
  14. Rauschunterdrücker nach Anspruch 8 oder Anspruch 13, wobei die erste Schätzung verwendet wird zum Aktualisieren des geschätzten Rauschens.
  15. Kommunikationsendgerät mit einem Rauschunterdrücker nach einem der Ansprüche 8 bis 14.
  16. Kommunikationsnetzwerk mit einem Rauschunterdrücker nach einem der Ansprüche 8 bis 14.
DE60026570T 1999-11-15 2000-11-14 Geräuschunterdrücker Expired - Lifetime DE60026570T3 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI992453A FI19992453A (fi) 1999-11-15 1999-11-15 Kohinanvaimennus
FI992453 1999-11-15
PCT/FI2000/000996 WO2001037254A2 (en) 1999-11-15 2000-11-14 A noise suppression method

Publications (3)

Publication Number Publication Date
DE60026570D1 DE60026570D1 (de) 2006-05-04
DE60026570T2 DE60026570T2 (de) 2006-12-21
DE60026570T3 true DE60026570T3 (de) 2010-05-06

Family

ID=8555599

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60026570T Expired - Lifetime DE60026570T3 (de) 1999-11-15 2000-11-14 Geräuschunterdrücker

Country Status (8)

Country Link
US (1) US7889874B1 (de)
EP (1) EP1242992B2 (de)
JP (1) JP2003514264A (de)
CN (1) CN1161752C (de)
AU (1) AU1527301A (de)
DE (1) DE60026570T3 (de)
FI (1) FI19992453A (de)
WO (1) WO2001037254A2 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10137348A1 (de) * 2001-07-31 2003-02-20 Alcatel Sa Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
US10811026B2 (en) 2006-07-03 2020-10-20 Nec Corporation Noise suppression method, device, and program
US8068620B2 (en) * 2007-03-01 2011-11-29 Canon Kabushiki Kaisha Audio processing apparatus
EP2031583B1 (de) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP4660578B2 (ja) 2008-08-29 2011-03-30 株式会社東芝 信号補正装置
US8160271B2 (en) 2008-10-23 2012-04-17 Continental Automotive Systems, Inc. Variable noise masking during periods of substantial silence
EP2395500B1 (de) * 2010-06-11 2014-04-02 Nxp B.V. Audiovorrichtung
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
CN103886867B (zh) * 2012-12-21 2017-06-27 华为技术有限公司 一种噪声抑制装置及其方法
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN105869649B (zh) * 2015-01-21 2020-02-21 北京大学深圳研究院 感知滤波方法和感知滤波器
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
CN113808608B (zh) * 2021-09-17 2023-07-25 随锐科技集团股份有限公司 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
EP0707763B1 (de) * 1993-07-07 2001-08-29 Picturetel Corporation Verringerung des hintergrundrauschens zur sprachverbesserung
CN1129486A (zh) * 1993-11-30 1996-08-21 美国电报电话公司 通信系统中降低传输噪声的方法
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
US5706395A (en) 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4006770B2 (ja) * 1996-11-21 2007-11-14 松下電器産業株式会社 ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法
JPH1138998A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体
FR2771542B1 (fr) 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
EP1081685A3 (de) * 1999-09-01 2002-04-24 TRW Inc. Rauschverminderungsverfahren in einem Sprachsignal mit einem einzigen Mikrophon
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法

Also Published As

Publication number Publication date
WO2001037254A2 (en) 2001-05-25
WO2001037254A3 (en) 2001-11-22
FI19992453A (fi) 2001-05-16
CN1161752C (zh) 2004-08-11
EP1242992B2 (de) 2009-11-25
US7889874B1 (en) 2011-02-15
DE60026570T2 (de) 2006-12-21
CN1390348A (zh) 2003-01-08
JP2003514264A (ja) 2003-04-15
EP1242992B1 (de) 2006-03-08
AU1527301A (en) 2001-05-30
EP1242992A2 (de) 2002-09-25
DE60026570D1 (de) 2006-05-04

Similar Documents

Publication Publication Date Title
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE60226003T2 (de) Steuerung der rückhörunterdrückung in einem telekommunikationsinstrument
DE60032797T2 (de) Geräuschunterdrückung
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE60132321T2 (de) Verfahren und vorrichtung zur verteilten geräuschunterdrückung
DE60031354T2 (de) Geräuschunterdrückung vor der Sprachkodierung
DE60026570T3 (de) Geräuschunterdrücker
DE69816128T2 (de) Verfahren und vorrichtung zur erzeugung von hintergrundrauschen in einem kommunikationssystem
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE2207141C3 (de) Schaltungsanordnung zur Unterdrückung unerwünschter Sprachsignale mittels eines vorhersagenden Filters
EP0668007B1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
DE69634841T2 (de) Verfahren und Vorrichtung zur Echokompensation
DE2526034A1 (de) Hoerhilfeverfahren und vorrichtung zur durchfuehrung des verfahrens
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE112015007019B4 (de) Echolöscheinrichtung und Sprachtelekommunikationseinrichtung
DE60220995T2 (de) Netzwerk-echounterdrückung in mobilstationen
DE112012005782T5 (de) Nachhallunterdrückungsvorrichtung
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
DE19806015C2 (de) Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
DE60317368T2 (de) Nichtlinearer akustischer echokompensator
DE69735275T2 (de) Gerät und verfahren für nichtlineare verarbeitung in einem kommunikationssystem
DE102018117557B4 (de) Adaptives nachfiltern
EP1126687A2 (de) Verfahren zur koordinierten Echo-und/oder Geräuschabsenkung
DE102018117558A1 (de) Adaptives nachfiltern

Legal Events

Date Code Title Description
8363 Opposition against the patent
8366 Restricted maintained after opposition proceedings