DE69630580T2

DE69630580T2 - Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation

Info

Publication number: DE69630580T2
Application number: DE69630580T
Authority: DE
Inventors: Antti VÄHÄTALO; Erkki Paajanen; Juha Häkkinen; Ville-Veikko Mattila
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1995-12-12
Filing date: 1996-11-08
Publication date: 2004-09-16
Anticipated expiration: 2016-11-09
Also published as: EP0790599A1; EP0784311B1; EP0784311A1; AU1067897A; FI955947A; US5839101A; DE69630580D1; EP0790599B1; JPH09204196A; DE69614989D1; FI100840B; JP5006279B2; JP4163267B2; JP2008293038A; WO1997022116A3; WO1997022117A1; JP2007179073A; DE69614989T2; WO1997022116A2; AU1067797A

Description

Diese Erfindung betrifft ein Rauschunterdrückungsverfahren, eine mobile Station und einen Rauschunterdrücker zum Unterdrücken von Rauschen in einem Sprachsignal, wobei der Unterdrücker Mittel zum Aufteilen des Sprachsignals in einer erste Menge von Untersignalen, welche bestimmte erste Frequenzbereiche darstellen, und Unterdrückungsmittel zum Unterdrücken von Rauschen in einem Untersignal gemäß einem bestimmten Unterdrückungskoeffizienten umfasst. Ein Rauschunterdrücker gemäß der Erfindung kann zum Aufheben akustischer Hintergrundrauschens genutzt werden, insbesondere in einer mobilen Station, die in einem zellularen Netz arbeitet. Die Erfindung betrifft insbesondere Hintergrundrauschunterdrückung, die auf Grundlage von Spektralsubtraktion unterdrückt ist.
Verschiedene Verfahren zur Rauschunterdrückung auf Grundlage von Spektralsubtraktion sind aus dem Stand der Technik bekannt. Algorithmen, die Spektralsubtraktion nutzen, liegt im Allgemeinen das Aufteilen eines Signals in Frequenzkomponenten gemäß der Frequenz zu Grunde, das heißt in kleinere Frequenzbereiche, entweder unter Verwendung der schnellen Fourier-Transformation (FFT), wie in den Patentveröffentlichungen WO 89/06877 und US 5,012,519 vorgelegt, oder unter Verwendung von Filterbänken, wie in den Patentveröffentlichungen US 4,630,305 , US 4,630,304 , US 4,628,529 , US 4,811,404 und EP 343 792 vorgelegt. Bei Lösungen des Stands der Technik auf Grundlage von Spektralsubtraktion werden die Komponenten, die jedem Frequenzbereich des Leistungsspektrums (Amplitudenspektrum) entsprechen, berechnet, und jeder Frequenzbereich wird separat verarbeitet, das heißt, dass Rauschen separat für jeden Frequenzbereich unterdrückt wird. Gewöhnlich wird dies auf solche Weise durchgeführt, dass separat für jeden Frequenzbereich ermittelt wird, ob das Signal in dem Bereich Sprache enthält oder nicht. Wenn nicht, ist Rauschen beinhaltet, und das Signal wird unterdrückt. Schließlich werden Signale jeden Frequenzbereichs rekombiniert, was zu einer Ausgabe führt, die ein rauschunterdrücktes Signal ist. Der Nachteil von Verfahren des Stands der Technik auf Grundlage von Spektralsubtraktion ist die große Menge von Berechnungen, da das Berechnen individuell für jeden Frequenzbereich erfolgen muss.
Rauschunterdrückungsverfahren auf Grundlage von Spektralsubtraktion liegt im Allgemeinen die Schätzung eines Rauschsignals und dessen Nutzung zum Anpassen von Rauschdämpfungen auf verschiedenen Frequenzbändern zu Grunde. Es ist im Stand der Technik bekannt, die Variable, die Rauschleistung darstellt, zu quantifizieren und diese Variable zur Verstärkungsanpassung zu nutzen. In US-Patentschrift 4,630,305 ist ein Rauschunterdrückungsverfahren vorgelegt, das Unterdrückungswerttabellen für verschiedene Umgebungsrauschwerte nutzt, und anstrebt, einen Durchschnittsrauschpegel für die Dämpfungsanpassung zu nutzen. Ein anderes Beispiel eines Rauschunterdrückungsverfahrens ist in DE-A-3230391 offenbart.
In Verbindung mit Spektralsubtraktion ist Fensterung bekannt. Der Zweck der Fensterung ist im Allgemeinen, die Qualität der Spektralschätzung eines Signals durch Aufteilen des Signals in Zeitbereichsrahmen zu steigern. Ein anderer grundlegender Zweck der Fensterung ist, ein nicht ortsgebundenes Signal, z. B. Sprache, in Segmente (Rahmen) zu gliedern, die als ortsgebunden betrachtet werden können. Bei der Fensterung ist es im Allgemeinen bekannt, die Hamming-, Hanning- oder Kaiser-Fensterung zu nutzen. Bei Verfahren auf Grundlage der Spektralsubtraktion ist es üblich, eine so genannte zur Hälfte überlappende Hanning-Fensterung und ein so genanntes Overlap-Add-Verfahren einzusetzen, das in Verbindung mit inverser FFT (IFFT) eingesetzt wird.
Das Problem bei all diesen Verfahren des Stands der Technik ist, dass die Fensterungsverfahren eine spezifische Rahmenlänge aufweisen, und die Länge eines Fensterungsrahmens ist schwer mit einer anderen Rahmenlänge abzustimmen. Bei digitalen Mobiltelefonnetzen beispielsweise wird Sprache durch Rahmen codiert und ein spezifischer Sprachrahmen in dem System genutzt, und dementsprechend weist jeder Sprachrahmen dieselbe spezifizierte Länge, z. B. 20 ms, auf. Wenn sich die Rahmenlänge für die Fensterung von der Rahmenlänge für die Sprachcodierung unterscheidet, ist das Problem die erzeugte Gesamtverzögerung, die durch Rauschunterdrückung und Sprachcodieren aufgrund unterschiedlicher, dabei verwendeter Rahmenlängen bewirkt ist.
Bei dem Verfahren zur Rauschunterdrückung gemäß der vorliegenden Erfindung, wie in den beiliegenden Ansprüchen beansprucht, wird ein Eingangssignal zunächst in eine erste Menge von Frequenzbändern aufgeteilt, eine Leistungsspektrumkomponente entsprechend jedem Frequenzband wird berechnet und eine zweite Menge von Leistungsspektrumkomponenten wird in eine Berechnungsspektrumkomponente rekombiniert, die ein bestimmtes zweites Frequenzband darstellt, welches größer als die ersten Frequenzbänder ist, ein Unterdrückungskoeffizient für die Berechnungsspektrumkomponente wird auf Grundlage des darin enthaltenen Rauschens bestimmt, und die zweite Menge von Leistungsspektrumkomponenten wird unter Verwendung eines Unterdrückungskoeffizienten auf Grundlage der Berechnungsspektrumkomponente unterdrückt.
Vorzugsweise werden mehrere Berechnungsspektrumkomponenten, die mehrere benachbarte Frequenzbänder darstellen, gebildet, wobei jede Berechnungsspektrumkomponente durch Rekombinieren verschiedener Leistungsspektrumkomponenten gebildet wird. Jede Berechnungsspektrumkomponente kann eine Anzahl von Leistungsspektrumkomponenten umfassen, die sich von den anderen unterscheidet, oder sie kann eine Anzahl von Leistungsspektrumkomponenten umfassen, die gleich den anderen Berechnungsspektrumkomponenten ist. Die Unterdrückungskoeffizienten zur Rauschunterdrückung werden daher für jede Berechnungsspektrumkomponente gebildet, und jede Berechnungsspektrumkomponente wird gedämpft, wobei die Berechnungsspektrumkomponenten nach der Dämpfung wieder in Zeitbereiche umgewandelt und in ein rauschunterdrücktes Ausgangssignal rekombiniert werden. Vorzugsweise sind die Berechnungsspektrumkomponenten weniger als die erste Menge von Frequenzbändern, was zu einer verminderten Menge von Berechnungen ohne einen Verlust an Sprachqualität führt.
Eine Ausführungsform gemäß dieser Erfindung wendet vorzugsweise eine Aufteilung in Frequenzkomponenten auf Grundlage der FFT-Transformation an. Einer der Vorteile dieser Erfindung ist, dass bei dem Verfahren gemäß der Erfindung die Anzahl von Frequenzbereichskomponenten verringert ist, was entsprechend zu einem erheblichen Vorteil in Gestalt von weniger Berechnungen beim Berechnen von Unterdrückungskoeffizienten führt. Wenn jeder Unterdrückungskoeffizient auf Grundlage eines größeren Frequenzbereichs ausgebildet wird, kann Zufallsrauschen keine starken Änderungen in den Werten der Unterdrückungskoeffizienten bewirken. Auf diese Weise wird hier außerdem gesteigerte Sprachqualität erzielt, weil starke Abweichungen der Unterdrückungskoeffizienten unangenehm klingen.
Bei einem Verfahren gemäß der Erfindung werden durch Fensterung Rahmen aus dem Eingangssignal gebildet, und bei der Fensterung wird ein solcher Rahmen genutzt, dessen Länge ein gerader Quotient der Rahmenlänge ist, die zum Sprachcodieren verwendet wird. In diesem Zusammenhang bedeutet ein gerader Quotient eine Zahl, die gerade durch die Rahmenlänge, die zum Sprachcodieren verwendet wird, teilbar ist, was bedeutet, dass z. B. die geraden Quotienten der Rahmenlänge 160 die Zahlenwerte 80, 40, 32, 20, 16, 8, 6, 4, 2 und 1 sind. Diese Lösungsart verringert die auferlegte Gesamtverzögerung erheblich.
Zudem entfällt ein weiterer Unterschied des Verfahrens gemäß der Erfindung im Vergleich mit der oben genannten US-Patentschrift 4,630,305 auf Durchschnittsgeschwindigkeitsleistung und Bestimmen eines relativen Rauschpegels. Durch Bestimmen des geschätzten Sprachpegels und Rauschpegels und Nutzen derselben zur Rauschunterdrückung wird ein besseres Ergebnis erzielt als durch Nutzen nur des Rauschpegels, da in Hinsicht auf einen Rauschunterdrückungsalgorithmus das Verhältnis zwischen Sprachpegel und Rauschpegel wesentlich ist.
Ferner wird bei dem Verfahren gemäß der Erfindung die Unterdrückung gemäß einem kontinuierlichen Rauschpegelwert (kontinuierlichen relativen Rauschpegelwert) angepasst, im Gegensatz zu Verfahren des Stands der Technik, die feste Werte in Tabellen einsetzen. Bei der Lösung gemäß der Erfindung wird Unterdrückung gemäß der relativen Rauschschätzung abhängig vom gegenwärtigen Signal-Rausch-Verhältnis auf jedem Band vermindert, wie später detaillierter erläutert wird. Auf Grund dessen bleibt Sprache so natürlich wie möglich, und es ist der Sprache ermöglicht, Rauschen auf den Bändern zu überlagern, auf denen Sprache dominant ist. Die kontinuierliche Unterdrückungsanpassung wurde unter Verwendung von Variablen mit kontinuierlichen Werten verwirklicht. Die Verwendung kontinuierlicher, das heißt nicht tabellarischer Parameter ermöglicht eine Rauschunterdrückung, bei der keine beträchtlichen, momentanen Abweichungen bei Rauschunterdrückungswerten vorkommen. Zudem besteht kein Bedarf an einer großen Speicherkapazität, die für die im Stand der Technik bekannte tabellarische Aufstellung von Verstärkungswerten erforderlich ist.
Ein Rauschunterdrücker und eine mobile Station gemäß der Erfindung ist dadurch gekennzeichnet, dass er ferner die Rekombinationsmittel zum Rekombinieren einer zweiten Menge von Untersignalen in ein Berechnungssignal, das einen bestimmten zweiten Frequenzbereich darstellt, welcher größer als die ersten Frequenzbereiche ist, Bestimmungsmittel zum Bestimmen eines Unterdrückungskoeffizienten für das Berechnungssignal auf Grundlage von Rauschen, das darin enthalten ist, umfasst, und dass Unterdrückungsmittel zum Unterdrücken der Untersignale, die in dem Berechnungssignal durch den Unterdrückungskoeffizienten rekombiniert sind, welcher auf Grundlage des Berechnungssignals bestimmt wird.
Ein Rauschunterdrückungsverfahren gemäß der Erfindung ist dadurch gekennzeichnet, dass vor der Rauschunterdrückung eine zweite Menge von Untersignalen in ein Berechnungssignal rekombiniert wird, das einen bestimmten zweiten Frequenzbereich darstellt, welcher größer als die ersten Frequenzbereiche ist, ein Unterdrückungskoeffizient für das Berechnungssignal auf Grundlage des Rauschens, das darin enthalten ist, bestimmt wird, und dass Untersignale, die in das Berechnungssignal rekombiniert sind, durch den Unterdrückungskoeffizienten unterdrückt werden, der auf Grundlage des Berechnungssignals bestimmt wird.
Im Folgenden ist ein Rauschunterdrückungssystem gemäß der Erfindung im Detail unter Bezugnahme auf die beiliegenden Figuren dargestellt.
Es zeigen:
1 ein Blockdiagramm der Grundfunktionen einer Vorrichtung gemäß der Erfindung zum Unterdrücken von Rauschen in einem Sprachsignal,
2 ein detaillierteres Blockdiagramm eines Rauschunterdrückers gemäß der Erfindung,
3 in Gestalt eines Blockdiagramms die Gestaltung eines Fensterungsblocks,
4 die Gestaltung eines Quadrierungsblocks,
5 die Gestaltung eines Spektralrekombinationsblocks,
6 die Gestaltung eines Blocks zur Berechnung eines relativen Rauschpegels,
7 die Gestaltung eines Blocks zur Berechnung von Unterdrückungskoeffizienten,
8 eine Anordnung zur Berechnung eines Signal-Rausch-Verhältnisses,
9 die Anordnung zur Berechnung eines Hintergrundrauschenmodells,
10 aufeinander folgende Sprachsignalrahmen bei der Fensterung gemäß der Erfindung,
11 in Gestalt eines Blockdiagramms die Gestaltung eines Sprachaktivitätsdetektors und
12 in Gestalt eines Blockdiagramms eine mobile Station gemäß der Erfindung.
1 zeigt ein Blockdiagramm einer Vorrichtung gemäß der Erfindung zur Darstellung der Grundfunktionen der Vorrichtung. Eine Ausführungsform der Vorrichtung ist in 2 detaillierter beschrieben. Ein Sprachsignal, das vom Mikrofon 1 kommt, wird in einem A/D-Wandler 2 in ein digitales Signal x(n) gesampelt.
Eine Menge von Samples, die einem geraden Quotienten der Rahmenlänge entspricht, welche vom Sprach-Codierer-Decodierer verwendet wird, wird vom digitalen Signal x(n) genommen und zu einem Fensterungsblock 10 geleitet. Im Fensterungsblock 10 werden die Samples mit einem vorgegebenes Fenster multipliziert, um einen Rahmen zu bilden. In Block 10 werden, falls nötig, Samples zum Anpassen des Rahmens auf eine Länge, die für die Fourier-Transformation geeignet ist, zu dem gefensterten Rahmen hinzugefügt. Nach der Fensterung wird unter Einsatz der schnellen Fourier-Transformation (FFT) ein Spektrum für den Rahmen in FFT-Block 20 berechnet.
Nach der FFT-Berechnung 20 erfolgt im Berechnungsblock 200 eine Berechnung zur Rauschunterdrückung zur Unterdrückung von Rauschen in dem Signal. Zur Durchführung der Berechnung zur Rauschunterdrückung wird ein Spektrum einer gewünschten Art, z. B. Amplituden- oder Leistungsspektrum P(f), im Spektrumbildungsblock 50 auf Grundlage der Spektrumkomponenten X(f) gebildet, die aus dem FFT-Block 20 erhalten werden. Jede Spektrumkomponente P(f) stellt im Frequenzbereich einen bestimmten Frequenzbereich dar, was bedeutet, dass bei Verwendung von Spektren das Signal, das verarbeitet wird, in mehrere Signale mit unterschiedlichen Frequenzen, anders gesagt: in Spektrumkomponenten P(f) aufgeteilt wird. Um die Menge von Berechnungen zu vermindern, werden benachbarte Spektrumkomponenten P(f) in Berechnungsblock 60 summiert, so dass eine Anzahl von Spektrumkomponentenkombinationen, die kleiner als die Anzahl der Spektrumkomponenten P(f) ist, erzielt wird, und die Spektrumkomponentenkombinationen werden als Berechnungsspektrumkomponenten S(s) zum Berechnen von Unterdrückungskoeffizienten genutzt. Auf Grundlage der Berechnungsspektrumkomponenten S(s) wird in einem Schätzungsblock 190 ermittelt, ob ein Signal Sprache oder Hintergrundrauschen enthält, ein Modell für Hintergrundrauschen gebildet und ein Signal-Rausch-Verhältnis für jeden Frequenzbereich einer Berechnungsspektrumkomponente gebildet. Auf Grundlage der auf diese Weise erzielten Signal-Rausch-Verhältnisse und auf Grundlage des Hintergrundrauschenmodells werden im Berechnungsblock 130 für jede Berechnungsspektrumkomponente S(s) Unterdrückungswerte G(s) berechnet.
Zum Unterdrücken von Rauschen wird jede Spektrumkomponente X(f), die aus dem FFT-Block 20 erhalten wird, in der Vervielfachereinheit 30 mit einem Unterdrückungskoeffizienten G(s) multipliziert, der dem Frequenzbereich entspricht, in dem sich die Spektrumkomponente X(f) befindet. Eine inverse schnelle Fourier-Transformation (IFFT) wird für die Spektrumkomponenten, die durch die Rauschunterdrückungskoeffizienten G(s) angepasst sind, in IFFT-Block 40 ausgeführt, von dem Samples zur Ausgabe ausgewählt werden, die den Samples entsprechen, die für den Fensterungsblock 10 ausgewählt sind, was zu einer Ausgabe führt, das heißt einem rauschunterdrückten, digitalen Signal y(n), das in einer mobilen Station an einen Sprach-Codierer-Decodierer zur Sprachcodierung übermittelt wird. Da die Menge von Samples des digitalen Signals y(n) ein gerader Quotient der Rahmenlänge ist, die vom Sprach-Codierer-Decodierer angewendet wird, wird eine notwendige Menge von aufeinander folgenden rauschunterdrückten Signalen y(n) am Sprach-Copdierer-Decodierer angesammelt, bis ein solcher Signalrahmen erzielt ist, der der Rahmenlänge des Sprach-Copdierer-Decodierers entspricht, wonach der Sprach-Copdierer-Decodierer die Sprachcodierung für den Sprachrahmen ausführen kann. Da die Rahmenlänge, die im Rauschunterdrücker angewendet wird, ein gerader Quotient der Rahmenlänge des Sprach-Copdierer-Decodierers ist, ist eine Verzögerung, die durch unterschiedliche Längen von Rauschunterdrückungssprachrahmen und Sprach-Copdierer-Decodierer-Rahmen bewirkt ist, auf diese Weise vermieden.
Da es weniger Berechnungsspektrumkomponenten S(s) als Spektrumkomponenten P(f) gibt, ist das Berechnen von Unterdrückungskomponenten auf deren Grundlage erheblich leichter, als wenn die Leistungsspektrumkomponenten P(f) in der Berechnung verwendet würden. Da jede neue Berechnungsspektrumkomponente S(s) für einen größeren Frequenzbereich berechnet wurde, sind die Abweichungen bei ihnen kleiner als die Abweichungen der Spektrumkomponenten P(f). Diese Abweichungen sind insbesondere durch Zufallsrauschen in dem Signal verursacht. Da Zufallsabweichungen bei den Komponenten S(s), die für die Berechnung genutzt werden, kleiner sind, sind auch die Abweichungen von berechneten Unterdrückungskoeffizienten G(s) zwischen aufeinander folgenden Rahmen kleiner. Da derselbe Unterdrückungskoeffizient G(s) gemäß dem Vorstehenden zum Multiplizieren mehrerer Samples der Frequenzantwort X(f) angewendet wird, führt er zu kleineren Frequenzbereichsabweichungen innerhalb desselben Rahmens. Dies führt zu gesteigerter Sprachqualität, da eine zu starke Abweichung von Unterdrückungskoeffizienten unangenehm klingt.
Folgendes ist eine eingehendere Beschreibung einer Ausführungsform gemäß der Erfindung unter Bezugnahme hauptsächlich auf 2. Die Parameterwerte, die in der folgenden Beschreibung dargelegt sind, sind Beispielswerte und beschreiben eine Ausführungsform der Erfindung, sie schränken die Funktion des Verfahrens gemäß der Erfindung jedoch keineswegs auf nur bestimmte Parameterwerte ein. In der Beispielslösung wird angenommen, dass die Länge der FFT-Berechnung 128 Samples beträgt und dass die Rahmenlänge, die vom Sprach-Copdierer-Decodierer verwendet wird, 160 Samples beträgt, wobei jeder Sprachrahmen 20 ms Sprache umfasst. Zudem ist in dem Beispielfall ein Rekombinieren von Spektrumkomponenten dargelegt, das die Anzahl von Spektrumkomponenten von 65 auf 8 vermindert.
2 zeigt ein detaillierteres Blockdiagramm einer Ausführungsform einer Vorrichtung gemäß der Erfindung. In 2 ist die Eingabe in die Vorrichtung ein A/D-gewandeltes Mikrofonsignal, was bedeutet, dass ein Sprachsignal in einen digitalen Sprachrahmen gesampelt wurde, der 80 Samples umfasst. Ein Sprachrahmen wird zu Fensterungsblock 10 geleitet, in dem er mit dem Fenster multipliziert wird. Da bei der Fensterung, die in diesem Beispiel angewendet wird, Fenster teilweise überlappen, werden die überlappenden Samples im Speicher (Block 15) für den nächsten Rahmen gespeichert. 80 Samples werden von dem Signal genommen und mit 16 Samples kombiniert, die während des vorhergehenden Rahmens gespeichert wurden, was eine Gesamtmenge von 96 Samples ergibt. Jeweils aus den zuletzt gesammelten 80 Samples werden die letzten 16 Samples zum Berechnen des nächsten Rahmens gespeichert.
Auf diese Weise werden jede gegebenen 96 Samples im Fensterungsblock 10 mit einem Fenster multipliziert, das 96 Samplewerte umfasst, wobei die 8 ersten Werte des Fensters den aufsteigenden Streifen l_U des Fensters bilden und die 8 letzten Werte den absteigenden Streifen l_D des Fensters bilden, wie in 10 gezeigt. Das Fenster l(n) kann folgendermaßen definiert werden und ist in Block 11 (3) ausgeführt: l(n) = (n + 1)/9 = lU n = 0, ..., 7 l(n) = 1 = lM n = 8, ..., 87 l(n) = (96 – n)/9 = lD n = 88, ..., 95 (1)
Das digitale Ausführen einer Fensterung (Block 11) ist dem Fachmann aus dem Stand der Technik von der digitalen Signalverarbeitung bekannt. Es ist darauf hinzuweisen, dass in dem Fenster die mittleren 80 Werte (n = 8, ..., 87 oder der mittlere Streifen l_M) = 1 sind, und dementsprechend ändert eine Multiplikation mit ihnen das Ergebnis nicht, und die Multiplikation kann unterbleiben. Daher müssen nur die ersten 8 Samples und die letzten 8 Samples in dem Fenster multipliziert werden. Da die Länge einer FFT eine Potenz von 2 sein muss, werden in Block 12 (3) 32 Nullen (0) am Ende der 96 Samples, die aus Block 11 erhalten werden, hinzugefügt, was einen Sprachrahmen ergibt, der 128 Samples umfasst. Das Hinzufügen von Samples am Ende einer Samplesequenz ist ein leichter Vorgang und die digitale Ausführung von Block 12 ist dem Fachmann aus dem Stand der Technik bekannt.
Nach der Fensterung, die im Fensterungsblock 10 ausgeführt wird, wird das Spektrum eines Sprachrahmens in Block 20 unter Anwendung der schnellen Fourier-Transformation, FFT, berechnet. Die realen und imaginären Komponenten, die aus der FFT erhalten werden, werden nach Größenordnung quadriert und in Paaren in Quadrierungsblock 50 zusammen addiert, dessen Ausgabe das Leistungsspektrum des Sprachrahmens ist. Wenn die FFT-Länge 128 beträgt, beträgt die Anzahl der erhaltenen Leistungsspektrumkomponenten 65, die durch Dividieren der Länge der FFT-Transformation durch zwei und Erhöhen des Ergebnisses um 1 erhalten wird, anders gesagt die Länge von FFT/2 + 1.
Die Samples x(0), x(1), ..., x(n); n = 127 (oder die 128 Samples) in dem Rahmen, der am FFT-Block 20 ankommt, werden zu Frequenzbereich unter Anwendung von schneller FFT (schneller Fourier-Transformation) transformiert, wodurch sich Frequenzbereichssamples X(0), X(1), ..., X8f); f = 64 (allgemeiner: f = (n + 1)/2) ergeben, bei denen jeder Sample eine reale Komponente X_r(f) und eine imaginäre Komponente X_i(f) umfasst: X(f) = xr(f) + jXi(f), f = 0, ..., 64 (2)
Das digitale Ausführen einer schnellen Fourier-Transformation ist dem Fachmann aus dem Stand der Technik bekannt. Das Leistungsspektrum wird vom Quadrierungsblock 50 durch Berechnen der Summe der zweiten Potenzen der realen und imaginären Komponenten, Komponente für Komponente, erhalten: P(f) = X2r (f) + X2i (f), f = 0, ..., 64 (3)
Die Funktion des Quadrierens von Block 50 kann, wie in 4 gezeigt, durch Zuleiten der realen und imaginären Komponenten zu Quadrierungsblock 51 und 52 (die eine einfache mathematische Quadrierung durchführen, welche im Stand der Technik digital ausgeführt wurde) und Summieren der quadrierten Komponenten in einer Summierungseinheit 53 durchgeführt werden. Auf diese Weise werden als die Ausgabe von Quadrierungsblock 50 Leistungsspektrumkomponenten P(0), P(1), ..., P(f); f = 64 erzielt, und sie entsprechen den Leistungen der Komponenten im Zeitbereichssignal auf verschiedenen Frequenzen wie folgend (unter der Annahme, dass eine 8-kH-Samplefrequenz verwendet ist): P(f) für Werte f = 0, ..., 64 entspricht Mittelfrequenzen (f 4000/64 Hz) (4)
8 neue Leistungsspektrumkomponenten oder Leistungsspektrumkomponentenkombinationen S(s), s = 0, ..., 7 werden in Block 60 gebildet, und sie werden hier Berechnungsspektrumkomponenten genannt. Die Berechnungsspektrumkomponenten S(s) werden durch Summieren von jeweils 7 benachbarten Leistungsspektrumkomponenten P(f) für jede Berechnungsspektrumkomponente S(s) wie folgt gebildet: S(0) = P(1) + P(2) + ... P(7) S(1) = P(8) + P(9) + ... P(14) S(2) = P(15) + P(16) + ... P(21) S(3) = P(22) + ... + P(28) S(4) = P (29) + ... + P(35) S(5) = P (36) + ... + P(42) S(6) = P (43) + ... + P(49) S(7) = P (50) + ... + P(56)
Dies kann, wie in 5 gezeigt, durch Verwendung von Zähler 61 und Summiereinheit 62 durchgeführt werden, sodass der Zähler 61 jeweils bis sieben zählt und Summiereinheit 62, gesteuert vom Zähler, jeweils sieben aufeinander folgende Komponenten summiert und eine Summe als Ausgabe erzeugt. In diesem Falle entspricht die niedrigste Kombinationskomponente S(0) Mittelfrequenzen [62,5 Hz bis 437,5 Hz], und die höchste Kombinationskomponente (S7) entspricht Mittelfrequenzen [3125 Hz bis 3500 Hz]. Die Frequenzen, die darunter (unter 62,5 Hz) oder darüber (über 3500 Hz) liegen, sind für Sprache nicht wesentlich und werden in Telefonsystemen ohnehin gedämpft, und dementsprechend ist ihre Verwendung für die Berechnung von Unterdrückungskoeffizienten unerwünscht.
Andere Aufteilungsarten des Frequenzbereichs könnten ebenso zum Ausbilden der Berechnungsspektrumkomponenten S(s) aus den Leistungsspektrumkomponenten P(f) genutzt werden. Zum Beispiel könnte die Anzahl von Leistungsspektrumkomponenten P(f), die in eine Berechnungsspektrumkomponente S(s) kombiniert sind, für verschiedene Frequenzbänder, die verschiedenen Berechnungsspektrumkomponenten entsprechen, oder verschiedene Werte von s unterschiedlich sein. Überdies könnte eine andere Anzahl von Berechnungsspektrumkomponenten S(s) verwendet sein, z. B. eine Anzahl, die größer oder kleiner als acht ist.
Es ist zu beachten, dass es abgesehen vom Summieren benachbarter Komponenten mehrere andere Verfahren zum Rekombinieren von Komponenten gibt. Im Allgemeinen können die Berechnungsspektrumkomponenten S(s) durch Gewichten der Leistungsspektrumkomponenten P(f) mit geeigneten Koeffizienten wie folgt berechnet werden: S(s) = a(0)P(0) + a(1)P(1) + ... + a(64)P(64), (5)wobei die Koeffizienten a(0) bis a(64) Konstanten sind (verschiedene Koeffizienten für jede Komponente S(s), s = Wie oben gezeigt, wurde die Menge von Spektrumkomponenten oder Frequenzbereichen durch Summieren von Komponenten mehrerer Bereiche erheblich vermindert. Der nächste Schritt nach dem Bilden von Berechnungsspektrumkomponenten ist die Berechnung von Unterdrückungskoeffizienten.
Beim Berechnen von Unterdrückungskoeffizienten werden die oben genannten Berechnungsspektrumkomponenten S(s) verwendet und im Berechnungsblock 130 ihnen entsprechende Unterdrückungskoeffizienten G(s), s = 0, ..., 7 berechnet. Frequenzbereichssamples X(0), X(1), ..., X(f), f = 0, ..., 64 werden mit den Unterdrückungskoeffizienten multipliziert. Jeder Koeffizient G(s) wird zum Multiplizieren der Samples genutzt, auf deren Grundlage die Komponenten S(s) berechnet wurden, z. B. werden die Samples X(15), ..., X(21) mit G(2) multipliziert. Zudem wird das niedrigste Sample X(0) mit demselben Koeffizienten wie Sample X(1) und die höchsten Samples X(57), ..., X(64) mit demselben Koeffizienten wie Sample X(56) multipliziert.
Die Multiplikation wird durch Multiplizieren realer und imaginärer Komponenten getrennt in Multiplizierungseinheit 30 durchgeführt, wobei als deren Ausgabe folgendes erzielt wird: Y(f) = G(s)X(f) = G(s)Xr(f) + jG(s)Xi (f), f = 0, ..., 64, s = 0, ..., 7 (6)
Auf diese Weise werden Samples Y(f), f = 0, ... 64 erzielt, von denen in IFFT-Block 40 eine reale, inverse schnelle Fourier-Transformation berechnet wird, wobei als dessen Ausgabe Zeitbereichssamples y(n), n = 0, ..., 127 erzielt werden, in denen Rauschen unterdrückt wurde.
Allgemeiner ausgedrückt kann eine Unterdrückung für jedes Frequenzbereichssample X(0), X(1), ..., X(f), f = 0, ..., 64 als gewichtete Summe mehrerer Unterdrückungskoeffizienten wie folgt berechnet werden: Y(s) = (b(0)G(0) + b(1)G(1) + ... + b(7)G(7))X(f), (6a)wobei die Koeffizienten b(0) bis b(7) Konstanten sind (verschiedene Koeffizienten für jede Komponente X(f), f = 0, ..., 64).
Da es nur 8 Berechnungsspektrumkomponenten S(s) gibt, ist das Berechnen von Unterdrückungskoeffizienten auf deren Grundlage erheblich leichter als wenn die Leistungsspektrumkomponenten P(f), deren Menge 65 beträgt, zur Berechnung verwendet würden. Da jede neue Berechnungsspektrumkomponente S(s) für einen größeren Bereich berechnet wurde, sind ihre Abweichungen geringer als die Abweichungen des Leistungsspektrumkomponenten P(f). Diese Abweichungen werden insbesondere durch Zufallsrauschen im Signal bewirkt. Da Zufallsabweichungen bei den Berechnungsspektrumkomponenten S(s), die für die Berechnung genutzt werden, kleiner sind, sind auch die Abweichungen von berechneten Unterdrückungskoeffizienten G(s) zwischen aufeinander folgenden Rahmen kleiner. Da derselbe Unterdrückungskoeffizient G(s) gemäß dem Vorstehenden zum Multiplizieren mehrerer Samples der Frequenzantwort X(f) angewendet wird, führt er zu kleineren Frequenzbereichsabweichungen innerhalb eines Rahmens. Dies führt zu gesteigerter Sprachqualität, da eine zu starke Abweichung von Unterdrückungskoeffizienten unangenehm klingt.
Im Berechnungsblock 90 wird ein a posteriori Signal-Rausch-Verhältnis auf jedem Frequenzband als das Verhältnis zwischen der Leistungsspektrumkomponente des betreffenden Rahmens und der entsprechenden Komponente des Hintergrundrauschenmodells berechnet, wie im Folgenden gezeigt.
Das Rauschspektrum N(s), s = 0, ... 7 wird in Schätzungsblock 80, welcher detaillierter in 9 gezeigt ist, geschätzt, wenn der Sprachaktivitätsdetektor keine Sprache erkennt. Die Schätzung erfolgt in Block 80 durch rekursives Berechnen eines zeitlichen Mittelwerts für jede Komponente des Spektrums S(s), s = 0, ..., 7 des Signals, das von Block 60 hergeleitet wurde: Nn(s) = λNn–l(s) + (1 – λ)S(s) s = 0, ..., 7 (7)
In diesem Kontext bedeutet N_n–l(s) eine berechnete Rauschspektrumschätzung für den vorhergehenden Rahmen, erhalten aus Speicher 83, wie in 9 gezeigt, und N_n(s) bedeutet eine Schätzung für den gegenwärtigen Rahmen (n = Rahmenordnungszahl) gemäß der oben stehenden Gleichung. Diese Berechnung erfolgt vorzugsweise digital in Block 81, dessen Eingaben Spektrumkomponenten S(s) von Block 60, die Schätzung für den vorhergehenden Rahmen N_n–l (s), die aus Speicher 83 erhalten wird, und der Wert für die Variable λ, der in Block 82 berechnet wurde. Die Variable λ hängt von den Werten V_ind' (der Ausgabe des Sprachaktivitätsdetektors) und ST_count (Variable, die die Steuerung der Aktualisierung der Hintergrundrauschenspektrumschätzung betrifft) ab, deren Berechnung später dargelegt wird. Der Wert der Variablen λ wird gemäß der folgenden Tabelle (typische Werte für ë) bestimmt:
Später wird ein kürzeres Symbol N(s) für die Rauschspektrumschätzung verwendet, die für den gegenwärtigen Rahmen berechnet wird. Die Berechnung gemäß der oben stehenden Schätzung erfolgt vorzugsweise digital. Das digitale Ausführen von Multiplikationen, Additionen und Subtraktionen gemäß der oben stehenden Gleichung ist dem Fachmann allgemein bekannt.
Vom Eingangsspektrum und Rauschspektrum wird im Berechnungsblock 90 Komponente für Komponente ein Verhältnis γ(s), s = 0, ..., 7 berechnet, und das Verhältnis wird a posteriori Signal-Rausch-Verhältnis genannt:
Der Berechnungsblock wird auch vorzugsweise digital ausgeführt und führt die obige Division durch. Das digitale Durchführen einer Division ist dem Fachmann als solches aus dem Stand der Technik bekannt. Unter Verwendung dieser a posteriori Signal-Rausch-Verhältnisschätzung γ(s) und der Unterdrückungskoeffizienten G ~(s), s = o, ..., 7 des vorhergehenden Rahmens wird eine a priori Signal-Rausch-
Verhältnisschätzung ^(s), die zum Berechnen von Unterdrückungskoeffizienten verwendet werden soll, in einer zweiten Berechnungseinheit 140 für jedes Frequenzband berechnet, wobei die Schätzung vorzugsweise digital gemäß der folgenden Gleichung durchgeführt wird: ^n(s, n) = max(ξ_min, μG ~ 2n1 (s)γ n–1(s) + (l – μ)P(γn(s) – l)). (9)
Hierbei steht n für die Ordnungszahl des Rahmens, wie vorher, und die tief gestellten Indizes beziehen sich auf einen Rahmen, in dem jede Schätzung (a priori Signal-Rausch-Verhältnis, Unterdrückungskoeffizienten, a posteriori Signal-Rausch-Verhältnis) berechnet wird. Eine detailliertere Ausführung von Berechnungsblock 140 ist in 8 gezeigt. Der Parameter μ ist eine Konstante, deren Wert 0,0 bis 1,0 beträgt, mit der die Information über die gegenwärtigen und vorhergehenden Rahmen gewichtet wird und die z. B. im voraus in Speicher 141 gespeichert sein kann, von dem sie zu Block 145 aufgerufen wird, der die Berechnung der oben stehenden Gleichung ausführt. Dem Koeffizienten μ können verschiedene Werte für Sprach- und Rauschrahmen gegeben werden, und der korrekte Wert wird gemäß der Bestimmung des Sprachaktivitätsdetektors ausgewählt (typischerweise wird μ ein höherer Wert für Rauschrahmen als für Sprachrahmen gegeben). ξ_min min ist ein Minimum des a priori Signal-Rausch-Verhältnisses, das zum Vermindern von Restrauschen verwendet wird, das durch schnelle Signal-Rausch-Verhältnisabweichungen bewirkt ist, in solchen Sequenzen des Eingangssignals, die keine Sprache enthalten. ξ_min wird in Speicher 146 bewahrt, in dem es im Voraus gespeichert ist. Typischerweise ist der Wert von ξ_min 0,35 bis 0,8. In der vorhergehenden Gleichung führt die Funktion P(γ_n(s) – 1) Einweggleichrichtung aus:
deren Berechnung in Berechnungsblock 144 ausgeführt wird, zu dem, gemäß der vorhergehenden Gleichung, das a posteriori Signal-Rausch-Verhältnis γ(s), das aus Block 90 erhalten wird, als eine Eingabe geleitet wird. Als eine Ausgabe aus Berechnungsblock 144 wird der Wert der Funktion P(γ_n(s) – 1) an Block 145 übermittelt. Zudem wird beim Berechnen der a priori Signal-Rausch-Verhältnisschätzung ^(s) das a priori Signal-Rausch-Verhältnis γ_n–l(s) für den vorhergehenden Rahmen eingesetzt, multipliziert mit der zweiten Potenz des entsprechenden Unterdrückungskoeffizienten des vorhergehenden Rahmens. Dieser Wert wird in Block 145 durch Speichern in Speicher 146 des Produkts des Werts des a posteriori Signal-Rausch-Verhältnisses γ(s) und der zweiten Potenz des entsprechenden Unterdrückungskoeffizienten erhalten, der im selben Rahmen berechnet wurde. Unterdrückungskoeffizienten G(s) werden aus Block 130 erhalten, der detaillierter in
7 gezeigt ist und in dem zunächst Koeffizienten G ~(s) aus Gleichung
berechnet werden, in der eine modifizierte Schätzung ~(s)(s), s = 0, ... 7 der a priori Signal-Rausch-Verhältnisschätzung ^(s, n) angewendet wird, wobei die Berechnung von ~(s) später unter Bezugnahme auf 7 gezeigt wird. Auch die digitale Ausführung dieser Berechnungsart ist einem Fachmann aus dem Stand der Technik bekannt.
Wenn diese modifizierte Schätzung ~(s) berechnet wird, wird eine Einsicht gemäß dieser Erfindung des Nutzens eines relativen Rauschpegels eingesetzt, die im Folgenden erklärt wird:
Bei einem Verfahren gemäß der Erfindung wird die Anpassung der Rauschunterdrückung auf Grundlage eines relativen Rauschpegels η (dessen Berechnung später beschrieben wird) und unter zusätzlicher Verwendung eines Parameters gesteuert, der aus dem gegenwärtigen Rahmen berechnet wird, wobei der Parameter die Spektraldistanz D_SNR zwischen dem Eingangssignal und einem Rauschmodell darstellt, deren Berechnung später beschrieben wird. Dieser Parameter wird zum Skalieren des Parameters, der den relativen Rauschpegel und durch diesen die Werte eines Signal-Rausch-Verhältnisses ^(s, n) beschreibt. Die Werte des Spektrumdistanzparameters stellen die Vorkommenswahrscheinlichkeit von Sprache im gegenwärtigen Rahmen dar. Dementsprechend werden die Werte eines a priori Signal-Rausch-Verhältnisses ^(s, n) am wenigstens erhöht, je sauberer nur Hintergrundrauschen in dem Rahmen enthalten ist, und hierdurch wird in der Praxis effektivere Rauschunterdrückung erreicht. Wenn ein Rahmen Sprache enthält, ist die Unterdrückung geringer, aber Sprache maskiert Rauschen effektiv sowohl im Frequenz- als auch im Zeitbereich. Da der Wert des Spektrumdistanzparameters, der zur Unterdrückungsanpassung genutzt wird, einen kontinuierlichen Wert aufweist und sofort auf Änderungen bei der Signalleistung anspricht, sind der Unterdrückungsanpassung keine Unstetigkeiten auferlegt, die unangenehm klingen würden.
Es ist kennzeichnend für Rauschunterdrückungsverfahren des Stands der Technik, dass, je stärker Rauschen mit Sprache verglichen wird, desto mehr Verzerrungsrauschunterdrückung der Sprache auferlegt ist. Bei der vorliegenden Erfindung wurde der Betrieb verbessert, sodass gleitende Mittelwerte S -(n) und N -(n) rekursiv aus Sprach- und Rauschleistungen berechnet werden. Auf deren Grundlage wird der Parameter η, der den relativen Rauschpegel darstellt, berechnet, und die Rauschunterdrückung G(s) wird durch ihn angepasst.
Die Mittelwerte und Parameter werden in Block 70 berechnet, von dem eine detailliertere Ausführung in 6 gezeigt ist und der im Folgenden beschrieben wird. Die Unterdrückungsanpassung erfolgt durch Erhöhen der Werte eines a priori Signal-Rausch-Verhältnisses ^n(s, n) auf Grundlage des relativen Rauschpegels η. Hierbei kann die Rauschunterdrückung gemäß dem relativen Rauschpegel η angepasst werden, sodass der Sprache keine erhebliche Verzerrung auferlegt ist.
Zum Gewährleisten eines guten Ansprechens auf Einschwingvorgänge in der Sprache müssen die Unterdrückungskoeffizienten G(s) in Gleichung (11) schnell auf Sprachaktivität ansprechen. Leider erhöht erhöhte Sensibilität der Unterdrückungskoeffizienten auf Spracheinschwingvorgänge auch ihre Sensibilität für nicht ortsgebundenes Rauschen, wodurch sie den Restrauschklang weniger glatt als das ursprüngliche Rauschen machen.
Überdies kann, da die Schätzung der Form und des Pegels des Hintergrundrauschspektrums N(s) in Gleichung (7) rekursiv durch arithmetische Mittelwertbildung ausgeführt wird, der Schätzungsalgorithmus nicht schnell genug umstellen, um schnell variierende Rauschkomponenten zu modellieren, wodurch er ihre Dämpfung ineffizient macht. Tatsächlich könnten solche Komponenten nach der Steigerung wegen der verminderten Maskierung dieser Komponenten durch das gedämpfte, ortsgebundene Rauschen besser unterschieden werden.
Unerwünschtes Variieren von Restrauschen wird auch erzeugt, wenn die Spektralauflösung der Errechnung der Unterdrückungskoeffizienten durch Erhöhen der Anzahl von Spektrumkomponenten erhöht ist. Diese herabgesetzte Glattheit ist eine Folge der schwächeren Mittelwertbildung der Leistungsspektrumkomponenten im Frequenzbereich. Angemessene Auflösung wird andererseits zur richtigen Dämpfung während einer Sprachaktivität und Minimierung von Verzerrung, die an der Sprache bewirkt ist, gebraucht.
Eine nicht optimale Aufteilung des Frequenzbereichs kann unerwünschte Schwankung von Hintergrundrauschen mit niedriger Frequenz bei der Unterdrückung bewirken, wenn das Rauschen auf niedrigen Frequenzen hoch konzentriert ist. Wegen des hohen Gehalts an Rauschen auf niedriger Frequenz bei der Sprache ist die Dämpfung des Rauschens auf derselben niedrigen Frequenz bei Rahmen, die Sprache enthalten, herabgesetzt, was zu einer unangenehm klingenden Modulation des Restrauschens im Sprachrhythmus führt.
Die drei Probleme, die oben beschrieben sind, können durch eine Minimumverstärkungssuche effektiv verkleinert werden. Das Prinzip dieses Ansatzes ist durch die Tatsache angeregt, dass sich bei jeder Frequenzkomponente die Signalleistung bei Sprache langsamer und weniger zufällig als bei Rauschen ändert. Der Ansatz glättet und stabilisiert das Ergebnis von Hintergrundrauschunterdrückung und lässt Sprache weniger beeinträchtigt und Resthintergrundrauschen glatter klingen, wodurch die subjektive Qualität der aufgewerteten Sprache verbessert ist. Insbesondere können alle Arten schnell variierender, nicht ortsgebundener Hintergrundrauschkomponenten durch das Verfahren während Sprache sowie Rauschen gedämpft werden. Überdies erzeugt das Verfahren keinerlei Verzerrungen an der Sprache, sondern lässt sie von beeinträchtigendem Rauschen befreiter klingen. Zudem gestattet die Minimalverstärkungssuche die Nutzung einer erhöhten Anzahl von Frequenzkomponenten bei der Errechnung der Unterdrückungskoeffizienten G(s) in Gleichung (11), ohne eine zusätzliche Abweichung am Restrauschen zu verursachen.
Beim Minimalverstärkungssuche-Verfahren werden die Minimumwerte der Unterdrückungskoeffizienten G'(s) in Gleichung (24) an jeder Frequenzkomponente s aus dem laufenden und aus beispielsweise 1 bis 2 vorhergehenden Rahmen gesucht, abhängig davon, ob der laufende Rahmen Sprache enthält oder nicht. Der Minimumverstärkungssuche-Ansatz kann folgendermaßen dargestellt werden:
wobei G(s, n) den Unterdrückungskoeffizienten auf Frequenz s in Rahmen n nach der Minimumverstärkungssuche bezeichnet und V_ind' die Ausgabe des Sprachaktivitätsdetektors darstellt, deren Berechnung später gezeigt wird.
Die Unterdrückungskoeffizienten G'(s) werden durch die Minimumverstärkungssuche gemäß Gleichung (12) vor der Multiplikation in Block 30 (in 2) der komplexen FFT mit den Unterdrückungskoeffizienten modifiziert. Die Minimumverstärkung kann in Block 130 oder in einem separaten Block, der zwischen Block 130 und Block 120 eingefügt ist, erfolgen.
Die Anzahl von vorhergehenden Rahmen, über die die Minima der Unterdrückungskoeffizienten gesucht werden, kann auch größer als zwei sein. Zudem können auch andere Arten von nicht linearen (z. B. Median, eine Kombination aus Minimum und Median usw.) oder linearen (z. B. Durchschnitt) Filtervorgängen der Unterdrückungskoeffizienten, die dann das Minimum übernehmen, auch in der vorliegenden Erfindung genutzt werden.
Die arithmetische Komplexität des gezeigten Ansatzes ist niedrig. Wegen der Beschränkung der Maximumdämpfung durch Einführen einer niedrigeren Grenze für die Unterdrückungskoeffizienten bei der Rauschunterdrückung, und weil die Unterdrückungskoeffizienten zum Amplitudenbereich in Beziehung stehen und keine Leistungsvariablen sind, daher einen gemäßigten Dynamikbereich belegen, können diese Koeffizienten effektiv komprimiert werden. Daher ist der Verbrauch statischen Speichers niedrig, obwohl Unterdrückungskoeffizienten einiger vorhergehender Rahmen gespeichert werden müssen. Die Speichervoraussetzungen des beschriebenen Verfahrens zum Glätten des Rauschunterdrückungsergebnisses schneiden im Vergleich zu beispielsweise dem Verwenden von Leistungsspektren mit hoher Auflösung von vorherigen Rahmen für denselben Zweck, was in einigen vorhergehenden Ansätzen vorgeschlagen wurde, günstig ab.
In dem Block, der in 6 gezeigt ist, wird der zeitliche Mittelwert für Sprache S ^(n) unter Verwendung der Leistungsspektrumsschätzung S(s), S = 0, ..., 7 berechnet. Der zeitliche Mittelwert S ^(n) wird aktualisiert, wenn der Sprachaktivitätsdetektor 110 (VAD) Sprache erkennt. Der Mittelwert für Komponenten S -(n) im gegenwärtigen Rahmen wird zunächst in Block 71 berechnet, in dem Spektrumkomponenten S(s) als eine Eingabe von Block 60 erhalten werden, wie folgt:
Der zeitliche Mittelwert S -(n) wird durch Berechnen in Block 72 (z. B. rekursiv) auf Grundlage eines zeitlichen Mittelwerts S ^(n – 1) für den vorhergehenden Rahmen, der aus Speicher 78 erhalten wird, in dem der zeitliche Mittelwert während des vorhergehenden Rahmens gespeichert wurde, des Berechnungsspektrumsmittelwerts S -(n), der aus Block 71 erhalten wird, und Zeitkonstante á, die im voraus in Speicher 79a gespeichert wurde, erhalten: S -(n) = α S -(n – 1) + (1 – α)S -(n) (14)wobei n die Ordnungszahl eines Rahmens und á die Zeitkonstante ist, deren Wert von 0,0 bis 1,0, typischerweise zwischen 0,9 und 1,0 beträgt. Um nicht sehr schwache Sprache in dem zeitlichen Mittelwert zu enthalten (z. B. am Ende eines Satzes), wird er nur aktualisiert, wenn der Mittelwert der Spektrumkomponenten für den gegenwärtigen Rahmen einen Schwellenwert übersteigt, der vom zeitlichen Mittelwert abhängt. Dieser Schwellenwert beträgt typischerweise ein Viertel des zeitlichen Mittelwerts. Die Berechnung der zwei vorhergehenden Gleichungen wird vorzugsweise digital ausgeführt.
Dementsprechend wird der zeitliche Mittelwert von Rauschleistung N -(n) aus Berechnungsblock 73 unter Verwendung der Leistungsspektrumschätzung von Rauschen N(s), s = 0, ... 7 und Komponentenmittelwert N -(n), der daraus gemäß der nächsten Gleichung berechnet wird: N -(n) = β N -(n – 1) + (1 – β)N -(n) (15)in der ä eine Zeitkonstante ist, deren Wert 0,0 bis 1,0, typischerweise zwischen 0,9 und 1,0 beträgt. Der zeitliche Rauschleistungsmittelwert wird in jedem Rahmen aktualisiert. Der Mittelwert der Rauschspektrumkomponenten N -(n) wird in Block 76 auf Grundlage der Spektrumkomponenten N(s) folgendermaßen berechnet:
und der zeitliche Rauschleistungsmittelwert N ^(n – 1) für den vorhergehenden Rahmen wird aus Speicher 74 erhalten, in dem er während des vorhergehenden Rahmens gespeichert wurde. Der relative Rauschpegel η wird in Block 75 als ein skalierter und Maximum begrenzter Quotient der zeitlichen Mittelwerte von Rauschen und Sprache berechnet
wobei κ eine Skalierkonstante (typischer Wert: 4,0) ist, die im Voraus in Speicher 77 gespeichert wurde, und max_n der Maximumwert des relativen Rauschpegels (typischerweise 1,0) ist, der in Speicher 79b gespeichert wurde.
Aus diesem Parameter für den relativen Rauschpegel η wird der endgültige Term, der bei der Unterdrückungsanpassung verwendet wird, erhalten, indem er mit einem Parameter skaliert wird, der die Distanz zwischen Eingangssignal und Rauschmodell, D_SNR, darstellt, welche im Sprachaktivitätsdetektor 110 unter Verwendung eines a posteriori Signal-Rausch-Verhältnisses γ(s) berechnet wird, das folgende Gleichung durch digitale Berechnung ausführt:
wobei s_l und s_h die Indexwerte der niedrigsten und höchsten beteiligten Frequenzkomponenten sind und ν_s = Gewichtungskoeffizient pro Komponente, welche vorgegeben und im Voraus in einem Speicher gespeichert sind, aus dem sie zur Berechnung aufgerufen werden. Typischerweise werden alle a posteriori Signal-Rausch-Verhältnisschätzwertkomponenten s_1 = 0 und s_h = 7 verwendet, und sie werden gleich gewichtet ν_s = 1,0/8,0; S = 0, ..., 7.
Folgendes ist eine eingehendere Beschreibung der Ausführungsform eines Sprachaktivitätsdetektors 110 unter Bezugnahme auf 11. Die Ausführungsform des Sprachaktivitätsdetektors ist neuartig und insbesondere zum Gebrauch in einem Rauschunterdrücker gemäß der Erfindung geeignet, der Sprachaktivitätsdetektor könnte jedoch auch mit anderen Arten von Rauschunterdrückern oder für andere Zwecke gebraucht werden, bei denen Spracherkennung eingesetzt wird, z. B. zum Steuern einer diskontinuierlichen Verbindung und zur akustischen Echokompensierung. Die Erkennung von Sprache in dem Sprachaktivitätsdetektor gründet auf dem Signal-Rausch-Verhältnis oder auf dem a posteriori Signal-Rausch-Verhältnis auf verschiedenen Frequenzbändern, das in Block 90 berechnet wird, wie in 2 zu sehen. Die Signal-Rausch-Verhältnisse werden durch Dividieren der Leistungsspektrumkomponenten N(s) für einen Rahmen (aus Block 60) durch entsprechende Komponenten N(s) der Hintergrundrauschschätzung (aus Block 80) berechnet. Eine Summiereinheit 111 im Sprachaktivitätsdetektor summiert die Werte der a posteriori Signal-Rausch-Verhältnisse, die von verschiedenen Frequenzbändern erhalten werden, wobei der Parameter D_SNR, der die Spektrumdistanz zwischen Eingangssignal und Rauschmodell beschreibt, gemäß der obigen Gleichung (18) erhalten wird, und der Wert aus der Summiereinheit wird mit einem vorgegebenen Schwellenwert vth in Vergleichereinheit 112 verglichen. Wenn der Schwellenwert überschritten wird, wird angenommen, dass der Rahmen Sprache enthält. Das Summieren kann auch auf solche Weise gewichtet werden, dass mehr Gewicht auf die Frequenzen gelegt wird, auf denen erwartet werden kann, dass das Signal-Rausch-Verhältnis gut ist. Die Ausgabe des Sprachaktivitätsdetektors kann mit einer Variablen V_ind' für die Werte präsentiert sein, von denen folgende Bedingungen erhalten werden:
Da der Sprachaktivitätsdetektor 110 das Aktualisieren von Hintergrundspektrumschätzung N(s) steuert und letztere ihrerseits die Funktion des Sprachaktivitätsdetektors auf eine Weise beeinflusst, die oben beschrieben ist, ist es möglich, dass die Hintergrundspektrumschätzung N(s) auf einem zu niedrigen Pegel bleibt, wenn der Hintergrundrauschpegel plötzlich ansteigt. Um dies zu verhindern, wird die Zeitdauer (Anzahl von Rahmen), während der angenommen wird, dass aufeinander folgende Rahmen Sprache enthalten, überwacht, wenn diese Anzahl von aufeinander folgenden Rahmen einen Schwellenwert max_spf übersteigt, dessen Wert z. B. 50 ist, wird der Wert von Variable ST_count auf 1 gestellt. Die Variable ST_count wird auf null zurück gestellt, wenn V_ing' einen Wert 0 erhält.
Ein Zähler für aufeinander folgende Rahmen (in der Figur nicht gezeigt, jedoch in 9, Block 82, enthalten, in dem auch der Wert von Variable ST_count gespeichert wird) wird jedoch nicht erhöht, wenn die Änderung der Energien von aufeinander folgenden Rahmen Block 80 anzeigt, dass das Signal nicht ortsgebunden ist. Ein Parameter ST_ind, der Ortsgebundenheit anzeigt, wird in Block 100 berechnet. Wenn die Energieänderung ausreichend groß ist, wird der Zähler zurück gestellt. Das Ziel dieser Bedingungen ist zu gewährleisten, dass eine Hintergrundspektrumschätzung während Sprache nicht aktualisiert wird. Zudem wird die Hintergrundspektrumschätzung N(s) auf jedem Frequenzband immer dann vermindert, wenn die Leistungsspektrumkomponente des fraglichen Rahmens kleiner als die entsprechende Komponente der Hintergrundspektrumschätzung N(s) ist. Dieser Vorgang stellt seinerseits sicher, dass die Hintergrundspektrumschätzung N(s) nach einer möglichen irrtümlichen Aktualisierung schnell auf einen korrekten Pegel zurückkehrt.
Die Ortsgebundenheitsbedingungen sind aus Gleichung (27) ersichtlich, die später in diesem Dokument dargelegt wird. Punkt a) entspricht einer Situation mit einem ortsgebundenen Signal, bei der der Zähler von aufeinander folgenden Sprachrahmen erhöht wird. Punkt b) entspricht nicht ortsgebundenem Status, bei dem der Zähler zurück gestellt wird, und Punkt c) einer Situation, bei der der Wert des Zählers nicht geändert wird.
Zudem sind in der Erfindung durch Anpassen des Schwellenwerts vth des Sprachaktivitätsdetektors unter Verwendung des relativen Rauschpegels η (der in Block 70 berechnet wird) die Exaktheit von Sprachaktivitätsdetektor 110 und Hintergrundspektrumschätzung N(s) gesteigert. In einer Umgebung, in der das Signal-Rausch-Verhältnis sehr gut ist (oder der relative Rauschpegel η niedrig ist), ist der Schwellenwert vth auf Grundlage des relativen Rauschpegels η erhöht. Hierbei ist das Auslegen von schnellen Änderungen im Hintergrundrauschen als Sprache verringert. Eine Anpassung des Schwellenwerts wird in Block 113 gemäß der folgenden Gleichung ausgeführt: vth = max(vth_min, vth_fix + vth_slope*η) (20)wobei vth_fix; vth_min und vth_slope Konstanten sind, für die typische Werte z. B. vth_fix = 2,5; vth_min = 2,0; vth_slope = 8,0 sind.
Ein häufig auftretendes Problem bei einem Sprachaktivitätsdetektor 110 ist, dass genau bei Beginnen der Sprache die Sprache nicht sofort erkannt wird und auch das Ende der Sprache nicht korrekt erkannt wird. Dies bewirkt daher, dass die Hintergrundrauschschätzung N(s) einen inkorrekten Wert erhält, der wiederum die späteren Ergebnisse des Sprachaktivitätsdetektors beeinflusst. Dieses Problem kann durch Aktualisieren der Hintergrundrauschschätzung unter Anwendung einer Verzögerung beseitigt werden. In diesem Fall wird eine bestimmte Anzahl N (z. B. N = 4) von Leistungsspektren S_l(s), ..., S_N(s) der letzten Rahmen vor dem Aktualisieren der Hintergrundrauschschätzung N(s) gespeichert. Wenn während der letzten Doppelmenge von Rahmen (oder während 2*N Rahmen) der Sprachaktivitätsdetektor 110 keine Sprache erkannt hat, wird die Hintergrundrauschschätzung N(s) mit dem ältesten Leistungsspektrum S_l(s) im Speicher aktualisiert, in jedem anderen Fall erfolgt keine Aktualisierung. Damit ist gewährleistet, dass N Rahmen vor und nach dem beim Aktualisieren verwendeten Rahmen Rauschen waren. Das Problem bei diesem Verfahren ist, dass es ziemlich viel Speicher oder N*8 Speicherplätze erfordert. Der Speicherverbrauch kann ferner dadurch optimiert werden, dass zuerst die Mittelwerte der nächsten M Leistungsspektren S ~ ₁(s) zu Speicherplatz A und danach die Mittelwerte von M (z. B. M = 4) der nächsten Leistungsspektren S - ₂(n) zu Speicherplatz B berechnet werden. Wenn während der letzten 3*M Rahmen der Sprachaktivitätsdetektor nur Rauschen erkannt hat, wird die Hintergrundrauschschätzung mit den Werten aktualisiert, die in Speicherplatz A gespeichert sind. Danach wird Speicherplatz A zurück gestellt und der Leistungsspektrummittelwert
(n) für die nächsten M Rahmen berechnet. Wenn er berechnet wurde, wird die Hintergrundrauschspektrumschätzung N(s) mit den Werten in Speicherplatz B aktualisiert, wenn nur Rauschen während der 3*M Rahmen erfolgte. Der Vorgang wird auf diese Weise wiederholt, wobei Mittelwerte abwechselnd zu Speicherplatz A und B berechnet werden. Auf diese Weise werden nur 2*8 Speicherplätze gebraucht (Speicherplatz A und B enthalten jeweils 8 Werte).
Der Sprachaktivitätsdetektor 110 kann auch solcherart verbessert werden, dass der Sprachaktivitätsdetektor gezwungen ist, immer noch nach einem Sprach-Burst, Entscheidungen, die Sprache bedeuten, während N Rahmen (z. B. N = 1) weiterzugeben (dieser Zeitraum wird Verweilzeit genannt), obwohl der Sprachaktivitätsdetektor nur Rauschen erkennt. Dies verbessert den Betrieb, da es ansonsten passieren könnte, weil Sprache langsam leiser wird, dass das Ende von Sprache für Rauschen gehalten wird.
Die Verweilzeit kann anpassungsfähig vom relativen Rauschpegel n abhängig gemacht werden. In diesem Fall wird während starkem Hintergrundrauschen die Verweilzeit im Vergleich zu einer stillen Situation langsam erhöht. Das Verweilmerkmal kann folgendermaßen ausgeführt sein: der Verweilzeit n werden Werte 0, 1, ..., N gegeben, und Schwellenwerte η₀, η₁, ..., η_N–1; ηl < η₁₊₁ für den relativen Rauschpegel werden berechnet, wobei die Werte als den Verweilzeiten entsprechend betrachtet werden können. In Echtzeit wird eine Verweilzeit durch Vergleichen des momentanen Werts des relativen Rauschpegels mit den Schwellenwerten ausgewählt. Zum Beispiel (N = 1, η₀ = 0,01):
Die VAD-Entscheidung, die dieses Verweilzeitmerkmal beinhaltet, ist durch V_ind bezeichnet.
Vorzugsweise kann das Verweilmerkmal unter Verwendung eines Verzögerungsblocks 114 ausgeführt sein, der im Ausgang des Sprachaktivitätsdetektors angeordnet ist, wie in 11 gezeigt. In US-Patent 4,811,404 wurde ein Verfahren zum Aktualisieren einer Hintergrundspektrumschätzung dargelegt, bei dem, wenn eine bestimmte Zeit nach dem vorigen Aktualisieren der Hintergrundspektrumschätzung vergangen ist, automatisch eine neue Aktualisierung ausgeführt wird. Bei dieser Erfindung wird ein Aktualisieren der Hintergrundrauschspektrumschätzung nicht in bestimmten Zeiträumen ausgeführt, sondern, wie im Vorstehenden genannt, abhängig vom Ergebnis des Sprachaktivitätsdetektors. Wenn die Hintergrundrauschspektrumschätzung berechnet wurde, wird die Aktualisierung der Hintergrundrauschspektrumschätzung nur ausgeführt, wenn der Sprachaktivitätsdetektor keine Sprache vor oder nach dem gegenwärtigen Rahmen erkannt hat. Durch diesen Vorgang kann der Hintergrundrauschspektrumschätzung ein so korrekt wie möglicher Wert gegeben werden. Dieses Merkmal u. a. und andere im Vorstehenden genannte Merkmale (z. B., dass der Wert des Schwellenwerts vth, auf dessen Grundlage bestimmt wird, ob Sprache vorliegt oder nicht, auf Grundlage des relativen Rauschpegels angepasst wird, der den Pegel von sowohl Sprache als auch Rauschen berücksichtigt) steigern sowohl die Genauigkeit der Hintergrundrauschspektrumschätzung als auch den Betrieb des Sprachaktivitätsdetektors wesentlich.
Im Folgenden wird die Berechnung von Unterdrückungskoeffizienten G'(s) unter Bezugnahme auf
7 beschrieben. Ein korrekter Term φ, der die Berechnung von Unterdrückungskoeffizienten steuert, wird aus Block 131 durch Multiplizieren des Parameters für den relativen Rauschpegel η mit dem Parameter für die Spektrumdistanz D_SNR und durch Skalieren des Produkts mit einer Skalierungskonstante n ~, die in Speicher 132 gespeichert wurde, und durch Begrenzen der Maxima des Produkts erhalten: ö = min(max_φ, ρDSNRη) (22)wobei n ~ = Skalierungskonstante (typischer Wert 8,0) und max_φ der Maximumwert des korrigierenden Terms (typischerweise 1,0) ist, der im Voraus in Speicher 135 gespeichert wurde.
Eine Anpassung der Berechnung von Unterdrückungskoeffizienten G ~(s)(s = 0, ..., 7) wird solcherart ausgeführt, dass die Werte eines a priori Signal-Rausch-Verhältnisses ^(s), gemäß Gleichung (9) aus Berechnungsblock 140 erhalten, zunächst unter Verwendung des Korrekturterms φ, der in Block 131 berechnet wurde, durch eine Berechnung in Block 133 folgendermaßen umgewandelt werden: ~(s) = (l + φ) ^(s) (23)und Unterdrückungskoeffizienten G ~(s) ferner in Block 134 aus Gleichung (11) berechnet werden.
Wenn der Sprachaktivitätsdetektor 110 erkennt, dass das Signal keine Sprache mehr enthält, wird das Signal unter Einsatz einer geeigneten Zeitkonstante weiter unterdrückt. Der Sprachaktivitätsdetektor 110 zeigt an, ob das Signal Sprache enthält oder nicht, indem er eine Sprachanzeigeausgabe V_ind' weitergibt, das z. B. ein Bit, dessen Wert 0 ist, wenn keine Sprache vorkommt, und 1 betragen kann, wenn das Signal Sprache enthält. Die zusätzliche Unterdrückung wird ferner auf Grundlage eines Signal-Ortsgebundenheitanzeigers ST_ind angepasst, der im Mobilitätsdetektor 100 berechnet wird. Durch dieses Verfahren kann die Unterdrückung leiserer Sprachsequenzen verhindert werden, die der Sprachaktivitätsdetektor 110 als Hintergrundrauschen auslegen könnte.
Die zusätzliche Unterdrückung wird in Block 138 ausgeführt, der die Unterdrückungskoeffizienten G'(s) berechnet. Beim Beginn von Sprache wird die zusätzliche Unterdrückung unter Verwendung einer geeigneten Zeitkonstante beseitigt. Die zusätzliche Unterdrückung wird gestartet, wenn gemäß dem Sprachaktivitätsdetektor 110 nach dem Ende von Sprachaktivität eine Anzahl, die eine vorgegebene Konstante (Nachwirkzeitraum) ist, von Rahmen, welche keine Sprache enthalten, erkannt wurde. Da die Anzahl von Rahmen, die in dem betreffenden Zeitraum (Nachwirkzeitraum) beinhaltet sind, bekannt ist, kann das Ende des Zeitraums unter Verwendung eines Zählers CT, der die Anzahl von Rahmen zählt, erkannt werden.
Unterdrückungskoeffizienten G'(s), die die zusätzliche Unterdrückung enthalten, werden in Block 138 auf Grundlage von Unterdrückungswerten G ~(s), die vorher in Block 134 berechnet wurden, und einem zusätzlichen Unterdrückungskoeffizienten σ, der in Block 137 berechnet wird, gemäß der folgenden Gleichung berechnet: G'(s) = σG ~(s) (24)wobei σ der zusätzliche Unterdrückungskoeffizient ist, dessen Wert in Block 137 unter Verwendung des Werts von Differenzterm δ(n), der in Block 136 auf Grundlage des Ortsgebundenheitanzeigers ST_ind bestimmt wird, des Werts des zusätzlichen Unterdrückungskoeffizienten σ(n – 1) für den vorhergehenden Rahmen, der aus Speicher 139a erhalten wird, und des Minimumwerts von Unterdrückungskoeffizient min_σ, der im voraus in Speicher 139b gespeichert wurde, berechnet wird. Anfänglich ist der zusätzliche Unterdrückungskoeffizient σ = 1 (keine zusätzliche Unterdrückung), und sein Wert wird auf Grundlage von Anzeiger V_ind' angepasst, wenn der Sprachaktivitätsdetektor 110 Rahmen erkennt, die keine Sprache enthalten, wie folgt:
wobei n = Ordnungszahl für einen Rahmen und n₀ = der Wert der Ordnungszahl des letzten Rahmens ist, der zum Zeitraum vor der zusätzlichen Unterdrückung gehört. Das Minimum des zusätzlichen Unterdrückungskoeffizienten σ ist minimal begrenzt durch min_σ, was die höchste Endunterdrückung bestimmt (typischerweise ein Wert von 0,5 ... 1,0). Der Wert des Differenzterms δ(n) hängt von der Ortsgebundenheit des Signals ab. Um die Ortsgebundenheit zu bestimmen, wird die Änderung im Signalleistungsspektrum-Mittelwert S -(n) zwischen dem vorherigen und dem laufenden Rahmen verglichen. Der Wert des Differenzterms δ(n) wird in Block 136 folgendermaßen bestimmt:
wobei der Wert Des Differenzterms daher gemäß den Bedingungen a), b), und c) bestimmt wird, die auf Grundlage von Ortsgebundenheitsanzeiger ST_ind bestimmt werden. Das Vergleichen der Bedingungen a), b) und c) erfolgt in Block 100, woraufhin der Ortsgebundenheitsanzeiger ST_ind, der als eine Ausgabe erhalten wird, Block 136 anzeigt, welcher der Bedingungen a), b) und c) entsprochen wurde, woraufhin Block 100 folgenden Vergleich durchführt:
Die Konstanten th_s und yh_n sind höher als 1 (typische Werte sind z. B. th_s = 6,0/5,0 und th_n = 2,0 oder z. B. th s = 3,0/2,0 und th n = 8,0). Die Werte der Differenzterme δ_s, δ_n und δ_m werden solchermaßen ausgewählt, dass die Differenz von zusätzlicher Unterdrückung zwischen aufeinander folgenden Rahmen nicht störend klingt, auch wenn der Wert des Ortsgebundenheitsanzeigers ST_ind häufig schwanken würde (typischerweise δ₃ ∈ [–0,014,0), δ_n ∈ (0, 00,028) und δ_m = 0).
Wenn der Sprachaktivitätsdetektor 110 erneut Sprache entdeckt, wird die zusätzliche Unterdrückung durch Berechnen des zusätzlichen Unterdrückungskoeffizienten σ in Block 137 wie folgt beseitigt: σ(n) = min(1,(1 + δr)σ(n – 1)): n = n1, n1 + 1, ... (28)wobei n₁ = die Ordnungszahl des ersten Rahmens nach einer Rauschsequenz und δ_r eine positive Konstante ist, deren absoluter Wert im Allgemeinen erheblich höher als der der oben angegebenen Differenzkonstanten ist, die die zusätzliche Unterdrückung anpassen (typischer Wert z. B. (1,0 – min_σ)/4,0), und die im voraus in einem Speicher, z. B. in Speicher 139b, gespeichert wurde. Die Funktionen der Blocks, die in 7 gezeigt sind, werden vorzugsweise digital ausgeführt. Das digitale Ausführen der Berechnungsvorgänge der Gleichungen, die in Block 130 durchgeführt werden sollen, ist dem Fachmann aus dem Stand der Technik bekannt.
Die acht Unterdrückungswerte G(s), die aus dem Unterdrückungswertberechnungsblock 130 erhalten werden, werden in einem Interpolator 120 solcherart in fünfundsechzig Samples interpoliert, dass die Unterdrückungswerte, die Frequenzen (0 bis 62,5 Hz und 3500 Hz bis 4000 Hz) außerhalb des verarbeiteten Frequenzbereichs entsprechen, den Unterdrückungswerten für das benachbarte verarbeitete Frequenzband gleichgesetzt werden. Auch der Interpolator 120 wird vorzugsweise digital ausgeführt.
Im Vervielfacher 30 werden die realen und imaginären Komponenten X_r(f) und X_i(f), die durch FFT-Block 20 erzeugt wurden, in Paaren mit Unterdrückungswerten multipliziert, die aus dem Interpolator 120 erhalten werden, wobei in der Praxis jeweils acht aufeinander folgende Samples X(f) aus dem FFT-Block mit demselben Unterdrückungswert G(s) multipliziert werden, wobei Samples, gemäß der bereits früher dargelegten Gleichung (6) als die Ausgabe von Vervielfacher 30 erhalten werden.
Hierbei werden Samples Y(f) f = 0, ..., 64 erhalten, aus denen eine reale, inverse schnelle Fourier-Transformation in IFFT-Block 40 berechnet wird, wobei als seine Ausgabe Zeitbereichssamples y(n), n = 0, ..., 127 erhalten werden, bei denen Rauschen unterdrückt wurde. Die Samples y(n), aus denen Rauschen unterdrückt wurde, entsprechen den Samples x(n), die in den FFT-Block geleitet wurden.
Aus den Samples y(n) werden 80 Samples in Auswahlblock 160 zur Ausgabe ausgewählt, zur Übertragung, wobei diese Sample y(n); n = 8, ..., 87 sind, die x(n) Werte entsprechend denen, die nicht mit einem Fensterstreifen multipliziert wurden, und daher können sie direkt zur Ausgabe gesendet werden. In diesem Fall werden zur Ausgabe 80 Samples erhalten, die den Samples entsprechen, die als Fenstereingangssignal an Fensterungsblock 10 eingelesen wurden. Da in der vorgelegten Ausführungsform Samples aus dem achten Sample zur Ausgabe ausgewählt werden, die Samples, die dem laufenden Rahmen entsprechen, jedoch am sechzehnten Sample beginnen (die ersten 6 waren Samples, die vom vorhergehenden Rahmen im Speicher gespeichert wurden), wird in dem Signal eine Verzögerung um 8 Samples oder 1 ms bewirkt. Wenn anfänglich mehr Samples eingelesen wurden, z. B. 112 (112 + 16 Samples des vorhergehenden Rahmens = 128), würde keinerlei Notwenigkeit bestehen, dem Signal Nullen hinzuzufügen, und infolgedessen wären die 112 Samples direkt in der Ausgabe erhalten worden. Es war nun jedoch gewünscht, 80 Samples gleichzeitig zur Ausgabe zu bekommen, so dass nach Berechnungen auf zwei aufeinander folgenden Rahmen 160 Samples erhalten werden, was wiederum dem gleichkommt, das die meisten der gegenwärtig genutzten Sprach-Codierer-Decodierer (z. B. in GSM-Mobiltelefonen) verwenden. Hierbei kann Rauschunterdrückung und Sprachcodierung effektiv und ohne Verzögerung, ausgenommen der oben genannten 1 ms, kombiniert werden. Vergleichsweise kann gesagt werden, dass bei Lösungen gemäß dem Stand der Technik die Verzögerung typischerweise die Hälfte der Länge des Fensters beträgt, wobei die Verzögerung unter Verwendung eines Fensters gemäß der hier dargelegten Beispielslösung, dessen Länge 96 Rahmen beträgt, 48 Samples oder 6 ms betrüge, womit diese Verzögerung sechs Mal so lang wie die Verzögerung ist, die mit der Lösung gemäß der Erfindung erreicht ist.
Das Verfahren gemäß der Erfindung und die Vorrichtung zur Rauschunterdrückung sind insbesondere zum Gebrauch in einer mobilen Station oder einem mobilen Kommunikationssystem geeignet, und sie sind auf keinerlei besonderen Aufbau beschränkt (TDMA, CDMA, digital/analog). 12 zeigt eine mobile Station gemäß der Erfindung, bei der Rauschunterdrückung gemäß der Erfindung eingesetzt ist. Das Sprachsignal, das übertragen werden soll und aus einem Mikrofon 1 kommt, wird in einem A/D-Wandler gesampelt, in einem Rauschunterdrücker 3 gemäß der Erfindung rauschunterdrückt und in einem Sprachcodierer 4 sprachcodiert, wonach in Block 5 eine Basisfrequenzsignalverarbeitung ausgeführt wird, z. B. Kanalcodierung, Verschachtelung, wie im Stand der Technik bekannt. Danach wird das Signal in Hochfrequenz umgewandelt und durch einen Sender 6 über einen Duplexfilter DPLX und eine Antenne ANT übertragen. Die bekannten Vorgänge eines Empfangszweigs 7 werden für Sprache, die bei Empfang empfangen wird, ausgeführt, und sie wird durch Lautsprecher 8 wiederholt.
Gestaltung und Ausführungsformen der Erfindung wurden hierin als Beispiele für das Verfahren und die Vorrichtung dargelegt. Es ist für den Fachmann offensichtlich, dass die Erfindung nicht auf die Details der dargelegten Ausführungsformen beschränkt ist, und dass die Erfindung auch in anderer Ausbildung ausgeführt sein kann, ohne von den Kennzeichen der Erfindung abzuweichen. Die dargelegten Ausführungsformen sollten nur als veranschaulichend, nicht als einschränkend betrachtet werden. Daher sind die Möglichkeiten, die Erfindung auszuführen und zu nutzen, nur durch die beiliegenden Ansprüche eingeschränkt. Hierbei sind verschiedene Alternativen zur Implementierung der Erfindung, die durch die Ansprüche definiert sind, einschließlich äquivalenter Ausführungen, im Anwendungsbereich der Erfindung wie durch die beiliegenden Ansprüche definiert beinhaltet.

Claims

Rauschunterdrücker zum Unterdrücken von Rauschen in einem Sprachsignal, wobei der Unterdrücker Mittel (20, 50) zum Aufteilen des Sprachsignals in eine erste Menge von Untersignalen (X, P), welche Leistungsspektrumkomponenten von bestimmten ersten Frequenzbereichen darstellen, und Unterdrückungsmittel (30) zum Unterdrücken von Rauschen in einem Untersignal (X, P) auf Grundlage eines bestimmten Unterdrückungskoeffizienten (G) umfasst, dadurch gekennzeichnet, dass er außerdem Rekombinationsmittel (60) zum Rekombinieren einer zweiten Menge von Untersignalen (X, P) zum Bilden eines Berechnungssignals (s) durch Erzeugen einer Summe einer vorgegebenen Anzahl von benachbarten Leistungsspektrumkomponenten des berechneten Signals (S), das einen bestimmten zweiten Frequenzbereich darstellt, der größer als die ersten Frequenzbereiche ist, Bestimmungsmittel (200) zum Bestimmen eines Unterdrückungskoeffizienten (G) für das Berechnungssignal (S) auf Grundlage von Rauschen, das darin enthalten ist, umfasst, und dass die Unterdrückungsmittel (30) zum Unterdrücken der Untersignale (X, P), die in dem Berechnungssignal (S) rekombiniert sind, angeordnet sind, wobei der Unterdrückungskoeffizient (G) auf Grundlage des Berechnungssignals (S) bestimmt wird.
Rauschunterdrücker nach Anspruch 1, dadurch gekennzeichnet, dass er spektrumbildende Mittel (20, 50) zum Aufteilen des Sprachsignals in Spektrumkomponenten (X, P) umfasst, die die Untersignale darstellen.
Rauschunterdrücker nach Anspruch 1, dadurch gekennzeichnet, dass er Samplingmittel (2) zum Sampeln des Sprachsignals in Zeitbereichs-Samples, Fensterungsmittel (10) zum Rahmen von Samples in einen Rahmen, Verarbeitungsmittel (20) zum Bilden von Frequenzbereichskomponenten (X) aus dem Rahmen umfasst, dass die spektrumbildenden Mittel (20, 50) zum Bilden der Spektrumkomponenten (X, P) aus den Frequenzbereichskomponenten (X) angeordnet sind, dass die Rekombinationsmittel (60) zum Rekombinieren der zweiten Menge von Spektrumkomponenten (X, P) in eine Berechnungsspektrumkomponente (S) angeordnet sind, die das Berechnungssignal (S) darstellt, dass die Bestimmungsmittel (200) Berechnungsmittel (190, 130) zum Berechnen eines Unterdrückungskoeffizienten (G) für die Berechnungsspektrumkomponente (S) auf Grundlage von Rauschen, das in letzterer enthalten ist, umfassen, und dass die Unterdrückungsmittel (30) einen Vervielfacher zum Multiplizieren der Frequenzbereichskomponenten (X), die den Spektrumkomponenten (P) entsprechen, welche in der Berechnungsspektrumkomponente (S) rekombiniert sind, mit dem Unterdrückungskoeffizienten (G) umfassen, um rauschunterdrückte Frequenzbereichskomponenten (Y) zu bilden, und dass er Mittel zum Umwandeln der rauschunterdrückten Frequenzbereichskomponenten (Y) in ein Zeitbereichssignal (y) und zum Ausgeben desselben als ein rauschunterdrücktes Ausgangssignal umfasst.
Rauschunterdrücker nach Anspruch 3, dadurch gekennzeichnet, dass die Berechnungsmittel (190) Mittel (70) zum Bestimmen des Mittelpegels einer Rauschkomponente und einer Sprachkomponente (N, S), die in dem Eingangssignal enthalten sind, und Mittel (130) zum Berechnen des Unterdrückungskoeffizienten (G) für die Berechnungsspektrumkomponente (S) auf Grundlage der Rausch- und Sprachpegel (N, S) umfassen.
Rauschunterdrücker nach Anspruch 3, dadurch gekennzeichnet, dass das Ausgabesignal zum Einspeisen in einen Sprach-Codierer-Decodierer zum Sprachcodieren angeordnet wurde und die Menge von Samples des Ausgangsignals ein gerader Quotient der Anzahl von Samples in einem Sprachrahmen ist.
Rauschunterdrücker nach Anspruch 3, dadurch gekennzeichnet, dass die Verarbeitungsmittel (20) zum Bilden der Frequenzbereichskomponenten (X) eine bestimmte Spektrallänge umfassen, und dass die Fensterungsmittel (10) Vervielfachermittel (11) zum Multiplizieren von Samples mit einem bestimmten Fenster und sampleerzeugende Mittel (12) zum Hinzufügen von Samples zu den multiplizierten Samples umfassen, um einen Rahmen zu bilden, dessen Länge gleich der Spektrallänge ist.
Rauschunterdrücker nach Anspruch 4, dadurch gekennzeichnet, dass er einen Sprachaktivitätsdetektor (110) zum Erkennen von Sprache und Pausen in einem Sprachsignal und zum Weitergeben eines Erkennungsergebnisses an das Mittel (130) zum Berechnen des Unterdrückungskoeffizienten zum Anpassen einer Unterdrückung abhängig vom Vorkommen von Sprache in dem Sprachsignal umfasst.
Rauschunterdrücker nach Anspruch 4, dadurch gekennzeichnet, dass er Mittel (130) zum Berechnen des Unterdrückungskoeffizienten umfasst und gegenwärtige und vorherige Unterdrückungskoeffizienten G'(s) zum Errechnen neuer Unterdrückungskoeffizienten G(s) für den gegenwärtigen Rahmen nutzt.
Rauschunterdrücker nach Anspruch 7, dadurch gekennzeichnet, dass er Mittel (112) zum Vergleichen des Signals, das in den Detektor eingeleitet wurde, mit einem bestimmten Schwellenwert, um eine Spracherkennungsentscheidung zu treffen, und Mittel (113) zum Anpassen des Schwellenwerts auf Grundlage des Mittelpegels der Rauschkomponente und der Sprachkomponente (N, S) umfasst.
Rauschunterdrücker nach Anspruch 7, dadurch gekennzeichnet, dass er Rauschschätzungsmittel (80) zum Schätzen des Rauschpegels und zum Speichern des Pegelwerts umfasst, und dass während jedem analysierten Sprachsignal der Wert einer Rauschschätzung nur dann aktualisiert wird, wenn der Sprachaktivitätsdetektor (110) keine Sprache während einer bestimmten Zeitdauer vor und nach jedem erkannten Sprachsignal erkannt hat.
Rauschunterdrücker nach Anspruch 10, dadurch gekennzeichnet, dass er Ortsgebundenheitsangabemittel (100) zum Angeben der Ortsgebundenheit des Sprachsignals umfasst und die Rauschschätzungsmittel (80) zum Aktualisieren des Rauschschätzwerts auf Grundlage der Ortsgebundenheitsangabe angeordnet sind, wenn die Angabe angibt, dass das Signal ortsgebunden ist.
Mobile Station für Sprachübertragung und -empfang, umfassend ein Mikrofon (1) zum Umwandeln der Sprache, die übertragen werden soll, in ein Sprachsignal, und zur Unterdrückung von Rauschen im Sprachsignal umfassend Mittel (20, 50) zum Aufteilen des Sprachsignals in eine erste Menge von Untersignalen (X, P), welche Leistungsspektrumkomponenten von bestimmten ersten Frequenzbereichen darstellen, und Unterdrückungsmittel (30) zum Unterdrücken von Rauschen in einem Untersignal (X, P) auf Grundlage eines bestimmten Unterdrückungskoeffizienten (G), dadurch gekennzeichnet, dass sie ferner Rekombinationsmittel (60) zum Rekombinieren einer zweiten Menge von Untersignalen (X, P) zum Bilden eines Berechnungssignals (s) durch Erzeugen einer Summe einer vorgegebenen Anzahl von benachbarten Leistungsspektrumkomponenten des berechneten Signals (S), das einen zweiten Frequenzbereich darstellt, der größer als die ersten Frequenzbereiche ist, Bestimmungsmittel (200) zum Bestimmen eines Unterdrückungskoeffizienten (G) für das Berechnungssignal (S) auf Grundlage des Rauschens, das darin enthalten ist, umfasst, und dass die Unterdrückungsmittel (30) zum Unterdrücken der Untersignale (X, P), die in dem Berechnungssignal (S) kombiniert sind, angeordnet sind, wobei der Unterdrückungskoeffizient (G) auf Grundlage des Berechnungssignals (S) bestimmt wird.
Rauschunterdrückungsverfahren zum Unterdrücken von Rauschen in einem Sprachsignal, wobei das Sprachsignal in eine erste Menge von Untersignalen (X, P), welche Leistungsspektrumkomponenten von bestimmten ersten Frequenzbereichen darstellen, aufgeteilt wird und Rauschen in einem Untersignal (X, P) auf Grundlage eines bestimmten Unterdrückungskoeffizienten (G) unterdrückt wird, dadurch gekennzeichnet, dass vor der Rauschunterdrückung eine zweite Menge von Untersignalen (X, P) zum Bilden eines Berechnungssignals (s) durch Erzeugen einer Summe einer vorgegebenen Anzahl von benachbarten Leistungsspektrumkomponenten der ersten Menge von Untersignalen für jede Komponente des Berechnungssignals (S), das einen bestimmten zweiten Frequenzbereich darstellt, der größer als die ersten Frequenzbereiche ist, rekombiniert wird, ein Unterdrückungskoeffizient (G) für das Berechnungssignal (S) auf Grundlage von Rauschen, das darin enthalten ist, bestimmt wird und die Untersignale (X, P), die in dem Berechnungssignal (S) rekombiniert sind, um den Unterdrückungskoeffizienten (G) unterdrückt werden, der auf Grundlage des Berechnungssignals (S) bestimmt wird.