-
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Reduktion von Störungen in Audiosignalen, wobei die Störung eine zufällige, instationäre Störgröße n(k) darstellt, die zu allen Zeitpunkten k dem Nutzanteil s(k) des Audiosignals x(k) überlagert ist. Derartige Störungen werden im Folgenden als zufällig, kontinuierlich und instationär bezeichnet. Dabei liegen die Audiosignale entweder in diskreter Form vor oder werden aus der Abtastung eines analogen zufällig, kontinuierlich, instationär gestörten Audiosignals gewonnen.
-
Audiosignale sind oftmals durch zufällige, kontinuierliche stationäre und/oder instationäre Störungen – im folgenden kurz auch als Störgeräusche oder Rauschstörungen bezeichnet – beeinträchtigt, die die Qualität des Signals negativ beeinflussen. Die Reduzierung bzw. Entfernung dieser Störgeräusche erfolgt üblicherweise durch die Filterung des gestörten Audiosignals mittels einer Filterfunktion, bei der das gefilterte Ausgangssignal das geräuschreduzierte bzw. ungestörte Audiosignal möglichst gut approximieren soll. Die Berechnung der Filter funktion erfolgt dabei unter der Annahme der Stationarität des Störsignals.
-
Im Rahmen der vorliegenden Patentanmeldung wird von der Annahme ausgegangen, dass sich das zufällig, kontinuierlich und instationär gestörte, diskrete. Audiosignal x(k), welches aus der Abtastung eines analogen, gestörten Audiosignals x(t) an den diskreten Abtastzeitpunkten k unter Beachtung des Nyquist-Theorems hervorgegangen ist, additiv aus einem diskreten, ungestörten Audiosignal s(k), dem Nutzanteil des Audiosignals, und einem diskreten, zufälligen, kontinuierlichen Störsignal n(k), dem Störanteil des Audiosignals, zusammensetzt, wobei n(k) stationäre und instationäre Rauschanteile umfassen kann: x(k) = s(k) + n(k) (1)
-
Ein bekanntes Verfahren zur Reduzierung bzw. Entfernung derartiger, zufälliger, kontinuierlicher Störungen, das sogenannte Verfahren zur kurzzeitigen spektralen Dämpfung – im folgenden kurz Short Time Spectral Attenuation (STSA) genannt – ist in dem Blockschaltbild gemäß 1 wiedergegeben. Dargestellt ist die Bearbeitung eines Audiosignals x(k), welches als Abtastsignal x(k) des analogen, gestörten Audiosignals x(t) an den Abtastzeitpunkten k gewonnen wird.
-
X(m, l), S(m, l) und N(m, l) sind die den diskreten Signalen x(k), s(k) und n(k) entsprechenden Funktionen beispielsweise im Frequenzbereich, wobei m die diskrete Frequenz bedeutet. Alternativ kann m jedoch ein anderer Parameter sein, der eine äquivalente Beschreibung der diskreten Zeitsignale x(k), s(k) und n(k) ermöglicht. l ist die diskrete Zeit des jeweils betrachteten Signalblockes bei der üblichen blockweisen Signalverarbeitung. Im Frequenzbereich gilt daher entsprechend X(m, l) = S(m, l) + N(m, l) (2)
-
Das diskrete Audiosignal x(k) wird bei diesem bekannten Verfahren in einem ersten Schritt, mittels einer diskreten Fouriertransformation in den Frequenzbereich transformiert, Block 1, so dass sich die diskrete Frequenzbereichsdarstellung X(m, l) ergibt. Aus dieser diskreten Spektraldarstellung erfolgt bei dem dargestellten Stand der Technik eine einzige und somit stationäre Schätzung Φ ^NN(m) der diskreten Autorauschleistungsdichte ΦNN(m) durch ein bekanntes Schätzverfahren, Block 2, bei dem beispielsweise eine
- (3a) Schätzung der Autorauschleistungsdichte innerhalb (annähernd) nutzsignalfreier Passagen des gestörten Signals oder eine
- (3b) sog. direkte Schätzung
vorgenommen wird.
-
Die geschätzte diskrete Autorauschleistungsdichte Φ ^NN(m) ergibt sich aus einem diskreten, zufällig, kontinuierlich gestörten Audiosignal entsprechend des in (3a) genannten Verfahrens durch Auswertung annähernd audiosignalfreier Passagen des gestörten Signals, in denen näherungsweise gilt x(k) ≈ n(k), da s(k) ≈ 0.(3)
-
Unter Ausnutzung der Linearität der Fouriertransformation ergibt sich innerhalb dieser Abschnitte, in denen s(k) ≈ 0, eine Schätzung der diskreten Autorauschleistungsdichte gemäß Φ ^NN(m) = ΦXX(m). (4)
-
Hier bedeutet ΦXX(m) die Autorauschleistungsdichte des gestörten Audiosignals.
-
Das alternative ”direkte Schätzung” genannte Verfahren (3b) wurde in „Steven L. Gay, Jacob Benesty: Acoustic Signal Processing for Telecommunication; Kluwer International Series in Engineering and Computer Science; Kapitel 9: Eric J. Diethorn: Subband Noise Reduction Methods for Speech Enhancement, März 2000, ISBN 0-7923-7814-8” vorgestellt und beruht auf einer beschränkten Verfolgung der Leistungsdichte des gestörten Signals.
-
Basierend auf der Schätzung der Autorauschleistungsdichte Φ ^NN(m) und der diskreten Frequenzbereichsdarstellung X(m, l) des diskreten Audiosignals x(k) erfolgt bei diesem bekannten Verfahren die Bestimmung einer geeigneten Filterfunktion HG(m, l), vgl. Block 3, bei der das abgegebene Signal das ungestörte Audiosignal s(k) möglichst genau approximiert. In diesem Zusammenhang sind verschiedene Berechnungsvorschriften zur Gewinnung der Filterfunktion HG(m, l) bekannt, beispielsweise der
- (6a) Ansatz nach Wiener, bei dem als Approximationskriterium der mittlere quadratische Fehler zwischen Nutzsignal und Schätzung verwendet wird oder der
- (6b) Ansatz zur Amplituden-Subtraktion oder der
- (6c) Ansatz zur Leistungs-Subtraktion,
die in „S. F. Boll; Suppression of acoustic noise in speech using spectral subtraction; IEEE Trans. Acoust., Speech & Signal Process.; ASSP-27; Seite 113–120; 1979”, außerdem auch in dem Lehrbuch von P. Vary, U. Heute & W. Hess, ”Digitale Sprachsignalverarbeitung”, Teubner Verlag, Stuttgart 1998, ISBN 3-519-06165-1, Seiten 380–390, beschrieben sind.
-
Zur Bestimmung einer Schätzung s ^(k) des diskreten, ungestörten Nutzanteils s(k) erfolgt eine Filterung des diskreten Audiosignals x(k) mit der zuvor bestimmten Filterfunktion. Diese kann entweder im Zeitbereich durch die Faltung des diskreten, gestörten Signals x(k) mit der diskreten Impulsantwort der Filterfunktion hG(k) realisiert werden s ^(k) = hG(k)*x(k), (5) wobei * den Faltungsoperator darstellt oder wie in 1 dargestellt, im Frequenzbereich durch die Multiplikation der diskreten Übertragungsfunktion HG(m, l) mit der diskreten Spektraldarstellung X(m, l) des diskreten, gestörten Audiosignals x(k, l), vgl. Block 4, S ^(m, l) = HG(m, l)·X(m, l). (6)
-
Aus der derart bestimmten diskreten Schätzung S(m, l) wird die entsprechende Darstellung s ^(k) im Zeitbereich durch die inverse, diskrete Fouriertransformation gewonnen, vgl. Block 5, so dass das geräuschbefreite Signal ggf. mittels eines Digital-Analog-Wandlers in ein analoges, geräuschbefreites Signal umgesetzt werden kann.
-
Ein Nachteil dieses bekannten Verfahrens besteht darin, dass durch die Filterung des gestörten Audiosignals erneut Störungen in das geräuschbefreite Signal eingetragen werden, die durch die Filterung entstehen und zu unerwünschten sog. „Musical Tones” führen.
-
Ferner ist aus „M. Berouti, R. Schwartz & J. Makhoul; Enhancement of speech corrupted by acoustic noise; in Proc. IEEE ICASSP; Seite 208–211; Washington DC; 1979” ein weiteres Verfahren bekannt, das im folgenden anhand des Blockschaltbildes gemäß
2 beschrieben ist und welches in seinem Grundprinzip dem Verfahren gemäß
1 entspricht. Dieses bekannte Verfahren arbeitet auf folgende Weise:
Aus einer einmaligen und somit stationären Schätzung der Autorauschleistungsdichte Φ ^
NN(m), Block
2, und der diskreten Spektraldarstellung X(m, l), am Ausgang des Blocks
1 des diskreten Audiosignals x(k) wird die Filterfunktion H
G(m, l) ermittelt, Block
3. Vor der eigentlichen Filterung des gestörten Signals, Block
4, wird die Filterfunktion H
G(m, l) auf einen konstanten, frei gewählten minimalen Wert γ
SF(m) – auch als „spektraler Boden” bezeichnet –, d. h. auf eine maximale Geräuschreduktion, beschränkt, Block
6. Somit ergibt sich für die Filterung eine neue diskrete Filterfunktion H
G(m, l, γ
SF(m)), für die gilt:
-
Diese beschränkte Filterfunktion führt einerseits dazu, dass keine Geräuschbefreiung, sondern nur eine Reduktion der Störung möglich ist, andererseits wird die Entstehung von sog. Musical Tones deutlich reduziert.
-
Das durch die Filterung, Block 4, gewonnene diskrete, geräuschreduzierte Signalspektrum S ^(m, l) wird anschließend wie in dem Verfahren gemäß 1 durch eine inverse, diskrete Fouriertransformation, Block 5, in den Zeitbereich zurücktransformiert.
-
Bei beiden bekannten Verfahren erweist es sich als nachteilig, dass diese nur zur Entfernung bzw. Reduktion zufälliger, kontinuierlicher stationärer und ggf. zufälliger, kontinuierlicher langsam instationärer Störungen herangezogen werden können. Zeitliche Änderungen der statistischen Eigenschaften der diskreten Störung n(k) können nicht oder nur bei sehr langsamen Änderungen erfasst werden. Handelt es sich bei der überlagerten Störung jedoch beispielsweise um ein instationäres Rauschen, ergibt sich eine fehlerbehaftete Schätzung der Autorauschleistungsdichte. Hieraus resultiert eine fehlerhafte Bestimmung der Filterfunktion und somit eine Geräuschreduktion, die entweder das eigentliche ungestörte Signal s(k) beeinträchtigt und/oder das Störsignal n(k) nur unzureichend reduziert.
-
Bei Verwendung einer einmaligen und somit stationären Schätzung der Autorauschleistungsdichte innerhalb nutzsignalfreier Abschnitte ergibt sich eine fehlerhafte Autorauschleistungsdichte, da ein zufällig, kontinuierlich gestörtes Audiosignal in der Regel nicht ausreichend viele nutzsignalfreie Abschnitte aufweist, die eine fortlaufende Aktualisierung der Schätzung der Autorauschleistung erlauben. Somit kann der ermittelte Schätzwert den zeitlichen Änderungen der statistischen Eigenschaften des Rauschens keine Rechnung tragen. Zwar wird bei der geschilderten und bekannten „direkten Schätzung” die Autorauschleistungsdichte ständig aktualisiert, jedoch ist die Schätzung fehlerhaft bezüglich des instationären Rauschanteils, wie die diesbezüglichen Betrachtungen in „J. Meyer, K. U. Simmer and K. D. Kammeyer: Comparison of One- and Two-Channel Noise-Estimation Techniques; Proc. 5th International Workshop an Acoustic Echo and Noise Control (IWAENC-97), vol. 1, Seite 17–20, London, U. K., 11–12 September 1997” zeigen.
-
Aus dem
US-Patent 5,852,567 ist ein weiteres Verfahren zur Reduzierung zufälliger, kontinuierlicher Störungen bekannt. Basierend auf einer Zeit-Frequenz-Transformation wird bei diesem Verfahren versucht, den Signal-Rauschabstand und die Charakteristika des instationären Nutzsignals zu verbessern. Wie bei den zuvor beschriebenen Verfahren erweist es sich auch bei diesem Verfahren als nachteilig, dass es ebenfalls entsprechend seines Entwicklungsziels nur zur Reduzierung von zufälligen, kontinuierlichen, stationären Störungen, nicht jedoch zur Reduzierung von zufälligen, kontinuierlichen, instationären Störungen herangezogen werden kann.
-
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen anzugeben, mit dem Ziel, den instationären Rauschanteil im Audiosignal im Verhältnis zu dessen stationären Rauschanteil zu verringern.
-
Diese Aufgabe wird gelöst durch ein Verfahren gemäß Anspruch 1. Diese Aufgabe wird ferner gelöst durch eine Vorrichtung gemäß Anspruch 15.
-
Die Vorteile des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Vorrichtung bestehen darin, dass eine Repräsentation des gestörten Audiosignals derart bearbeitet wird, dass die zeitlichen Änderungen der statistischen Eigenschaften des Störanteils des bearbeiteten Audiosignals im Vergleich zum Störanteil des unbearbeiteten Audiosignals verringert werden. Es werden die zeitlichen Änderungen der statistischen Eigenschaften reduziert, so dass das Audiosignal nach der Bearbeitung nur noch durch eine zufällige, kontinuierliche, stationäre Reststörung beeinträchtigt wird und gegebenenfalls eine weitere Reduzierung des durchschnittlichen Rauschpegels zusätzlich vorgenommen werden kann. Bei der Bestimmung der Filterfunktion werden die aktuellen Eigenschaften des Nutz- und des Störsignalanteils berücksichtigt. Das Maß der Geräuschreduktion, also die Filterfunktion, wird nicht auf einen festen Amplitudenwert beschränkt, sondern durch eine Repräsentation der Störung oder einer direkt oder indirekt hieraus ableitbaren Größe dynamisch an die aktuellen zeitlich veränderlichen Eigenschaften des Störsignals angepasst.
-
Gemäß einer besonders bevorzugten Ausführungsform der Erfindung läßt sich eine Repräsentation der Störung bestimmen, die die zeitlichen Veränderungen der instationären statistischen Eigenschaften des Rauschens beschreibt.
-
Ein weiterer entscheidender Vorteil des erfindungsgemäßen Verfahrens ist die Einbeziehung der aktuellen Störsignaleigenschaften. Bisherige Verfahren berücksichtigen in diesem Zusammenhang nur einen zeitlich begrenzten Signalausschnitt, so dass sich den ändernden Eigenschaften des Störsignalanteils keine Rechnung getragen wurde.
-
Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der Unteransprüche gekennzeichnet.
-
Im Folgenden werden Ausführungsbeispiele der Erfindung anhand der Zeichnung näher erläutert. Es zeigen:
-
1 ein Blockschaltbild eines bekannten Verfahrens zur Reduzierung zufälliger kontinuierlicher Störungen in Audiosignalen;
-
2 ein Blockschaltbild eines weiteren bekannten Verfahrens zur Reduzierung zufälliger kontinuierlicher Störungen in Audiosignalen;
-
3 eine schematische Darstellung des erfindungsgemäßen Verfahrens;
-
4 ein Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens;
-
5 ein Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens;
-
6 ein Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens,
-
7a, bis 7c der typische zeitliche Verlauf des Störanteiles a) eines gestörten Audiosignales, b) des gemäß dem Stand der Technik bearbeiteten Audiosignales und c) des mit dem erfindungsgemäßen Verfahren bearbeiteten Audiosignales.
-
8 eine exemplarische Darstellung der Wirkungsweise des Verfahrens gemäß 2,
-
9 eine schematische Wirkungsweise einer Ausführungsform des bekannten Verfahrens bei Verwendung einer Abschätzung des aktuell enthaltenen Störsignalanteils, welcher die zeitliche Änderung der Störung beschreibt zur Bestimmung der Filterfunktion H dyn / G (m, l) und deren Beschränkung mittels einer zeitlich konstanten Beschränkungsfunktion γSF(m)
-
10 eine exemplarische Darstellung der Wirkungsweise einer Ausführungsform des erfindungsgemäßen Verfahrens.
-
3 und 4 zeigen ein schematisches Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens. Gemäß dem Blockschaltbild nach 3 wird aus einem diskreten, gestörten Audiosignal x(k) durch eine entsprechende Transformation, beispielsweise eine Transformation des Signals x(k) in den Frequenzbereich, eine zugehörige Repräsentation X(m, l) dieses Audiosignals bestimmt, Block 1. Die Variable l beschreibt in diesem Zusammenhang den aktuellen Betrachtungszeitpunkt. Diese Repräsentation wird in einer Bearbeitungseinheit 2 bearbeitet. Aus der Bearbeitung dieser Repräsentation entsprechend dem erfindungsgemäßen Verfahren ergibt sich die bearbeitete, neue Repräsentation S ^(m, l) des Audiosignals, die durch eine Verringerung der zeitlichen Änderungen der statistischen Eigenschaften des enthaltenen Störanteils gekennzeichnet ist. Schließlich wird dann durch eine entsprechende Rücktransformation der diskrete Signalverlauf s ^(k) gewonnen, der den diskreten, zeitlichen Verlauf des geräuschreduzierten Audiosignals als Funktion der diskreten Abtastzeitpunkte beschreibt.
-
Gemäß 4 wird aus einer Repräsentation des gestörten Audiosignals X2(m, l), – die beispielsweise durch eine geeignete Abbildungsvorschrift aus der Repräsentation X(m, l) hervorgeht und das aus dem Zeitbereich in den Frequenzbereich transformierte Signal x(k) repräsentiert-, vgl. Block 5, und der Repräsentation N ^(m, l), die eine Schätzung der aktuellen Eigenschaften des Störsignalanteils im Frequenzbereich darstellt, in bekannter Weise unter Heranziehung der Schätzung N ^(m, l) des Störanteils des Audiosignals eine geeignete Filterfunktion H dyn / G (m, l) bestimmt. Zusätzlich wird die so bestimmte Filterfunktion H dyn / G (m, l) unter Heranziehung der Schätzung N ^(m, l) des Störanteils des Audiosignals dynamisch, d. h. zeitabhängig, beschränkt, vgl. Block 4 und 6. Das Superscript dyn kennzeichnet eine Filterfunktion, die durch Einbeziehung der aktuellen Eigenschaften des instationären Störanteils des Audiosignals gewonnen wird.
-
In einem weiteren Bearbeitungsschritt wird die Repräsentation X(m, l) des gestörten Audiosignals x(k) mit der beschränkten Filterfunktion gefiltert, vgl. Block 7, so dass sich ein bearbeitetes diskretes Signal S ^(m, l) ergibt. Aus dieser Repräsentation S ^(m, l) ergibt sich mittels einer geeigneten Rücktransformation ein diskreter Signalverlauf s ^(k), der dem diskreten, zeitlichen Verlauf des gestörten Audiosignals x(k) entspricht, jedoch durch eine geringere zeitliche Änderung der statistischen Eigenschaften der enthaltenen Störung gekennzeichnet ist.
-
5 zeigt das Blockschaltbild zur Realisierung einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens. Aus dem diskreten, gestörten Audiosignal x(k) wird jeweils zum Betrachtungszeitpunkt l beispielsweise durch eine Fouriertransformation eine geeignete Repräsentation X(m, l) dieses Audiosignals bestimmt, vgl. Block 1. Hieraus wird eine Schätzung N ^(m, l) des dem ungestörten, diskreten Audiosignal s(k) überlagerten instationären, zufälligen und kontinuierlichen Störungsanteil n(k) gewonnen, vgl. Block 4, welche die aktuellen statistischen Eigenschaften des instationären Rauschens beschreibt. Unter Verwendung der Schätzung N ^(m, l) wird, unter Heranziehung der Repräsentation des gestörten Signals X(m, l) – die gegebenenfalls durch eine geeignete Abbildungsvorschrift (nicht dargestellt) zusätzlich verändert wird – eine geeignete Filterfunktion H dyn / G (m, l) bestimmt, vgl. Block 8, die im Gegensatz zu den bekannten Verfahren die Instationaritat des Störanteils berücksichtigt. Diese Filterfunktion H dyn / G (m, l) wird im folgenden Schritt auf einen minimalen Wert γSF(m, l) beschränkt, vgl. Block 9. Diese Grenze – auch Beschränkungsfunktion genannt – ist nicht konstant, sondern bestimmt sich dynamisch in Abhängigkeit von einer direkten oder indirekten Repräsentation der Störung γSF(m, l) = f(N ^(m, l)). (8)
-
Besonders bevorzugt läßt sich zur Berechnung von γSF(m, l) zusätzlich auch noch eine Repräsentation des gestörten Audiosignals x(k) heranziehen. Es gilt dann γSF(m, l) = f (N ^(m, l), X(m, l)). (9)
-
Für die derart beschränkte Filterfunktion H
b gilt dann:
-
Eine geeignete Verknüpfung – beispielweise eine Multiplikation – einer Repräsentation X(m, l) des gestörten Audiosignals x(k) mit der zuvor ermittelten beschränkten Filterfunktion Hb = H dyn / G (m, l, γSF(m, l)) liefert dann ein diskretes Signal S ^(m, l), aus dem sich durch eine der Transformation entsprechende Rücktransformation eine diskrete Signalfolge s ^(k) ableiten lässt, die dem gestörten Audiosignal x(k) entspricht, jedoch durch eine geringere zeitliche Audiosignal x(k) entspricht, jedoch durch eine geringere zeitliche Änderung der statistischen Eigenschaften der enthaltenen Störung gekennzeichnet ist, vgl. Block 6.
-
In 6 ist ein Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens dargestellt, welches zur Reduzierung einer zufälligen, kontinuierlichen, instationären Störung in einem Audiosignal dient, das durch eine amplitudenmodulierte Rauschstörung mit konstanter spektraler Färbung beeinträchtigt ist. Aus dem diskreten, gestörten Audiosignal x(k) wird durch eine schnelle Fouriertransformation (FFT) das diskrete Spektrum X(m, l) des gestörten Audiosignals im Betrachtungszeitpunkt l gewonnen, vgl. Block 10 X(m, l) wird auch als Repräsentationsform des gestörten Audiosignals bezeichnet. Anhand dieses diskreten Spektrums X(m, l) wird eine Schätzung der zum Betrachtungszeitpunkt l gültigen Auto-Rauschleistungsdichte, vorgenommen, welche ein Maß für den Störanteil n(k) im gestörten Audiosignal x(k) ist. Diese Schätzung erfolgt in zwei Schritten:
- – In einem ersten Schritt wird durch eines der bekannten Schätzverfahren ein Schätzwert Φ ^NN(m) der stationären Auto-Rauschleistungsdichte ermittelt, die die spektrale Färbung, nicht aber den zeitlichen Verlauf der Störung beschreibt, Block 22.
- – In einem zweiten Schritt wird dann eine Größe bestimmt, welche die Instationarität der Störung kennzeichnet, Block 24. Zu diesem Zweck wird aus der geschätzten Auto-Rauschleistungsdichte Φ ^NN(m) und dem Spektrum X(m, l) des gestörten Audiosignals ein zeitvarianter Modulationsfaktor α(m, l) bestimmt, der die Amplitudenmodulation der Störung beschreibt, beispielsweise
-
Durch Multiplikation der geschätzten, stationären Auto-Rauschleistungsdichte Φ ^NN(m, l) mit diesem Modulationsfaktor ergibt sich dann der gesuchte Schätzwert Φ ^NN(m, l) der tatsächlichen Auto-Rauschleistungsdichte ΦNN(m, l), Block 26: Φ ^NN(m, l) = α(m, l)·Φ ^NN(m). (12)
-
Hieraus erfolgt unter Einbeziehung der aktuellen, diskreten Fouriertransformierten X(m, l) des gestörten Audiosignals x(k) die Bestimmung einer Filterfunktion H dyn / G (m, l) für den aktuellen Betrachtungszeitpunkt l mittels eines geeigneten Ansatzes, beispielsweise mittels des bekannten Ansatzes nach Wiener, Block 30.
-
Die Filterfunktion H dyn / G (m, l) wird im Folgenden mittels einer dynamisch an die Eigenschaften der Störung angepassten Beschränkungsfunktion, γSF(m, l) in ihrer Amplitude beschränkt, die sich beispielsweise aus dem zuvor berechneten Modulationsfaktor α(m, l) entsprechend γSF(m, l) ~ (α(m, l))β (13) mit –5 < β < +5; besonders bevorzugt ist β = –1/2, proportional verhält, Block 40.
-
Mittels der auf diese Weise gewonnenen Beschränkungsfunktion lässt sich dann die dynamisch beschränkte Filterfunktion Hb gemäß Gleichung (10) bestimmen, Block 40.
-
In einem weiteren Schritt wird anschließend die diskrete Fouriertransformierte des gestörten Signals X(m, l) mit der zuvor bestimmten, beschränkten Filterfunktion Hb multipliziert, vgl. Block 50. Aus der sich ergebenden Schätzung S ^(m, l) lässt sich abschließend durch eine inverse, schnelle Fouriertransformation (IFFT) ein Signal s ^(k) bestimmen, Block 60, das dem gestörten Audiosignal durch eine verringerte Modulation der Störung, nämlich eine geringere zeitliche Änderung der statistischen Eigenschaften der enthaltenen Störung, und durch eine von der Beschränkungsfunktion γSF(m, l) abhängige Geräuschreduktion gekennzeichnet ist.
-
7a zeigt den zeitlichen Verlauf eines Störanteils n(k), der einem beliebigen diskreten, ungestörten Nutzanteil s(k) überlagert ist (zeitlicher Verlauf des instationären Rauschanteils eines zufällig kontinuierlich, instationär gestörten Audiosignals). Wird ein derart zusammengesetztes, diskretes, zufällig, kontinuierlich und instationär gestörtes Audiosignal x(k) = s(k) + n(k) mittels eines in der Beschreibungseinleitung genannten bekannten Verfahrens bearbeitet, so ergibt sich ein Störanteil, der in 7b dargestellt ist (resultierendes, instationäres Restrauschen nach einer Bearbeitung des gestörten Signals entsprechend des Stands der Technik (2. bekanntes Verfahren)). Wird demgegenüber das instationär gestörte Audiosignal x(k) mit dem erfindungsgemäßen Verfahren bearbeitet, so ergibt sich nach der Bearbeitung der in 7c dargestellte resultierende Störanteil der einen über die Zeit gleichförmigen, stationären Charakter aufweist (resultierendes, stationäres Restrauschen nach einer Bearbeitung des gestörten Signals mit dem erfindungsgemäßen Verfahren); die in den 7a und 7b vorhandene typische Instationarität des Signals ist gemäß 7c erfolgreich beseitigt.
-
Zur Erklärung der Funktionsweise des erfindungsgemäßen Verfahrens soll im Folgenden von einem Audiosignal x(k) ausgegangen werden, welches blockweise verarbeitet wird, dessen Repräsentation X(m, l) dem Quadrat der blockweisen Fouriertransformation entspricht. Das Audiosignal x(k) soll aus einer instationären Störung n(k) bzw. N(m, l) bestehen und kein Nutzsignal s(k) enthalten. Somit gilt für die diskrete Frequenz m, (mit i = 1, 2, 3 ...) und die diskreten Zeitpunkte l, die den einzelnen Signalblöcken zugeordnet sind: X(mi, l) = N(mi, l) (14)
-
Exemplarisch ist in den zugehörigen Abbildungen, 8a, 9a, 10a der zeitliche Verlauf N(mi, l) für eine diskrete Frequenz mi wiedergegeben.
-
Bei Einsatz des bekannten Verfahrens mit begrenzter STSA wird aus der stationären Schätzung der Auto-Rauschleistungsdichte N ^(mi) in Teilbild 8a (Repräsentation der Rauschstörung N ^(mi, l) einer direkten Frequenz mi (Betragsquadrat der Fouriertransformierung) und deren stationäre Schätzung N ^(mi) in Abhängigkeit von der Zeit l), gestrichelt und dem Störsignal eine Filterfunktion HG anhand eines geeigneten Verfahrens (beispielsweise nach Wiener) berechnet, Teilbild 8b (resultierende Filterfunktion HG(mi, l) einer diskreten Frequenz mi und zugehöriger, stationärer spektraler Boden γSF(mi) in Abhängigkeit von der Zeit l). In den Bereichen, in denen die reale Rauschrepräsentation N ^(mi, l) die stationäre Schätzung N ^(mi) unterschreitet, nimmt die Filterfunktion HG(mi, l) einen Wert nahe Null an, die Rauschstörung wird zu diesen Zeitpunkten l annähernd vollständig unterdrückt. Für diejenigen Zeitpunkte l in denen die Repräsentation der realen Rauschleistungsdichte N(mi, l) größer als die Schätzung ist, nimmt die Filterfunktion HG(mi, l) hingegen einen Wert nahe Eins an, da ein Teil des aktuellen Rauschsignals als Nutzsignal interpretiert wird.
-
Begrenzt man diese Filterfunktion gemäß dem STSA-Verfahren auf eine konstante, zeitlich also unveränderliche untere Grenze γSF(mi), so ergibt sich ein zeitlicher Verlauf gemäß Teilbild 8c (resultierende, beschränkte Filterfunktion HG(mi, l, γSF(mi)) einer diskreten Frequenz mi in Abhängigkeit von der Zeit l.
-
Wendet man die so erzeugte Filterfunktion HG(mi, l, γSF(mi)) auf das Störsignal an, so ergibt sich als Ausgangsignal wiederum eine instationäre Reststörung, vgl. Teilbild 8d (resultierende Reststörung im Ausgangssignal S ^(mi, l) in Abhängigkeit von der Zeit l).
-
In 9 ist die schematische Wirkungsweise des Verfahrens gemäß 8 dargestellt, bei dem jedoch die einmalig geschätzte, und somit stationäre Repräsentation der Autorauschleistungsdichte N ^(mi) durch eine dynamische, d. h. durch eine die zeitlichen Änderungen der Störung beschreibende Schätzung der Autorauschleistungsdichte N ^(mi, l) ersetzt wird. Insbesondere zeigt 9 eine schematische Wirkungsweise einer Ausführungsform des bekannten Verfahrens bei Verwendung einer Abschätzung des aktuell enthaltenen Störsignalanteils, welcher die zeitliche Änderung der Störung beschreibt, zur Bestimmung der Filterfunktion H dyn / G (m, l) und deren Beschränkung mittels einer zeitlich konstanten Beschränkungsfunktion γSF(m). 9a zeigt beispielsweise eine Repräsentation der Rauschstörung N(mi, l) (Betragsquadrat der Fouriertransformation) einer diskreten Frequenz mi und der Einschätzung durch das erfindungsgemäße Verfahren in Abhängigkeit von der Zeit l. Desweiteren zeigt 9b eine resultierende Filterfunktion H dyn / G (mi, l) einer diskreten Frequenz mi und zugehöriger, stationärer spektraler Boden γSF(mi) in Abhängigkeit von der Zeit l. Als Filterfunktion H dyn / G (mi, l) wird beispielsweise mittels des Ansatzes nach Wiener eine Funktion gewonnen, die durch eine konstante Beschränkungsfunktion γSF(mi) gemäß Gleichung (7) auf eine zeitlich unveränderliche Untergrenze festgelegt wird, vgl. 9c (resultierende Filterfunktion H dyn / G (mi, l, γSF(mi)) einer diskreten Frequenz mi in Abhängigkeit von der Zeit l). Erfährt das Filtersignal eine Filterung mit der beschränkten Filterfunktion H dyn / G (mi, l, γSF(mi)), so enthält das bearbeitete Signal gemäß 9b eine restliche Störung, deren Amplitude gegenüber der Amplitude nach 8d deutlich reduziert ist, wobei jedoch die Instationarität des Störsignals nicht beseitigt ist (9d zeigt eine resultierende Reststörung im Ausgangssignal S ^(mi, l) in Abhängigkeit von der Zeit l.
-
Ergänzt man das anhand der 9a bis 9d beschriebene Verfahren um einen weiteren Schritt, so erhält man das erfindungsgemäße Verfahren gemäß 10. Beschränkt man die Filterfunktion H dyn / G (mi, l) gemäß der 9b mittels einer zeitlich veränderlichen Beschränkungsfunktion γSF(mi, l) beispielsweise gemäß Gleichung (13), so ist es möglich, eine Reststörung im Ausgangssignal zu erreichen, die nahezu oder vollständig stationär ist, die zeitliche Instationarität des Signals n(k) also nicht mehr enthält. Aus der Schätzung N(mi, l), welche die zeitliche Änderung der Störung beschreibt, 10a (zum Beispiel zeigt 10a zeigt eine Repräsentation der Rauschstörung N ^(mi, l) (Betragsquadrat der Fouriertransformation) einer diskreten Frequenz mi und deren Schätzung N ^(mi, l) durch das erfindungsgemäße Verfahren in Abhängigkeit von der Zeit l), und aus dem gestörten Signal X(m, l) wird die Filterfunktion H dyn / G (mi, l) bestimmt, vgl. 10b (eine resultierende Filterfunktion H dyn / G (mi, l) einer diskreten Frequenz mi und nach dem erfindungsgemäßen Verfahren bestimmter instationärer, spektraler Boden γSF(mi, l) in Abhängigkeit von der Zeit l). Diese wird durch eine zeitlich veränderliche Beschränkungsfunktion γSF(mi, l) gemäß Gleichung (10) beschränkt, so dass sich hieraus die dynamisch beschränkte Filterfunktion Hb = H dyn / G (mi, l, γSF(mi, l)) gemäß den Gleichungen (10) und (13) ergibt, vgl. 10c (eine resultierende, dynamische begrenzte Filterfunktion H dyn / G (mi, l, γSF(mi, l)) einer diskreten Frequenz mi in Abhängigkeit von der Zeit l). Die Filterung des Eingangssignals mit dieser Filterfunktion führt nun zu einem bearbeiteten Signal, das nur noch eine stationäre Reststörung enthält, vgl. 10d (eine resultierende Reststörung im Ausgangssignal S ^(mi, l) in Abhängigkeit von der Zeit l).