DE10157535B4

DE10157535B4 - Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen

Info

Publication number: DE10157535B4
Application number: DE2001157535
Authority: DE
Inventors: Jan Rademacher; Jörg Bitzer
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-12-13
Filing date: 2001-11-23
Publication date: 2015-05-13
Anticipated expiration: 2021-11-24
Also published as: US20020186852A1; DE10157535A1; US7127072B2

Abstract

Verfahren zur Reduktion zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen, die in diskreter Form vorliegen oder aus der Abtastung eines analogen zufällig, kontinuierlich, instationär gestörten Audiosignals gewonnen werden, wobei das gestörte Audiosignal mittels einer Filterfunktion gefiltert wird, dadurch gekennzeichnet, dass die Filterfunktion dynamisch unter Berücksichtigung der aktuellen Eigenschaften des Nutz- und Störanteils des gestörten Audiosignals bestimmt wird, wobei der Betrag der Filterfunktion nicht auf einen konstanten Mindest-Betragswert beschränkt wird, sondern einen dynamisch an die aktuellen, zeitlich veränderlichen Eigenschaften des im gestörten Audiosignal enthaltenen Störanteils angepassten Mindest-Betragswert aufweist.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Reduktion von Störungen in Audiosignalen, wobei die Störung eine zufällige, instationäre Störgröße n(k) darstellt, die zu allen Zeitpunkten k dem Nutzanteil s(k) des Audiosignals x(k) überlagert ist. Derartige Störungen werden im Folgenden als zufällig, kontinuierlich und instationär bezeichnet. Dabei liegen die Audiosignale entweder in diskreter Form vor oder werden aus der Abtastung eines analogen zufällig, kontinuierlich, instationär gestörten Audiosignals gewonnen.
Audiosignale sind oftmals durch zufällige, kontinuierliche stationäre und/oder instationäre Störungen – im folgenden kurz auch als Störgeräusche oder Rauschstörungen bezeichnet – beeinträchtigt, die die Qualität des Signals negativ beeinflussen. Die Reduzierung bzw. Entfernung dieser Störgeräusche erfolgt üblicherweise durch die Filterung des gestörten Audiosignals mittels einer Filterfunktion, bei der das gefilterte Ausgangssignal das geräuschreduzierte bzw. ungestörte Audiosignal möglichst gut approximieren soll. Die Berechnung der Filter funktion erfolgt dabei unter der Annahme der Stationarität des Störsignals.
Im Rahmen der vorliegenden Patentanmeldung wird von der Annahme ausgegangen, dass sich das zufällig, kontinuierlich und instationär gestörte, diskrete. Audiosignal x(k), welches aus der Abtastung eines analogen, gestörten Audiosignals x(t) an den diskreten Abtastzeitpunkten k unter Beachtung des Nyquist-Theorems hervorgegangen ist, additiv aus einem diskreten, ungestörten Audiosignal s(k), dem Nutzanteil des Audiosignals, und einem diskreten, zufälligen, kontinuierlichen Störsignal n(k), dem Störanteil des Audiosignals, zusammensetzt, wobei n(k) stationäre und instationäre Rauschanteile umfassen kann: x(k) = s(k) + n(k) (1)
Ein bekanntes Verfahren zur Reduzierung bzw. Entfernung derartiger, zufälliger, kontinuierlicher Störungen, das sogenannte Verfahren zur kurzzeitigen spektralen Dämpfung – im folgenden kurz Short Time Spectral Attenuation (STSA) genannt – ist in dem Blockschaltbild gemäß 1 wiedergegeben. Dargestellt ist die Bearbeitung eines Audiosignals x(k), welches als Abtastsignal x(k) des analogen, gestörten Audiosignals x(t) an den Abtastzeitpunkten k gewonnen wird.
X(m, l), S(m, l) und N(m, l) sind die den diskreten Signalen x(k), s(k) und n(k) entsprechenden Funktionen beispielsweise im Frequenzbereich, wobei m die diskrete Frequenz bedeutet. Alternativ kann m jedoch ein anderer Parameter sein, der eine äquivalente Beschreibung der diskreten Zeitsignale x(k), s(k) und n(k) ermöglicht. l ist die diskrete Zeit des jeweils betrachteten Signalblockes bei der üblichen blockweisen Signalverarbeitung. Im Frequenzbereich gilt daher entsprechend X(m, l) = S(m, l) + N(m, l) (2)
Das diskrete Audiosignal x(k) wird bei diesem bekannten Verfahren in einem ersten Schritt, mittels einer diskreten Fouriertransformation in den Frequenzbereich transformiert, Block 1, so dass sich die diskrete Frequenzbereichsdarstellung X(m, l) ergibt. Aus dieser diskreten Spektraldarstellung erfolgt bei dem dargestellten Stand der Technik eine einzige und somit stationäre Schätzung Φ ^_NN(m) der diskreten Autorauschleistungsdichte Φ_NN(m) durch ein bekanntes Schätzverfahren, Block 2, bei dem beispielsweise eine

(3a) Schätzung der Autorauschleistungsdichte innerhalb (annähernd) nutzsignalfreier Passagen des gestörten Signals oder eine
(3b) sog. direkte Schätzung

Die geschätzte diskrete Autorauschleistungsdichte Φ ^_NN(m) ergibt sich aus einem diskreten, zufällig, kontinuierlich gestörten Audiosignal entsprechend des in (3a) genannten Verfahrens durch Auswertung annähernd audiosignalfreier Passagen des gestörten Signals, in denen näherungsweise gilt x(k) ≈ n(k), da s(k) ≈ 0.(3)
Unter Ausnutzung der Linearität der Fouriertransformation ergibt sich innerhalb dieser Abschnitte, in denen s(k) ≈ 0, eine Schätzung der diskreten Autorauschleistungsdichte gemäß Φ ^_NN(m) = Φ_XX(m). (4)
Hier bedeutet Φ_XX(m) die Autorauschleistungsdichte des gestörten Audiosignals.
Das alternative ”direkte Schätzung” genannte Verfahren (3b) wurde in „Steven L. Gay, Jacob Benesty: Acoustic Signal Processing for Telecommunication; Kluwer International Series in Engineering and Computer Science; Kapitel 9: Eric J. Diethorn: Subband Noise Reduction Methods for Speech Enhancement, März 2000, ISBN 0-7923-7814-8” vorgestellt und beruht auf einer beschränkten Verfolgung der Leistungsdichte des gestörten Signals.
Basierend auf der Schätzung der Autorauschleistungsdichte Φ ^_NN(m) und der diskreten Frequenzbereichsdarstellung X(m, l) des diskreten Audiosignals x(k) erfolgt bei diesem bekannten Verfahren die Bestimmung einer geeigneten Filterfunktion H_G(m, l), vgl. Block 3, bei der das abgegebene Signal das ungestörte Audiosignal s(k) möglichst genau approximiert. In diesem Zusammenhang sind verschiedene Berechnungsvorschriften zur Gewinnung der Filterfunktion H_G(m, l) bekannt, beispielsweise der

(6a) Ansatz nach Wiener, bei dem als Approximationskriterium der mittlere quadratische Fehler zwischen Nutzsignal und Schätzung verwendet wird oder der
(6b) Ansatz zur Amplituden-Subtraktion oder der
(6c) Ansatz zur Leistungs-Subtraktion,

Zur Bestimmung einer Schätzung s ^(k) des diskreten, ungestörten Nutzanteils s(k) erfolgt eine Filterung des diskreten Audiosignals x(k) mit der zuvor bestimmten Filterfunktion. Diese kann entweder im Zeitbereich durch die Faltung des diskreten, gestörten Signals x(k) mit der diskreten Impulsantwort der Filterfunktion h_G(k) realisiert werden s ^(k) = h_G(k)*x(k), (5) wobei * den Faltungsoperator darstellt oder wie in 1 dargestellt, im Frequenzbereich durch die Multiplikation der diskreten Übertragungsfunktion H_G(m, l) mit der diskreten Spektraldarstellung X(m, l) des diskreten, gestörten Audiosignals x(k, l), vgl. Block 4, S ^(m, l) = H_G(m, l)·X(m, l). (6)
Aus der derart bestimmten diskreten Schätzung S(m, l) wird die entsprechende Darstellung s ^(k) im Zeitbereich durch die inverse, diskrete Fouriertransformation gewonnen, vgl. Block 5, so dass das geräuschbefreite Signal ggf. mittels eines Digital-Analog-Wandlers in ein analoges, geräuschbefreites Signal umgesetzt werden kann.
Ein Nachteil dieses bekannten Verfahrens besteht darin, dass durch die Filterung des gestörten Audiosignals erneut Störungen in das geräuschbefreite Signal eingetragen werden, die durch die Filterung entstehen und zu unerwünschten sog. „Musical Tones” führen.
Ferner ist aus „M. Berouti, R. Schwartz & J. Makhoul; Enhancement of speech corrupted by acoustic noise; in Proc. IEEE ICASSP; Seite 208–211; Washington DC; 1979” ein weiteres Verfahren bekannt, das im folgenden anhand des Blockschaltbildes gemäß 2 beschrieben ist und welches in seinem Grundprinzip dem Verfahren gemäß 1 entspricht. Dieses bekannte Verfahren arbeitet auf folgende Weise:
Aus einer einmaligen und somit stationären Schätzung der Autorauschleistungsdichte Φ ^_NN(m), Block 2, und der diskreten Spektraldarstellung X(m, l), am Ausgang des Blocks 1 des diskreten Audiosignals x(k) wird die Filterfunktion H_G(m, l) ermittelt, Block 3. Vor der eigentlichen Filterung des gestörten Signals, Block 4, wird die Filterfunktion H_G(m, l) auf einen konstanten, frei gewählten minimalen Wert γ_SF(m) – auch als „spektraler Boden” bezeichnet –, d. h. auf eine maximale Geräuschreduktion, beschränkt, Block 6. Somit ergibt sich für die Filterung eine neue diskrete Filterfunktion H_G(m, l, γ_SF(m)), für die gilt:
Diese beschränkte Filterfunktion führt einerseits dazu, dass keine Geräuschbefreiung, sondern nur eine Reduktion der Störung möglich ist, andererseits wird die Entstehung von sog. Musical Tones deutlich reduziert.
Das durch die Filterung, Block 4, gewonnene diskrete, geräuschreduzierte Signalspektrum S ^(m, l) wird anschließend wie in dem Verfahren gemäß 1 durch eine inverse, diskrete Fouriertransformation, Block 5, in den Zeitbereich zurücktransformiert.
Bei beiden bekannten Verfahren erweist es sich als nachteilig, dass diese nur zur Entfernung bzw. Reduktion zufälliger, kontinuierlicher stationärer und ggf. zufälliger, kontinuierlicher langsam instationärer Störungen herangezogen werden können. Zeitliche Änderungen der statistischen Eigenschaften der diskreten Störung n(k) können nicht oder nur bei sehr langsamen Änderungen erfasst werden. Handelt es sich bei der überlagerten Störung jedoch beispielsweise um ein instationäres Rauschen, ergibt sich eine fehlerbehaftete Schätzung der Autorauschleistungsdichte. Hieraus resultiert eine fehlerhafte Bestimmung der Filterfunktion und somit eine Geräuschreduktion, die entweder das eigentliche ungestörte Signal s(k) beeinträchtigt und/oder das Störsignal n(k) nur unzureichend reduziert.
Bei Verwendung einer einmaligen und somit stationären Schätzung der Autorauschleistungsdichte innerhalb nutzsignalfreier Abschnitte ergibt sich eine fehlerhafte Autorauschleistungsdichte, da ein zufällig, kontinuierlich gestörtes Audiosignal in der Regel nicht ausreichend viele nutzsignalfreie Abschnitte aufweist, die eine fortlaufende Aktualisierung der Schätzung der Autorauschleistung erlauben. Somit kann der ermittelte Schätzwert den zeitlichen Änderungen der statistischen Eigenschaften des Rauschens keine Rechnung tragen. Zwar wird bei der geschilderten und bekannten „direkten Schätzung” die Autorauschleistungsdichte ständig aktualisiert, jedoch ist die Schätzung fehlerhaft bezüglich des instationären Rauschanteils, wie die diesbezüglichen Betrachtungen in „J. Meyer, K. U. Simmer and K. D. Kammeyer: Comparison of One- and Two-Channel Noise-Estimation Techniques; Proc. 5th International Workshop an Acoustic Echo and Noise Control (IWAENC-97), vol. 1, Seite 17–20, London, U. K., 11–12 September 1997” zeigen.
Aus dem US-Patent 5,852,567 ist ein weiteres Verfahren zur Reduzierung zufälliger, kontinuierlicher Störungen bekannt. Basierend auf einer Zeit-Frequenz-Transformation wird bei diesem Verfahren versucht, den Signal-Rauschabstand und die Charakteristika des instationären Nutzsignals zu verbessern. Wie bei den zuvor beschriebenen Verfahren erweist es sich auch bei diesem Verfahren als nachteilig, dass es ebenfalls entsprechend seines Entwicklungsziels nur zur Reduzierung von zufälligen, kontinuierlichen, stationären Störungen, nicht jedoch zur Reduzierung von zufälligen, kontinuierlichen, instationären Störungen herangezogen werden kann.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen anzugeben, mit dem Ziel, den instationären Rauschanteil im Audiosignal im Verhältnis zu dessen stationären Rauschanteil zu verringern.
Diese Aufgabe wird gelöst durch ein Verfahren gemäß Anspruch 1. Diese Aufgabe wird ferner gelöst durch eine Vorrichtung gemäß Anspruch 15.
Die Vorteile des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Vorrichtung bestehen darin, dass eine Repräsentation des gestörten Audiosignals derart bearbeitet wird, dass die zeitlichen Änderungen der statistischen Eigenschaften des Störanteils des bearbeiteten Audiosignals im Vergleich zum Störanteil des unbearbeiteten Audiosignals verringert werden. Es werden die zeitlichen Änderungen der statistischen Eigenschaften reduziert, so dass das Audiosignal nach der Bearbeitung nur noch durch eine zufällige, kontinuierliche, stationäre Reststörung beeinträchtigt wird und gegebenenfalls eine weitere Reduzierung des durchschnittlichen Rauschpegels zusätzlich vorgenommen werden kann. Bei der Bestimmung der Filterfunktion werden die aktuellen Eigenschaften des Nutz- und des Störsignalanteils berücksichtigt. Das Maß der Geräuschreduktion, also die Filterfunktion, wird nicht auf einen festen Amplitudenwert beschränkt, sondern durch eine Repräsentation der Störung oder einer direkt oder indirekt hieraus ableitbaren Größe dynamisch an die aktuellen zeitlich veränderlichen Eigenschaften des Störsignals angepasst.
Gemäß einer besonders bevorzugten Ausführungsform der Erfindung läßt sich eine Repräsentation der Störung bestimmen, die die zeitlichen Veränderungen der instationären statistischen Eigenschaften des Rauschens beschreibt.
Ein weiterer entscheidender Vorteil des erfindungsgemäßen Verfahrens ist die Einbeziehung der aktuellen Störsignaleigenschaften. Bisherige Verfahren berücksichtigen in diesem Zusammenhang nur einen zeitlich begrenzten Signalausschnitt, so dass sich den ändernden Eigenschaften des Störsignalanteils keine Rechnung getragen wurde.
Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der Unteransprüche gekennzeichnet.
Im Folgenden werden Ausführungsbeispiele der Erfindung anhand der Zeichnung näher erläutert. Es zeigen:
1 ein Blockschaltbild eines bekannten Verfahrens zur Reduzierung zufälliger kontinuierlicher Störungen in Audiosignalen;
2 ein Blockschaltbild eines weiteren bekannten Verfahrens zur Reduzierung zufälliger kontinuierlicher Störungen in Audiosignalen;
3 eine schematische Darstellung des erfindungsgemäßen Verfahrens;
4 ein Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens;
5 ein Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens;
6 ein Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens,
7a, bis 7c der typische zeitliche Verlauf des Störanteiles a) eines gestörten Audiosignales, b) des gemäß dem Stand der Technik bearbeiteten Audiosignales und c) des mit dem erfindungsgemäßen Verfahren bearbeiteten Audiosignales.
8 eine exemplarische Darstellung der Wirkungsweise des Verfahrens gemäß 2,
9 eine schematische Wirkungsweise einer Ausführungsform des bekannten Verfahrens bei Verwendung einer Abschätzung des aktuell enthaltenen Störsignalanteils, welcher die zeitliche Änderung der Störung beschreibt zur Bestimmung der Filterfunktion H dyn / G (m, l) und deren Beschränkung mittels einer zeitlich konstanten Beschränkungsfunktion γ_SF(m)
10 eine exemplarische Darstellung der Wirkungsweise einer Ausführungsform des erfindungsgemäßen Verfahrens.
3 und 4 zeigen ein schematisches Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens. Gemäß dem Blockschaltbild nach 3 wird aus einem diskreten, gestörten Audiosignal x(k) durch eine entsprechende Transformation, beispielsweise eine Transformation des Signals x(k) in den Frequenzbereich, eine zugehörige Repräsentation X(m, l) dieses Audiosignals bestimmt, Block 1. Die Variable l beschreibt in diesem Zusammenhang den aktuellen Betrachtungszeitpunkt. Diese Repräsentation wird in einer Bearbeitungseinheit 2 bearbeitet. Aus der Bearbeitung dieser Repräsentation entsprechend dem erfindungsgemäßen Verfahren ergibt sich die bearbeitete, neue Repräsentation S ^(m, l) des Audiosignals, die durch eine Verringerung der zeitlichen Änderungen der statistischen Eigenschaften des enthaltenen Störanteils gekennzeichnet ist. Schließlich wird dann durch eine entsprechende Rücktransformation der diskrete Signalverlauf s ^(k) gewonnen, der den diskreten, zeitlichen Verlauf des geräuschreduzierten Audiosignals als Funktion der diskreten Abtastzeitpunkte beschreibt.
Gemäß 4 wird aus einer Repräsentation des gestörten Audiosignals X₂(m, l), – die beispielsweise durch eine geeignete Abbildungsvorschrift aus der Repräsentation X(m, l) hervorgeht und das aus dem Zeitbereich in den Frequenzbereich transformierte Signal x(k) repräsentiert-, vgl. Block 5, und der Repräsentation N ^(m, l), die eine Schätzung der aktuellen Eigenschaften des Störsignalanteils im Frequenzbereich darstellt, in bekannter Weise unter Heranziehung der Schätzung N ^(m, l) des Störanteils des Audiosignals eine geeignete Filterfunktion H dyn / G (m, l) bestimmt. Zusätzlich wird die so bestimmte Filterfunktion H dyn / G (m, l) unter Heranziehung der Schätzung N ^(m, l) des Störanteils des Audiosignals dynamisch, d. h. zeitabhängig, beschränkt, vgl. Block 4 und 6. Das Superscript dyn kennzeichnet eine Filterfunktion, die durch Einbeziehung der aktuellen Eigenschaften des instationären Störanteils des Audiosignals gewonnen wird.
In einem weiteren Bearbeitungsschritt wird die Repräsentation X(m, l) des gestörten Audiosignals x(k) mit der beschränkten Filterfunktion gefiltert, vgl. Block 7, so dass sich ein bearbeitetes diskretes Signal S ^(m, l) ergibt. Aus dieser Repräsentation S ^(m, l) ergibt sich mittels einer geeigneten Rücktransformation ein diskreter Signalverlauf s ^(k), der dem diskreten, zeitlichen Verlauf des gestörten Audiosignals x(k) entspricht, jedoch durch eine geringere zeitliche Änderung der statistischen Eigenschaften der enthaltenen Störung gekennzeichnet ist.
5 zeigt das Blockschaltbild zur Realisierung einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens. Aus dem diskreten, gestörten Audiosignal x(k) wird jeweils zum Betrachtungszeitpunkt l beispielsweise durch eine Fouriertransformation eine geeignete Repräsentation X(m, l) dieses Audiosignals bestimmt, vgl. Block 1. Hieraus wird eine Schätzung N ^(m, l) des dem ungestörten, diskreten Audiosignal s(k) überlagerten instationären, zufälligen und kontinuierlichen Störungsanteil n(k) gewonnen, vgl. Block 4, welche die aktuellen statistischen Eigenschaften des instationären Rauschens beschreibt. Unter Verwendung der Schätzung N ^(m, l) wird, unter Heranziehung der Repräsentation des gestörten Signals X(m, l) – die gegebenenfalls durch eine geeignete Abbildungsvorschrift (nicht dargestellt) zusätzlich verändert wird – eine geeignete Filterfunktion H dyn / G (m, l) bestimmt, vgl. Block 8, die im Gegensatz zu den bekannten Verfahren die Instationaritat des Störanteils berücksichtigt. Diese Filterfunktion H dyn / G (m, l) wird im folgenden Schritt auf einen minimalen Wert γ_SF(m, l) beschränkt, vgl. Block 9. Diese Grenze – auch Beschränkungsfunktion genannt – ist nicht konstant, sondern bestimmt sich dynamisch in Abhängigkeit von einer direkten oder indirekten Repräsentation der Störung γ_SF(m, l) = f(N ^(m, l)). (8)
Besonders bevorzugt läßt sich zur Berechnung von γ_SF(m, l) zusätzlich auch noch eine Repräsentation des gestörten Audiosignals x(k) heranziehen. Es gilt dann γ_SF(m, l) = f (N ^(m, l), X(m, l)). (9)
Für die derart beschränkte Filterfunktion H_b gilt dann:
Eine geeignete Verknüpfung – beispielweise eine Multiplikation – einer Repräsentation X(m, l) des gestörten Audiosignals x(k) mit der zuvor ermittelten beschränkten Filterfunktion H_b = H dyn / G (m, l, γ_SF(m, l)) liefert dann ein diskretes Signal S ^(m, l), aus dem sich durch eine der Transformation entsprechende Rücktransformation eine diskrete Signalfolge s ^(k) ableiten lässt, die dem gestörten Audiosignal x(k) entspricht, jedoch durch eine geringere zeitliche Audiosignal x(k) entspricht, jedoch durch eine geringere zeitliche Änderung der statistischen Eigenschaften der enthaltenen Störung gekennzeichnet ist, vgl. Block 6.
In 6 ist ein Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens dargestellt, welches zur Reduzierung einer zufälligen, kontinuierlichen, instationären Störung in einem Audiosignal dient, das durch eine amplitudenmodulierte Rauschstörung mit konstanter spektraler Färbung beeinträchtigt ist. Aus dem diskreten, gestörten Audiosignal x(k) wird durch eine schnelle Fouriertransformation (FFT) das diskrete Spektrum X(m, l) des gestörten Audiosignals im Betrachtungszeitpunkt l gewonnen, vgl. Block 10 X(m, l) wird auch als Repräsentationsform des gestörten Audiosignals bezeichnet. Anhand dieses diskreten Spektrums X(m, l) wird eine Schätzung der zum Betrachtungszeitpunkt l gültigen Auto-Rauschleistungsdichte, vorgenommen, welche ein Maß für den Störanteil n(k) im gestörten Audiosignal x(k) ist. Diese Schätzung erfolgt in zwei Schritten:

– In einem ersten Schritt wird durch eines der bekannten Schätzverfahren ein Schätzwert Φ ^_NN(m) der stationären Auto-Rauschleistungsdichte ermittelt, die die spektrale Färbung, nicht aber den zeitlichen Verlauf der Störung beschreibt, Block 22.
– In einem zweiten Schritt wird dann eine Größe bestimmt, welche die Instationarität der Störung kennzeichnet, Block 24. Zu diesem Zweck wird aus der geschätzten Auto-Rauschleistungsdichte Φ ^_NN(m) und dem Spektrum X(m, l) des gestörten Audiosignals ein zeitvarianter Modulationsfaktor α(m, l) bestimmt, der die Amplitudenmodulation der Störung beschreibt, beispielsweise

Durch Multiplikation der geschätzten, stationären Auto-Rauschleistungsdichte Φ ^_NN(m, l) mit diesem Modulationsfaktor ergibt sich dann der gesuchte Schätzwert Φ ^_NN(m, l) der tatsächlichen Auto-Rauschleistungsdichte Φ_NN(m, l), Block 26: Φ ^_NN(m, l) = α(m, l)·Φ ^_NN(m). (12)
Hieraus erfolgt unter Einbeziehung der aktuellen, diskreten Fouriertransformierten X(m, l) des gestörten Audiosignals x(k) die Bestimmung einer Filterfunktion H dyn / G (m, l) für den aktuellen Betrachtungszeitpunkt l mittels eines geeigneten Ansatzes, beispielsweise mittels des bekannten Ansatzes nach Wiener, Block 30.
Die Filterfunktion H dyn / G (m, l) wird im Folgenden mittels einer dynamisch an die Eigenschaften der Störung angepassten Beschränkungsfunktion, γ_SF(m, l) in ihrer Amplitude beschränkt, die sich beispielsweise aus dem zuvor berechneten Modulationsfaktor α(m, l) entsprechend γ_SF(m, l) ~ (α(m, l))^β (13) mit –5 < β < +5; besonders bevorzugt ist β = –1/2, proportional verhält, Block 40.
Mittels der auf diese Weise gewonnenen Beschränkungsfunktion lässt sich dann die dynamisch beschränkte Filterfunktion H_b gemäß Gleichung (10) bestimmen, Block 40.
In einem weiteren Schritt wird anschließend die diskrete Fouriertransformierte des gestörten Signals X(m, l) mit der zuvor bestimmten, beschränkten Filterfunktion H_b multipliziert, vgl. Block 50. Aus der sich ergebenden Schätzung S ^(m, l) lässt sich abschließend durch eine inverse, schnelle Fouriertransformation (IFFT) ein Signal s ^(k) bestimmen, Block 60, das dem gestörten Audiosignal durch eine verringerte Modulation der Störung, nämlich eine geringere zeitliche Änderung der statistischen Eigenschaften der enthaltenen Störung, und durch eine von der Beschränkungsfunktion γ_SF(m, l) abhängige Geräuschreduktion gekennzeichnet ist.
7a zeigt den zeitlichen Verlauf eines Störanteils n(k), der einem beliebigen diskreten, ungestörten Nutzanteil s(k) überlagert ist (zeitlicher Verlauf des instationären Rauschanteils eines zufällig kontinuierlich, instationär gestörten Audiosignals). Wird ein derart zusammengesetztes, diskretes, zufällig, kontinuierlich und instationär gestörtes Audiosignal x(k) = s(k) + n(k) mittels eines in der Beschreibungseinleitung genannten bekannten Verfahrens bearbeitet, so ergibt sich ein Störanteil, der in 7b dargestellt ist (resultierendes, instationäres Restrauschen nach einer Bearbeitung des gestörten Signals entsprechend des Stands der Technik (2. bekanntes Verfahren)). Wird demgegenüber das instationär gestörte Audiosignal x(k) mit dem erfindungsgemäßen Verfahren bearbeitet, so ergibt sich nach der Bearbeitung der in 7c dargestellte resultierende Störanteil der einen über die Zeit gleichförmigen, stationären Charakter aufweist (resultierendes, stationäres Restrauschen nach einer Bearbeitung des gestörten Signals mit dem erfindungsgemäßen Verfahren); die in den 7a und 7b vorhandene typische Instationarität des Signals ist gemäß 7c erfolgreich beseitigt.
Zur Erklärung der Funktionsweise des erfindungsgemäßen Verfahrens soll im Folgenden von einem Audiosignal x(k) ausgegangen werden, welches blockweise verarbeitet wird, dessen Repräsentation X(m, l) dem Quadrat der blockweisen Fouriertransformation entspricht. Das Audiosignal x(k) soll aus einer instationären Störung n(k) bzw. N(m, l) bestehen und kein Nutzsignal s(k) enthalten. Somit gilt für die diskrete Frequenz m, (mit i = 1, 2, 3 ...) und die diskreten Zeitpunkte l, die den einzelnen Signalblöcken zugeordnet sind: X(m_i, l) = N(m_i, l) (14)
Exemplarisch ist in den zugehörigen Abbildungen, 8a, 9a, 10a der zeitliche Verlauf N(m_i, l) für eine diskrete Frequenz m_i wiedergegeben.
Bei Einsatz des bekannten Verfahrens mit begrenzter STSA wird aus der stationären Schätzung der Auto-Rauschleistungsdichte N ^(m_i) in Teilbild 8a (Repräsentation der Rauschstörung N ^(m_i, l) einer direkten Frequenz m_i (Betragsquadrat der Fouriertransformierung) und deren stationäre Schätzung N ^(m_i) in Abhängigkeit von der Zeit l), gestrichelt und dem Störsignal eine Filterfunktion H_G anhand eines geeigneten Verfahrens (beispielsweise nach Wiener) berechnet, Teilbild 8b (resultierende Filterfunktion H_G(m_i, l) einer diskreten Frequenz m_i und zugehöriger, stationärer spektraler Boden γ_SF(m_i) in Abhängigkeit von der Zeit l). In den Bereichen, in denen die reale Rauschrepräsentation N ^(m_i, l) die stationäre Schätzung N ^(m_i) unterschreitet, nimmt die Filterfunktion H_G(m_i, l) einen Wert nahe Null an, die Rauschstörung wird zu diesen Zeitpunkten l annähernd vollständig unterdrückt. Für diejenigen Zeitpunkte l in denen die Repräsentation der realen Rauschleistungsdichte N(m_i, l) größer als die Schätzung ist, nimmt die Filterfunktion H_G(m_i, l) hingegen einen Wert nahe Eins an, da ein Teil des aktuellen Rauschsignals als Nutzsignal interpretiert wird.
Begrenzt man diese Filterfunktion gemäß dem STSA-Verfahren auf eine konstante, zeitlich also unveränderliche untere Grenze γ_SF(m_i), so ergibt sich ein zeitlicher Verlauf gemäß Teilbild 8c (resultierende, beschränkte Filterfunktion H_G(m_i, l, γ_SF(m_i)) einer diskreten Frequenz m_i in Abhängigkeit von der Zeit l.
Wendet man die so erzeugte Filterfunktion H_G(m_i, l, γ_SF(m_i)) auf das Störsignal an, so ergibt sich als Ausgangsignal wiederum eine instationäre Reststörung, vgl. Teilbild 8d (resultierende Reststörung im Ausgangssignal S ^(m_i, l) in Abhängigkeit von der Zeit l).
In 9 ist die schematische Wirkungsweise des Verfahrens gemäß 8 dargestellt, bei dem jedoch die einmalig geschätzte, und somit stationäre Repräsentation der Autorauschleistungsdichte N ^(m_i) durch eine dynamische, d. h. durch eine die zeitlichen Änderungen der Störung beschreibende Schätzung der Autorauschleistungsdichte N ^(m_i, l) ersetzt wird. Insbesondere zeigt 9 eine schematische Wirkungsweise einer Ausführungsform des bekannten Verfahrens bei Verwendung einer Abschätzung des aktuell enthaltenen Störsignalanteils, welcher die zeitliche Änderung der Störung beschreibt, zur Bestimmung der Filterfunktion H dyn / G (m, l) und deren Beschränkung mittels einer zeitlich konstanten Beschränkungsfunktion γ_SF(m). 9a zeigt beispielsweise eine Repräsentation der Rauschstörung N(m_i, l) (Betragsquadrat der Fouriertransformation) einer diskreten Frequenz m_i und der Einschätzung durch das erfindungsgemäße Verfahren in Abhängigkeit von der Zeit l. Desweiteren zeigt 9b eine resultierende Filterfunktion H dyn / G (m_i, l) einer diskreten Frequenz m_i und zugehöriger, stationärer spektraler Boden γ_SF(m_i) in Abhängigkeit von der Zeit l. Als Filterfunktion H dyn / G (m_i, l) wird beispielsweise mittels des Ansatzes nach Wiener eine Funktion gewonnen, die durch eine konstante Beschränkungsfunktion γ_SF(m_i) gemäß Gleichung (7) auf eine zeitlich unveränderliche Untergrenze festgelegt wird, vgl. 9c (resultierende Filterfunktion H dyn / G (m_i, l, γ_SF(m_i)) einer diskreten Frequenz m_i in Abhängigkeit von der Zeit l). Erfährt das Filtersignal eine Filterung mit der beschränkten Filterfunktion H dyn / G (m_i, l, γ_SF(m_i)), so enthält das bearbeitete Signal gemäß 9b eine restliche Störung, deren Amplitude gegenüber der Amplitude nach 8d deutlich reduziert ist, wobei jedoch die Instationarität des Störsignals nicht beseitigt ist (9d zeigt eine resultierende Reststörung im Ausgangssignal S ^(m_i, l) in Abhängigkeit von der Zeit l.
Ergänzt man das anhand der 9a bis 9d beschriebene Verfahren um einen weiteren Schritt, so erhält man das erfindungsgemäße Verfahren gemäß 10. Beschränkt man die Filterfunktion H dyn / G (m_i, l) gemäß der 9b mittels einer zeitlich veränderlichen Beschränkungsfunktion γ_SF(m_i, l) beispielsweise gemäß Gleichung (13), so ist es möglich, eine Reststörung im Ausgangssignal zu erreichen, die nahezu oder vollständig stationär ist, die zeitliche Instationarität des Signals n(k) also nicht mehr enthält. Aus der Schätzung N(m_i, l), welche die zeitliche Änderung der Störung beschreibt, 10a (zum Beispiel zeigt 10a zeigt eine Repräsentation der Rauschstörung N ^(m_i, l) (Betragsquadrat der Fouriertransformation) einer diskreten Frequenz m_i und deren Schätzung N ^(m_i, l) durch das erfindungsgemäße Verfahren in Abhängigkeit von der Zeit l), und aus dem gestörten Signal X(m, l) wird die Filterfunktion H dyn / G (m_i, l) bestimmt, vgl. 10b (eine resultierende Filterfunktion H dyn / G (m_i, l) einer diskreten Frequenz m_i und nach dem erfindungsgemäßen Verfahren bestimmter instationärer, spektraler Boden γ_SF(m_i, l) in Abhängigkeit von der Zeit l). Diese wird durch eine zeitlich veränderliche Beschränkungsfunktion γ_SF(m_i, l) gemäß Gleichung (10) beschränkt, so dass sich hieraus die dynamisch beschränkte Filterfunktion H_b = H dyn / G (m_i, l, γ_SF(m_i, l)) gemäß den Gleichungen (10) und (13) ergibt, vgl. 10c (eine resultierende, dynamische begrenzte Filterfunktion H dyn / G (m_i, l, γ_SF(m_i, l)) einer diskreten Frequenz m_i in Abhängigkeit von der Zeit l). Die Filterung des Eingangssignals mit dieser Filterfunktion führt nun zu einem bearbeiteten Signal, das nur noch eine stationäre Reststörung enthält, vgl. 10d (eine resultierende Reststörung im Ausgangssignal S ^(m_i, l) in Abhängigkeit von der Zeit l).

Claims

Verfahren zur Reduktion zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen, die in diskreter Form vorliegen oder aus der Abtastung eines analogen zufällig, kontinuierlich, instationär gestörten Audiosignals gewonnen werden, wobei das gestörte Audiosignal mittels einer Filterfunktion gefiltert wird, dadurch gekennzeichnet, dass die Filterfunktion dynamisch unter Berücksichtigung der aktuellen Eigenschaften des Nutz- und Störanteils des gestörten Audiosignals bestimmt wird, wobei der Betrag der Filterfunktion nicht auf einen konstanten Mindest-Betragswert beschränkt wird, sondern einen dynamisch an die aktuellen, zeitlich veränderlichen Eigenschaften des im gestörten Audiosignal enthaltenen Störanteils angepassten Mindest-Betragswert aufweist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Abschätzung des Störanteils des gestörten Audiosignals erzeugt wird, welche die zeitliche Änderung der Störung beschreibt, dass aus der Abschätzung des Störanteils die unbeschränkte Filterfunktion H dyn / G (m, l) in an sich bekannter Weise bestimmt wird, dass eine Beschränkungsfunktion γ_SF(m, l) in Abhängigkeit von dem geschätzten Störanteil des gestörten Audiosignals erzeugt wird, und dass eine beschränkte Filterfunktion H_b erzeugt wird gemäß
und zur Filterung des gestörten Audiosignals verwendet wird, wobei m die betrachtete diskrete Spektralfrequenz oder ein anderer Parameter ist, der eine äquivalente Darstellung der Signale erlaubt und l die diskrete Zeit des jeweils betrachteten Signalblockes bei blockweiser Signalverarbeitung ist, wobei ein Block auch nur einen Abtastwert beinhalten kann.
Verfahren nach Anspruche 2, dadurch gekennzeichnet, dass die Beschränkungsfunktion γ_SF(m, l) in zeitlicher Abhängigkeit von der zeitlich veränderlichen Schätzung des Störanteils des gestörten Audiosignals erzeugt ist.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Beschränkungsfunktion γ_SF(m, l) in Abhängigkeit von der zeitlich veränderlichen, momentanen Störleistung des geschätzten Störanteils des gestörten Audiosignals erzeugt wird.
Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass die beschränkte Filterfunktion in einem Verfahrensschritt erzeugt wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Filterung des gestörten Audiosignals im Zeitbereich, im Frequenzbereich oder in einem anderen mathematisch beschreibbaren Signalraum ausgeführt wird.
Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass die unbeschränkte Filterfunktion H dyn / G (m, l) gemäß einem Ansatz nach Wiener bestimmt wird, bei dem als Approximationskriterium der mittlere quadratische Fehler zwischen Nutzsignal und Schätzung verwendet wird.
Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass die unbeschränkte Filterfunktion H dyn / G (m, l) nach dem Verfahren der Amplituden-Subtraktion bestimmt wird.
Verfahren nach einem der Ansprüche 2 bis 8, dadurch gekennzeichnet, dass das gestörte Audiosignal x(k) in den Frequenzbereich transformiert wird, anschließend der Störanteil N(m, l) des transformierten gestörten Audiosignals X(m, l) abgeschätzt wird, die unbeschränkte Filterfunktion H dyn / G (m, l) und die Beschränkungsfunktion γ_SF(m, l) erzeugt wird und daraus die beschränkte Filterfunktion H_b gebildet wird, anschließend das transformierte gestörte Audiosignal X(m, l) mit der beschränkten Filterfunktion H_b multipliziert und anschließend in den Zeitbereich zurücktransformiert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Filterfunktion H dyn / G (m, l) mittels eines bekannten Ansatzes unter Heranziehung einer Schätzung Φ ^_NN(m, l) der momentanen Autorauschleistungsdichte bestimmt wird.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass sich die Schätzung Φ ^_NN(m, l) der momentanen Autorauschleistungsdichte aus einer Gewichtung der Schätzung Φ ^_NN(m) mit einem zeitabhängigen Gewichtsfaktor α(m, l) zu Φ ^_NN(m, l) = α(m, l)·Φ ^_NN(m) bestimmt.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass der Gewichtsfaktor α(m, l) gemäß
ermittelt wird, wobei X(m, l) eine Repräsentation des gestörten Audiosignals ist.
Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass die dynamische Beschränkungsfunktion γ_SF(m, l) bestimmt wird zu γ_SF(m, l) ~ (α(m, l))^β, mit – 5 < β < 5.
Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass β = –1/2.
Vorrichtung zur Reduktion zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen, die in diskreter Form vorliegen oder aus der Abtastung eines analogen, zufällig, kontinuierlich, instationär gestörten Audiosignals gewonnen werden, wobei das gestörte Audiosignal mittels einer Filterfunktion gefiltert wird, gekennzeichnet durch eine Einrichtung (4; 22) zur Abschätzung des Nutz- und Störanteils des gestörten Audiosignals, wobei diese Abschätzung die zeitliche Änderung der statistischen Eigenschaften der Störung berücksichtigt, eine Einrichtung (8; 30) zur Erzeugung einer unbeschränkten Filterfunktion H dyn / G unter Berücksichtigung der zuvor ermittelten Abschätzung des Nutz- und Störanteils, welche die zeitlichen Änderungen der statistischen Eigenschaften der Störung berücksichtigt, eine Einrichtung (40) zur Erzeugung einer zeitabhängigen Beschränkungsfunktion γ_SF in Abhängigkeit von dem geschätzten Nutz- und Störanteil des gestörten Audiosignals, und eine Einrichtung (9; 40) zur Erzeugung einer beschränkten Filterfunktion H_b aus der unbeschränkten Filterfunktion H dyn / G und der zeitabhängigen Beschränkungsfunktion γ_SF, wobei der Betrag der Filterfunktion nicht auf einen konstanten Mindest-Betragswert beschränkt wird, sondern einen dynamisch an die aktuellen, zeitlich veränderlichen Eigenschaften des im gestörten Audiosignal enthaltenen Störanteils angepassten Mindest-Betragswert aufweist und ein Filter (7; 50) zur Filterung des gestörten Audiosignals mit der beschränkten Filterfunktion H_b
Vorrichtung nach Anspruch 15, dadurch gekennzeichnet, dass die Einrichtung (9; 40) die beschränkte Filterfunktion H_b gemäß
erzeugt, wobei m die betrachtete diskrete Signalfrequenz oder ein anderer Parameter ist, der eine äquivalente Darstellung der Signale erlaubt und l die diskrete Zeit des jeweiligen betrachteten Signalblockes bei blockweiser Signalverarbeitung ist.