DE102018117556B4

DE102018117556B4 - Einzelkanal-rauschreduzierung

Info

Publication number: DE102018117556B4
Application number: DE102018117556.6A
Authority: DE
Inventors: Markus Christoph
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2017-07-27
Filing date: 2018-07-20
Publication date: 2024-03-21
Anticipated expiration: 2038-07-21
Also published as: CN109308907B; CN109308907A; US20190035416A1; DE102018117556A1; US10692514B2

Abstract

Rauschreduzierungssystem, umfassend:einen Detektorblock (604, 605), der konfiguriert ist, um Rauschkomponenten in einem Eingangssignal zu erkennen und basierend darauf ein Signal-Rausch-Verhältnis-Spektrum des Eingangssignals zu erzeugen; undeinen Maskenblock (606-610), der betriebsmäßig mit dem Detektorblock (604, 605) gekoppelt und konfiguriert ist, um eine finale spektrale Rauschentfernungsmaske zu erzeugen und die finale spektrale Rauschentfernungsmaske auf das Eingangssignal anzuwenden, wenn Rauschkomponenten im Eingangssignal erkannt werden, wobei die finale spektrale Rauschentfernungsmaske konfiguriert ist, um die Rauschkomponenten im Eingangssignal zu unterdrücken, wenn sie angewendet wird; dadurch gekennzeichnet, dass der Maskenblock (606-610) Folgendes umfasst:einen ersten Auswertungsblock (606), der konfiguriert ist, um von dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals eine einfache spektrale Rauschentfernungsmaske zu erzeugen, wobei der erste Auswertungsblock (606) ferner konfiguriert ist, um das Signal-Rausch-Verhältnis-Spektrum des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert zu vergleichen und um eine von den Ergebnissen des Vergleichs abhängige Gewichtungsmaske bereitzustellen; undeinen Maskenmodifikationsblock (607), der konfiguriert ist, um die einfache spektrale Rauschentfernungsmaske abhängig von der Gewichtungsmaske zu modifizieren, um eine einmal modifizierte spektrale Rauschentfernungsmaske bereitzustellen.

Description

HINTERGRUND
1. Technisches Gebiet
Die Offenbarung bezieht sich auf ein Einzelkanal-Rauschreduzierungssystem und - verfahren (allgemein als „System“ bezeichnet).
2. Verwandte Technik
Systeme zur Fernfeldgeräuschaufnahme, auch als Fernfeldmikrofone oder Fernfeldmikrofonsysteme bezeichnet, sind so ausgelegt, dass sie Geräusche von einer erwünschten Geräuschquelle aufnehmen, die in einem größeren Abstand (z. B. mehrere Meter) zum Fernfeldmikrofon positioniert ist. Je größer der Abstand zwischen der Geräuschquelle und dem Fernfeldmikrofon, desto niedriger ist das erwünschte Geräusch-/Rauschverhältnis. Der Begriff „Rauschen“ beinhaltet im vorliegenden Fall Geräusche, die keine Informationen, Ideen oder Emotionen transportieren, z. B. keine Sprache oder Musik. Wenn das Rauschen unerwünscht ist, wird es auch als Rauschen bezeichnet. Wenn Sprache oder Musik in eine geräuschvolle Umgebung eingeführt wird, wie beispielsweise in ein Fahrzeug, eine Wohnung oder ein Büro, kann das im Innenraum vorhandene Rauschen eine unerwünschte störende Wirkung auf eine erwünschte Sprachkommunikation oder Musikpräsentation haben. Rauschreduzierung ist üblicherweise die Abschwächung unerwünschter Signale, kann aber auch die Verstärkung erwünschter Signale beinhalten. Erwünschte Signale können Sprachsignale sein, während unerwünschte Signale alle Geräusche in der Umgebung sein können, die die erwünschten Signale stören. Ein entsprechendes Verfahren zur Schallverarbeitung ist aus der Veröffentlichung US 2012 / 0 239 392 A1 bekannt, wobei das Erzeugen einer oder mehrerer Geräuschkomponentenschätzungen in Bezug auf eine elektrische Darstellung des Geräusches und das Erzeugen eines zugehörigen Konfidenzmaßes für die eine oder mehreren Geräuschkomponentenschätzungen vorgesehen ist. Das Verfahren umfasst weiterhin das Verarbeiten des Tons auf der Grundlage des Konfidenzmaßes. Im Zusammenhang mit der Rauschreduzierung gibt es drei Hauptansätze: Direktionale Strahlformung, spektrale Subtraktion und tonhöhenabhängige Sprachverbesserung. Systeme, die für den Empfang von sich räumlich ausbreitenden Signalen konzipiert sind, stoßen häufig auf das Vorhandensein von Störsignalen. Wenn das erwünschte Signal und die Störer das gleiche zeitliche Frequenzband belegen, kann zeitliche Filterung nicht verwendet werden, um das erwünschte Signal vom Störer zu trennen. Es ist erwünscht, Systeme und Verfahren zur Rauschreduzierung zu verbessern.
KURZDARSTELLUNG
Ein Rauschreduzierungssystem beinhaltet einen Detektorblock, der konfiguriert ist, um Rauschkomponenten in einem Eingangssignal zu erkennen und basierend darauf ein Signal-Rausch-Verhältnis-Spektrum des Eingangssignals zu erzeugen; und einen Maskenblock, der betriebsmäßig mit dem Detektorblock gekoppelt und konfiguriert ist, um eine finale spektrale Rauschentfernungsmaske zu erzeugen und die finale spektrale Rauschentfernungsmaske auf das Eingangssignal anzuwenden, wenn Rauschkomponenten im Eingangssignal erkannt werden, wobei die finale spektrale Rauschentfernungsmaske konfiguriert ist, um die Rauschkomponenten im Eingangssignal zu unterdrücken, wenn sie angewendet wird. Der Maskenblock umfasst einen ersten Auswertungsblock, der konfiguriert ist, um von dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals eine einfache spektrale Rauschentfernungsmaske zu erzeugen, wobei der erste Auswertungsblock ferner konfiguriert ist, um das Signal-Rausch-Verhältnis-Spektrum des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert zu vergleichen und um eine von den Ergebnissen des Vergleichs abhängige Gewichtungsmaske bereitzustellen; und einen Maskenmodifikationsblock, der konfiguriert ist, um die einfache spektrale Rauschentfernungsmaske abhängig von der Gewichtungsmaske zu modifizieren, um eine einmal modifizierte spektrale Rauschentfernungsmaske bereitzustellen
Ein Rauschreduzierungsverfahren beinhaltet ein Erkennen von Rauschkomponenten in einem Eingangssignal und basierend darauf Erzeugen eines Signal-Rausch-Verhältnis-Spektrums des Eingangssignals; sowie ein Erzeugen einer finalen spektralen Rauschentfernungsmaske und Anwenden der finalen spektralen Rauschentfernungsmaske auf das Eingangssignal, wenn Rauschkomponenten im Eingangssignal erkannt werden, wobei die finale spektrale Rauschentfernungsmaske konfiguriert ist, um die Rauschkomponenten im Eingangssignal zu unterdrücken, wenn sie angewendet wird. Das Erzeugen der finalen spektralen Rauschentfernungsmaske umfasst das Erzeugen einer einfachen spektralen Rauschentfernungsmaske von dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals, Vergleichen des Signal-Rausch-Verhältnis-Spektrums des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert und Bereitstellen einer von den Ergebnissen des Vergleichs abhängige Gewichtungsmaske; und Modifizieren der einfachen spektralen Rauschentfernungsmaske abhängig von der Gewichtungsmaske, um eine einmal modifizierte spektrale Rauschentfernungsmaske bereitzustellen.
Andere Systeme, Verfahren, Merkmale und Vorteile sind bzw. werden für den Fachmann bei Durchsicht der folgenden detaillierten Beschreibung und der beigefügten Figuren ersichtlich. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in dieser Beschreibung beinhaltet sind, in den Anwendungsbereich der Erfindung fallen und durch die folgenden Ansprüche geschützt sind.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Das System kann unter Bezugnahme auf die folgenden Zeichnungen und die Beschreibung besser verstanden werden. In den Figuren bezeichnen gleiche Bezugszeichen entsprechende Teile in den verschiedenen Ansichten.

1 ist eine schematische Darstellung, die ein beispielhaftes Fernfeldmikrofonsystem zeigt.
2 ist eine schematische Darstellung, die einen beispielhaften akustischen Echokompensator zeigt, der in das Fernfeldmikrofonsystem, wie in 1 gezeigt, einsetzbar ist.
3 ist ein schematisches Diagramm, das einen beispielhaften Filter- und Summenstrahlformer darstellt.
4 ist ein schematisches Diagramm, das einen beispielhaften Strahllenkungsblock darstellt.
5 ist eine schematische Darstellung, die einen vereinfachten Aufbau eines beispielhaften adaptiven Störungskompensators mit adaptivem Nachfilter und ohne einen adaptiven Sperrfilter zeigt.
6 ist eine schematische Darstellung, die ein beispielhaftes Einzelkanal-Rauschreduzierungssystem zeigt.

Die Figuren beschreiben Konzepte im Kontext einer oder mehrerer strukturellen Komponenten. Die verschiedenen in den Figuren gezeigten Komponenten können auf beliebige Art und Weise umgesetzt werden; das beinhaltet zum Beispiel Software- oder Firmware-Programmcode, der auf geeigneter Hardware, Hardware und jeglicher Kombination davon ausgeführt wird. In einigen Beispielen können die verschiedenen Komponenten die Verwendung entsprechender Komponenten in einer eigentlichen Umsetzung reflektieren. Bestimmte Komponenten können in mehrere Teilkomponenten zerlegt werden und bestimmte Komponenten können in einer anderen Reihenfolge als der hier gezeigten eingesetzt werden, einschließlich auf eine parallele Art und Weise.
AUSFÜHRLICHE BESCHREIBUNG
Es wurde festgestellt, dass die erwünschten Signale und Störsignale oft von unterschiedlichen räumlichen Standorten stammen. Daher können Strahlformungstechniken verwendet werden, um das Signal-Rausch-Verhältnis in Audioanwendungen zu verbessern. Übliche Strahlformungstechniken beinhalten Verzögerungs- und Summentechniken, adaptive Finite Impulse Response (FIR)-Filtertechniken unter Verwendung von Algorithmen wie beispielsweise dem Griffiths-Jim-Algorithmus und Techniken, die auf der Modellierung des menschlichen binauralen Hörsystems basieren.
Strahlformer können je nachdem, wie die Gewichte gewählt werden, als datenunabhängig oder statistisch optimal eingestuft werden. Die Gewichte in einem datenunabhängigen Strahlformer hängen nicht von den Array-Daten ab und werden so gewählt, dass sie für alle Signal-/Störungs-Szenarien eine spezifizierte Antwort präsentieren. Statistisch optimale Strahlformer wählen die Gewichte aus, um die Strahlformerantwort basierend auf der Statistik der Daten zu optimieren. Die Datenstatistiken sind oft unbekannt und können sich mit der Zeit ändern, so dass adaptive Algorithmen verwendet werden, um Gewichte zu erhalten, die zur statistisch optimalen Lösung konvergieren. Rechnerische Überlegungen erfordern die Verwendung von teilweise adaptiven Strahlformern mit Arrays, die aus einer großen Anzahl von Sensoren gebildet werden. Viele verschiedene Ansätze wurden für die Realisierung optimaler Strahlformer vorgeschlagen. Im Allgemeinen platziert der statistisch optimale Strahlformer Nullen in den Richtungen von Störquellen und versucht so, das Signal-Rausch-Verhältnis am Strahlformerausgang zu maximieren.
In vielen Anwendungen kann das erwünschte Signal von unbekannter Stärke sein und kann nicht immer vorhanden sein. In solchen Situationen ist die korrekte Schätzung von Signal- und Rauschkovarianzmatrizen im maximalen Signal-Rausch-Verhältnis (SNR) nicht möglich. Mangelnde Kenntnis über das erwünschte Signal kann die Verwendung des Referenzsignalansatzes behindern. Diese Limitierungen können durch die Anwendung von linearen Beschränkungen auf den Gewichtsvektor überwunden werden. Die Verwendung von linearen Beschränkungen ist ein sehr allgemeiner Ansatz, der eine umfangreiche Kontrolle über die angepasste Antwort des Strahlformers erlaubt. Ein universeller linearer Beschränkungsentwurf-Ansatz existiert nicht und in vielen Anwendungen kann eine Kombination verschiedener Arten von Beschränkungstechniken effektiv sein. Allerdings kann der Versuch, entweder einen einzigen besten Weg oder eine Kombination verschiedener Wege zur Gestaltung der linearen Beschränkung zu finden, die Verwendung von Techniken einschränken, die auf den linearen Beschränkungen für Strahlformungsanwendungen beruhen.
Die Generalized Sidelobe Canceller (GSC)-Technologie stellt eine alternative Formulierung zur Behebung der Nachteile der linearen Beschränkungsentwurftechniken, die mit der linearen Beschränkungsentwurftechnik für Strahlformungsawendungen verbunden sind, dar. Im Wesentlichen ist GSC ein Mechanismus, der ein eingeschränktes Minimierungsproblem in eine uneingeschränkte Form ändert. GSC lässt die erwünschten Signale aus einer bestimmten Richtung unverzerrt, während zur gleichen Zeit unerwünschte Signale aus anderen Richtungen unterdrückt werden. Allerdings verwendet GSC eine Zwei-Wege-Struktur; einen erwünschten Signalweg, um einen festen Strahlformer zu realisieren, der in die Richtung des erwünschten Signals zeigt, und einen unerwünschten Signalweg, der adaptiv eine ideale reine Rauschschätzung erzeugt, die von dem Ausgangssignal des festen Strahlformers abgezogen wird und durch Unterdrückung des Rauschens das Signal-Rausch-Verhältnis (SNR) erhöht.
Der unerwünschte Signalweg, d. h. die Schätzung des Rauschens, kann in einem Zwei-Wege-Ansatz realisiert werden. Ein erster Block des unerwünschten Signalwegs ist konfiguriert, um verbleibende Komponenten des erwünschten Signals der Eingangssignale dieses Blocks, z. B. einen adaptiver Sperrfilter bei einem einzelnen Eingang oder eine adaptive Blockiermatrix, wenn mehr als ein Eingangssignal verwendet wird, zu entfernen oder blockieren. Ein zweiter Block des unerwünschten Signalwegs kann ferner einen adaptiven (mehrkanaligen) Störungskompensator (AIC) umfassen, um ein einkanaliges, geschätztes Rauschsignal zu erzeugen, das dann von dem Ausgangssignal des erwünschten Signalweges abgezogen wird, z. B. ein optional zeitverzögertes Ausgangssignal des festen Strahlformers. Dadurch kann das im optional zeitverzögerten Ausgangssignal des festen Strahlformers enthaltene Rauschen unterdrückt werden, was zu einem besseren SNR führt, da die erwünschte Signalkomponente durch diese Verarbeitung idealerweise nicht beeinflusst wird. Dies gilt nur dann, wenn alle erwünschten Signalkomponenten innerhalb der Rauschabschätzung erfolgreich blockiert werden konnten, was in der Praxis selten der Fall ist und somit einen der größten Nachteile aktueller adaptiver Strahlformungsalgorithmen darstellt.
Akustische Echounterdrückung kann z. B. durch Abziehen eines geschätzten Echosignals von dem gesamten Geräuschsignal erreicht werden. Um eine Schätzung des tatsächlichen Echosignals bereitzustellen, wurden Algorithmen entwickelt, die in der Zeitdomäne arbeiten und adaptive digitale Filter verwenden können, die zeitdiskrete Signale verarbeiten. Solche adaptiven digitalen Filter funktionieren so, dass die Netzparameter, die die Übertragungseigenschaften des Filters definieren, in Bezug auf eine voreingestellte Qualitätsfunktion optimiert werden. Eine solche Qualitätsfunktion wird realisiert, zum Beispiel durch Minimierung der mittleren quadratischen Fehler des Ausgangssignals des adaptiven Netzes in Bezug auf ein Referenzsignal.
In Bezug auf 1 wird in einem beispielhaften Fernfeldgeräuschaufnahmesystem das Geräusch, das einem Quellsignal x(n) entspricht, wobei n ein (diskreter) Zeitindex ist, von einer erwünschten Geräuschquelle 101 über einen oder mehrere Lautsprecher abgestrahlt (nicht abgebildet), bewegt sich durch einen Raum (nicht abgebildet), wo es mit den entsprechenden Raumimpulsantworten (RIRs) 100 gefiltert wird, die durch Übertragungsfunktionen h₁(z) .... h_M(z) repräsentiert werden, wobei z ein Frequenzindex ist und möglicherweise durch Rauschen verfälscht werden kann, bevor die resultierenden Tonsignale von M (M ist eine ganze Zahl, z. B. 2, 3 oder mehr) Mikrofonen aufgenommen werden, die M Mikrofonsignale bereitstellen. Das beispielhafte Fernfeldgeräuschaufnahmesystem, wie in 1 gezeigt, beinhaltet einen akustischen Echounterdrückungs-(AEC)-Block 200, der M Echokompensationssignale x₁(n) ...x_M(n) bereitstellt, einen nachfolgenden festen Strahlformer (FB)-Block 300, der B (B ist eine ganze Zahl, z. B. 1, 2 oder mehr) stahlgeformte Signale b₁(n) ... b_B(n) bereitstellt, einen nachfolgenden Strahlführungsblock 400, der ein erwünschtes Quellstrahlsignal b(n) bereitstellt, hier auch als Positivstrahl-Ausgangssignal b(n) bezeichnet, und optional ein unerwünschtes Quellstrahlsignal b_n(n), hier auch als Negativstrahl-Ausgangssignal b_n(n) bezeichnet. Die Blöcke 100, 200, 300 und 400 sind betriebsmäßig miteinander gekoppelt, um zumindest eine Signalkette (Signalweg) zwischen Block 100 und Block 400 zu bilden. Ein optionales unerwünschtes Signal (Negativstrahl), das betriebsmäßig mit dem Ausgang des Strahlführungsblocks 400 gekoppelt ist und mit dem unerwünschten Strahlensignal b_n(n) versorgt wird, beinhaltet einen optionalen adaptiven Blockfilter (ABF)-Block 500 und einen nachfolgenden adaptiven Störungskompensator (AIC)-Block 600, der betriebsmäßig mit dem ABF-Block 500 gekoppelt ist. Der ABF-Block 500 kann ein Fehlersignal e(n) bereitstellen. Alternativ können die ursprünglichen M-Mikrofonsignale oder die M-Ausgangssignale des AEC-Blocks 200 oder die B-Ausgangssignale des FB-Blocks 300 als Eingangssignale für den ABF-Block 500 verwendet werden, optional überlagert mit dem unerwünschten Quellstrahlsignal b_n(n), um einen optionalen mehrkanaligen adaptiven Blockmatrix (ABM)-Block sowie einen optionalen mehrkanaligen AIC-Block zu erstellen.
Ein erwünschter Signalweg (Positivstrahl), der auch betriebsmäßig mit dem Strahlführungsblock 400 gekoppelt ist und mit dem erwünschten Quellstrahlsignal b(n) versorgt wird, beinhaltet eine Reihenschaltung eines optionalen Verzögerungsblocks 102, eines Subtrahiererblocks 103 und eines (adaptiven) Nachfilterblocks 104. Der adaptive Nachfilterblock 104 empfängt ein Ausgangssignal von dem Subtrahiererblock 103 und ein Kontrollsignal von dem AIC-Block 600. Ein optionaler Sprachpausendetektor (nicht abgebildet) kann an den adaptiven Nachfilterblock 104 sowie einen Rauschreduzierungs (NR)-Block 105 und einen optionalen automatischen Verstärkungsregler (AGC)-Block 106 angeschlossen und nachgeschaltet werden, von denen jeder, falls vorhanden, dem Sprachpausendetektor vorgeschaltet werden kann. Es wird darauf hingewiesen, dass der AEC-Block 200, anstatt wie gezeigt dem FB-Block 300 vorgeschaltet zu werden, nachgeschaltet werden kann, was von Vorteil sein kann, wenn B<M, d. h. weniger Strahlformer-Blöcke als Mikrofone zur Verfügung stehen. Ferner kann der AEC-Block 200 in eine Vielzahl von Unterblöcken (nicht abgebildet) aufgeteilt werden, z. B. kurze Unterblöcke für jedes Mikrofonsignal und ein langer, dem BS-Block 400 nachgeschalteter Unterblock (nicht abgebildet) für das erwünschte Quellstrahlsignal und optional ein weiterer langer Unterblock (nicht abgebildet) für das unerwünschte Quellstrahlsignal. Ferner ist das System nicht nur in Situationen mit nur einer Quelle wie gezeigt einsetzbar, sondern es kann für den Einsatz in Verbindung mit einer Vielzahl von Quellen angepasst werden. Wenn zum Beispiel Stereoquellen, die zwei unkorrelierte Signale bereitstellen, verwendet werden, können die AEC-Blöcke durch Stereoakustikechokompensator (SAEC)-Blöcke (nicht abgebildet) ersetzt werden.
Wie aus 1 ersichtlich, dienen N (= 1) Quellsignale x(n), die von den N×M RIRs gefiltert und möglicherweise durch Rauschen gestört werden, als Eingang zu den AEC-Blöcken 200. 2 zeigt eine beispielhafte Realisierung eines Einzelmikrofon- (206), Einzellautsprecher- (205) AEC-Blocks 200. Wie für den Fachmann verständlich und ersichtlich, kann eine solche Konfiguration erweitert werden, sodass sie mehr als ein Mikrofon 206 und/oder mehr als einen Lautsprecher 205 beinhaltet. Ein Fernendsignal, repräsentiert durch das Quellsignal x(n), bewegt sich über Lautsprecher 205 durch einen Echoweg 201 mit der Übertragungsfunktion (Vektor) h(n), = (h₁,···_,h_M) um ein Echosignal x_e(n) bereitzustellen. Dieses Signal wird an einem Summierungsknoten 209 zu einem Nahendsignal v(n) hinzugefügt, das sowohl Hintergrundgeräusche als auch Nahendsprache enthalten kann, was zu einem elektrischen Mikrofon(ausgangs)signal d(n) führt. Ein von einem adaptiven Filterblock 202 bereitgestelltes geschätztes Echosignal x̂_e(n) wird von dem Mikrofonsignal d(n) an einem subtrahierenden Knoten 203 abgezogen, um ein Fehlersignal e_AEC(n) bereitzustellen. Das adaptive Filter 202 ist konfiguriert, um das Fehlersignal e_AEC(n) zu minimieren.
FIR-Filter 202 mit Übertragungsfunktion ĥ(n) der Ordnung L-1, wobei L eine Länge des FIR-Filters ist, wird zur Modellierung des Echopfades verwendet. Die Übertragungsfunktion ĥ(n) wird als ${[\hat{h} (0, n), \dots \hat{h} (L - 1, n),]}^{T} gegeben .$
Das erwünschte Mikrofonsignal d(n) bei Block 203 für den adaptiven Filter wird als $d (n) = x^{T} (n) h (n) + v (n) gegeben,$
wobei x(n) = [x(n) x(n - 1) ... x(n - L + 1)]^T ein realwertiger Vektor ist, der L (L ist eine ganze Zahl) die letzten Zeitabtastungen des Eingangssignals, x(n) und v(n), enthält, d. h. das Nahendsignal kann Rauschen beinhalten.
Unter Verwendung der vorherigen Anmerkungen wird das Feedback/Echo-Fehlersignal als $e_{A E C} (n) = d (n) - x^{T} (n - 1) \hat{h} (n) = x^{T} (n) [h (n) - \hat{h} (n)] + v (n) gegeben,$
wobei Vektoren h(n) und ĥ(n) die Filterkoeffizienten enthalten, die den akustischen Echoweg und dessen Schätzung durch die adaptiven Filterkoeffizienten zum Zeitpunkt n darstellen. Die Unterdrückungsfilter ĥ(n) werden z. B. mit einem Least Mean Square (LMS)-Algorithmus oder einem beliebigen rekursiven Algorithmus nach dem neuesten Stand der Technik geschätzt. Das LMS-Update mit einer Schrittgröße von µ(n) des LMS-Typ-Algorithmus kann als $\hat{h} (n) = \hat{h} (n - 1) + μ (n) x (n) e (n)$
ausgedrückt werden. Eine einfache, aber effektive Stahlformungstechnik ist die Verzögerungs- und Summentechnik (DS). Nochmals in Bezug auf 1 dienen die Ausgänge der AEC-Blöcke 200 als Eingänge x_i(n), mit i = 1,...,M, für den festen Strahlformerblock 300. Eine allgemeine Struktur eines festen Filter- und Summen-(FS)-Strahlformerblocks 300 einschließlich Filterblöcke 302 mit zumindest einer der Übertragungsfunktionen w_i(L), i = 1,...,M und w_i(L) = [w_i(0),..., wi(L-1)], wobei L die Länge der Filter innerhalb des FB ist, ist in 3 gezeigt. Wenn die Filterblöcke 302 erwünschte (faktische) Verzögerungen umsetzen, werden die Ausgangs-Strahlformersignale b_j(n) mit j = 1,....,B, als $b_{j} (n) = \frac{1}{M} \sum_{i = 1}^{M} x_{i} (n - τ_{i, j}) gegeben,$
wobei M die Anzahl der Mikrofone ist und für jedes (feste) Strahlformer-Ausgangssignal b_j(n) mit j = 1,....,B, jedes Mikrofon eine Verzögerung τ_i,j relativ zueinander aufweist. Der FS-Strahlformer kann einen Summer 301 enthalten, der die Eingangssignale x_i(n) über Filterblöcke 302 mit den Übertragungsfunktionen w_i(L) empfängt.
Nochmals in Bezug auf 1 dienen die Strahlformersignale bj(n), die vom festen FS Strahlformerblock 300 ausgegeben werden, als Eingang zum Strahlführungs (BS) block 400. Jedes Signal vom festen Strahlformerblock 300 wird aus einer anderen Raumrichtung entnommen und kann einen anderen SNR-Pegel haben. Die Eingangssignale b_j(n) des Strahlführungsblocks 400 können niederfrequente Komponenten wie niederfrequentes Rumpeln, Gleichstromverschiebungen (DC) und ungewollte Stimmplosive bei Sprachsignalen enthalten. Diese Artefakte können auf das Eingangssignal b_j(n) des BS-Blocks 400 einwirken und sollten entfernt werden.
Alternativ kann der Strahl, der auf die unerwünschte Signalquelle (z. B. Rauschen) zeigt, d. h. der unerwünschte Signalstrahl, auf Basis des auf die erwünschte Schallquelle, d. h. den erwünschten Signalstrahl, angenähert werden, indem er in die entgegengesetzte Richtung des auf die erwünschte Schallquelle gerichteten Strahls zeigt, was zu einem System mit weniger Ressourcen und auch zu Strahlen mit exakt gleichen Zeitschwankungen führen würde. Ferner können beide Strahlen nie in die gleiche Richtung zeigen.
Als weitere Alternative kann anstelle des auf die erwünschte Quellrichtung gerichteten Strahls (Positivstrahl) eine Summation davon mit seinen Nachbarstrahlen als Positivstrahl-Ausgangssignal verwendet werden, da sie alle einen hohen Anteil an erwünschten Signalen enthalten, die miteinander korreliert sind und als solche durch die Summation verstärkt würden. Andererseits sind die in den drei benachbarten Strahlen enthaltenen Rauschanteile unkorreliert und werden als solche durch die Summierung unterdrückt. Als Ergebnis wird das finale Ausgangssignal der drei benachbarten Strahlen das SNR verbessern.
Der auf die unerwünschte Quellrichtung gerichtete Strahl (negativer Strahl) kann alternativ durch Verwendung aller Ausgangssignale des FB-Blocks mit Ausnahme desjenigen, der den positiven Strahl repräsentiert, erzeugt werden. Dies führt zu einer effektiven Richtungsantwort mit einer räumlichen Null in Richtung der erwünschten Signalquelle. Ansonsten ist eine omnidirektionale Charakteristik anwendbar, was von Vorteil sein kann, da Rauschen in der Regel auch omnidirektional und nur selten in gerichteter Form in das Mikrofonarray eindringt.
Ferner kann das optional verzögerte, erwünschte Signal aus dem BS-Block die Basis für das Ausgangssignal bilden und wird als solches in den optionalen adaptiven Nachfilter eingegeben. Der adaptive Nachfilter, der von dem AIC-Block gesteuert wird und ein gefiltertes Ausgangssignal liefert, kann optional in einen nachfolgenden Einzelkanal-Rauschreduzierungsblock (z. B. NR-Block 105 in 1), der die bekannte spektrale Subtraktionsmethode implementieren kann, und einen optionalen (z. B. finalen) automatischen Verstärkungsregelungsblock (z. B. AGC-Block 106 in 1) eingegeben werden.
In Bezug auf 4 werden die Eingangssignale b_j(n) im Strahlführungsblock 400 mit einem Hochpassfilter (HP) und einem optionalen Tiefpassfilter (LP)-Block 401 gefiltert, um Signalkomponenten zu blockieren, die entweder vom Rauschen betroffen sind oder keine sinnvollen Signalkomponenten enthalten, z. B. bestimmte Sprachsignalkomponenten. Der Ausgang des Filterblocks 401 kann aufgrund von Rauschen Amplitudenschwankungen aufweisen, die schnelle, zufällige Amplitudenänderungen von Punkt zu Punkt innerhalb des Signals bj(n) bewirken können. In dieser Situation kann es nützlich sein, das Rauschen zu reduzieren, z. B. in einem in 4 gezeigten Glättungsblock 402.
Das gefilterte Signal von dem Filterblock 401 wird geglättet, indem z. B. ein Tiefpassfilter mit unendlicher Impulsantwort (IIR) oder ein Filter mit gleitendem Mittelwert (MA) mit endlicher Impulsantwort (FIR) (beide nicht abgebildet) im Glättungsblock 402 angewendet wird, wodurch die Hochfrequenzanteile reduziert werden und die Niederfrequenzanteile mit geringer Änderung passieren. Der Glättungsblock 402 gibt ein geglättetes Signal aus, das noch etwas Rauschen enthalten kann und somit, wie oben beschrieben, zu merklichen starken Diskontinuitäten führen kann. Der Pegel von Sprachsignalen unterscheidet sich typischerweise deutlich von der Schwankung des Pegels des Hintergrundgeräusches, insbesondere dadurch, dass der Dynamikbereich einer Pegeländerung von Sprachsignalen größer ist und in wesentlich kürzeren Abständen als eine Pegeländerung des Hintergrundgeräusches auftritt. Ein linearer Glättungsfilter in einem Rauschschätzungsblock 403 würde daher die starke Variation des erwünschten Signals, z. B. Musik- oder Sprachsignal, verwischen und das Rauschen herausfiltern. Ein solches Verwischen eines Musik- oder Sprachsignals ist in vielen Anwendungen inakzeptabel, daher kann ein nichtlinearer Glättungsfilter (nicht abgebildet) auf das geglättete Signal im Rauschschätzungsblock 403 angewendet werden, um die oben genannten Artefakte zu überwinden. Die Datenpunkte in dem Ausgangssignal b_j(n) des Glättungsblocks 402 werden so modifiziert, dass individuelle Punkte, die höher sind als die unmittelbar benachbarten Punkte (vermutlich wegen des Rauschens), reduziert werden und Punkte, die niedriger sind als die benachbarten Punkte, erhöht werden. Dies führt zu einem glatteren Signal (und einer langsameren Schrittantwort auf Signaländerungen).
Als Nächstes werden aus dem geglätteten Signal des Glättungsblocks 402 und dem geschätzten Hintergrundrauschsignal des Rauschschätzungsblocks 403 die Schwankungen des SNR-Wertes berechnet. Durch Variationen in dem SNR kann eine Rauschquelle von einem erwünschten Sprach- oder Musiksignal unterschieden werden. Zum Beispiel kann ein niedriger SNR-Wert eine Vielzahl von Rauschquellen wie eine Klimaanlage, einen Ventilator, ein offenes Fenster oder ein elektrisches Gerät wie einen Computer usw. darstellen. Der SNR kann in einer Zeitdomäne oder in einer Frequenzdomäne oder in einer Teilbanddomäne ausgewertet werden.
In einem Komparatorblock 405 wird der Ausgangs-SNR-Wert von Block 404 mit einem vorbestimmten Schwellenwert verglichen. Ist der aktuelle SNR-Wert größer als ein vorbestimmter Schwellenwert, wird ein Merker gesetzt, der z. B. ein erwünschtes Sprachsignal anzeigt, z. B. ‚1‘. Alternativ, wenn der aktuelle SNR-Wert kleiner als ein vorbestimmter Schwellenwert ist, wird ein Merker, der ein unerwünschtes Signal wie Rauschen von einer Klimaanlage, einem Ventilator, einem offenen Fenster oder einem elektrischen Gerät wie einem Computer anzeigt, auf ‚0‘ gesetzt.
SNR-Werte aus den Blöcken 404 und 405 werden über die Wege #1 bis Weg #B an einen Steuerblock 406 übergeben. Ein Steuerblock 406 vergleicht die Indizes einer Vielzahl von SNR-Werten (sowohl niedrige als auch hohe), die im Laufe der Zeit gesammelt wurden, mit dem Status-Merker im Komparatorblock 405. Ein Histogramm der Maximal- und Minimalwerte wird für einen vorbestimmten Zeitraum gesammelt. Die Minimal- und Maximalwerte in einem Histogramm sind für zumindest zwei verschiedene Ausgangssignale repräsentativ. Zumindest ein Signal wird auf eine mit S(n) bezeichnete erwünschte Quelle und zumindest ein Signal auf eine mit I(n) bezeichnete Störquelle gerichtet.
Wenn sich die Indizes für niedrige und hohe SNR-Werte im Steuerblock 406 im Laufe der Zeit ändern, wird ein Fading-Prozess eingeleitet, der einen glatten Übergang von einem zum anderen Ausgangssignal ermöglicht, ohne akustische Artefakte zu erzeugen. Die Ausgänge des BS-Blocks 400 stellen im Laufe der Zeit ausgewählte erwünschte und optional unerwünschte Signalstrahlen dar. Dabei repräsentiert der erwünschte Signalstrahl den festen Strahlformerausgang b(n) mit dem höchsten SNR. Der optional unerwünschte Strahl repräsentiert einen festen Strahlformerausgang b_n(n) mit dem niedrigsten SNR
Die Ausgänge des BS-Blocks 400 enthalten ein Signal mit einem hohen SNR (Positivstrahl), das von dem optionalen adaptiven Blockfilter (ABF)-Block 500 als Referenz verwendet werden kann, und ein optionales mit einem niedrigen SNR (Negativstrahl), das ein zweites Eingangssignal für den optionalen ABF-Block 500 bildet. Der ABF-Filterblock 500 kann Least Mean Square (LMS) algorithmisch gesteuerte Filter verwenden, um das interessierende Signal, repräsentiert durch das Referenzsignal b(n) (das den erwünschten Quellstrahl repräsentiert), von dem Signal b_n(n) (das den unerwünschten Quellstrahl repräsentiert) adaptiv abzuziehen und Fehlersignal(e) e(n) bereitzustellen. Die aus dem ABF-Block 500 erhaltenen Fehlersignal(e) ei(n) werden an den adaptiven Störungskompensator (AIC)-Block 600 weitergeleitet, der die mit den Fehlersignalen korrelierten Signalkomponenten in dem erwünschten Signalweg von dem Strahlformerausgang des festen Strahlformers 300 adaptiv entfernt. Wie bereits erwähnt, können andere Signale alternativ oder zusätzlich als Eingang zu dem ABM-Block dienen. Der adaptive Strahlformerblock, der optionale ABM-, AIC- und APF-Blöcke beinhaltet, kann allerdings ganz oder teilweise entfallen.
Zuerst berechnet der AIC-Block 600 ein Störsignal mit einem adaptiven Filter (nicht abgebildet). Dann wird der Ausgang dieses adaptiven Filters von dem optional verzögerten (mit Verzögerung 102) Referenzsignal b(n) abgezogen, z. B. durch einen Subtrahiererblock 103, um die restlichen Stör- und Rauschkomponenten im Referenzsignal b(n) zu eliminieren. Schließlich kann dem Subtrahiererblock 103 ein adaptiver Nachfilter 104 nachgeschaltet werden, um die statistischen Rauschkomponenten zu reduzieren (ohne ausgeprägte Autokorrelation). Wie im ABF-Block 500 können die Filterkoeffizienten in dem AIC-Block 600 mit dem adaptiven LMS-Algorithmus aktualisiert werden. Die Norm der Filterkoeffizienten in zumindest einem von AIC-Block 600, ABF-Block 500 und AEC-Block kann eingeschränkt werden, damit sie nicht zu groß werden.
5 zeigt ein beispielhaftes System zur Eliminierung von Rauschen aus dem erwünschten Quellstrahlsignal (positiver Strahl) b(n). Dabei wird die im Signal b(n) beinhaltete Rauschkomponente, die in 5 durch das Signal z(n) repräsentiert wird, durch ein adaptives System bereitgestellt, das einen Filtersteuerblock 700 beinhaltet, der über ein Filtersteuersignal einen steuerbaren Filter 800 steuert. Das Signal b(n) wird über den Subtrahiererblock 103 von dem erwünschten Signal b(n) abgezogen, optional nachdem es in einem Verzögerungsblock 102 als verzögertes erwünschtes Signal b(n- γ) verzögert wurde, um ein Addierer-Ausgangssignal bereitzustellen, das bis zu einem gewissen Grad reduziertes unerwünschtes Rauschen enthält. Das Signal b_n(n), das den unerwünschten Signalstrahl repräsentiert und idealerweise nur Rauschen und kein Nutzsignal wie Sprache enthält, wird als Referenzsignal für den Filtersteuerblock 700 verwendet, der auch als Eingangssignal das Addierer-Ausgangssignal erhält. Der bekannte Normalized Least Mean Square (NLMS)-Algorithmus kann verwendet werden, um Rauschen aus dem erwünschten Signal b(n), das von dem BS-Block 400 bereitgestellt wird, herauszufiltern. Die Rauschkomponente in dem erwünschten Signal b(n) wird durch das adaptive System, das den Filtersteuerblock 700 und den steuerbaren Filter 800 beinhaltet, geschätzt. Der steuerbare Filter 800 filtert das unerwünschte Signal b_n(n) unter Steuerung des Filtersteuerblocks 700, um eine Schätzung des im erwünschten Signals b(n) enthaltenen Rauschens bereitzustellen, das von dem (optional) verzögerten erwünschten Signal b(n- γ) im Subtrahiererblock 103 abgezogen wird, um ferneres Rauschen in dem erwünschten Signal b(n) zu reduzieren. Dies wiederum erhöht das Signal-Rausch-Verhältnis (SNR) des erwünschten Signals b(n). Das Filtersteuersignal vom Filtersteuerblock 700 wird ferner zur Steuerung des adaptiven Nachfilters 104 verwendet. Das in 5 gezeigte System verwendet keinen optionalen ABF- oder ABM-Block, da eine zusätzliche Blockierung von Signalkomponenten des unerwünschten Signals durch den ABF- oder ABM-Block entfallen kann, wenn sie die Qualität des reinen Rauschsignals im Vergleich zum erwünschten Signal kaum erhöht. Daher kann es sinnvoll sein, den ABF- oder ABM-Block wegzulassen, ohne die Leistung des adaptiven Strahlformers abhängig von der Qualität des unerwünschten Signals b_n(n) zu verschlechtern.
Nochmals in Bezug auf 1 kann ein Ausgangssignal von dem APF-Block 104 ein Eingangssignal n(n) in den NR-Block 105 bilden. Ein beispielhafter NR-Block, der als NR-Block 105 anwendbar ist oder auf jede andere Anwendung angewendet oder als autonomes System verwendet werden kann, wird im Folgenden in Verbindung mit 6 beschrieben. In dem in 6 gezeigten NR-Block wird das Eingangssignal n(n) einem Spektraltransformationsblock 601 zugeführt, in dem es von der Zeitdomäne in die Spektraldomäne, d. h. in ein spektrales Eingangssignal N(ω), z. B. durch eine schnelle Fourier-Transformation (FFT) transformiert wird. Das spektrale Eingangssignal N(ω) wird einem optionalen Spektralglättungsblock 602 zur spektralen Glättung zugeführt. Abhängig davon, ob der optionale Spektralglättungsblock 602 vorhanden ist oder nicht, wird ein nachfolgender temporärer Glättungsblock 603 mit dem optionalen Spektralglättungsblock 602 (wie abgebildet) oder mit dem Spektraltransformationsblock 601 (nicht abgebildet) verbunden. Die Glättung eines Signals kann das Filtern des Signals beinhalten, um wichtige Muster im Signal aufzunehmen, während verrauschte, fein skalierte und/oder sich schnell ändernde Muster ausgelassen werden.
Ein Hintergrundrauschen-Schätzblock 604 ist mit dem temporären Glättungsblock 603 verbunden und kann jedes bekannte Verfahren verwenden, das es erlaubt, das in dem Eingangssignal n(n) enthaltene Hintergrundrauschen zu bestimmen oder zu schätzen. In dem abgebildeten Beispiel liegt das auszuwertende Signal, das spektrale Eingangssignal N(ω), in der Spektraldomäne, so dass der Hintergrundrauschen-Schätzblock 604 für den Betrieb in der Spektraldomäne ausgelegt ist.
In einem spektralen Signal-Rausch-Verhältnis-Bestimmungsblock (Berechnung) 605, der mit dem Hintergrundrauschen-Schätzblock 604 verbunden und diesem nachgeschaltet ist, werden die vom Hintergrundrauschen-Schätzblock 604 eingegebenen Signale und ausgegebenen Signale verarbeitet, um ein spektrales Signal-Rausch-Verhältnis SNR(ω) bereitzustellen. Zum Beispiel kann der spektrale Signal-Rausch-Verhältnis-Bestimmungsblock 605 die eingegebenen Signale in den Hintergrundrauschen-Schätzblock 604 durch die ausgegebenen Signale des Hintergrundrauschen-Schätzblocks 604 teilen, um das spektrale Signal-Rausch-Verhältnis SNR(ω) zu bestimmen.
In einem ersten Auswertungsblock 606, der mit dem spektralen Signal-Rausch-Verhältnis-Bestimmungsblock 605 verbunden ist, wird das geschätzte Signal-Rausch-Verhältnis SNR(ω) in der Spektraldomäne (z. B. innerhalb eines vorbestimmten Frequenzbandes) mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert SNR_TH verglichen. Wenn das geschätzte Signal-Rausch-Verhältnis SNR(ω) den Signal-Rausch-Verhältnis-Schwellenwert SNR_TH überschreitet, wird eine von dem ersten Auswertungsblock 606 ausgegebene Gewichtungsmaske I(ω) auf einen vorbestimmten maximalen Signal-Rausch-Verhältnis-Wert gesetzt, z. B. einen Überschätzungsfaktor MaxSnrTh. Andernfalls kann die Gewichtungsmaske I(ω) auf einen konstanten Wert gesetzt werden, z. B. eins. Der erste Auswertungsblock 606 gibt ferner eine Signal-Rausch-Verhältnis-Maske SnrMask(ω) aus, die aus dem geschätzten Signal-Rausch-Verhältnis SNR(ω) durch Teilen des geschätzten Signal-Rausch-Verhältnisses SNR(ω) durch den Signal-Rausch-Verhältnis-Schwellenwert SNR_TH abgeleitet wird.
In einem Rauschblockierungsblock 607, der mit dem ersten Auswertungsblock 606 verbunden ist und diesem nachgeschaltet ist, wird die SNR-gesteuerte Maske, hier die Signal-Rausch-Verhältnis-Maske SnrMask(ω) aus dem ersten Auswertungsblock 606, z. B. durch Multiplikation der Signal-Rausch-Verhältnis-Maske SnrMask(w) mit der Gewichtungsmaske I(ω) aus dem ersten Auswertungsblock 606 zu einer einmal modifizierten SNR-Maske SnrMask'(ω) modifiziert.
In einem optionalen zweiten Auswertungsblock 608, der mit dem Rauschblockierungsblock 607 verbunden und diesem nachgeschaltet ist, wird die modifizierte SNR-Maske SnrMask'(ω) mit einem Mindestschwellenwert MIN_TH verglichen. Wenn die modifizierte SNR-Maske SnrMask'(ω) den Mindestschwellenwert MIN_TH überschreitet, wird eine zweimal modifizierte SNR-Maske SnrMask''(ω) auf den Mindestschwellenwert MIN_TH gesetzt, andernfalls wird die einmal modifizierte SNR-Maske SnrMask'(ω) als zweimal modifizierte SNR-Maske SnrMask''(ω) ausgegeben.
In einem dritten Auswertungsblock 609, der mit dem zweiten Auswertungsblock 608 verbunden und diesem nachgeschaltet ist, wird eine p-Norm der zweimal modifizierten SNR-Maske SnrMask''(ω) benutzt, um eine dreimal modifizierte (finale) SNR-Maske SnrMask'''(ω) zu erzeugen. Die dreimal modifizierte SNR-Maske SnrMask'''(ω) wird als Rauschblockierungsmaske auf das spektrale Eingangssignal N(ω) in einem Maskenanwendungsblock 610 angewendet, der mit den Blöcken 601 und 609 verbunden und diesen nachgeschaltet ist. In dem Maskenanwendungsblock 610 kann die dreimal modifizierte SNR-Maske SnrMask'''(ω) mit dem spektralen Eingangssignal N(ω) multipliziert werden, um ein spektrales Ausgangssignal Y(ω) bereitzustellen. Das spektrale Ausgangssignal Y(w) wird an einen nachfolgenden Spektraltransformationsblock 611 geliefert, wo es aus der Frequenzdomäne zurück in die Zeitdomäne transformiert wird, d. h. in ein Zeitdomänen-Eingangssignal y(n), z. B. über eine inverse Fast-Fourier-Transformation (IFFT).
In den ersten Blöcken des in 6 gezeigten Einzelkanal-Rauschreduzierungssystems wird der SNR in der Frequenzdomäne, der spektrale SNR, geschätzt und dann mit dem vorbestimmten SNR-Schwellenwert SNR_TH verglichen. Abhängig von dem Ergebnis dieses Vergleichs wird die Gewichtungsmaske I(ω) erzeugt, deren Werte auf das neutrale Gewicht von eins gesetzt werden können, wenn der aktuelle spektrale SNR(ω) den angegebenen SNR-Schwellenwert SNR_TH nicht überschreitet. Andernfalls kann die Gewichtungsmaske I(ω) auf den (einstellbaren) Überschätzungsfaktor MaxSnrTh gesetzt werden, der größer oder gleich eins sein kann, d. h. MaxSnrTh≥0[dB]. In einem Seitenweg können die aktuell geschätzten, spektralen SNR-Werte SNR(ω) durch den angegebenen SNR-Schwellenwert SNR_TH skaliert werden, der die erwünschte Maske liefert $SnrMask (ω) = \frac{SNR (ω)}{10^{\frac{{SNR}_{TH [dB]}}{20}}}$
Die Maske wird nacheinander mit den Gewichten der Gewichtungsmaske I(ω) zu einer einmal modifizierten spektralen SNR-Maske SnrMask'(ω) davon multipliziert, d. h. $SnrMask' (ω) = SnrMask (ω) \cdot 10^{\frac{I (ω) [dB]}{20}} .$
So wird eine spektrale Gewichtungsmaske erzeugt, die Überschätzungswerte von Spektralanteilen enthält. Die Spektralanteile dieser spektralen Gewichtungsmaske beinhalten Sprachsignale, die durch die spektralen SNR-Werte SNR(ω) angezeigt werden, die den vorgegebenen SNR-Schwellenwert SNR_TH überschreiten, sowie durch SNR-gesteuerte Spektralgewichte, die z. B. durch spektrales Subtrahieren bekannt sind und unterhalb des vorgegebenen SNR-Schwellenwerts SNR_TH unterdrückt werden können. Die Größe der Gewichte ist direkt abhängig von den aktuellen spektralen SNR-Werten SNR(ω) sowie von dem angegebenen SNR-Schwellenwert SNR_TH. Die spektral SNR-Werte SNR(ω), die gleich dem angegebenen Schwellenwert SNR_TH sind, ergeben Maskenwerte von SnrMask'(ω) = 1. Maskenwerte der einmal modifizierten spektralen SNR-Maske SnrMask'(ω) < 1 werden erzeugt, wenn $SNR (ω) < 10^{\frac{{SNR}_{TH [dB]}}{20}}$
und Maskenwerte der einmal modifizierten spektralen SNR-Maske $\begin{array}{l} SnrMask' (ω) \\ = 10^{\frac{M a x S n r T h [d B]}{20}} \end{array}$

wenn $SNR (ω) > 10^{\frac{M a x S n r R h [d B]}{20}} .$
In einem optionalen nachfolgenden Block kann die SNR-basierte, einmal modifizierte spektrale SNR-Maske SnrMask'(ω) auch auf einen einstellbaren, minimalen Schwellenwert MIN_TH begrenzt werden. Das bedeutet, dass, wenn die aktuelle spektrale Maske $SnrMask (ω) < 10^{\frac{M a x S n r T h [d B]}{20}},$
die SNR-basierte, einmal modifizierte Spektral-SNR-Maske SnrMask'(ω) auf diesen vorgegebenen Mindestschwellenwert begrenzt wird, d. h. auf $SrnMask' (ω) = 10^{\frac{M i n S n r T h [d B]}{20}},$
so dass eine maximale Rauschreduzierung von MIN_TH erreicht werden kann.
In dem nachfolgenden Block wird die p-Norm der aktuellen, einmal modifizierten spektralen SNR-Maske SnrMask'(ω) berechnet, um eine dreimal modifizierte (finale) SNR-Maske SnrMask'''(ω) = (SnrMask''(ω))^p bereitzustellen. Zum Beispiel kann ein p-Faktor von p=1/2 verwendet werden, was der Quadratwurzel der zweimal modifizierten spektralen SNR-Maske SnrMask''(ω) oder der einmal modifizierten spektralen SNR-Maske SnrMask'(ω) entspricht. Der SNR-Schwellenwert SNR_TH kann abhängig von dem ausgewählten p-Faktor angepasst werden. Wenn zum Beispiel ein p-Faktor von p=1/2 genommen wird, kann ein SNR-Schwellenwert von SNR_TH = 30[dB] oder, wenn ein p-Faktor von p=1 angewendet wird, ein SNR-Schwellenwert von SNR_TH = 15[dB] verwendet werden. Ferner kann der SNR-Schwellenwert von SNR_TH = 15 [dB] in Verbindung mit einem p-Faktor p = 1 durch einen anderen p-Faktor als p = 1 geteilt werden. Wird also ein p-Faktor von p = 1/2 ausgewählt, ergibt sich ein SNR-Schwellenwert von SNR_TH = 15[dB], p = 15[dB] ^1/2 = 30[dB].
In einem weiteren Block wird die dreimal modifizierte spektrale SNR-Maske SnrMask'''(ω) auf das spektrale Eingangssignal X(ω) angewendet, wodurch das spektrale Ausgangssignal Y(ω) = SnrMask'''(ω)·X(ω) entsteht, das dann in die Zeitdomäne umgewandelt wird, z. B. unter Verwendung eines überlappungssicheren Verfahrens.
Um eine Überbewertung zu ermöglichen, aber ein instabiles Verhalten der Maske bei Überbewertung zu vermeiden, kann ein alternativer Ansatz angewendet werden. Die p-Norm kann auf die (einmal oder) zweimal modifizierte SNR-Maske SnrMask''(ω) angewendet werden, wenn die Gewichte der modifizierten Maske eins unterschreiten, was als „normaler Rauschreduzierungsfall“ angesehen werden kann, so dass z. B. SnrMask'''(ω) = (SnrMask''(ω))^p für spektrale Signal-Rausch-Verhältnisse BandSnr < SNR_TH. Allerdings kann eine andere p-Maske auf die (einmal oder) zweimal modifizierte SNR-Maske SnrMask''(ω) angewendet werden, wenn die Gewichte der modifizierten Maske größer als eins sind, was als „Überschätzungsfall“ angesehen werden kann, so dass zum Beispiel SnrMask'''(ω) = (SnrMask''(ω))^poec für spektrale Signal-Rausch-Verhältnisse BandSnr > SNR_TH ist, wobei poec eine andere p-Norm als p ist. Weiterhin kann im „Überschätzungsfall“ die (modifizierte) SNR-Maske auf einen Maximalschwellenwert MaxSnrTh nach $SnrMask' (ω) = 10^{\frac{M i n S n r T h [d B]}{20}}$
für SnrMask'(ω) > MaxSnrTh begrenzt werden. In den oben genannten Fällen kann die p-Norm p 1/2 oder 1 und die p-Norm poec √2 oder 2 sein.
Tests haben gezeigt, dass, wenn ein APF-Block am Ende des ABF-Blocks hinzugefügt wird, eine Einzelkanal-Rauschreduzierung die Gesamtleistung des zugrunde liegenden Fernfeldgeräuschaufnahmesystems weiter verbessern kann. Dies gilt auch, wenn man die Sprachverständlichkeit weiter erhöhen will, z. B. um die Erkennungsrate einer Spracherkennungsmaschine zu verbessern, besonders in ungünstigen Situationen, z. B. in Situationen mit niedrigem SNR, wenn das Hintergrundrauschen im Vergleich zum Sprachsignal hoch ist.
Der NR-Block kann am Ende der Signalverarbeitungskette platziert werden, muss aber nicht dem ABF-Block nachgeschaltet sein, da die Reihenfolge sowie das Vorhandensein einiger oder aller im System verwendeten Signalverarbeitungsblöcke, wie in 1 gezeigt, frei gewählt werden kann. Als Beispiel kann der ABF-Block komplett weggelassen werden, so dass der BS-Block nur das positive Strahlausgangssignal liefern kann, das in den NR-Block eingegeben werden kann. In einem anderen Beispiel kann anstelle des FB-Blocks nur ein (einzelner) modaler Strahlformer verwendet werden, und auch der BS-Block kann weggelassen werden, so dass das von dem FB-Block ausgegebene Signal in den NR-Block eingegeben werden kann usw. Hier kann der FB-Block einen modalen Strahlformer enthalten, der seine Blickrichtung automatisch auf die erwünschte Sprachquelle (z. B. einen Sprecher) steuert. Das hier offenbarte einfache und effektive Einzelkanal-Rauschreduzierungssystem und -verfahren basiert auf dem spektralen Abziehen, bei der ein Wiener Filter auf Basis des aktuell geschätzten SNR berechnet wird.
Die Beschreibung der Ausführungsformen wurde zum Zwecke der Darstellung und Beschreibung präsentiert. Geeignete Modifikationen und Variationen der Ausführungsformen können unter Berücksichtigung der obigen Beschreibung vorgenommen oder aus der Anwendung der Verfahren abgeleitet werden. Zum Beispiel, wenn nicht anders angegeben, können ein oder mehrere der beschriebenen Verfahren durch ein geeignetes Gerät und/oder eine Kombination von Geräten durchgeführt werden. Die beschriebenen Verfahren und entsprechenden Aktionen können zusätzlich zu der in dieser Anwendung beschriebenen Reihenfolge auch parallel und/oder gleichzeitig ausgeführt werden. Die beschriebenen Systeme sind beispielhaft und können zusätzliche Elemente enthalten und/oder Elemente weglassen.
Wie in dieser Anwendung verwendet, sollte ein Element oder Schritt, der im Singular rezitiert und mit dem Wort „ein“ oder „ein“ fortgeführt wird, so verstanden werden, dass er nicht mehrere dieser Elemente oder Schritte ausschließt, es sei denn, ein solcher Ausschluss ist angegeben. Darüber hinaus sind Verweise auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so auszulegen, dass sie die Existenz zusätzlicher Ausführungsformen ausschließen, die auch die genannten Merkmale enthalten. Die Begriffe „erstens“, „zweitens“ und „drittens“ usw. werden lediglich als Beschriftung verwendet und dienen nicht dazu, ihren Objekten numerische Anforderungen oder eine bestimmte Lageordnung aufzuerlegen.
Die Ausführungsformen der vorliegenden Offenbarung sehen in der Regel eine Vielzahl von Schaltungen, elektrischen Geräten und/oder zumindest eine Steuerung vor. Alle Verweise auf die Schaltungen, die zumindest eine Steuerung und andere elektrische Geräte und die von ihnen bereitgestellte Funktionalität sind nicht darauf beschränkt, nur das zu erfassen, was hier dargestellt und beschrieben ist. Zwar können den verschiedenen Schaltungen, Steuerungen und anderen elektrischen Geräten bestimmte Kennzeichnungen zugeordnet werden, doch sind diese Kennzeichnungen nicht dazu bestimmt, den Funktionsumfang der verschiedenen Schaltungen, Steuerungen und anderen elektrischen Geräten einzuschränken. Diese Schaltung(en), Steuerung(en) und andere elektrische Geräte können je nach erwünschter elektrischer Ausführung beliebig miteinander kombiniert und/oder getrennt werden.
Unter einem Block wird ein Hardwaresystem oder ein Element davon mit zumindest einem von: einer Verarbeitungseinheit, die Software ausführt, und einer dedizierten Schaltungsstruktur zur Implementierung einer jeweiligen erwünschten Signalübertragungs- oder Verarbeitungsfunktion verstanden. So können Teile oder das gesamte System als Software und Firmware von einem Prozessor oder einer programmierbaren digitalen Schaltung ausgeführt werden. Es wird anerkannt, dass jedes System wie hier beschrieben eine beliebige Anzahl von Mikroprozessoren, integrierten Schaltungen, Speichergeräten (z. B. FLASH, Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), elektrisch programmierbarer Nur-Lese-Speicher (EPROM), elektrisch löschbarer programmierbarer Nur-Lese-Speicher (EEPROM) oder andere geeignete Varianten davon) und Software enthalten kann, die miteinander zusammenwirken, um die hier veröffentlichten Operationen durchzuführen. Zusätzlich kann jedes offenbarte System einen oder mehrere Mikroprozessoren verwenden, um ein Computerprogramm auszuführen, das in einem nicht transitorischen, computerlesbaren Medium enthalten ist, das so programmiert ist, dass es eine beliebige Anzahl der offenbarten Funktionen ausführt. Ferner enthält jede Steuerung, wie hier beschrieben, ein Gehäuse und eine Vielzahl von Mikroprozessoren, integrierte Schaltungen und Speichergeräte (z. B. FLASH, Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), elektrisch programmierbarer Nur-Lese-Speicher (EPROM) und/oder elektrisch löschbarer programmierbarer Nur-Lese-Speicher (EEPROM).
Während verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Durchschnittsfachmann auf dem Gebiet offensichtlich, dass im Rahmen der Erfindung noch viele weitere Ausführungsformen und Umsetzungen möglich sind. Insbesondere wird der Fachmann die Austauschbarkeit verschiedener Merkmale aus verschiedenen Ausführungsformen erkennen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, wird davon ausgegangen, dass diese Techniken und Systeme über die spezifisch offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Änderungen derselben ausgedehnt werden können.

Claims

Rauschreduzierungssystem, umfassend: einen Detektorblock (604, 605), der konfiguriert ist, um Rauschkomponenten in einem Eingangssignal zu erkennen und basierend darauf ein Signal-Rausch-Verhältnis-Spektrum des Eingangssignals zu erzeugen; und einen Maskenblock (606-610), der betriebsmäßig mit dem Detektorblock (604, 605) gekoppelt und konfiguriert ist, um eine finale spektrale Rauschentfernungsmaske zu erzeugen und die finale spektrale Rauschentfernungsmaske auf das Eingangssignal anzuwenden, wenn Rauschkomponenten im Eingangssignal erkannt werden, wobei die finale spektrale Rauschentfernungsmaske konfiguriert ist, um die Rauschkomponenten im Eingangssignal zu unterdrücken, wenn sie angewendet wird; dadurch gekennzeichnet, dass der Maskenblock (606-610) Folgendes umfasst: einen ersten Auswertungsblock (606), der konfiguriert ist, um von dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals eine einfache spektrale Rauschentfernungsmaske zu erzeugen, wobei der erste Auswertungsblock (606) ferner konfiguriert ist, um das Signal-Rausch-Verhältnis-Spektrum des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert zu vergleichen und um eine von den Ergebnissen des Vergleichs abhängige Gewichtungsmaske bereitzustellen; und einen Maskenmodifikationsblock (607), der konfiguriert ist, um die einfache spektrale Rauschentfernungsmaske abhängig von der Gewichtungsmaske zu modifizieren, um eine einmal modifizierte spektrale Rauschentfernungsmaske bereitzustellen.
System nach Anspruch 1, wobei der Detektorblock (604, 605) einen Signal-Rausch-Verhältnis-Bestimmungsblock (605) umfasst, der konfiguriert ist, um das Signal-Rausch-Verhältnis-Spektrum des Eingangssignals durch Bestimmung des Signal-Rausch-Verhältnisses pro diskreter Frequenz des Eingangssignals zu bestimmen.
System nach Anspruch 1 oder 2, wobei der Maskenblock (606-610) ferner Folgendes umfasst: einen zweiten Auswertungsblock (608), der konfiguriert ist, um die einmal modifizierte spektrale Rauschentfernungsmaske mit einem Mindestschwellenwert zu vergleichen und um eine von den Ergebnissen des Vergleichs abhängige zweimal modifizierte spektrale Rauschentfernungsmaske bereitzustellen.
System nach Anspruch 1, 2 oder 3, wobei der Maskenblock (606-610) ferner Folgendes umfasst: einen dritten Auswertungsblock (609), der konfiguriert ist, um eine p-Norm auf die einmal modifizierte spektrale Rauschentfernungsmaske oder die zweimal modifizierte spektrale Rauschentfernungsmaske anzuwenden.
System nach einem der Ansprüche 1 oder 2, wobei der erste Auswertungsblock (606) ferner konfiguriert ist, um die Gewichtungsmaske auf einen vorbestimmten maximalen Signal-Rausch-Verhältnis-Wert zu setzen, wenn das geschätzte Signal-Rausch-Verhältnis den Signal-Rausch-Verhältnis-Schwellenwert übersteigt, und ansonsten auf einen vorbestimmten konstanten Wert.
System nach Anspruch 3, wobei der zweite Auswertungsblock (608) ferner konfiguriert ist, um die zweimal modifizierte spektrale Rauschentfernungsmaske auf einen vorbestimmten minimalen Wert zu setzen, wenn das geschätzte Signal-Rausch-Verhältnis den minimalen Schwellenwert übersteigt, und ansonsten auf die einmal modifizierte spektrale Rauschentfernungsmaske.
Rauschreduzierungsverfahren, umfassend: Erkennen von Rauschkomponenten in einem Eingangssignal und basierend darauf Erzeugen eines Signal-Rausch-Verhältnis-Spektrums des Eingangssignals; und Erzeugen einer finalen spektralen Rauschentfernungsmaske und Anwenden der finalen spektralen Rauschentfernungsmaske auf das Eingangssignal, wenn Rauschkomponenten im Eingangssignal erkannt werden, wobei die finale spektrale Rauschentfernungsmaske konfiguriert ist, um die Rauschkomponenten im Eingangssignal zu unterdrücken, wenn sie angewendet wird; dadurch gekennzeichnet, dass das Erzeugen der finalen spektralen Rauschentfernungsmaske Folgendes umfasst: Erzeugen einer einfachen spektralen Rauschentfernungsmaske von dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals, Vergleichen des Signal-Rausch-Verhältnis-Spektrums des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert und Bereitstellen einer von den Ergebnissen des Vergleichs abhängige Gewichtungsmaske; und Modifizieren der einfachen spektralen Rauschentfernungsmaske abhängig von der Gewichtungsmaske, um eine einmal modifizierte spektrale Rauschentfernungsmaske bereitzustellen.
Verfahren nach Anspruch 7, wobei das Erkennen der Rauschkomponenten das Bestimmen des Signal-Rausch-Verhältnis-Spektrum des Eingangssignals durch das Bestimmen des Signal-Rausch-Verhältnisses pro diskreter Frequenz des Eingangssignals umfasst.
Verfahren nach Anspruch 7 oder 8, wobei das Erzeugen der finalen spektralen Rauschentfernungsmaske das Vergleichen der einmal modifizierten spektralen Rauschentfernungsmaske mit einem Mindestschwellenwert und das Bereitstellen einer von den Ergebnissen des Vergleichs abhängigen zweimal modifizierten spektralen Rauschentfernungsmaske umfasst.
Verfahren nach Anspruch 7, 8 oder 9, wobei das Erzeugen der finalen spektralen Rauschentfernungsmaske das Anwenden einer p-Norm auf die einmal modifizierte spektrale Rauschentfernungsmaske oder die zweimal modifizierte spektrale Rauschentfernungsmaske umfasst.
Verfahren nach einem der Ansprüche 7 oder 8, wobei das Bereitstellen einer von den Ergebnissen des Vergleichs abhängigen Gewichtungsmaske das Setzen der Gewichtungsmaske auf einen vorbestimmten maximalen Signal-Rausch-Verhältnis-Wert umfasst, wenn das geschätzte Signal-Rausch-Verhältnis den Signal-Rausch-Verhältnis-Schwellenwert übersteigt, und ansonsten auf einen vorbestimmten konstanten Wert.
Verfahren nach Anspruch 9, wobei das Bereitstellen einer von den Ergebnissen des Vergleichs abhängigen zweimal modifizierten spektralen Rauschentfernungsmaske das Setzen der zweimal modifizierten spektralen Rauschentfernungsmaske auf einen vorbestimmten minimalen Wert umfasst, wenn das geschätzte Signal-Rausch-Verhältnis den minimalen Schwellenwert übersteigt, und ansonsten auf die einmal modifizierte spektrale Rauschentfernungsmaske.
Computerprogramm, umfassend Anweisungen, die bei Ausführung des Programms durch einen Computer den Computer dazu veranlassen, das Verfahren nach einem der Ansprüche 7 bis 12 auszuführen.