DE102018117558A1

DE102018117558A1 - Adaptives nachfiltern

Info

Publication number: DE102018117558A1
Application number: DE102018117558.2A
Authority: DE
Inventors: Markus Christoph
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2017-07-31
Filing date: 2018-07-20
Publication date: 2019-01-31
Also published as: CN109326297B; US20190035382A1; CN109326297A

Abstract

Adaptives Sperren beinhaltet: Erzeugen, aus mindestens einem von einem erwünschten Signal und einem in eine Sperrmaske eingegebenen unerwünschten Signal, eines Ausgangssignals, das an sich oder in Kombination mit dem erwünschten Signal oder dem unerwünschten Signal ein Maskensignal bereitstellt, wobei das unerwünschte Signal Komponenten beinhaltet, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal Komponenten beinhaltet, die auch in dem unerwünschten Signal vorkommen, und das Ausgangssignal das unerwünschte Signal mit reduzierten oder keinen Komponenten ist, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal mit reduzierten oder keinen Komponenten, die auch in dem unerwünschten Signal vorkommen.

Description

HINTERGRUND
Technisches Gebiet
Diese Offenbarung betrifft ein adaptives Nachfiltersystem und -verfahren (allgemein als ein „System“ bezeichnet).
Verwandte Technik
Systeme zur Fernfeldgeräuschaufnahme, auch Fernfeldmikrofone oder Fernfeldmikrofonsysteme genannt, sind ausgelegt, um Geräusche von einer erwünschten Schallquelle aufzunehmen, die in einem größeren Abstand (z. B. mehrere Meter) zum Fernfeldmikrofon positioniert ist. Je größer der Abstand zwischen Schallquelle und Fernfeldmikrofon ist, desto geringer ist das erwünschte Geräusch-Rausch-Verhältnis. Der Begriff „Rauschen“ beinhaltet im vorliegenden Fall Geräusche, die keine Informationen, Ideen oder Emotionen tragen, z. B. keine Sprache oder Musik. Wenn das Rauschen unerwünscht ist, wird es auch als Rauschen bezeichnet. Wenn Sprache oder Musik in eine geräuschvolle Umgebung, wie ein Fahrzeug, eine Wohnung oder ein Büro eingeführt wird, kann das im Innenraum vorhandene Rauschen eine unerwünschte störende Wirkung auf eine erwünschte Sprachkommunikation oder Musikpräsentation haben. Rauschverminderung ist üblicherweise die Dämpfung unerwünschter Signale, kann aber auch die Verstärkung erwünschter Signale beinhalten. Erwünschte Signale können Sprachsignale sein, während unerwünschte Signale alle beliebigen Geräusche in der Umgebung sein können, die die erwünschten Signale stören. Im Zusammenhang mit der Rauschverminderung gibt es drei Hauptansätze: Richtungsabhängige Strahlformung, spektrale Subtraktion und tonhöhenabhängige Sprachverbesserung. Systeme, die für den Empfang von sich räumlich ausbreitenden Signalen ausgelegt sind, stoßen häufig auf Störsignale. Wenn das erwünschte Signal und die Störer das gleiche zeitliche Frequenzband belegen, kann das zeitliche Filtern nicht verwendet werden, um das erwünschte Signal vom Störer zu trennen. Es ist erwünscht, Systeme und Verfahren zur Rauschverminderung zu verbessern.
KURZDARSTELLUNG
Ein adaptives Sperrsystem beinhaltet einen Sperrmaskenblock, der konfiguriert ist, um aus mindestens einem von einem erwünschten Signal und einem in den Sperrmaskenblock eingegebenen unerwünschten Signal ein Ausgangssignal zu erzeugen, das an sich oder in Kombination mit dem erwünschten Signal oder dem unerwünschten Signal ein Maskensignal bereitstellt, wobei das unerwünschte Signal Komponenten beinhaltet, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal Komponenten beinhaltet, die auch in dem unerwünschten Signal vorkommen, und das Ausgangssignal das unerwünschte Signal mit reduzierten oder keinen Komponenten ist, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal mit reduzierten oder keinen Komponenten, die auch in dem unerwünschten Signal vorkommen.
Ein adaptives Sperrverfahren beinhaltet: Erzeugen, aus mindestens einem von einem erwünschten Signal und einem in eine Sperrmaske eingegebenen unerwünschten Signal, eines Ausgangssignals, das an sich oder in Kombination mit dem erwünschten Signal oder dem unerwünschten Signal ein Maskensignal bereitstellt, wobei das unerwünschte Signal Komponenten beinhaltet, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal Komponenten beinhaltet, die auch in dem unerwünschten Signal vorkommen, und das Ausgangssignal das unerwünschte Signal mit reduzierten oder keinen Komponenten ist, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal mit reduzierten oder keinen Komponenten, die auch in dem unerwünschten Signal vorkommen.
Andere Systeme, Verfahren, Merkmale und Vorteile sind oder werden einem Fachmann nach Prüfung der folgenden ausführlichen Beschreibung und der beigefügten Figuren offensichtlich. Es ist beabsichtigt, dass alle solche zusätzlichen Systeme, Verfahren, Merkmale und Vorteile in diese Beschreibung aufgenommen werden, in den Geltungsbereich der Erfindung fallen und durch die folgenden Patentansprüche geschützt sind.
Figurenliste
Das System kann anhand der folgenden Zeichnungen und Beschreibungen besser verstanden werden. In den Figuren bezeichnen gleiche Bezugszeichen entsprechende Teile in den verschiedenen Ansichten.

1 ist ein schematisches Diagramm, das ein beispielhaftes Fernfeld-Mikrofonsystem veranschaulicht.
2 ist ein schematisches Diagramm, das einen beispielhaften akustischen Echokompensator für das in 1 gezeigte Fernfeld-Mikrofonsystem veranschaulicht.
3 ist ein schematisches Diagramm, das einen beispielhaften Filter und Summenstrahlformer veranschaulicht.
4 ist ein schematisches Diagramm, das einen beispielhaften Strahlsteuerblock veranschaulicht.
5 ist ein schematisches Diagramm, das einen Aufbau eines beispielhaften adaptiven Störungskompensators ohne einen adaptiven Sperrfilter veranschaulicht.
6 ist ein schematisches Diagramm, das einen Aufbau eines weiteren beispielhaften adaptiven Störungskompensators ohne einen adaptiven Sperrfilter veranschaulicht.
7 ist ein schematisches Diagramm, das einen Aufbau eines beispielhaften adaptiven Sperrfilter(system)s veranschaulicht.
8 ist ein schematisches Diagramm, das einen Aufbau eines weiteren beispielhaften adaptiven Sperrfilter(system)s veranschaulicht.
9 ist ein schematisches Diagramm, das einen Aufbau eines beispielhaften Sprachsperrmaskenblocks veranschaulicht.
10 ist ein schematisches Diagramm, das einen Aufbau eines beispielhaften adaptiven Sperrfilters, angewendet in einem adaptiven Störungskompensator, veranschaulicht.
11 ist ein schematisches Diagramm, das einen weiteren Aufbau eines beispielhaften adaptiven Sperrfilters, angewendet in einem adaptiven Störungskompensator, veranschaulicht.
12 ist ein schematisches Diagramm, das einen weiteren Aufbau eines Aufbaus eines beispielhaften adaptiven Sperrfilters, angewendet in einem adaptiven Störungskompensator, veranschaulicht.

Die Figuren beschreiben Konzepte im Zusammenhang mit einer oder mehreren Strukturkomponenten. Die verschiedenen in den Figuren dargestellten Komponenten können auf beliebige Weise implementiert werden, einschließlich z. B. Software- oder Firmware-Programmcode, der auf geeigneter Hardware, Hardware und beliebigen Kombinationen davon ausgeführt wird. In einigen Beispielen können die verschiedenen Komponenten die Verwendung entsprechender Komponenten in einer tatsächlichen Implementierung widerspiegeln. Bestimmte Komponenten können in mehrere Teilkomponenten zerlegt werden und bestimmte Komponenten können in einer anderen Reihenfolge als der hier dargestellten implementiert werden, auch auf parallele Weise.
AUSFÜHRLICHE BESCHREIBUNG
Es wurde herausgefunden, dass die erwünschten Signale und Störsignale oft von unterschiedlichen räumlichen Standorten stammen. Daher können Strahlformungstechniken verwendet werden, um das Signal-Rausch-Verhältnis in Audioanwendungen zu verbessern. Gängige Strahlformungstechniken beinhalten Verzögerungs- und Summentechniken, adaptive Finite Impulse Response (FIR)-Filtertechniken unter Verwendung von Algorithmen wie dem Griffiths-Jim-Algorithmus und Techniken, die auf der Modellierung des menschlichen binauralen Hörsystems basieren.
Strahlformer können je nach Wahl der Gewichte entweder als datenunabhängig oder als statistisch optimal eingestuft werden. Die Gewichte in einem datenunabhängigen Strahlformer hängen nicht von den Array-Daten ab und werden so gewählt, dass sie für alle Signal-/Störungsszenarien eine bestimmte Antwort darstellen. Statistisch optimale Strahlformer wählen die Gewichte aus, um das Ansprechverhalten des Strahlformers anhand der Statistik der Daten zu optimieren. Die Datenstatistiken sind oft unbekannt und können sich mit der Zeit ändern, sodass adaptive Algorithmen verwendet werden, um Gewichte zu erhalten, die zur statistisch optimalen Lösung konvergieren. Rechnerische Überlegungen erfordern den Einsatz von teilweise adaptiven Strahlformern mit Arrays, die aus einer großen Anzahl von Sensoren bestehen. Für die Implementierung optimaler Strahlformer wurden viele verschiedene Ansätze vorgeschlagen. Im Allgemeinen platziert der statistisch optimale Strahlformer Nullstellen in den Richtungen von Störquellen, um das Signal-Rausch-Verhältnis am Strahlformerausgang zu maximieren.
In vielen Anwendungen kann das erwünschte Signal von unbekannter Stärke sein und eventuell nicht immer vorhanden sein. In solchen Situationen ist die korrekte Schätzung von Signal- und Rauschkovarianzmatrizen im maximalen Signal-Rausch-Verhältnis (SNR) nicht möglich. Fehlende Kenntnisse über das erwünschte Signal können die Nutzung des Referenzsignalansatzes erschweren. Diese Einschränkungen können durch die Anwendung von linearen Beschränkungen auf den Gewichtsvektor überwunden werden. Die Verwendung von linearen Beschränkungen ist ein sehr allgemeiner Ansatz, der eine weitgehende Kontrolle über das angepasste Verhalten des Strahlformers ermöglicht. Ein universeller linearer Beschränkungsgestaltungsansatz existiert nicht und in vielen Anwendungen kann eine Kombination verschiedener Arten von Beschränkungstechniken effektiv sein. Jedoch kann der Versuch, entweder einen einzigen besten Weg oder eine Kombination verschiedener Wege zur Gestaltung der linearen Beschränkung finden, die Verwendung von Techniken einschränken, die mit der Gestaltung der linearen Beschränkung für Strahlformungsanwendungen arbeiten.
Die Generalized Sidelobe Canceller (GSC)-Technologie stellt eine alternative Formulierung dar, um die Nachteile des linearen Beschränkungsgestaltungsverfahrens für strahlformende Anwendungen zu beheben. Im Wesentlichen ist GSC ein Mechanismus, um ein beschränktes Minimierungsproblem in eine unbeschränkte Form zu bringen. GSC lässt die erwünschten Signale aus einer bestimmten Richtung unverzerrt, während gleichzeitig unerwünschte Signale, die aus anderen Richtungen ausstrahlen, unterdrückt werden. GSC verwendet jedoch eine Zwei-Wege-Struktur; einen erwünschten Signalweg, um einen festen Strahlformer zu realisieren, der in Richtung des erwünschten Signals zeigt, und einen unerwünschten Signalweg, der adaptiv eine ideal reine Rauschschätzung erzeugt, die vom Ausgangssignal des festen Strahlformers subtrahiert wird, wodurch sein Signal-Rausch-Verhältnis (SNR) durch Unterdrückung von Rauschen erhöht wird.
Der unerwünschte Signalweg, d. h. die Abschätzung des Rauschens, kann in einem zweiteiligen Ansatz realisiert werden. Ein erster Block des unerwünschten Signalwegs ist konfiguriert, um verbleibende Komponenten des erwünschten Signals aus den Eingangssignalen dieses Blocks zu entfernen oder zu blockieren, z. B. ein adaptiver Sperrfilter bei einem einzelnen Eingang oder eine adaptive Sperrmatrix bei Verwendung von mehr als einem Eingangssignal. Ein zweiter Block des unerwünschten Signalweges kann außerdem einen adaptiven (mehrkanaligen) Störungskompensator (AIC) umfassen, um ein einkanaliges, geschätztes Rauschsignal zu erzeugen, das dann vom Ausgangssignal des erwünschten Signalweges subtrahiert wird, z. B. ein optional zeitverzögertes Ausgangssignal des festen Strahlformers. Dadurch kann das im optional zeitverzögerten Ausgangssignal des festen Strahlformers enthaltene Rauschen unterdrückt werden, was zu einem besseren SNR führt, da die erwünschte Signalkomponente durch diese Verarbeitung idealerweise nicht beeinflusst wird. Dies gilt jedoch nur dann, wenn alle erwünschten Signalkomponenten innerhalb der Rauschabschätzung erfolgreich blockiert werden konnten, was in der Praxis selten der Fall ist und somit einen der größten Nachteile aktueller adaptiver Strahlformungsalgorithmen darstellt.
Eine akustische Echounterdrückung kann z. B. durch Subtrahieren eines geschätzten Echosignals vom Gesamtgeräuschsignal erreicht werden. Zur Abschätzung des tatsächlichen Echosignals wurden Algorithmen entwickelt, die in der Zeitebene arbeiten und adaptive digitale Filter verwenden können, die zeitdiskrete Signale verarbeiten. Solche adaptiven digitalen Filter arbeiten so, dass die Netzwerkparameter, die die Übertragungseigenschaften des Filters definieren, in Bezug auf eine voreingestellte Qualitätsfunktion optimiert werden. Eine solche Qualitätsfunktion wird z. B. durch Minimierung der mittleren quadratischen Fehler des Ausgangssignals des adaptiven Netzes in Bezug auf ein Referenzsignal realisiert.
Mit Bezug auf 1, in einem beispielhaften Fernfeldgeräuschaufnahmesystem, wird ein Geräusch, das einem Quellsignal x(n) entspricht, wobei n ein (diskreter) Zeitindex ist, von einer erwünschten Geräuschquelle 101 über einen oder mehrere Lautsprecher (nicht gezeigt) abgestrahlt, durch einen Raum (nicht gezeigt) geleitet und dort mit den entsprechenden Raumimpulsantworten (RIRs) 100, durch Übertragungsfunktionen h₁(z) ..... h_M(z) dargestellt, gefiltert, wobei z ein Frequenzindex ist, und kann eventuell durch Rauschen beschädigt werden, bevor die resultierenden Geräuschsignale von M (M ist eine ganze Zahl, z. B. 2, 3 oder mehr) Mikrofonen aufgenommen werden, die M Mikrofonsignale bereitstellen. Das in 1 gezeigte beispielhafte Fernfeldgeräuschaufnahmesystem beinhaltet einen akustischen Echounterdrückungs (AEC)-Block 200, der M echounterdrückte Signale x₁(n) ...x_M(n) bereitstellt, einen nachfolgenden festen Strahlformer (FB)-Block 300, der B (B ist eine ganze Zahl, z.B. 1, 2 oder mehr) strahlgeformte Signale b₁(n) ...b_B(n) bereitstellt, einen nachfolgenden Strahlsteuerblock 400, der ein erwünschtes Quellenstrahlsignal b(n) bereitstellt, hier auch als positives Strahlausgangssignal b(n) bezeichnet, und optional ein unerwünschtes Quellenstrahlsignal b_n(n), hier auch als negatives Strahlausgangssignal b_n(n) bezeichnet. Die Blöcke 100, 200, 300 und 400 sind betriebsmäßig miteinander gekoppelt, um mindestens eine Signalkette (Signalweg) zwischen Block 100 und Block 400 zu bilden. Ein optionales unerwünschtes Signal (Negativstrahl), das betriebsmäßig mit dem Ausgang des Strahlsteuerblocks 400 gekoppelt ist und mit dem unerwünschten Strahlensignal b_n(n) versorgt wird, beinhaltet einen optionalen adaptiven Sperrfilter (ABF)-Block 500 und einen nachfolgenden adaptiven Störungskompensator (AIC)-Block 600, der betriebsmäßig mit dem ABF-Block 500 gekoppelt ist. Der ABF-Block 500 kann ein Fehlersignal e(n) bereitstellen. Alternativ können die ursprünglichen M-Mikrofonsignale oder die M-Ausgangssignale des AEC-Blocks 200 oder die B-Ausgangssignale des FB-Blocks 300 als Eingangssignale für den ABF-Block 500 verwendet werden, optional überlagert mit dem unerwünschten Quellenstrahlsignal b_n(n), um einen optionalen mehrkanaligen adaptiven Blockierungsmatrix (ABM)-Block) sowie einen optionalen mehrkanaligen AIC-Block aufzubauen.
Ein erwünschter Signalweg (Positivstrahl), der ebenfalls mit dem Strahlsteuerblock 400 gekoppelt und mit dem erwünschten Quellenstrahlsignal b(n) versorgt wird, umfasst eine Reihenschaltung eines optionalen Verzögerungsblocks 102, eines Subtraktorblocks 103 und eines (adaptiven) Nachfilterblocks 104. Der adaptive Nachfilter 104 empfängt ein Ausgangssignal u(n) vom Subtraktorblock 103 und ein Steuersignal b'(n) vom AIC-Block 600. Ein optionaler Sprachpausendetektor (nicht gezeigt) kann an den adaptiven Nachfilterblock 104 sowie einen Rauschverminderungs (NR)-Block 105 und einen optionalen automatischen Verstärkungsregler (AGC)-Block 106 dahinter angeschlossen werden, von denen jeder, falls vorhanden, vor dem Sprachpausendetektor angeschlossen werden kann. Es wird darauf hingewiesen, dass der AEC-Block 200, anstatt wie gezeigt vor dem FB-Block 300 angeschlossen zu werden, dahinter angeschlossen werden kann, was von Vorteil sein kann, wenn B<M, d. h. weniger Strahlformerblöcke als Mikrofone zur Verfügung stehen. Weiterhin kann der AEC-Block 200 in eine Vielzahl von Unterblöcken (nicht gezeigt) aufgeteilt werden, z. B. kurze Unterblöcke für jedes Mikrofonsignal und ein langer Unterblock (nicht gezeigt) hinter dem BS-Block 400 für das erwünschte Quellenstrahlsignal und optional ein weiterer langer Unterblock (nicht gezeigt) für das unerwünschte Quellenstrahlsignal. Weiterhin ist das System nicht nur in Situationen mit nur einer Quelle einsetzbar, sondern kann für den Einsatz in Verbindung mit einer Vielzahl von Quellen angepasst werden. Wenn beispielsweise Stereoquellen verwendet werden, die zwei unkorrelierte Signale bereitstellen, können die AEC-Blöcke durch Stereo-akustische-Echounterdrückungs (SAEC)-Blöcke (nicht gezeigt) ersetzt werden.
Wie aus 1 ersichtlich wird, dienen N (= 1) Quellensignale x(n), die von den NxM RIRs gefiltert und möglicherweise durch Rauschen gestört werden, als Eingang zu den AEC-Blöcken 200. 2 zeigt eine beispielhafte Realisierung eines AEC-Blocks 200 mit einem einzelnen Mikrofon (206) und einem einzelnen Lautsprecher (205). Wie vom Fachmann verstanden und geschätzt, kann eine solche Konfiguration auf mehr als ein Mikrofon 206 und/oder mehr als einen Lautsprecher 205 erweitert werden. EinFernbereichssignal, dargestellt durch das Quellensignal x(n), wandert über Lautsprecher 205 durch einen Echoweg 201 mit der Übertragungsfunktion (Vektor) h(n) = (h₁,..., h_M) zur Bereitstellung eines Echosignals x_e(n).
Dieses Signal wird an einem Summierungsknoten 209 zu einem Nahbereichssignal v(n) addiert, das sowohl Hintergrundrauschen als auch Nahbereichssprache enthalten kann, was zu einem elektrischen Mikrofon(ausgangs)signal d(n) führt. Ein von einem adaptiven Filterblock 202 bereitgestelltes geschätztes Echosignal x̂_e(n) wird von dem Mikrofonsignal d(n) an einem subtrahierenden Knoten 203 subtrahiert, um ein Fehlersignal e_AEC(n) bereitzustellen. Der adaptive Filter 202 ist konfiguriert, um das Fehlersignal e_AEC(n) zu minimieren.
FIR-Filter 202 mit Übertragungsfunktion ĥ(n) der Ordnung L-1, wobei L eine Länge des FIR-Filters ist, wird zur Modellierung des Echowegs verwendet. Die Übertragungsfunktion ĥ(n) ist wie folgt gegeben ${[\hat{h} (0, n), \dots \hat{h} (L - 1, n),]}^{T}$
Das erwünschte Mikrofonsignal d(n) am Block 203 für den adaptiven Filter ist wie folgt gegeben $d (n) = x^{T} (n) h (n) + v (n),$
wobei x(n) = [x(n) x(n - 1) ... x(n - L + 1)]^T ein reellwertiger Vektor ist, der L (L ist eine ganze Zahl) die letzten Zeitabtastungen des Eingangssignals, x(n) und v(n) enthält, d. h. das Nahbereichssignal mit Rauschen enthalten kann.
Unter Verwendung der vorherigen Angaben ist das Feedback/Echo-Fehlersignal wie folgt gegeben $e_{A E C} (n) = d (n) - x^{T} (n - 1) \hat{h} (n) = x^{T} (n) [h (n) - \hat{h} (n)] + v (n),$
wobei die Vektoren h(n) und ĥ(n) die Filterkoeffizienten, die den akustischen Echoweg darstellen, und deren Schätzung durch die adaptiven Filterkoeffizienten zum Zeitpunkt n enthalten. Die Unterdrückungsfilter ĥ(n) werden z. B. mit einem Least Mean Square (LMS)-Algorithmus oder einem beliebigen rekursiven Algorithmus nach dem neuesten Stand der Technik geschätzt. Das LMS-Update mit einer Schrittweite von µ(n) des LMS-Algorithmus kann wie folgt ausgedrückt werden $\hat{h} (n) = \hat{h} (n - 1) + μ (n) x (n) e (n) .$
Eine einfache, aber effektive Strahlformungstechnik ist die Delay-and-Sum-Technik (DS). Mit erneutem Bezug auf 1 dienen die Ausgänge der AEC-Blöcke 200 als Eingänge xi(n), mit i = 1,....,M, zu dem festen Strahlformerblock 300. Eine allgemeine Struktur eines festen Filter und Summen (FS)-Strahlformerblocks 300 mit Filterblöcken 302 mit mindestens einer der Übertragungsfunktionen w_i(L), i = 1,....,M und w_i(L) = [w_i(0),...., w_i(L-1)], wobei L die Länge der Filter innerhalb des FB ist, ist in 3 gezeigt. Wenn die Filterblöcke 302 erwünschte (faktische) Verzögerungen realisieren, werden die Ausgangsstrahlformersignale bj(n) mit j = 1,....,B, wie folgt gegeben $b_{j} (n) = \frac{1}{M} \sum_{i = 1}^{M} x_{i} (n - τ_{i, j}),$
wobei M die Anzahl der Mikrofone ist und für jedes (feste) Strahlformer-Ausgangssignal b_j(n) mit j = 1,....,B, jedes Mikrofon eine Verzögerung τ_i,j relativ zueinander aufweist. Der FS-Strahlformer kann einen Summierer 301 beinhalten, der die Eingangssignale x_i(n) über Filterblöcke 302 mit den Übertragungsfunktionen w_i(L) empfängt.
Mit erneutem Bezug auf 1 dienen die vom festen FS-Strahlformerblock 300 ausgegebenen Strahlformersignale b_j(n) wiederum als Eingang zum Strahlsteuer (BS)-Block 400. Jedes Signal vom festen Strahlformerblock 300 wird aus einer anderen Raumrichtung entnommen und kann einen anderen SNR-Pegel aufweisen. Die Eingangssignale bj(n) des Strahlsteuerblocks 400 können niederfrequente Komponenten wie niederfrequentes Rumpeln, Gleichstromversätze und unerwünschte Stimmplosive bei Sprachsignalen enthalten. Diese Artefakte können auf das Eingangssignal bj(n) des BS-Blocks 400 einwirken und sollten entfernt werden.
Alternativ kann der Strahl, der auf die unerwünschte Signalquelle (z. B. Rauschen) zeigt, d. h. der unerwünschte Signalstrahl, basierend auf dem Strahl, der auf die erwünschte Geräuschquelle zeigt, d. h. der erwünschte Signalstrahl, angenähert werden, indem er in die entgegengesetzte Richtung des auf die erwünschte Geräuschquelle gerichteten Strahls gerichtet wird, was zu einem System mit weniger Ressourcen und auch zu Strahlen mit exakt gleichen Zeitschwankungen führen würde. Außerdem können so beide Strahlen nie in die gleiche Richtung zeigen.
Als weitere Alternative kann anstelle des auf die erwünschte Quellenrichtung gerichteten Strahls (Positivstrahl) eine Summierung dieses mit seinen Nachbarstrahlen als Positivstrahl-Ausgangssignal verwendet werden, da alle einen hohen Anteil an erwünschten Signalen enthalten, die miteinander korreliert sind und als solche durch die Summierung verstärkt würden. Andererseits sind die in den drei benachbarten Strahlen enthaltenen Rauschanteile unkorreliert und werden als solche durch die Summierung unterdrückt. Als Ergebnis verbessert das schließliche Ausgangssignal der drei benachbarten Strahlen das SNR.
Der auf die unerwünschte Quellenrichtung gerichtete Strahl (negativer Strahl) kann alternativ durch Verwendung aller Ausgangssignale des FB-Blocks mit Ausnahme desjenigen, der den positiven Strahl darstellt, erzeugt werden. Dies führt zu einer effektiven Richtungsantwort mit einem räumlichen Nullpunkt in Richtung der erwünschten Signalquelle. Ansonsten ist ein omnidirektionaler Charakter anwendbar, was von Vorteil sein kann, da Rauschen in der Regel auch omnidirektional und nur selten in gerichteter Form in das Mikrofonarray eindringt.
Weiterhin kann das optional verzögerte, erwünschte Signal aus dem BS-Block die Basis für das Ausgangssignal bilden und wird als solches in den optionalen adaptiven Nachfilter eingegeben. Der adaptive Nachfilter, der vom AIC-Block gesteuert wird und ein gefiltertes Ausgangssignal liefert, kann optional in einen nachfolgenden einkanaligen Rauschverminderungsblock (z. B. NR-Block 105 in 1), der das bekannte spektrale Subtraktionsverfahren implementieren kann, und einen optionalen (z. B. abschließenden) automatischen Verstärkungssteuerungsblock (z. B. AGC-Block 106 in 1) eingegeben werden.
Bezugnehmend auf 4 werden die Eingangssignale bj(n) des Strahlsteuerblocks 400 mit einem Hochpass (HP)-Filter und einem optionalen Tiefpass (LP)-Filter 401 gefiltert, um Signalkomponenten zu blockieren, die entweder von Rauschen betroffen sind oder keine nützlichen Signalkomponenten enthalten, z. B. bestimmte Sprachsignalkomponenten. Der Ausgang des Filterblocks 401 kann aufgrund von Rauschen Amplitudenschwankungen aufweisen, die schnelle, zufällige Amplitudenänderungen von Punkt zu Punkt innerhalb des Signals b_j(n) bewirken können. In diesem Fall kann es sinnvoll sein, das Rauschen zu reduzieren, z. B. in einem in 4 gezeigten Glättungsblock 402.
Das gefilterte Signal vom Filterblock 401 wird geglättet, indem z. B. ein Tiefpassfilter mit unendlicher Impulsantwort (IIR) oder ein Filter mit gleitendem Mittelwert (MA) mit endlicher Impulsantwort (FIR) (beide nicht gezeigt) im Glättungsblock 402 angewendet wird, wodurch die Hochfrequenzanteile reduziert werden und die niederfrequenten Anteile mit geringer Änderung passieren. Der Glättungsblock 402 gibt ein geglättetes Signal aus, das noch etwas Rauschen enthalten kann und somit, wie oben beschrieben, zu merklichen starken Diskontinuitäten führen kann. Der Pegel von Sprachsignalen unterscheidet sich typischerweise deutlich von der Schwankung des Pegels des Hintergrundgeräusches, insbesondere dadurch, dass der dynamische Bereich einer Pegeländerung von Sprachsignalen größer ist und in wesentlich kürzeren Zeitabständen erfolgt als eine Pegeländerung von Hintergrundgeräuschen. Ein linearer Glättungsfilter in einem Rauschschätzungsblock 403 würde daher die starke Variation des erwünschten Signals, z. B. Musik oder Sprachsignal, herauswischen und das Rauschen herausfiltern. Ein solches Verwischen eines Musik- oder Sprachsignals ist in vielen Anwendungen inakzeptabel, daher kann ein nichtlinearer Glättungsfilter (nicht gezeigt) auf das geglättete Signal im Rauschschätzungsblock 403 angewendet werden, um die oben genannten Artefakte zu überwinden. Die Datenpunkte im Ausgangssignal bj(n) des Glättungsblocks 402 werden so modifiziert, dass einzelne Punkte, die höher sind als die unmittelbar benachbarten Punkte (vermutlich wegen Rauschen), reduziert und Punkte, die niedriger sind als die benachbarten Punkte, erhöht werden. Dies führt zu einem glatteren Signal (und einer langsameren Sprungreaktion auf Signaländerungen).
Aus dem geglätteten Signal des Glättungsblocks 402 und dem geschätzten Hintergrundrauschsignal des Rauschschätzungsblocks 403 werden dann die Schwankungen des SNR-Wertes berechnet. Durch Variationen im SNR kann eine Rauschquelle von einem erwünschten Sprach- oder Musiksignal unterschieden werden. Zum Beispiel kann ein niedriger SNR-Wert eine Vielzahl von Rauschquellen wie etwa eine Klimaanlage, einen Ventilator, ein offenes Fenster oder ein elektrisches Gerät wie einen Computer usw. darstellen. Der SNR kann in einer Zeitebene oder in einer Frequenzebene oder in einer Teilbandfrequenzebene ausgewertet werden.
In einem Vergleichsblock 405 wird der Ausgangs-SNR-Wert von Block 404 mit einem vorbestimmten Schwellenwert verglichen. Ist der aktuelle SNR-Wert größer als ein vorbestimmter Schwellenwert, wird eine Markierung, die z. B. ein erwünschtes Sprachsignal anzeigt, z. B. auf „1“ eingestellt. Ist der aktuelle SNR-Wert kleiner als ein vorbestimmter Schwellenwert, wird alternativ eine Markierung, die ein unerwünschtes Signal wie etwa Rauschen von einer Klimaanlage, einem Ventilator, einem offenen Fenster oder einer elektrischen Vorrichtung, wie einem Computer, anzeigt, auf „0“ eingestellt.
SNR-Werte aus den Blöcken 404 und 405 werden über die Wege #1 bis Weg #B an einen Steuerungsblock 406 übergeben. Ein Steuerungsblock 406 vergleicht die Indizes einer Vielzahl von SNR-Werten (sowohl niedrige als auch hohe), die über die Zeit mit der Statusmarkierung im Vergleichsblock 405 gesammelt wurden. Ein Histogramm der Maximal- und Minimalwerte wird für einen vorbestimmten Zeitraum gesammelt. Die Minimal- und Maximalwerte in einem Histogramm stehen für mindestens zwei verschiedene Ausgangssignale. Mindestens ein Signal wird auf eine mit S(n) bezeichnete erwünschte Quelle und mindestens ein Signal auf eine mit I(n) bezeichnete Störquelle gerichtet.
Ändern sich die Indizes für niedrige und hohe SNR-Werte im Steuerungsblock 406 im Laufe der Zeit, wird ein Fading-Prozess eingeleitet, der einen sanften Übergang von einem zum anderen Ausgangssignal ermöglicht, ohne akustische Artefakte zu erzeugen. Die Ausgänge des BS-Blocks 400 stellen über die Zeit ausgewählte erwünschte Signal- und optional unerwünschte Signalstrahlen dar. Hier stellt der erwünschte Signalstrahl den festen Strahlformerausgang b(n) mit dem höchsten SNR dar. Der optional unerwünschte Signalstrahl stellt einen festen Strahlformerausgang b_n(n) mit dem niedrigsten SNR dar.
Die Ausgänge des BS-Blocks 400 enthalten ein Signal mit hohem SNR (Positivstrahl), das vom optionalen adaptiven Sperrfilter (ABF)-Block 500 als Referenz verwendet werden kann und ein optionales Signal mit niedrigem SNR (Negativstrahl), das ein zweites Eingangssignal für den optionalen ABF-Block 500 bildet. Der ABF-Filterblock 500 kann algorithmisch (LMS) gesteuerte Filter verwenden, um das Signal von Interesse, dargestellt durch das Referenzsignal b(n) (das den erwünschten Quellenstrahl darstellt), vom Signal b_n(n) (das den unerwünschten Quellenstrahl darstellt) adaptiv zu subtrahieren, und stellt Fehlersignal(e) e(n) bereit. Das/die aus dem ABF-Block 500 erhaltene(n) Fehlersignal(e) e(n) wird/werden an den adaptiven Störungskompensator (AIC)-Block 600 weitergeleitet, der die mit den Fehlersignalen korrelierten Signalkomponenten im erwünschten Signalweg vom Strahlformerausgang des festen Strahlformers 300 adaptiv entfernt. Wie bereits erwähnt, können andere Signale alternativ oder zusätzlich als Eingang zum ABM-Block dienen. Der adaptive Strahlformerblock mit optionalen ABM-, AIC- und APF-Blöcken kann jedoch ganz oder teilweise entfallen.
Zunächst berechnet der AIC-Block 600 ein Störsignal mit einem adaptiven Filter (nicht gezeigt). Dann wird der Ausgang dieses adaptiven Filters vom optional verzögerten (mit Verzögerung 102) Referenzsignal b(n) subtrahiert, z. B. durch einen Subtraktor 103, um die restlichen Stör- und Rauschanteile im Referenzsignal b(n) zu eliminieren. Schließlich kann ein adaptiver Nachfilter 104 hinter dem Subtraktor 103 angeordnet werden, um die statistischen Rauschkomponenten (ohne ausgeprägte Autokorrelation) zu reduzieren. Wie im ABF-Block 500 können die Filterkoeffizienten im AIC-Block 600 mit dem adaptiven LMS-Algorithmus aktualisiert werden. Die Norm der Filterkoeffizienten in mindestens einem von AIC-Block 600, ABF-Block 500 und der AEC-Blöcke kann beschränkt werden, damit sie nicht zu groß werden.
5 zeigt ein beispielhaftes System zur Eliminierung von Rauschen aus dem Signal b(n) des erwünschten Quellenstrahls (Positivstrahl). Dabei wird die im Signal b(n) beinhaltete Rauschkomponente, die in 5 durch das Signal z(n) dargestellt wird, durch ein adaptives System bereitgestellt, das einen Filtersteuerblock 700 enthält, der über ein Filtersteuersignal b"(n) einen steuerbaren Filter 800 steuert. Das Signal b(n) wird über den Subtraktorblock 103 von dem erwünschten Signal b(n) subtrahiert, gegebenenfalls nach einer Verzögerung in einem Verzögerungsblock 102 als verzögertes erwünschtes Signal b(n- γ), um ein Addiererausgangssignal u(n)bereitzustellen, das bis zu einem gewissen Grad vermindertes unerwünschtes Rauschen enthält. Das Signal b_n(n), das den unerwünschten Signalstrahl darstellt und idealerweise nur Rauschen und kein Nutzsignal wie Sprache enthält, wird als Referenzsignal für den Filtersteuerblock 700 verwendet, der auch als Eingang das Addiererausgangssignal erhält. Der bekannte NLMS-Algorithmus (Normalized Least Mean Square) kann verwendet werden, um Rauschen aus dem erwünschten Signal b(n), das von dem BS-Block 400 bereitgestellt wird, herauszufiltern. Die Rauschkomponente im erwünschten Signal b(n) wird durch das adaptive System einschließlich Filtersteuerblock 700 und steuerbarem Filter 800 geschätzt. Der steuerbare Filter 800 filtert das unerwünschte Signal b_n(n) unter Steuerung des Filtersteuerblocks 700, um eine Schätzung des im erwünschten Signal b(n) enthaltenen Rauschens zu erhalten, das vom (optional) verzögerten erwünschten Signal b(n- γ) im Subtraktorblock 103 subtrahiert wird, um weiteres Rauschen im erwünschten Signal b(n) zu reduzieren. Dies wiederum erhöht das Signal-Rausch-Verhältnis (SNR) des erwünschten Signals b(n). Das Filtersteuersignal b"(n) vom Filtersteuerblock 700 wird weiterhin zur Steuerung des adaptiven Nachfilters 104 verwendet. Das in 5 gezeigte System verwendet keinen optionalen ABF- oder ABM-Block, da eine zusätzliche Blockierung der Signalanteile des unerwünschten Signals durch den ABF- oder ABM-Block entfallen kann, wenn sie die Qualität des reinen Rauschsignals im Vergleich zum erwünschten Signal kaum erhöht. Folglich kann es sinnvoll sein, den ABF- oder ABM-Block wegzulassen, ohne die Leistung des adaptiven Strahlformers abhängig von der Qualität des unerwünschten Signals b_n(n) zu verschlechtern.
Mit Bezug auf 6 beinhaltet ein beispielhafter alternativer AIC zur Rauschunterdrückung aus dem erwünschten Quellenstrahl (Positivstrahl), d. h. aus dem für den Positivstrahl b(n) repräsentativen Signal, einen steuerbaren Filter 601, der die Übertragungsfunktion w(n) aufweist, und eine Filtersteuerung 602, die den steuerbaren Filter 601, d. h. seine Übertragungsfunktion w(n) steuert. Sowohl der steuerbare Filter 601 als auch die Filtersteuerung 602 empfangen das für den positiven Strahl b(n) repräsentative Signal und bilden in Kombination einen adaptiven Filter. Die Filtersteuerung 602 empfängt außerdem ein Ausgangssignal eines Subtraktors 603, das ein geschätztes Rauschsignal e(n) ist, das für das im erwünschten Quellenstrahl enthaltene Rauschen repräsentativ ist. Der Subtraktor 603 erhält das für den negativen Strahl b_n(n) repräsentative Signal, d. h. den unerwünschten Quellenstrahl, und ein vom steuerbaren Filter 601 ausgegebenes Signal.
In dem in 6 gezeigten System wird das für den positiven Strahl b(n) repräsentative Signal, das hauptsächlich das nützliches Signal (Sprache) enthält, als Referenzsignal für den adaptiven Filter (beispielhaft in einer Zeitebenenversion dargestellt) verwendet, das den NLMS-Algorithmus zur Filteraktualisierung verwendet, in Verbindung mit dem für den negativen Strahl b_n(n) repräsentativen Signal, das hauptsächlich unerwünschte Signalanteile (Rauschen) enthält. Der Zweck des Einsatzes eines ABF besteht darin, dass die Übertragungsfunktion w(n) des adaptiven Filters durch Minimierung des quadratischen Schätzsignals e(n) so angepasst wird, dass sie ein Signal ausgibt, das es erlaubt, die noch im Signal enthaltenen Nutzsignalanteile, die den negativen Strahl b_n(n) darstellen, nachzuahmen. Das bedeutet, dass Komponenten des nützlichen Signals (z. B. Sprache), die noch in dem für den negativen Strahl b_n(n) repräsentativen Signal enthalten sind, durch Filtern des Referenzsignals mit der Übertragungsfunktion w(n) geschätzt werden. Das gefilterte Referenzsignal wird vom Signal, das den negativen Strahl b_n(n) repräsentiert, subtrahiert, um aus dem Signal, das den negativen Strahl b_n(n) repräsentiert, die restlichen Teile des nützlichen Signals (Sprache) zu entfernen. Der Zweck der ABF besteht folglich darin, verbleibende Sprachsignalanteile innerhalb des für den negativen Strahl b_n(n) repräsentativen Signals zu blockieren, um schließlich eine Schätzung des Rauschens ohne nützliche (Sprach-)Signalkomponenten zu erhalten, d. h. des geschätzten Rauschsignals e(n), das dann als Referenz für den nachfolgenden AIC verwendet werden kann. Durch die Bereitstellung einer Referenz ohne Sprachsignalanteile an den AIC kann eine unerwünschte Unterdrückung von Sprachsignalanteilen durch den AIC reduziert oder vermieden werden. Daher unterdrückt AIC ausschließlich unerwünschte (Rausch-)Anteile, was zu einer Erhöhung des SNR seines Ausgangssignals führt. Leider kann die Korrelation der Sprachsignale im positiven und negativen Strahl manchmal unbefriedigend sein. Da adaptive Systeme auf eine ausreichende Korrelation angewiesen sind, kann die Entfernung von Sprachteilen aus dem Negativstrahl nicht erfolgreich sein. Im Folgenden wird ein ABF beschrieben, der weniger anfällig für korrelierende Signale ist.
Mit Bezug auf 7 beinhaltet ein beispielhafter ABF zwei Ebenen-Transformationsblöcke 701 und 702, in denen das für den positiven Strahl b(n) und das für den negativen Strahl b_n(n) repräsentative Signal aus der Zeitebene in die Spektralebene, d. h. in ein spektrales Positivstrahlsignal B(ω) und ein spektrales Negativstrahlsignal Bn(ω) umgewandelt werden. Das spektrale Positivstrahlsignal B(ω) wird einer Sprachsperrmaske (ABM-Block 703) zugeführt, die eine spektrale Sprachsperrmaske (ω) bestimmt (berechnet). Die Sprachsperrmaske (ω) wird mit dem spektralen Negativstrahlsignal B_n(ω) multipliziert, z. B. über einen Multiplikator 704, der ein spektral geschätztes Rauschsignal E(ω) ausgibt. Optional wird das spektrale Positivstrahlsignal B(ω) um einen Verzögerungsblock 705 verzögert, um ein verzögertes spektrales Positivstrahlsignal B_d(ω) auszugeben, das B(ω)·e^-jωγ ist, wobei γ die Verzögerungszeit ist und das zusammen mit dem spektral geschätzten Rauschsignal E(ω) an einen adaptiven Störungskompensator (AIC)-Block 706, wie AIC-Block 600, wie in 1 gezeigt, bereitgestellt wird. Der AIC-Block 706 kann einen adaptiven Nachfilter (APF)-Block beinhalten (nicht gezeigt) und gibt ein spektrales Ausgangssignal N(ω) aus.
Eine beispielhafte Möglichkeit zur Bestimmung (Berechnung) der erwünschten Gewichtung, d. h. Sperrmaske (n) bzw. spektrale Sperrmaske (ω), besteht also darin, das für den positiven Strahl b(n) repräsentative Signal als Basissignal zu verwenden, da dieses Signal den besten SNR aufweist, der eine robustere Berechnung der Sperrmaske(n) ermöglicht, die dann auf das für den negativen Strahl b_n(n) repräsentative Signal oder allgemeiner auf ein Signal mit dem schlechtesten SNR angewendet werden kann, um eventuell noch enthaltene Sprachsignalanteile zu blockieren. Alternativ kann nur das Signal mit dem schlechtesten SNR als Ausgangssignal verwendet werden, z. B. das für den negativen Strahl b_n(n) repräsentative Signal, das in den ABM-Block 703 eingegeben wird, um die erwünschte Sprachsperrmaske(n) bzw. spektrale Sperrmaske (ω) zu erzeugen, wie in 8 dargestellt. Hier wird die aus dem spektral negativen Strahlsignal B_n(ω) abgeleitete spektrale Sperrmaske (ω) als spektral geschätztes Rauschsignal E(ω) an den AIC-Block 706 geliefert.
Mit Bezug auf 9 kann eine beispielhafte Implementierung eines zeitvariablen Sprachblocks, der als Sprachsperrmaskenblock 703 in den oben beschriebenen adaptiven Sperrfilterblöcken in Verbindung mit den 7 und 8 oder in jeder anderen Anwendung einsetzbar ist, einen optionalen Ebenen-Transformationsblock 901 enthalten, in dem ein Eingangssignal in(n) aus der Zeitebene in die Spektralebene umgewandelt wird, d. h. in ein spektrales Eingangssignal IN(ω), z. B. durch eine schnelle Fourier-Transformation (FFT), sofern nicht bereits ein spektrales Eingangssignal wie die Signale B(ω) oder B_n(ω) in den oben beschriebenen ABF-Blöcken in Verbindung mit den 7 und 8 vorhanden ist. Das Eingangssignal kann ein beliebiges Signal wie z. B. Mikrofonsignale sein und kann Signale mit dem besten oder dem schlechtesten SNR beinhalten. Das spektrale Eingangssignal IN(ω), d. h. sein Spektrum, wird einem optionalen spektralen Glättungsblock 902 zur (zeitlichen) Glättung jeder Spektrallinie (Bin) des Spektrums zugeführt. Je nachdem, ob der optionale Spektralglättungsblock 902 vorhanden ist oder nicht, wird mit dem optionalen Spektralglättungsblock 902 (wie gezeigt) oder dem Spektraltransformationsblock 901 (nicht gezeigt) ein nachfolgender Zeitglättungsblock 903 zur zeitlichen Glättung verbunden. Die Glättung eines Signals kann das Filtern des Signals beinhalten, um wichtige Muster im Signal zu erfassen, während verrauschte, fein skalierte und/oder sich schnell ändernde Muster weggelassen werden.
Ein Hintergrundrauschenschätzungsblock 904 ist mit dem zeitlichen Glättungsblock 903 verbunden und kann jede bekannte Methode verwenden, die es erlaubt, das im Eingangssignal in(n) enthaltene Hintergrundrauschen zu bestimmen oder zu schätzen. Im gezeigten Beispiel liegt das auszuwertende Signal, das spektrale Eingangssignal IN(ω), in der Spektralebene, sodass der Hintergrundrauschenschätzblock 904 für den Betrieb in der Spektralebene ausgelegt ist.
In einem dem Hintergrundrauschenschätzungsblock 904 nachgeschalteten spektralen Signal-Rausch-Verhältnis-Block 905 werden die vom Hintergrundrauschenschätzungsblock 904 eingegebenen und ausgegebenen Signale zu einem spektralen Signal-Rausch-Verhältnis SNR verarbeitet (ω). Beispielsweise kann der spektrale Signal-Rausch-Verhältnis-Bestimmungsblock 905 den Signaleingang in den Hintergrundrauschenschätzungsblock 904 durch den Signalausgang durch den Hintergrundrauschenschätzungsblock 904 teilen, um das spektrale Signal-Rausch-Verhältnis SNR zu bestimmen (ω).
In einem ersten Auswertungsblock 906, der mit dem spektralen Signal-Rausch-Verhältnis-Bestimmungsblock 905 verbunden ist, wird das geschätzte Signal-Rausch-Verhältnis SNR(ω) in der Spektralebene (z. B. innerhalb eines vorgegebenen Frequenzbandes) mit einem vorgegebenen Signal-Rausch-Verhältnis-Schwellenwert SNR_TH verglichen. Überschreitet der geschätzte Signal-Rausch-Abstand SNR (ω) den Signal-Rausch-Verhältnis-Schwellenwert SNR_TH, wird eine vom ersten Auswertungsblock 906 ausgegebene Gewichtungsmaske I(ω) auf ein vorgegebenes maximales Signal-Rausch-Verhältnis gesetzt, z. B. ein Überschätzungsfaktor MaxSnrTh. Ansonsten kann die Gewichtungsmaske I(ω) auf einen konstanten Wert gesetzt werden, z. B. eins. Der erste Auswerteblock 906 gibt weiterhin eine Signal-Rausch-Verhältnis-Maske SnrMask(ω) aus, die aus dem geschätzten Signal-Rausch-Verhältnis SNR(ω) durch Teilen des geschätzten Signal-Rausch-Verhältnisses SNR(ω) durch den Signal-Rausch-Verhältnis-Schwellenwert SNR_TH abgeleitet wird.
In einem Rauschsperrblock 907 wird die SNR-gesteuerte Maske, die Signal-Rausch-Verhältnis-Maske SnrMask(ω) aus dem ersten Auswertungsblock 906, modifiziert, um eine einmal modifizierte SNR-Maske SnrMask'(ω) zu erzeugen, z. B. durch Setzen der Signal-Rausch-Verhältnis-Maske SnrMask'(ω) aus dem ersten Auswertungsblock 906 auf eins, wenn die Bewertungsmaske I(ω) eins ist, und andernfalls auf SnrMask(ω). Dann wird die einmal modifizierte Signal-Rausch-Verhältnis-Maske SnrMask'(ω) von eins abgezogen, um eine zweimal modifizierte Signal-Rausch-Verhältnis-Maske SnrMask"'(ω) zu erzeugen.
In einem optionalen zweiten Auswertungsblock 908, der an und hinter dem Rauschsperrblock 907 angeschlossen ist, wird die zweimal modifizierte SNR-Maske SnrMask"(ω) mit einem minimalen Schwellenwert MIN_TH verglichen. Unterschreitet die zweimal modifizierte SNR-Maske SnrMask"(ω) den minimalen Schwellenwert MIN_TH, wird eine dreifach modifizierte SNR-Maske SnrMask"'(ω) auf den minimalen Schwellenwert MIN_TH gesetzt, ansonsten nimmt die dreifach modifizierte SNR-Maske SnrMask"'(ω) die zweimal modifizierte SNR-Maske SnrMask"(ω) an.
In den ersten Blöcken des in 9 gezeigten Sperrmaskenblocks werden die zeitvariablen SNR-Werte in der Frequenzebene, d. h. Werte des spektralen SNR oder Rauschspektrums, geschätzt und dann mit dem vorgegebenen abstimmbaren SNR-Schwellwert SNR_TH verglichen. Abhängig vom Ergebnis dieses Vergleichs wird die Gewichtungsmaske I(ω) erzeugt, deren Werte auf das neutrale Gewicht von eins gesetzt werden können, wenn der aktuelle spektrale SNR(ω) den angegebenen SNR-Schwellwert SNR_TH nicht überschreitet. Ansonsten wird die Gewichtungsmaske I(ω) auf eins gesetzt. Die Gewichtungsmaske I(ω) zeigt Bins an, die den angegebenen Schwellenwert SNR_TH um eins überschreiten, während alle übrigen Spektrallinien durch Nullen gekennzeichnet sind. In einem Seitenweg können die aktuell geschätzten, spektralen SNR-Werte SNR(ω) um den angegebenen SNR-Schwellwert SNR_TH skaliert werden, der die erwünschte Maske SnrMask(ω) = SNR(ω)/SNR_TH liefert. Nacheinander wird die Maske abhängig von den Gewichten der Gewichtungsmaske I(ω) auf die einmal modifizierte spektrale SNR-Maske SnrMask'(ω) geändert, die entweder eins, wenn I(ω) = 1, oder ansonsten SnrMask(ω) annimmt. Die einmal modifizierte spektrale SNR-Maske SnrMask'(ω) wird von eins abgezogen, um die zweimal modifizierte spektrale SNR-Maske SnrMask"(ω) zu bilden. Bei allen Spektrallinien der spektralen SNR-Maske SnrMask(ω), bei der die Gewichtungsmaske I(ω) gleich eins ist, wird auch die einmal modifizierte spektrale SNR-Maske SnrMask'(ω) auf eins gesetzt, bevor sie vom konstanten Wert eins abgezogen wird, was effektiv zu einer Umkehrung der spektralen SNR-Maske SnrMask(ω) führt. Die resultierende zweimal modifizierte Maske SnrMask"(ω) wird dann optional auf eine untere Grenze begrenzt, die durch den minimalen Schwellenwert MIN_TH gegeben ist, bevor sie tatsächlich als die erwünschte Sprachblockiermaske wirkt, die die dreifach modifizierte SnrMask"'(ω) ist.
Mit anderen Worten, basierend auf dem aktuell geschätzten spektralen SNR-Signal SNR(ω), das auf den gegebenen Schwellenwert SNR_TH normiert und durch Subtraktion von eins invertiert wird, wird eine Maske erzeugt, die in der Lage ist, impulsive Signale wie Sprache zu unterdrücken. Dabei zeigen Teile des SNR-Signals SNR(ω), die den vorgegebenen Schwellenwert SNR_TH überschreiten, solche impulsiven Signale an, die durch das sonst auf Null gesetzte Signal I(ω) gekennzeichnet sind. Durch die Begrenzung des normierten SNR-Signals auf maximal eins, bevor es durch Subtraktion von eins invertiert wird, führen alle als impulsiv gekennzeichneten Signalanteile zu einer Sprachsperrmaske gleich Null und werden somit vollständig gesperrt. Alle übrigen Spektralanteile ergeben Gewichte im Bereich von 1≤ SnrMask (ω) ≤ 0, abhängig vom momentanen, normierten SNR-Signal SNR(ω)/SNR_TH. Optional kann die untere Grenze des gültigen Bereichs um den Mindestwert MIN_TH angepasst werden, was zu einem neuen gültigen Bereich von 1 ≤ SnrMask (ω) ≤ MIN_TH führt.
10 zeigt eine Kombination aus dem in Verbindung mit 7 beschriebenen spektralen ABM und einer in Verbindung mit 5 beschriebenen Frequenzebenenversion des AIC-Blocks mit einem zusätzlichen spektralen APF-Block 1001, z. B. entsprechend dem in 1 dargestellten APF-Block 104, und einem zusätzlichen Ebenenstransformationsblock 1002, in dem das Ausgangssignal N(ω) aus der Frequenzebene in das Signal n(n) in der Zeitebene umgewandelt wird. Entsprechend entspricht das Signal z(n) in 5 einem spektralen Signal Z(ω) in 10. Der Einfachheit halber werden die Referenznummern der in 5 gezeigten Zeitebenenversion des AIC-Blocks auch in der in 10-12 gezeigten Frequenzeebenenversion (spektral) für entsprechende Teile verwendet.
11 zeigt eine Kombination aus dem in Verbindung mit 8 beschriebenen ABM und der in Verbindung mit 5 beschriebenen Frequenzebenenversion des AIC-Blocks mit einem zusätzlichen spektralen APF-Block 1001 und einem zusätzlichen Ebenentransformationsblock 1002, in dem das Ausgangssignal N(ω) aus der Frequenzebene in das Signal n(n) in der Zeitebene umgewandelt wird. Auch hier entspricht das Signal z(n) in 5 einem spektralen Signal Z(ω) in 11. Dabei wird die resultierende Gewichtungsmaske, Sperrmaske (ω), auf sich selbst, d. h. auf das jeweilige Eingangssignal wie das spektral-negative Strahlsignal B_n(ω), angewendet, um noch im Eingangssignal enthaltene Sprachsignale zur Erzeugung des Referenzsignals, spektral geschätztes Rauschsignal E(ω), ω für den nachfolgenden AIC-Block zu blockieren. Die Sperrmaske (ω) kann mit dem oben beschriebenen System und Verfahren in Verbindung mit 9 erstellt werden.
Zu beachten ist, dass in beiden oben beschriebenen Fällen das Referenzsignal für die AIC-Stufe, d. h. das im Wesentlichen sprachfreie Rauschsignal, unter spektraler Subtraktion leidet, was bedeutet, dass E(ω) sogenannte musikalische Töne alias musikalisches Rauschen enthalten kann. Da es aber keine Korrelation zwischen diesen Tönen und dem erwünschten Signal der AIC-Stufe, dargestellt durch die optional zeitverzögerte Version des positiven Strahlsignals B(ω) e^-jωγ, gibt, hat dies keinen Einfluss auf das Ausgangssignal der AIC-Stufe, bevor es dem nachfolgenden adaptiven Nachfilterblock zugeführt wird. Die oben beschriebenen Systeme und Verfahren stellen daher eine Rauschunterdrückung ohne sonst unvermeidbare, akustische Artefakte, wie z. B. musikalische Töne, bereit.
Eine weitere Möglichkeit, eine unbeabsichtigte Unterdrückung erwünschter Signalanteile, wie z.B. Sprache, innerhalb des AIC-Blocks zu vermeiden, besteht darin, die Sprachsperrmaske aus dem ABM-Block als spektral abhängiges, zeitvariables Leckagesignal Leakage(ω) in den AIC-Block einzugeben, z. B. dessen Aktualisierungsteil, d. h. Filtersteuerblock 700, wobei das spektral geschätzte Rauschsignal E(ω) das spektrale Negativstrahlsignal B_n(ω) ist. 12 zeigt eine beispielhafte Implementierung basierend auf dem in 10 gezeigten System, bei der das Signal mit dem besten SNR, dem spektral positiven Strahlsignal B(ω), als Eingang zur ABM-Stufe verwendet wird, aber auch andere Signale verwendet werden können. Diese Option kann durch die folgende Gleichung beschrieben werden: $W (n + 1, k) = Leckage (n,k) \cdot W (n + 1, k) + \frac{μ (n, k)}{p_{x} (n, k) δ} \cdot E (n, k) * \cdot X (n, k)$
wobei W(n, k) eine Übertragungsfunktion des zeit- und frequenzabhängigen adaptiven Filters ist, Leckage (n, k) die zeit- und frequenzabhängige Leckage ist, µ(n, k) eine zeit- und frequenzabhängige adaptive Schrittweite ist, px (n, k) eine zeit- und frequenzabhängige Energie des Eingangssignals ist, δ ein kleiner Wert zur Vermeidung von Divisionen durch Null ist, E(n, k) ein zeit- und frequenzabhängiges Fehlersignal ist, (.)*eine komplexe konjugierte Operation ist, X(n, k) ein zeit- und frequenzabhängiges Eingangssignal ist, n ein diskreter Zeitindex ist und k ein diskreter Frequenzindex (bin) ist.
Die Beschreibung der Ausführungsformen wurde zum Zwecke der Darstellung und Beschreibung präsentiert. Geeignete Modifikationen und Variationen der Ausführungsformen können unter Berücksichtigung der obigen Beschreibung vorgenommen oder aus der Anwendung der Verfahren gewonnen werden. Sofern nicht anders angegeben, können beispielsweise eine oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Aktionen können zusätzlich zu der in dieser Anwendung beschriebenen Reihenfolge auch parallel und/oder gleichzeitig ausgeführt werden. Die beschriebenen Systeme sind von beispielhafter Natur und können zusätzliche Elemente enthalten und/oder Elemente auslassen.
Wie in dieser Anwendung verwendet, sollte ein Element oder Schritt, der im Singular formuliert und mit dem Wort „ein“ oder „eine“ fortgeführt wird, so verstanden werden, dass er nicht mehrere dieser Elemente oder Schritte ausschließt, es sei denn, ein solcher Ausschluss ist angegeben. Darüber hinaus sind Verweise auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so zu interpretieren, dass sie die Existenz zusätzlicher Ausführungsformen ausschließen, die auch die genannten Merkmale enthalten. Die Begriffe „erstens“, „zweitens“ und „drittens“ usw. werden lediglich als Beschriftung verwendet und dienen nicht dazu, ihren Objekten numerische Anforderungen oder eine bestimmte Lageordnung aufzuerlegen.
Die Ausführungsformen der vorliegenden Offenlegung stellen in der Regel eine Vielzahl von Schaltungen, elektrischen Geräten und/oder mindestens eine Steuerung bereit. Alle Verweise auf die Schaltungen, die mindestens eine Steuerung und andere elektrische Geräte und die von jedem bereitgestellten Funktionen sind nicht darauf beschränkt, nur das zu erfassen, was hier dargestellt und beschrieben wird. Zwar können den verschiedenen Schaltung(en), Steuerung(en) und anderen elektrischen Geräten, die hier offenbart sind, bestimmte Beschriftungen zugeordnet werden, doch sind diese Beschriftungen nicht dazu bestimmt, den Funktionsumfang der verschiedenen Schaltung(en), Steuerung(en) und anderen elektrischen Geräten einzuschränken. Diese Schaltung(en), Steuerung(en) und anderen elektrischen Geräte können je nach erwünschter elektrischer Ausführung beliebig miteinander kombiniert und/oder getrennt werden.
Unter einem Block versteht man ein Hardwaresystem oder ein Element davon mit mindestens einer der folgenden Komponenten: einer Verarbeitungseinheit, die Software ausführt, und einer dedizierten Schaltungsstruktur zur Implementierung einer jeweiligen erwünschten Signalübertragungs- oder Verarbeitungsfunktion. Folglich können Teile oder das gesamte System als Software und Firmware von einem Prozessor oder einer programmierbaren digitalen Schaltung ausgeführt werden. Es wird anerkannt, dass jedes System, wie hier beschrieben, eine beliebige Anzahl von Mikroprozessoren, integrierten Schaltungen, Speichervorrichtungen (z. B. FLASH, Random-Access-Memory (RAM), Read-Only-Memory (ROM), elektrisch programmierbarer Read-Only-Memory (EPROM), elektrisch löschbarer programmierbarer Read-Only-Memory (EEPROM) oder andere geeignete Varianten davon) und Software enthalten kann, die miteinander kooperieren, um die hier angegebenen Operation(en) durchzuführen. Darüber hinaus kann jedes System, wie offenbart, einen oder mehrere Mikroprozessoren verwenden, um ein Computerprogramm auszuführen, das in einem nicht transitorischen, computerlesbaren Medium enthalten ist, das so programmiert ist, dass es eine beliebige Anzahl der offenbarten Funktionen ausführt. Weiterhin enthält jede Steuerung, wie hier beschrieben, ein Gehäuse und eine Vielzahl von Mikroprozessoren, integrierten Schaltungen und Speichervorrichtungen (z. B. FLASH, Random-Access-Memory (RAM), Read-Only-Memory (ROM), elektrisch programmierbarer Read-Only-Memory (EPROM) und/oder elektrisch löschbarer programmierbarer Read-Only-Memory (EEPROM).
Während verschiedene Ausführungsformen der Erfindung beschrieben worden sind, ist für den Durchschnittsfachmann auf dem Gebiet offensichtlich, dass im Rahmen der Erfindung noch viel mehr Ausführungsformen und Implementierungen möglich sind. Insbesondere erkennt der Fachmann die Austauschbarkeit von mehreren Merkmalen aus unterschiedlichen Ausführungsformen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, wird davon ausgegangen, dass diese Techniken und Systeme über die spezifisch offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Änderungen derselben erweitert werden können.

Claims

Adaptives Sperrsystem, umfassend einen Sperrmaskenblock, der konfiguriert ist, um aus mindestens einem von einem erwünschten Signal und einem in den Sperrmaskenblock eingegebenen unerwünschten Signal ein Ausgangssignal zu erzeugen, das an sich oder in Kombination mit dem erwünschten Signal oder dem unerwünschten Signal ein Maskensignal bereitstellt, wobei das unerwünschte Signal Komponenten beinhaltet, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal Komponenten beinhaltet, die auch in dem unerwünschten Signal vorkommen, und das Ausgangssignal das unerwünschte Signal mit reduzierten oder keinen Komponenten ist, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal mit reduzierten oder keinen Komponenten, die auch in dem unerwünschten Signal vorkommen.
System nach Anspruch 1, wobei der Sperrmaskenblock konfiguriert ist, um das erwünschte Signal zu empfangen und ein Maskensignal bereitzustellten das das erwünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem unerwünschten Signal auftreten; und das System ferner einen Kombinationsblock umfasst, der konfiguriert ist, um das Maskensignal des Sperrmaskenblocks mit dem unerwünschten Signal zu kombinieren, um ein Ausgangssignal des adaptiven Sperrsystems bereitzustellen, das das unerwünschte Signal mit reduzierten oder keinen Komponenten ist, die auch in dem erwünschten Signal auftreten.
System nach Anspruch 2, wobei der Kombinationsblock konfiguriert ist, um in der Frequenzebene das Ausgangssignal des Sperrmaskenblocks und das unerwünschte Signal zu multiplizieren.
System nach Anspruch 2, wobei der Kombinationsblock ein Aktualisierungssteuerblock einer adaptiven Störungssteuerung ist.
System nach Anspruch 1, wobei der Sperrmaskenblock konfiguriert ist, um das unerwünschte Signal zu empfangen und ein Maskensignal bereitzustellen, das das unerwünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem erwünschten Signal auftreten; wobei das Maskensignal das Ausgangssignal des adaptiven Sperrsystems bildet, das das unerwünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem erwünschten Signal auftreten.
System nach einem der Ansprüche 1-5, wobei der Sperrmaskenblock einen Detektorblock umfasst, der konfiguriert ist, um in einem Eingangssignal, das das erwünschte Signal oder ein unerwünschtes Signal ist, unerwünschte Signalkomponenten in dem erwünschten Signal oder erwünschte Signalkomponenten in dem unerwünschten Signal basierend auf einem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals zu erfassen; und einen Maskierungsblock, der konfiguriert ist, um eine endgültige Sperrmaske zu erzeugen, die konfiguriert ist, um die erwünschten Komponenten im unerwünschten Signal oder unerwünschte Komponenten im erwünschten Signal zu unterdrücken.
System nach Anspruch 6, wobei der Detektorblock einen Signal-Rausch-Verhältnis-Bestimmungsblock umfasst, der konfiguriert ist, um das Signal-Rausch-Verhältnis-Spektrum des Eingangssignals durch Bestimmen des Signal-Rausch-Verhältnisses pro diskreter Frequenz des Eingangssignals zu bestimmen.
System nach Anspruch 6 oder 7, wobei der Maskierungsblock Folgendes umfasst: einen ersten Auswertungsblock, der konfiguriert ist, um aus dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals eine grundlegende Spektralmaske zu erzeugen, wobei der erste Auswertungsblock ferner konfiguriert ist, um das Signal-Rausch-Verhältnis-Spektrum des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert zu vergleichen und eine Gewichtungsmaske abhängig von den Ergebnissen des Vergleichs bereitzustellen; und einen Maskenmodifikationsblock, der konfiguriert ist, um die grundlegende Sperrmaske abhängig von der Gewichtungsmaske zu modifizieren, um eine einmal modifizierte spektrale Sperrmaske bereitzustellen.
System nach Anspruch 8, wobei der Maskierungsblock ferner Folgendes umfasst: einen zweiten Auswertungsblock, der konfiguriert ist, um die einmal modifizierte spektrale Sperrmaske mit einem minimalen Schwellenwert zu vergleichen und eine zweimal modifizierte spektrale Sperrung abhängig von den Ergebnissen des Vergleichs zu liefern.
Adaptives Sperrverfahren, umfassend: Erzeugen, aus mindestens einem von einem erwünschten Signal und einem in eine Sperrmaske eingegebenen unerwünschten Signal, eines Ausgangssignals, das an sich oder in Kombination mit dem erwünschten Signal oder dem unerwünschten Signal ein Maskensignal bereitstellt, wobei das unerwünschte Signal Komponenten enthält, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal Komponenten enthält, die auch in dem unerwünschten Signal vorkommen, und das Ausgangssignal das unerwünschte Signal mit reduzierten oder keinen Komponenten ist, die auch in dem erwünschten Signal vorkommen, oder das erwünschte Signal mit reduzierten oder keinen Komponenten, die auch in dem unerwünschten Signal vorkommen.
Verfahren nach Anspruch 10, wobei die Sperrmaske konfiguriert ist, um das gewünschte Signal zu empfangen und ein Maskensignal bereitzustellen, das das gewünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem unerwünschten Signal auftreten; wobei das Verfahren ferner das Kombinieren des Maskensignals der spektralen Sperrmaske mit dem unerwünschten Signal umfasst, um ein Ausgangssignal des adaptiven Sperrverfahrens bereitzustellen, das das unerwünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem erwünschten Signal auftreten.
Verfahren nach Anspruch 11, wobei das Kombinieren konfiguriert ist, um in der Frequenzebene das Ausgangssignal des Sperrmaskenblocks und das unerwünschte Signal zu multiplizieren.
Verfahren nach Anspruch 11, wobei das Kombinieren mit einer Aktualisierungssteuerung einer adaptiven Störungssteuerung durchgeführt wird.
Verfahren nach Anspruch 10, wobei die Sperrmaske konfiguriert ist, um das unerwünschte Signal zu empfangen und ein Maskensignal bereitzustellen, das das unerwünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem erwünschten Signal auftreten; wobei das Maskensignal das Ausgangssignal des adaptiven Sperrverfahrens bildet, das das unerwünschte Signal ist, wobei reduzierte oder keine Komponenten auch in dem erewünschten Signal auftreten.
Verfahren nach einem der Ansprüche 10-14, wobei die Sperrmaske Folgendes umfasst: Erfassen eines Eingangssignals, das das erwünschte Signal oder unerwünschte Signal ist, unerwünschter Signalkomponenten in dem erwünschten Signal oder erwünschter Signalkomponenten in dem unerwünschten Signal basierend auf einem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals; und Erzeugen einer endgültigen Sperrmaske, die konfiguriert ist, um die erwünschten Komponenten im unerwünschten Signal oder die unerwünschten Komponenten im erwünschten Signal zu unterdrücken.
Verfahren nach Anspruch 15, wobei das Erfassen unerwünschter Signalkomponenten in dem erwünschten Signal oder erwünschter Signalkomponenten in dem unerwünschten Signal in einem Eingangssignal, das das erwünschte Signal oder ein unerwünschtes Signal ist, auf der Grundlage eines Signal-Rausch-Verhältnis-Spektrums des Eingangssignals das Bestimmen des Signal-Rausch-Verhältnis-Spektrums des Eingangssignals durch Bestimmen des Signal-Rausch-Verhältnisses pro diskreter Frequenz des Eingangssignals umfasst.
Verfahren nach Anspruch 15 oder 16, wobei das Erzeugen der endgültigen Sperrmaske Folgendes umfasst: Erzeugen aus dem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals einer grundlegenden Sperrmaske, Vergleichen des Signal-Rausch-Verhältnis-Spektrums des Eingangssignals mit einem vorbestimmten Signal-Rausch-Verhältnis-Schwellenwert und Bereitstellen einer Gewichtungsmaske abhängig von den Ergebnissen des Vergleichs; und Modifizieren der grundlegenden spektralen Sperrmaske abhängig von der Gewichtungsmaske, um eine einmal modifizierte spektrale Rauschentfernungsmaske bereitzustellen.
Verfahren nach Anspruch 17, wobei das Erzeugen der endgültigen spektralen Sperrmaske das Vergleichen der einmal modifizierten spektralen Sperrmaske mit einem minimalen Schwellenwert und das Bereitstellen einer zweimal modifizierten spektralen Sperrmaske abhängig von den Ergebnissen des Vergleichs umfasst.