DE102019105458B4 - System und Verfahren zur Zeitverzögerungsschätzung - Google Patents

System und Verfahren zur Zeitverzögerungsschätzung Download PDF

Info

Publication number
DE102019105458B4
DE102019105458B4 DE102019105458.3A DE102019105458A DE102019105458B4 DE 102019105458 B4 DE102019105458 B4 DE 102019105458B4 DE 102019105458 A DE102019105458 A DE 102019105458A DE 102019105458 B4 DE102019105458 B4 DE 102019105458B4
Authority
DE
Germany
Prior art keywords
signal
input signal
energy
output
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102019105458.3A
Other languages
English (en)
Other versions
DE102019105458A1 (de
Inventor
Markus Christoph
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Priority to DE102019105458.3A priority Critical patent/DE102019105458B4/de
Publication of DE102019105458A1 publication Critical patent/DE102019105458A1/de
Application granted granted Critical
Publication of DE102019105458B4 publication Critical patent/DE102019105458B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Verfahren zur Zeitverzögerungsschätzung, das dazu ausgebildet ist, ein erstes Eingangssignal (bp(n)) und ein zweites Eingangssignal (bn(n)) zu verarbeiten, um ein erstes Ausgangssignal und ein zweites Ausgangssignal bereitzustellen, wobei das erste Eingangssignal (bp(n)) ein erwünschtes Signal als Hauptkomponente und das zweite Eingangssignal (bn(n)) ein unerwünschtes Signal als Hauptkomponente umfasst; wobei das Verfahren folgende Schritte beinhaltet:Bestimmen der Energie des ersten Eingangssignals (bp(n)) und der Energie des zweiten Eingangssignals (bn(n));Vergleichen der Energie des ersten Eingangssignals (bp(n)) mit der Energie des zweiten Eingangssignals (bn(n)); undEinstellen des ersten Ausgangssignals auf das zweite Eingangssignal (bn(n)) und des zweiten Ausgangssignals auf das erste Eingangssignal (bp(n)), wenn die Energie des zweiten Eingangssignals die Energie des ersten Eingangssignals (bp(n)) um einen Grenzwert überschreitet, und ansonsten Einstellen des ersten Ausgangssignals auf das erste Eingangssignal (bp(n)) und des zweiten Ausgangssignals auf das zweite Eingangssignal (bn(n)).

Description

  • STAND DER TECHNIK
  • Gebiet
  • Die Offenbarung betrifft ein System und Verfahren (allgemein als „System“ bezeichnet) zur Zeitverzögerungsschätzung.
  • Stand der Technik
  • Fernfeld-Schallerfassung gestattet zum Beispiel das Aufnehmen von Tönen von einer erwünschten Schallquelle, die sich in einem größeren Abstand (z. B. mehrere Meter) von einem Fernfeld-Mikrofon entfernt befindet. Je größer der Abstand zwischen Schallquelle und dem Fernfeldmikrofon, desto niedriger ist jedoch das gewünschte Verhältnis von Schall zu Rauschen. Der Begriff „Rauschen“ umfasst im vorliegenden Fall Schall, der keine Informationen, Ideen oder Emotionen trägt, z. B. keine Sprache oder Musik. Rauschen ist üblicherweise unerwünscht und kann auch als Störschall bezeichnet werden. Wenn Sprache oder Musik in eine mit Rauschen gefüllte Umgebung eingebracht werden, zum Beispiel ins Innere eines Wohnbereichs oder eines Büros, kann das im Innern vorhandene Rauschen eine unerwünschte störende Wirkung auf eine erwünschte Sprachkommunikation oder Musikdarbietung ausüben. Rauschverminderung ist allgemein die Dämpfung von unerwünschten Signalen, doch kann sie auch die Verstärkung von erwünschten Signalen umfassen. Erwünschte Signale können Sprach- oder Musiksignale sein, während unerwünschte Signale jegliche Geräusche der Umgebung sein können, die die erwünschten Signale stören. Im Zusammenhang mit Rauschverminderung haben sich drei wesentliche Vorgehensweisen herausgebildet: Direktionale Strahlbildung, spektrale Subtraktion und Sprachverstärkung auf Tonhöhenbasis. Systeme, die zum Empfangen von sich räumlich ausbreitenden Signalen ausgebildet sind, stoßen oft auf vorhandene Störsignale. Wenn das erwünschte Signal und Störsignale das gleiche zeitliche Frequenzband belegen, ist zeitliches Filtern zum Trennen des erwünschten Signals von Störungen nicht einsetzbar. Es besteht der Wunsch nach besserer Rauschverminderung. Die amerikanische Patentanmeldung US 2008 / 0 015 845 A1 offenbart ein Verfahren zur Kompensation von Audiosignalkomponenten in einem Fahrzeugkommunikationssystem. Das Verfahren umfasst Erkennen eines Tonsignals in einem Fahrzeug, wobei das Tonsignal Audiosignalkomponenten umfasst, die aus einem Reproduzieren eines Audiosignals einer Audioquelle in einem Fahrzeug resultieren, und wobei das Tonsignal weiterhin Sprachsignalkomponenten entsprechend einem Sprachsignal von einem Insassen des Fahrzeugs umfasst. Das Verfahren sieht ferner vor: Filtern des Tonsignals zur Weiß-Machung des Tonsignals, Filtern des Audiosignals zur Weiß-Machung des Audiosignals, Kompensieren der Audiosignalkomponenten in dem weiß gemachten Tonsignal und Entfernen der Weiß-Machung des kompensierten Tonsignals. Das Filtern des Audiosignals wird unter abwechselnder Verwendung von mindestens zwei Filtern durchgeführt und jeder Filter verwendet zeitabhängige Filterkoeffizienten, wobei die Filterkoeffizienten an zwei Audiosignalfilter zur Weiß-Machung des Audiosignals abgegeben werden, die Filterkoeffizienten N Zyklen an einen der Filter abgegeben werden und die Filterkoeffizienten für die nächsten N Zyklen an den anderen Filter zum Filtern des Audiosignals abgegeben werden, sodass die Filterkoeffizienten jedes der das Audiosignal weiß-machenden Audiosignalfilter alle 2N Zyklen erneuert werden. Die amerikanische Patentanmeldung US2018/0270565A1 offenbart ein Sprachverbesserungsverfahren umfassend das Empfangen einer Vielzahl von Signalen von einem Satz von Mikrofonen und das Erzeugen eines Primärsignals durch Array-Verarbeitung der Mikrofonsignale zum Steuern eines Beams in Richtung des Mundes des Benutzers. Ein Rauschreferenzsignal wird von einem oder mehreren Mikrofonen abgeleitet, und ein Sprachschätzungssignal wird durch Filtern des Primärsignals erzeugt, um Komponenten zu entfernen, die mit dem Rauschreferenzsignal korreliert sind.
  • KURZDARSTELLUNG
  • Ein Verfahren zur Zeitverzögerungsschätzung ist dazu ausgebildet, ein erstes Eingangssignal und ein zweites Eingangssignal zu verarbeiten, um ein erstes Ausgangssignal und ein zweites Ausgangssignal bereitzustellen, wobei das erste Eingangssignal ein erwünschtes Signal als Hauptkomponente und das zweite Eingangssignal ein unerwünschtes Signal als Hauptkomponente umfasst. Das Verfahren umfasst ein Bestimmen der Energie des ersten Eingangssignals und der Energie des zweiten Eingangssignals und Vergleichen der Energie des ersten Eingangssignals mit der Energie des zweiten Eingangssignals. Das Verfahren umfasst ferner ein Einstellen des ersten Ausgangssignals auf das zweite Eingangssignal und des zweiten Ausgangssignals auf das erste Eingangssignal, wenn die Energie des zweiten Eingangssignals die Energie des ersten Eingangssignals um einen Grenzwert überschreitet, und ansonsten Einstellen des ersten Ausgangssignals auf das erste Eingangssignal und des zweiten Ausgangssignals auf das zweite Eingangssignal.
  • Ein System zur Zeitverzögerungsschätzung umfasst Signaleingänge zum Empfangen eines ersten Eingangssignals und eines zweiten Eingangssignals, einen Signalausgang zum Bereitstellen eines ersten Ausgangssignals und eines zweiten Ausgangssignals, wobei das erste Eingangssignal ein erwünschtes Signal als Hauptkomponente und das zweite Eingangssignal ein unerwünschtes Signal als Hauptkomponente umfasst. Das System umfasst ferner mindestens eine mit dem Eingang und dem Ausgang verbundene Verarbeitungseinheit. Die mindestens eine Verarbeitungseinheit ist zum Bestimmen der Energie des ersten Eingangssignals und der Energie des zweiten Eingangssignals und zum Vergleichen der Energie des ersten Eingangssignals mit der Energie des zweiten Eingangssignals ausgebildet. Die mindestens eine Verarbeitungseinheit ist zum Einstellen des ersten Ausgangssignals auf das zweite Eingangssignal und des zweiten Ausgangssignals auf das erste Eingangssignal ausgebildet, wenn die Energie des zweiten Eingangssignals die Energie des ersten Eingangssignals um einen Grenzwert überschreitet, oder ansonsten zum Einstellen des ersten Ausgangssignals auf das erste Eingangssignal, wobei das zweite Ausgangssignal gleich dem zweiten Eingangssignal ist.
  • Weitere Systeme, Verfahren, Merkmale und Vorteile sind oder werden für den Fachmann bei Prüfung der folgenden ausführlichen Beschreibung und angehängten Figuren ersichtlich. Sämtliche solchen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile sollen in diese Beschreibung einbezogen, im Umfang der Erfindung enthalten und durch die folgenden Ansprüche geschützt sein.
  • Figurenliste
  • Das System wird mit Bezugnahme auf die folgenden Zeichnungen und die folgende Beschreibung besser verständlich. In den Figuren bezeichnen gleiche Bezugszeichen entsprechende Teile über die verschiedenen Ansichten.
    • 1 ist eine schematische Darstellung, die ein beispielhaftes Fernfeld-Mikrofonsystem zeigt;
    • 2 ist eine schematische Darstellung, die einen beispielhaften akustischen Echokompensator zeigt, der in dem in 1 gezeigten Fernfeld-Mikrofonsystem eingesetzt werden kann;
    • 3 ist eine schematische Darstellung, die einen beispielhaften Filter- und Summenstrahlformer zeigt;
    • 4 ist eine schematische Darstellung, die eine beispielhafte, in der Zeitdomäne betriebene Strahlsteuerungseinheit zeigt;
    • 5 ist eine schematische Darstellung, die einen vereinfachten Aufbau eines in der Zeitdomäne betriebenen adaptiven Strahlformers mit adaptivem Sperrfilter und Nachfilter zeigt;
    • 6 ist eine schematische Darstellung, die eine weitere beispielhafte, in der Frequenzdomäne betriebene Strahlsteuerungseinheit zeigt;
    • 7 ist eine schematische Darstellung, die einen vereinfachten Aufbau eines beispielhaften Systems zur Zeitverzögerungsschätzung zeigt.
    • 8 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren zur Zeitverzögerungsschätzung zeigt.
  • Die Figuren beschreiben Konzepte im Kontext einer oder mehrerer struktureller Komponenten. Die verschiedenen in den Figuren gezeigten Komponenten können auf beliebige Weise ausgeführt sein, darunter zum Beispiel als Software- oder Firmware-Programmcode, der auf geeigneter Hardware, Software sowie jeder beliebigen Kombination davon ausgeführt wird. In einigen Beispielen können die verschiedenen Komponenten die Verwendung entsprechender Komponenten in einer konkreten Umsetzung widerspiegeln. Bestimmte Komponenten können in mehrere Unterkomponenten aufgeteilt werden, und bestimmte Komponenten können auf andere Weise als hierin gezeigt umgesetzt sein, darunter auf eine parallele Weise.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Es wurde festgestellt, dass erwünschte Signale und Störsignale oft von unterschiedlichen räumlichen Positionen ausgehen. Daher können Strahlformungstechniken zur Verbesserung des Signal-Rausch-Verhältnisses in Audioanwendungen verwendet werden. Bekannte Strahlformungstechniken umfassen Verzögerungssummentechniken, adaptive Filtertechniken mit endlicher Impulsantwort (finite impulse response - FIR), die Algorithmen wie den Griffiths-Jim-Algorithmus verwenden, und Techniken, die auf Modellen des binauralen Hörens beim Menschen basieren.
  • Strahlformer können nach der Wahl der Gewichte entweder als datenunabhängig oder statistisch optimal klassifiziert werden. Die Gewichte bei einem datenunabhängigen Strahlformer hängen nicht von Array-Daten ab und werden zur Abgabe einer spezifischen Antwort für alle Signal-Rausch-Szenarios ausgewählt. Statistisch optimale Strahlformer wählen die Gewichte mit dem Ziel aus, die Antwort des Strahlformers auf der Basis von Datenstatistiken zu optimieren. Die Datenstatistiken sind oft unbekannt und können sich im Zeitverlauf ändern, sodass adaptive Algorithmen verwendet werden können, um Gewichte zu erhalten, die zur statistisch optimalen Lösung konvergieren. Aufgrund von rechnerischen Erwägungen können teilweise adaptive Strahlformer mit Anordnungen einer großen Zahl von Sensoren verwendet werden. Es wurden viele verschiedene Vorgehensweisen für die Umsetzung optimaler Strahlformer vorgeschlagen. Zum Beispiel setzt ein statistisch optimaler Strahlformer Nullen in Richtungen von Störquellen, um zu versuchen, das Signal-Rausch-Verhältnis am Strahlformerausgang zu maximieren.
  • In vielen Anwendungsfällen kann das erwünschte Signal von unbekannter Stärke und stets vorhanden sein. In solchen Anwendungsfällen ist eine richtige Schätzung von Kovarianzmatrizen von Signal und Rauschen bei einem maximalen Signal-Rausch-Verhältnis (signal-to-noise ratio - SNR) nicht möglich. Mangelndes Wissen über das erwünschte Signal kann die Nutzung eine Referenzsignalvorgehens verhindern. Diese Beschränkungen lassen sich durch Anwendung linearer Randbedingungen auf den Gewichtsvektor überwinden. Die Verwendung von linearen Randbedingungen ist eine Vorgehensweise, die eine umfassende Steuerung der adaptierten Antwort des Strahlformers ermöglicht. Einen universellen Gestaltungsansatz für lineare Randbedingungen gibt es nicht, wobei in vielen Anwendungsfällen eine Kombination von verschiedenen Typen von Randbedingungstechniken effektiv sein kann. Allerdings schränkt der Versuch, entweder eine einzige beste Möglichkeit oder eine Kombination von verschiedenen Möglichkeiten für die Gestaltung von linearen Randbedingungen zu finden, die Verwendung von Techniken ein, die sich bei Strahlformungsanwendungen auf die Gestaltung von linearen Randbedingungen stützen.
  • Die Generalized Sidelobe Canceller (GSC) genannte Technologie bietet eine Alternative für eine Gestaltung von linearen Randbedingungen bei Strahlformungsanwendungen. Im Wesentlichen handelt es sich bei der GSC um einen Mechanismus zum Umwandeln eines eingeschränkten Minimierungsproblems in eine uneingeschränkte Form. Die GSC lässt erwünschte Signale aus einer bestimmten Richtung unverzerrt, während gleichzeitig unerwünschte Signale aus anderen Richtungen unterdrückt werden. Allerdings verwendet die GSC eine Zweiwegestruktur, einen oberen Weg zum Realisieren eines fixen Strahlformers, der in die Richtung des erwünschten Signals weist, und einen unteren Teil, der adaptiv eine idealerweise reine Rauschschätzung erzeugt, die dann vom Ausgangssignal des fixen Strahlformers subtrahiert werden kann und somit dessen SNR durch Rauschunterdrückung erhöht.
  • Die Schätzung des Rauschens erfolgt normalerweise in zwei Schritten. Die erste Stufe des unteren Wegs ist zum Entfernen verbleibender Signalanteile des erwünschten Signals aus den Eingangssignalen dieser Stufe ausgebildet. Die zweite Stufe des unteren Wegs weist ferner M (M ist eine ganze Zahl) adaptive Rauschunterdrücker (adaptive interference cancellers - AIC) zum Erzeugen eines einkanaligen geschätzten Rauschsignals auf, das dann möglicherweise vom Ausgangssignal des oberen Wegs, bei dem es sich um ein zeitverzögertes Ausgangssignal des fixen Strahlformers handelt, subtrahiert werden kann. Somit kann das im Ausgangssignal des zeitverzögerten fixen Strahlformers enthaltene Rauschen unterdrückt werden, was zu einem besseren SNR führt, denn die erwünschte Signalkomponente würde idealerweise nicht von dieser Verarbeitung betroffen. Das ist dann und nur dann richtig, wenn alle erwünschten Signalanteile in der Rauschschätzung erfolgreich vereinigt werden könnten, was in der Praxis selten der Fall ist, und was somit einer der wesentlichen Nachteile derzeitiger adaptiver Strahlformungsalgorithmen ist.
  • Akustische Echounterdrückung kann z. B. durch Subtrahieren eines geschätzten Echosignals von dem Gesamtschallsignal erreicht werden. Um eine Schätzung des eigentlichen Echosignals zu liefern, können Algorithmen in der Zeitdomäne arbeiten, die adaptive digitale Filter nutzen, die zeitdiskrete Signale verarbeiten. Solche adaptiven digitalen Filter arbeiten so, dass die Netzwerkparameter, die die Übertragungseigenschaften der Filter definieren, mit Bezug auf eine voreingestellte Qualitätsfunktion optimiert werden. Eine solche Qualitätsfunktion kann zum Beispiel durch Minimieren der durchschnittlichen quadratischen Fehler des Ausgangssignals des adaptiven Netzwerks mit Bezug auf ein Referenzsignal implementiert werden.
  • Wie aus 1 hervorgeht, wird in einem beispielhaften Fernfeld-Mikrofonsystem Schall von einer erwünschten Schallquelle 101 über einen oder mehrere Lautsprecher abgestrahlt, breitet sich durch den Raum aus, wo er mit den entsprechenden Raumimpulsantworten (room impulse responses - RIRs) 102 gefiltert wird und möglicherweise durch Rauschen beeinträchtigt werden kann, bevor die entsprechenden Signale von einem oder mehreren (M) Mikrofonen erfasst werden. Das in 1 gezeigte Fernfeld-Mikrofonsystem umfasst einen Block zur akustischen Echounterdrückung (acoustic echo cancellation - AEC) 103, einen anschließenden fixen Strahlformerblock (fix beamformer - FB) 104, einen anschließenden Strahlsteuerungsblock 105, einen anschließenden adaptiven Sperrfilterblock (adaptive blocking filter - ABF) 106, einen anschließenden Block zur adaptiven Rauschunterdrückung (AIC) 107 und einen anschließenden optionalen adaptiven Nachfilterblock 110. ABF-Block 106, AIC-Block 107, optionaler Verzögerungsblock 108 und Subtraktor 109 bilden einen adaptiven Strahlformerblock.
  • Wie aus 1 ersichtlich dienen N Quellensignale, die durch RIRs 102 mit Transferfunktionen h{n,1}, ... h{n,M} gefiltert werden und eventuell durch Rauschen überlagert sind, als Eingabe in den AEC-Block 103. 2 stellt eine beispielhafte Umsetzung eines AEC-Blocks 103 mit einem einzelnen Mikrofon und einzelnem Lautsprecher dar. Für den Fachmann versteht sich, dass eine solche Konfiguration erweiterbar ist und mehr als ein Mikrofon 206 und/oder mehr als ein Referenzsignal (Lautsprecher) umfassen kann. Ein Fernende-Signal oder Quellensignal s(n), das von einem Lautsprecher 205 (oder einer Vielzahl von Lautsprechern) abgestrahlt wird, passiert einen (mindestens einen) Echopfad 201, der einen Transferfunktionsvektor h(n) zum Bilden eines Echosignals y(n) aufweist, wobei n ein (diskreter) Zeitindex ist. Dieses Signal wird in einer akustischen Domäne an einem Summierknoten 204 zu einem Nahende-Signal v(n) hinzugefügt, das sowohl Hintergrundrauschen als auch Nahende-Sprache enthalten kann, was zu einem Mikrofonsignal d(n) in der elektrischen Domäne führt. Ein geschätztes Echosignal von einem adaptiven Filter 202, das einen Vektor definiert, wird von dem Mikrofonsignal d(n) an einem Subtrahierknoten 203 subtrahiert. Ein Ziel des adaptiven Filters 202 besteht darin, ein Fehlersignal x(n) durch Subtrahieren eines Schätzwerts ŷ(n) des Echosignals y(n) vom Mikrofonsignal d(n) am Subtrahierknoten 203 zu minimieren.
  • Ein FIR-Filter 202, das eine Transferfunktion h(n) der Ordnung L-1 aufweist, wobei L eine Länge des FIR-Filters ist, kann zum Modellieren des Echopfad-Transferfunktionsvektors h(n) verwendet werden. Der Transferfunktionsvektor h(n) ≈ h(n) kann beschrieben werden als [ h ( 0, n ) , h ( L 1, n ) , ] T
    Figure DE102019105458B4_0001
    Das erwünschte Mikrofonsignal d(n) an Block 203 für das adaptive Filter wird angegeben als d ( n ) = s T ( n ) h ( n ) + v ( n ) ,
    Figure DE102019105458B4_0002
    wobei s(n) = [s(n) s(n - 1) ...s(n - L + 1)]T ein Echtwertvektor ist, derL(Listeine ganze Zahl) neueste Zeitproben des Eingangssignals s(n) und v(n), d. h. das Nahende-Signal, enthält.
    Bei Verwendung der vorherigen Notationen wird das Feedback/Echofehlersignal x(n) angegeben als x ( n ) = d ( n ) s T ( n 1 ) h ^ ( n ) = s T ( n ) [ h ( n ) h ^ ( n ) ] + v ( n ) ,
    Figure DE102019105458B4_0003
    wobei der Vektor ĥ(n) adaptive Filterkoeffizienten zur Zeit n enthält. Vektor ĥ(n) wird z. B. mit einem Least-Mean-Square-Algorithmus (LMS) oder einem rekursiven Algorithmus auf dem Stand der Technik geschätzt. Der LMS-Aktualisierungsprozess mit einer Schrittgröße µ(n) des LMS-Algorithmus kann ausgedrückt werden als h ^ ( n ) = h ^ ( n 1 ) + μ ( n ) s ( n ) x ( n ) .
    Figure DE102019105458B4_0004
    [0025] Mit erneuter Bezugnahme auf 1 dient die Ausgabe des AEC-Blocks 103 als Eingabe xi(n), wobei i = 1, ..., M in den fixen Strahlformerblock 104. Einfache, aber wirksame Strahlformungstechniken sind zum Beispiel die Filter- und Summentechnik (filter-and-sum - FS) und die Verzögerungs- und Summentechnik (delay-and-sum - DS).
  • Ein einfacher FS-Strahlformeraufbau wie in dem fixen FS-Strahlformerblock 104 ist in 3 dargestellt, dessen Ausgabe angegeben wird als b i ( n ) = 1 M i = 1 M x i ( n ) w i ( n ) ,
    Figure DE102019105458B4_0005
    wobei M wiederum die Anzahl von Mikrofonen ist. Der FS-Strahlformerblock 104 kann einen Summierer 301, der Signale xi(n) vom AEC-Block 103 über Filterpfade 302 mit Transferfunktionen wi(n) empfängt, und ein Koeffizientenelement 303, das das Ausgangssignal des Summierers 302 durch M dividiert, um ein Ausgangssignal des FS-Strahlformerblocks 104 zu erzeugen, umfassen. Weitere Ausgangssignale des FS-Strahlformerblocks 104 werden entsprechend mit anderen Transferfunktionen w(n) hergeleitet. Ein DS-Strahlformer kann durch Auswählen von wi(n) entsprechend w i ( n ) = e j 2 π f τ i
    Figure DE102019105458B4_0006
    implementiert werden, wobei f eine Frequenz und τi eine Verzögerungszeit ist.
  • In 1 dienen die Ausgangssignale des fixen FS-Strahlformerblocks 104 als Strahlsignale bi(n), wobei i = 1, 2, ..., B, und sind Eingaben in den Strahlsteuerungsblock (BS) 105. Jede Signalausgabe durch den fixen FS-Strahlformerblock 104 stellt ein akustisches Signal (Schall) dar, das von einer anderen Raumrichtung erfasst wurde und ein anderes SNR-Niveau aufweisen kann. Der fixe FS-Strahlformerblock 104 ist optional und kann weggelassen werden, wenn Mikrofone, die akustische Signale (Schall) erfassen, eine ausreichende Richtwirkung bieten. Die Strahlsignale bi(n), die in den Strahlsteuerungsblock 105 eingegeben werden, können niederfrequente Komponenten wie Niederfrequenzgeräusche, Gleichspannungsversätze und ungewollte Explosivlaute im Fall von Sprachsignalen enthalten. Daher besteht der Wunsch, diese Artefakte, die auf die Strahlsignale bi(n) des BS-Blocks 105 auftreffen können, zu entfernen.
  • 4 zeigt einen beispielhaften, in der Zeitdomäne betriebenen Strahlsteuerungsblock, der als Strahlsteuerungsblock 105 in dem in 1 gezeigten System oder in einem anderen geeigneten System angewendet werden kann, die Strahlsignale bi(n) werden durch einen Filterblock 401 hochpass- und optional tiefpassgefiltert, um Signalanteile zu sperren, die entweder von Rauschen betroffen sind oder keine Anteile eines Nutzsignals (z. B. eines Sprachsignals) enthalten. Vom Filterblock 401 ausgegebene Signale können aufgrund von Rauschen Amplitudenschwankungen aufweisen, z. B. schnelle, zufällige Veränderungen der Amplitude von Punkt zu Punkt in den Strahlsignalen bi(n). In dieser Situation kann es sinnvoll sein, das in diesen Signalen enthaltene Rauschen zu reduzieren, z. B. durch einen (zeitlichen) Glättungsblock 402. Das Glätten kann z. B. durch ein Tiefpass-IIR-Filter (nicht dargestellt) im Glättungsblock 402 erfolgen, das die hochfrequenten Komponenten reduziert und die niederfrequenten Komponenten mit geringer oder gar keiner Veränderung passieren lässt. Erfassungspunkte in Ausgangssignalen des Glättungsblocks 402 werden so modifiziert, dass einzelne Punkte mit höherer Amplitude als deren unmittelbar benachbarte Punkte (vermutlich durch Rauschen bedingt) reduziert werden und Punkte mit einer niedrigeren Amplitude als deren unmittelbar benachbarte Punkte erhöht werden. Dies führt zu einem glatteren Signal (und einer langsameren Schrittantwort auf Signalveränderungen).
  • Der Glättungsblock 402 gibt ein geglättetes Signal aus, das noch einen beträchtlichen Rauschpegel enthalten und so spürbare scharfe Unstetigkeiten wie oben beschrieben enthalten kann. Der Pegel der Sprachsignale unterscheidet sich normalerweise deutlich von der Schwankung des Pegels des Hintergrundrauschens, insbesondere weil der dynamische Bereich der Pegeländerungen von Sprachsignalen wesentlich größer ist und die Pegeländerungen in viel kürzeren Intervallen als die Pegeländerungen von Hintergrundrauschen auftreten. Lineares Glätten in einem auf den Glättungsblock 402 folgenden Rauschschätzungsblock 403 würde daher die scharfe Schwankung im erwünschten Musik- oder Sprachsignal verwischen sowie das Rauschen herausfiltern. Ein solches Verwischen eines Musik- oder Sprachsignals ist in vielen Anwendungsfällen nicht erwünscht; daher kann alternativ oder zusätzlich im Rauschschätzungsblock 403 ein nichtlineares Glätten (nicht dargestellt) auf das geglättete Signal angewendet werden, um die genannten Artefakte zu überwinden. Der Rauschschätzungsblock 403 gibt Signale aus, die Schätzwerte des in den entsprechenden Ausgangssignalen des Glättungsblocks 402 enthaltenen Rauschens darstellen.
  • In einem SNR-Berechnungsblock 404 werden auf der Basis der geglätteten Signale aus dem Glättungsblock 402 und des geschätzten Rauschens aus dem Rauschschätzungsblock 403 Schwankungen des jeweiligen SNR bewertet und z. B. als Verteilung der einzelnen SNR-Werte SNR1(n) ... SNRB(n) über die Zeit n für einen entsprechenden Strahl 1 ... B ausgegeben. Die Bewertung und somit die Verteilung kann sich über einen bestimmten Zeitraum, d. h. einen Zeitrahmen oder ein Zeitfenster, erstrecken, zum Beispiel von n bis n-100 oder dergleichen. Durch Bewerten von SNR-Schwankungen kann eine Rauschquelle von einem erwünschten Sprach- oder Musiksignal unterschieden werden. Zum Beispiel können niedrige SNR-Werte eine Vielfalt von Rauschquellen wie eine Klimaanlage, einen Ventilator, ein offenes Fenster oder ein Elektrogerät wie einen Computer usw. darstellen. Die SNR-Werte SNR1(n) ... SNRB(n) können vom SNR-Berechnungsblock 404 in einer Zeitdomäne (wie in 4 gezeigt) oder in einer Frequenzdomäne (wie in 6 gezeigt) oder in einer Teilband-Frequenzdomäne (nicht dargestellt) bestimmt werden.
  • In einem anschließenden Komparatorblock 405 werden die vom Block 404 ausgegebenen SNR-Werte SNR1(n) ... SNRB(n) mit vorbestimmten Grenzwerten verglichen. Die Grenzwerte können fest oder regelbar, frequenzabhängig oder unabhängig usw. sein. Wenn der aktuelle SNR-Wert einen entsprechenden vorbestimmten Grenzwert überschreitet, wird ein Flag, das ein erwünschtes Signal wie Sprache angibt, für einen ersten logischen Wert gesetzt, z. B. ,1'. Alternativ kann bei einem aktuellen SNR-Wert unter einem entsprechenden vorbestimmten Grenzwert ein Flag, das ein unerwünschtes Signal wie Rauschen von einer Klimaanlage, einem Ventilator, einem offenen Fenster oder einem Elektrogerät wie einem Computer auf einen zweiten logischen Wert gesetzt werden, z. B. ,0'. Im vorliegenden Beispiel haben alle Grenzwerte den gleichen Wert SNRTH.
  • Die SNR-Werte SNR1(n) ... SNRB(n) aus Block 404 und die Flags aus dem Komparatorblock 405 werden über die Pfade #1 ... #B zu einem Steuerungsblock 406 weitergeleitet. Der Steuerungsblock 406 zählt die Anzahl von logischen Werten „1“, d. h. wenn die SNR-Signale über einen bestimmten Zeitraum (Rahmen, Fenster) den Grenzwert SNRTH überschreiten, was durch einen Parameter „TimeFrame“ für alle B-Strahlen einstellbar sein kann. Dadurch wird ein Histogramm für jene SNR-Werte pro Strahl über den bestimmten Zeitraum erstellt, der durch den abstimmbaren Parameter „TimeFrame“ definiert ist. Für jeden Rahmen wird die Summe oder Anzahl aller logischen Werte „1“ für die einzelnen B-Strahlen bestimmt, die deutliche (horizontale) Schallrichtungen darstellen. Die Richtung der B-Strahlen mit der höchsten Zahl von logischen Werten „1“ (Maximum oder „Max“) in diesem Rahmen wird als positiver Strahl angesehen, der zu der erwünschten Signalquelle weist, z. B. zu einem Sprecher. Die entsprechenden Indizes, die eine zeitvariante Richtung des positiven Strahls (dessen Lenkungsvektor oder Blickrichtung) zu einer erwünschten Quelle kennzeichnen werden ausgegeben und als Signal S(n) bezeichnet. Das Signal S(n) wird in den Fading-Block 407 eingegeben, der akustische Artefakte verhindert, zum Beispiel Klicks beim Umschalten zwischen Strahlen, in dem die Strahlen abgeschwächt (sanft umgeschaltet) werden.
  • Das oben beschriebene Konzept (Zählen von „0“-Werten) kann einige Nachteile haben, wenn es auf die Bestimmung von Indizes eines negativen Strahls angewendet wird, der bei niedrigen SNR-Werten aller B-Strahlsignale idealerweise in Richtung einer potenziellen Rauschquelle weisen sollte. In solche einem Fall kann jedes der B-Strahlsignale mit dem niedrigsten SNR auch durch einen logischen Wert „1“ (durch Umkehren des bisher verwendeten logischen Werts „0“) angegeben und wiederum im Zeitverlauf ein Histogramm erstellt werden, das durch den gleichen einstellbaren „TimeFrame“-Parameter definiert ist. Das heißt, dass der Steuerungsblock 406 die Anzahl von logischen Werten „1“ zählt, d. h. die Anzahl von Indizes (Blickrichtungen), die über einen bestimmten Zeitraum (Rahmen, Fenster) die niedrigsten SNR-Werte aufweisen, was durch einen Parameter „TimeFrame“ für alle B-Strahlen einstellbar sein kann. Dann würde wiederum das Maximum dieses Histogramms auch die Indizes (Lenkungsvektor, Blickrichtung) des negativen Strahls angeben, die zu einer Rauschquelle weisen.
  • Wenn keine klare Lösung gefunden werden kann oder keiner der B-Strahlen die gegebenen Anforderungen erfüllt, werden die vorherigen Indizes (Blickrichtung) für den positiven und/oder negativen Strahl angewendet. Wie das Signal S(n) werden die Indizes des negativen Strahls als zeitvariantes Signal I(n) auch in den Fading-Block 407 eingegeben. Wiederum gewährleistet der Fading-Block 407, dass das endgültige Ausgangssignal des erkannten negativen Strahls so wie das Signal des positiven Strahls nicht unter akustischen Artefakten leidet. Zum Beispiel kann ein Histogramm von Maximal- und Minimalwerten für eine vorbestimmte Zeitdauer erstellt werden. Die Minimal- und Maximalwerte in einem Histogramm stellen mindestens zwei verschiedene Ausgangssignale dar: mindestens ein Signal ist zu einer erwünschten Quelle gerichtet, die durch Signal S(n) bezeichnet ist, und mindestens ein Signal ist zu einer Störquelle gerichtet, die durch Signal I(n) bezeichnet ist.
  • Wenn sich die Indizes von niedrigen und hohen SNR-Werten im Steuerungsblock 406 im Zeitverlauf ändern, wird ein Fading-Prozess in einem Fading-Block 407 initiiert, der einen reibungslosen Übergang vom einen zum anderen Ausgangssignal ohne Erzeugung akustischer Artefakte gestattet. Die Ausgaben von BS-Block 105 stellen im Zeitverlauf ausgewählte positive und negative Strahlen dar, wobei ein positiver Strahl einen Strahl mit dem höchsten SNR und ein negativer Strahl einen Strahl mit dem niedrigsten SNR angibt.
  • Die Ausgaben von BS-Block 105 stellen ein Signal mit einem hohen SNR bereit, d. h. ein positives Strahlsignal b(n), das vom adaptiven Sperrfilterblock (ABF) 106 als Referenzsignal verwendet wird, und eines mit einem niedrigen SNR, d. h. ein negatives Strahlsignal bn(n), das vom ABF-Block 106 als Signal für erwünschtes Rauschen (weiteres Eingangssignal) verwendet wird. Der ABF-Filterblock 106 kann Filter verwenden, die entsprechend einem LMS-Algorithmus gesteuert werden, um das interessierende Signal, das durch das Referenzsignal b(n) dargestellt wird (und dem positiven Strahl entspricht) vom erwünschten Rauschsignal bn(n) (das dem negativen Strahl entspricht) adaptiv zu subtrahieren, und stellt ein Fehlersignal e(n) bereit. Das vom ABF-Block 106 erhaltene Fehlersignal e(n), das idealerweise ein reines Rauschsignal ist, das auch in das positive Strahlsignal b(n) eingeschlossen ist, wird zum adaptiven Rauschunterdrückungsblock (AIC) 107 weitergeleitet, der die im positiven Strahlsignal b(n) enthaltenen Signalkomponenten (Rauschen) adaptiv entfernt, die mit den Fehlersignalen, d. h. dem positiven Strahlsignal b(n), korrelieren.
  • Der AIC-Block 107 berechnet ein Störsignal unter Nutzung von adaptivem Filtern. Die Ausgabe dieses adaptiven Filters wird (z. B. durch einen Subtraktor 109) von dem optional verzögerten Referenzsignal b(n) (z. B. durch Verzögerung 108) subtrahiert, um die verbleibenden Stör- und Rauschkomponenten im Referenzsignal b(n) zu entfernen. Schließlich kann ein adaptives Nachfilter 110 mit einem Ausgang des Subtraktors 109 verbunden werden, um statistische Rauschkomponenten (ohne klare Autokorrelation) zu reduzieren. Wie in Block 106 können die Filterkoeffizienten im AIC-Block 107 mit dem adaptiven LMS-Algorithmus aktualisiert werden. Die Norm der Filterkoeffizienten im ABF-Block 106 und/oder AIC-Block 107 kann beschränkt sein, damit sie nicht übermäßig groß werden.
  • 5 zeigt einen beispielhaften adaptiven Strahlformer zum Beseitigen von Rauschen aus dem Referenzsignal, d. h. dem positiven Strahlsignal b(n). Dadurch werden die im Referenzsignal b(n) eingeschlossenen und in 5 mit z(n) bezeichneten Rauschkomponenten von einer adaptiven Steuerung 501 geschätzt und vom Subtraktor 109 von dem (durch die Verzögerung 108) optional verzögerten erwünschten Rauschsignal b(n - y) subtrahiert, um im Referenzsignal b(n) enthaltenes unerwünschtes Rauschen in einem gewissen Maße mittels eines steuerbaren Filters 502 mit einer Transferfunktion a(n) zu verringern. Als Referenzsignal für die adaptive Filtersteuerung 501 wird das negative Strahlsignal bn(n) verwendet, das idealerweise nur Rauschen und keine Nutzsignale wie Sprache enthält. Ein normalisierter Least-Mean-Square-Algorithmus (normalized least mean square - NLMS) oder ein geeigneter anderer adaptiver Algorithmus kann zum Schätzen des Rauschens im erwünschten Signal, d. h. dem negativen Strahlsignal bn(n) verwendet werden, das von dem optional verzögerten Referenzsignal b(n - γ) subtrahiert wird, um noch immer im Referenzsignal b(n) enthaltenes Rauschen zu reduzieren. Das erwünschte Rauschsignal bn(n) wird als Rauschreferenzsignal für die adaptive Filtersteuerung 501 verwendet, um eventuelles Restrauschen im Referenzsignal b(n) zu beseitigen. Dies erhöht wiederum das SNR des Referenzsignals b(n).
  • Die adaptive Filtersteuerung 501 und das steuerbare Filter 502 stellen ein beispielhaftes adaptives Sperrfilter dar, das wie in dem vorliegenden Beispiel eine Randbedingung C nutzen kann, so dass ein Betragsfrequenzgang, z. B. der Betrag der Transferfunktion a(n), des adaptiven Sperrfilters einen vorbestimmten Wert bei keiner Frequenz und zu keiner Zeit überschreitet. Zum Beispiel kann die Randbedingung C Filterkoeffizienten des adaptiven Sperrfilters in der Zeitdomäne auf einen vorbestimmten Wert wie +/-1 begrenzen. Als Alternative kann eine Randbedingung entsprechend [ U ,V ] = find ( abs ( A ) > MaxA Lim ) ,
    Figure DE102019105458B4_0007
    A ( U ) = A ( U ) /abs ( A ( U ) ) ,
    Figure DE102019105458B4_0008
    MaxA Lim = 1 ,
    Figure DE102019105458B4_0009
    in der Frequenzdomäne implementiert werden, wobei U ein Parameter ist, der Frequenzen repräsentiert, bei denen die Randbedingung angewendet werden soll, V ein Parameter ist, der die Amplituden bei den Frequenzen U repräsentiert, A die Transferfunktion des adaptiven Sperrfilters in der Frequenzdomäne und MaxALim der vorbestimmte Maximalwert der Transferfunktion ist.
  • 6 zeigt einen weiteren beispielhaften Strahllenkungsblock, der im Strahllenkungsblock 105 in dem in 1 gezeigten System oder jedem anderen geeigneten System anwendbar ist, in dem Strahlsignale b1(n) ... bB(n) mittels eines Zeit-Frequenz-Wandlungsblocks 601 von der Zeitdomäne in die Frequenzdomäne (d. h. Spektraldomäne) transferiert werden. Entsprechend wird der in 6 gezeigte Strahllenkungsblock in der Frequenzdomäne (Spektraldomäne) betrieben. Die spektralen Komponenten der Strahlsignale b1(n) ... bB(n) können auf verschiedene Weise erhalten werden, darunter mittels Tiefpassfilterung und Fourier-Transformation. Zum Beispiel kann eine diskrete Fourier-Transformation (DFT) oder schnelle Fourier-Transformation (FFT) verwendet werden, um aufeinander folgende Blöcke von NRECORD Erfassungspunkten des Eingangssignals zu transformieren. Eine Fensterfunktion wie ein Hanning-Fenster und eine Überlagerung von z. B. NRECORD /2 Punkten können angewendet werden. Eine DFT kann an jedem Frequenzintervall im Eingangssignal verwendet werden. Als Alternative kann eine FFT über das gesamte vom Eingangssignal belegte Frequenzband verwendet werden. Das Spektrum wird für jeden Frequenzintervall im Eingangssignalband aufgezeichnet.
  • Frequenzbereich und Auflösung auf einer Frequenzachse eines Spektrumsdiagramms hängen von einer Abtastrate fSAMPLE und der Größe des Datensatzes (der Zahl NRECORD von Erfassungspunkten) ab. Die Anzahl von Frequenzpunkten oder -linien oder -bändern im (Leistungs)-Spektrum beträgt NRECORD/2, wobei NRECORD die Anzahl von in der Zeitdomäne erfassten Signalpunkten ist. Die erste Frequenzlinie im Leistungsspektrum stellt eine Frequenz von Null (DC) dar. Die letzte Frequenzlinie findet sich bei fSAMPLE/2. Frequenzlinien sind in gleichen Intervallen von fSAMPLE/NRECORD voneinander beabstandet. Sie werden allgemein als Frequenzintervalle oder FFT-Intervalle bezeichnet.
  • In dem in 6 gezeigten Beispiel wendet der Zeit-Frequenz-Wandlungsblock 601 FFT mit optionaler Fensterung (nicht dargestellt) auf Zeitdomänen-Strahlsignale b1(n) ... bB(n) an, um Strahlsignale B1(ω) ... BB(ω) in der Frequenzdomäne zu erzeugen. Jedes der Strahlsignale B1(ω) ... BB(ω) wird optional durch einen Spektralglättungsblock 602 geglättet, z. B. mit einem Filter mit gleitendem Mittelwert von geeigneter Länge und Anwenden einer Fensterfunktion. Für die Fensterfunktion kann ein Hanning-Fenster oder eine andere geeignete Fensterfunktion verwendet werden.
  • Die (optionale) Spektralglättung der einzelnen Strahlsignale B1(ω) ... BB(ω) führt zu einer Anzahl von Frequenzintervallen, die die Gesamtspektralauflösung verschlechtern können. Um diesen Effekt zu reduzieren, kann jedes spektral geglättete Signal, d. h. jedes Ausgangssignal des Spektralglättungsblocks 602 durch einen zeitlichen Glättungsblock 603 für jeden Abschnitt der einzelnen Strahlsignale B1(ω) ... BB(ω) weiter geglättet werden. Der zeitliche Glättungsblock 603 wird zum Verwischen von impulsartigen Verzerrungen wie Sprache in den spektral geglätteten Signalen genutzt und kann im Zeitverlauf für jedes Ausgangssignal des Spektralglättungsblocks 602 Frequenzintervalle kombinieren, um die zeitliche Dynamik in diesen Signalen zu reduzieren.
  • Der zeitliche Glättungsblock 603 gibt für jedes der Ausgangssignale des Spektralglättungsblocks 602 ein oder mehrere zusätzlich zeitlich geglättete Signale (hierin als geglättete Signale bezeichnet) aus, die noch immer impulsartige Verzerrungen sowie Hintergrundrauschen enthalten können. Ein Rauschunterdrückungsblock 604, der mit Ausgängen des zeitlichen Glättungsblocks 603 gekoppelt ist, wird zum Verwischen verbleibender impulsartiger Verzerrungen und zum Schätzen des aktuellen Hintergrundrauschens in den einzelnen Ausgangssignalen des zeitlichen Glättungsblocks 603 (geglättetes Signal), die von den einzelnen Ausgangssignalen des Spektralglättungsblocks 602 (spektral geglättetes Signal) abgeleitet sind, genutzt. Um ein Verwischen eines erwünschten Signals wie Musik- oder Sprachsignale zu reduzieren oder zu verhindern, kann im Rauschschätzungsblock 604 nichtlineares Glätten (nicht dargestellt) genutzt werden.
  • Auf Basis der geglätteten Signale aus dem zeitlichen Glättungsblock 603 und des geschätzten quasi-stationären Hintergrundrauschens aus dem Rauschschätzungsblock 604 können Schwankungen des SNR berechnet werden (z. B. als Verteilung von SNR-Werten über die Frequenz). In einem SNR-Berechnungsblock 605 wird für jedes Ausgangssignal des Rauschschätzungsblocks 604 in Verbindung mit dem entsprechenden Ausgangssignal des zeitlichen Glättungsblocks 603 ein SNR-Wert berechnet. Durch SNR-Schwankungen kann eine Rauschquelle von einem erwünschten Sprach- oder Musiksignal unterschieden werden. Zum Beispiel kann ein niedriger SNR-Wert eine Vielfalt von Rauschquellen wie eine Klimaanlage, ein Ventilator, ein offenes Fenster oder ein Elektrogerät wie ein Computer usw. darstellen. Das SNR kann in der Zeitdomäne oder in der Frequenzdomäne oder in der Teilbanddomäne bewertet werden.
  • In einem Komparatorblock 606 wird jede Spektrallinie jedes vom SNR-Berechnungsblocks 605 bereitgestellten SNR-Werts SR1(n) ... SNRB(n) mit einem gemeinsamen (oder individuellen) vorbestimmten Grenzwert SNRTH verglichen. Wenn der jeweilige aktuelle SNR-Wert SR1(n) ... SNRB(n) größer als der vorbestimmte Grenzwert SNRTH ist, wird ein Flag SnrFlag, das ein erwünschtes Sprachsignal angeben kann, auf einen ersten logischen Wert von z. B. ,1' gesetzt. Wenn der jeweilige aktuelle SNR-Wert SR1(n) ... SNRB(n) kleiner als der vorbestimmte (oder auch steuerbare und/oder spektral abhängige) Grenzwert SNRTH ist, wird ein Flag SnrFlag pro Spektrallinie auf einen zweiten logischen Wert von z. B. ,0' gesetzt, um ein unerwünschtes Signal wie Rauschen von einer Klimaanlage, einem Ventilator, einem offenen Fenster oder einem Elektrogerät wie einem Computer anzugeben.
  • Die Flags SnrFlag von Block 606 werden an einen Min-Max-Block 607 weitergeleitet. Der Min-Max-Block 607 bestimmt für die einzelnen Strahlsignale B1(ω) ... BB(ω) aus allen auf das jeweilige eine Strahlsignal B1(ω) ... BB(ω) und die entsprechenden SNR-Werte bezogenen Flags SnrFlag die entsprechenden minimalen SNR-Werte Min1(k) ... MinB(k) und maximalen SNR-Werte Max1(k) ... MaxB(k), wobei k eine diskrete Zeit repräsentiert. Der Min-Max-Block 607 zählt ferner Strahlindizes 1 ... B, die den minimalen SNR-Werten Min1(k) ... MinB(k) entsprechen, und Strahlindizes 1 ... B, die den maximalen SNR-Werten Max1(k) ... MaxB(k) entsprechen, und verwendet eine vorherige Verteilung von Strahlindizes, falls eine Zählung nicht möglich ist. Zum Beispiel kann ein Histogramm von maximalen und minimalen SNR-Werten für einen vorbestimmten Zeitraum erstellt werden. Die minimalen und maximalen SNR-Werte in einem Histogramm stellen mindestens zwei verschiedene Ausgangssignale dar. Mindestens ein Signal ist zu einer erwünschten Quelle gerichtet, die durch einen zeitvarianten Lenkungsvektor S(n) bezeichnet ist, und mindestens ein Signal ist zu einer Störquelle gerichtet, die durch einen zeitvarianten Lenkungsvektor I(n) bezeichnet ist.
  • Ein Fading-Block 608 empfängt die Lenkungsvektoren S(n) und I(n) und die Signale b1(n) ... bn(n) und stellt ein Referenzsignal, d. h. das positive Strahlsignal b(n), und das erwünschte Signal, d. h. das negative Strahlsignal bn(n), bereit. Wenn sich die Indizes von niedrigen und hohen SNR-Werten im Min-Max-Block 607 im Zeitverlauf ändern, wird ein Fading-Prozess in einem Fading-Block 608 initiiert, der einen reibungslosen Übergang vom einen zum anderen Ausgangssignal ohne Erzeugung akustischer Artefakte gestattet. Die Ausgangssignale des Min-Max-Blocks 607, das Referenzsignal b(n) und das erwünschte Signal bn(n), sind das positive Strahlsignal b(n) und das negative Strahlsignal bn(n) über die diskrete Zeit n.
  • Unter erneuter Bezugnahme auf die 4 und 6 kann ein negativer Strahl alternativ durch Setzen seiner Richtung in einem bestimmten Winkel zum positiven Strahl eingerichtet werden. Wenn zum Beispiel die Blickrichtung des positiven Strahls bestimmt wurde, kann die Blickrichtung des negativen Strahls auf einen Winkel von 180° (d. h. entgegengesetzt zur Blickrichtung des positiven Strahls) oder auf einen anderen geeigneten Winkel eingestellt werden.
  • In einer akustisch reflektierenden Umgebung wie einem kleinen Raum mit starren Wänden kann eine Lokalisierung eines Sprechenden fehlerhaft sein. Oft wird die Position des Sprechenden fälschlich auf einer anderen Halbebene, d. h. mit einem horizontalen Versatz von 180° zu dessen eigentlicher Position, geschätzt. Die Ursache dieses Verhaltens kann mit Bezug auf einen kritischen Abstand erklärt werden. Der kritische Abstand ist als der Abstand definiert, bei dem die Energie des reflektierten Schalls gleich der Energie des direkt übertragenen Schalls ist (oder diese überschreitet). Wenn eine Spracherkennungsvorrichtung wie zum Beispiel ein intelligenter Lautsprecher in einer akustisch stark reflektierenden Umgebung angeordnet ist und wenn der Sprechende zum Beispiel in einem kritischen Abstand zur Vorrichtung spricht, kann sich die Energie aus anderen Richtungen als dem direkten Weg, zum Beispiel aus der entgegengesetzten Richtung (insbesondere, wenn räumliche Filterung mit einem fixen Strahlformer stattfindet) erhöhen, was bedeutet, dass ein Direktschall-zu-Nachhall-Verhältnis unter den Wert eins fallen kann. Dies führt zu einer falschen Ankunftsrichtung, wenn die Schätzung der Ankunftsrichtung (die z. B. in der Strahllenkungseinheit erfolgt) auf der Bewertung eines Signal-Rausch-Verhältnisses basiert (z. B. aus Robustheitsgründen), wie dies in dem oben beschriebenen Beispiel der Fall ist. Die Ankunftsrichtung (direction of arrival - DOA) bezeichnet die Richtung, aus der eine sich ausbreitende Welle normalerweise an einem Punkt ankommt, an dem sich normalerweise einer oder mehrere Sensoren befinden.
  • Um diesen Nachteil zu überwinden, kann die in der gegenwärtig geschätzten Richtung (z. B. der Richtung des positiven Strahls) erkannte Energie mit deren Gegenrichtung (z. B. der Richtung des negativen Strahls) verglichen werden. Wenn die Energie des negativen Strahls die des positiven Strahls um einen bestimmten Grenzwert überschreitet, ist es sehr wahrscheinlich, dass es wie oben beschrieben angesichts des kritischen Abstands zu einer unerwünschten Situation kommt. Der Vergleich kann nur durchgeführt werden, wenn keine Echos vorliegen, d. h. Echos können die Ursache sein, wenn die Vorrichtung keinen Schall reproduziert, um Fehlinterpretationen zu vermeiden. Optional wird nur dann, wenn ein aktiver Nahende-Sprechender erkannt wird, z. B. durch einen Sprachaktivitätsdetektor, Codewortdetektor, durch automatische Spracherkennung usw., eine Korrelation zwischen zwei Eingangssignalen, z. B. Signale, die dem positiven Strahl und dem negativen Strahl entsprechen, Signale von entsprechend montierten Mikrofonen oder ähnliche Signale, geschätzt. Wenn eine oder mehrere der durch die oben beschriebenen Operationen aufgestellten Bedingungen erfüllt sind, kann ein spezifisches, im Folgenden ausführlich beschriebenes Verfahren angewendet werden, um bei der Entscheidung behilflich zu sein, ob die geschätzte Richtung richtig ist oder ob die Richtung des positiven Strahls und des negativen Strahls besser vertauscht werden sollten, d. h. den positiven Strahl als den negativen Strahl und umgekehrt anzunehmen.
  • Die Entscheidung kann mit einem kontinuierlichen Korrelator mit Signalen aus zwei gegenüberliegenden Mikrofonen, die in entgegengesetzte Richtungen weisende Strahlen bereitstellen, getroffen werden. Als Korrelator kann ein einfaches und kurzes adaptives Filter mit einer Filterlänge NFL (z. B. eine ungerade Filterlänge) verwendet werden, wobei eines der Eingangssignale durch eine Verzögerungszeit D = N F L 1 2
    Figure DE102019105458B4_0010
    verzögert werden kann, NFL eine ungerade Zahl ist und D eine normalisierte Verzögerungszeit in [Abtastungen] ist, um unterscheiden zu können, ob sich der Sprechende näher an der einen oder der anderen Position befindet. Wenn der Sprechende zum Beispiel senkrecht zu den Mikrofonen positioniert ist, d. h. wenn die beiden Mikrofone mit der Breitseite zum Sprechenden ausgerichtet sind, können Filterkoeffizienten des kontinuierlichen Korrelators an einem Filterabgriff n T = N F L 1 2 + 1
    Figure DE102019105458B4_0011
    einen anderen Wert als Null ausgeben. Wenn sich der Sprechende näher am ersten (verzögerten) Eingangssignal (z. B. dem Signal vom ersten Mikrofon oder Signal, das dem positiven Strahl entspricht) befindet, tritt die Hauptspitze an einem Filterabgriff n T < N F L 1 2 + 1
    Figure DE102019105458B4_0012
    auf, und wenn sich der Sprechende näher am (nicht verzögerten) Eingangssignal befindet (z. B. dem Signal vom zweiten Mikrofon oder dem Signal, das dem negativen Strahl entspricht), tritt die Hauptspitze an einem Filterabgriff n T > N F L 1 2 + 1
    Figure DE102019105458B4_0013
    auf.
  • Eine kontinuierliche Korrelation kann für alle Signalpaare durchgeführt werden, die Signale aus entgegengesetzten Richtungen umfassen, so dass durch die aktuell geschätzte Ankunftsrichtung nur das entsprechende adaptive Filter bewertet wird, ohne eine weitere Verzögerung, z. B. wegen der Einstellzeit der Anpassung, einzuführen. Um zum Beispiel 8 fixe Strahlformer zu implementieren, die in unterschiedliche, im gleichen Winkel voneinander beabstandete Positionen weisen, können 4 unabhängige (kurze) adaptive Filter, die die kontinuierliche Korrelationsoperation ausführen, parallel betrieben werden. Die Länge der einzelnen adaptiven Filter kann auf der Basis eines Abstands dMic zwischen den zwei gegenüberliegenden Mikrofonen, die die Eingangssignale für den kontinuierlichen Korrelator bereitstellen, bestimmt werden. Dieser Abstand dMic kann λ/4 betragen, wobei λ eine Wellenlänge darstellt. Wenn zum Beispiel der Abstand dMic 0,08 [m], die Schallgeschwindigkeit c 343 [m/s] und die Abtastfrequenz fs 16 [kHz] beträgt, beträgt die Länge NFL des adaptiven Filters, das als kontinuierlicher Korrelator verwendet wird, N F L = 4 d M i c f s c = 15
    Figure DE102019105458B4_0014
    [Abtastungen].
  • Ferner kann vor dem Bewerten des aktuellen Zustands der Impulsantwort, d. h. vor dem Schätzen der aktuellen Verzögerung des entsprechenden kontinuierlichen Korrelators, optionales Glätten des absoluten Betrags der Impulsantwort von niedrigeren zu höheren Frequenzen (und in umgekehrter Reihenfolge zum Vermeiden einer Latenzverzerrung) angewendet werden, um die Zeitverzögerungsschätzung robuster in Bezug auf Ausreißer in der geschätzten Impulsantwort zu machen. Als Nächstes wird ein Maximum der (absoluten oder geglätteten) Impulsantwort bestimmt. Auf der Basis der Position des Maximums kann entschieden werden, ob die dem positiven Strahl und dem negativen Strahl entsprechenden Signale vertauscht werden sollen oder nicht. Wenn der positive Strahl in die Richtung des ersten (verzögerten) Signaleingangs in den kontinuierlichen Korrelator weist und das Maximum der Impulsantwort in der unteren Hälfte ( n T < N F L 1 2 + 1 )
    Figure DE102019105458B4_0015
    seiner Abgriffe (Koeffizientenbereich) oder in der oberen Hälfte ( n T > N F L 1 2 + 1 )
    Figure DE102019105458B4_0016
    seiner Abgriffe liegt, wird der Hauptstrahl (z. B. der positive Strahl) am (nicht verzögerten) ersten Eingangssignal des kontinuierlichen Korrelators ausgerichtet und werden die dem positiven Strahl und dem negativen Strahl entsprechenden Signale nicht vertauscht - andernfalls erfolgt dieser Tausch.
  • 7 ist ein Signalflussdiagramm, das ein beispielhaftes System zur Zeitverzögerungsschätzung 700 (z. B. implementiert in einer Mikrosteuerung, einem Mikroprozessor, Signalprozessor, ASIC usw.) zeigt, das es gestattet zu entscheiden, ob ein Tausch der dem positiven Strahl und dem negativen Strahl entsprechenden Signale ratsam ist, um fehlerhafte Schätzungen der Ankunftsrichtung in Verbindung mit dem kritischen Abstand abzuschwächen. Zwei Richtmikrofone 701 und 702 stellen dem System zur Zeitverzögerungsschätzung 700 Eingangssignale bereit. Die Signale des positiven und des negativen Strahls können alternativ durch einen Strahlformer wie die oben beschriebenen Strahlformer bereitgestellt werden. Ein Mikrofon 701 ist in eine Richtung, z. B. nach vorn, gerichtet und stellt das positive Strahlsignal bp(n) bereit. Ein weiteres Mikrofon 702 ist in eine entgegengesetzte Richtung, z. B. nach hinten, gerichtet und stellt das negative Strahlsignal bn(n) bereit.
  • Das positive Strahlsignal bp(n) wird über eine Verzögerung 703 an einen Subtraktor 704 geleitet, der über ein steuerbares Filter 705 auch das negative Strahlsignal bn(n) empfängt. Der Subtraktor 704 stellt ein Fehlersignal e(n) für eine Filtersteuerung 706 bereit, die auch das negative Strahlsignal bn(n) empfängt und das steuerbare Filter 705 mittels eines die Filterkoeffizienten darstellenden Steuersignals wN(n) und somit die Transferfunktion des steuerbaren Filters 705 steuert. Das steuerbare Filter 705, die Filtersteuerung 706 und der Subtraktor bilden ein adaptives Filter, das wie oben beschrieben als kontinuierlicher Korrelator verwendet wird. Das Steuersignal wN(n) wird auch an ein optionales Glättungsfilter 707 geleitet, das das Steuersignal wN(n) glättet. Auf der Basis des (geglätteten) Steuersignals wN(n) wird in einem Bewertungsblock 708 entschieden, ob das positive Strahlsignal bp(n) und das negative Strahlsignal bn(n) vertauscht werden sollen oder nicht. Im Bewertungsblock 708 wird die Energie des (verarbeiteten) positiven Strahlsignals mit der Energie des (verarbeiteten) negativen Strahlsignals verglichen. Die Filtersteuerung 706 und der Beurteilungsblock 708 können ferner ein Korrektursignal von einer Anpassungssteuerung 709 empfangen, das von der Anpassungssteuerung 709 auf der Basis eines Referenzsignals und eines Detektionssignals vom Sprachaktivitätsdetektor, Codewortdetektor, der automatischen Spracherkennung usw. erzeugt wird.
  • Ein beispielhaftes Verfahren zur Zeitverzögerungsschätzung ist in 8 dargestellt. Bei dem Verfahren wird ein erstes Eingangssignal, z. B. das positive Strahlsignal bp(n), und ein zweites Eingangssignal, z. B. das negative Strahlsignal bn(n), verarbeitet, um ein erstes Ausgangssignal und ein zweites Ausgangssignal bereitzustellen, wobei das erste Eingangssignal ein erwünschtes Signal als Hauptkomponente und das zweite Eingangssignal ein unerwünschtes Signal als Hauptkomponente umfasst. Das Verfahren umfasst ein Bestimmen der Energie des ersten Eingangssignals und der Energie des zweiten Eingangssignals (Verfahrensschritt 801) und Vergleichen der Energie des ersten Eingangssignals mit der Energie des zweiten Eingangssignals (Verfahrensschritt 802). Das Verfahren umfasst ferner ein Einstellen des ersten Ausgangssignals auf das zweite Eingangssignal und des zweiten Ausgangssignals auf das erste Eingangssignal, wenn die Energie des zweiten Eingangssignals die Energie des ersten Eingangssignals um einen Grenzwert überschreitet (Verfahrensschritt 803), ansonsten Einstellen des ersten Ausgangssignals auf das erste Eingangssignal und des zweiten Ausgangssignals auf das zweite Eingangssignal (Verfahrensschritt 804).
  • Die Beschreibung der Ausführungsformen wurde zum Zweck der Veranschaulichung und Beschreibung angeführt. Geeignete Modifikationen und Variationen der Ausführungsformen können im Lichte der obigen Beschreibung ausgeführt oder durch Ausführen der Verfahren erhalten werden. Sofern nicht anders angegeben, können zum Beispiel eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder Kombination von Vorrichtungen ausgeführt werden. Die beschriebenen Verfahren und zugehörigen Handlungen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen, parallel und/oder gleichzeitig ausgeführt werden. Die beschriebenen Systeme haben Beispielcharakter und können zusätzliche Elemente umfassen und/oder Elemente weglassen.
  • Im Sinne dieser Anmeldung sind im Singular angegebene Elemente oder Schritte, denen das Wort „ein“ oder dessen Wortformen vorangehen so zu verstehen, dass der Plural dieser Elemente und Schritte nicht ausgeschlossen sind, sofern ein solcher Ausschluss nicht erklärt ist. Weiterhin sollen Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht als Ausschluss zusätzlicher Ausführungsformen ausgelegt werden, die diese Merkmale ebenfalls aufweisen. Die Begriffe „erste“, „zweite“ und „dritte“ mit ihren Wortformen werden lediglich als Kennzeichnung verwendet und sollen keine zahlenmäßigen Anforderungen oder eine bestimmte Anordnung der so bezeichneten Objekte verfügen.
  • Die Ausführungsformen der vorliegenden Offenbarung sehen allgemein eine Vielzahl von Schaltungen, elektrischen Vorrichtungen und/oder mindestens eine Steuerung vor. Alle Bezugnahmen auf Schaltungen, die mindestens eine Steuerung und andere elektrische Vorrichtungen und die von ihnen jeweils bereitgestellten Funktionen sollen nicht auf das hierin Dargestellte und Beschriebene beschränkt sein. Während der/den verschiedenen offenbarten Schaltung(en), Steuerung(en) und anderen elektrischen Vorrichtungen bestimmte Kennzeichnungen zugewiesen sein können, sollen diese Kennzeichnungen den Funktionsumfang der verschiedenen Schaltung(en), Steuerung(en) und anderen elektrischen Vorrichtungen nicht einschränken. Solche (solch eine) Schaltung(en), Steuerung(en) und anderen elektrischen Vorrichtungen können je nach Art der gewünschten elektrischen Implementierung auf beliebige Weise mit anderen kombiniert und/oder von anderen getrennt werden.
  • Es versteht sich, dass ein/e beliebige/r hierin offenbarte/r Computer, Prozessor und Steuerung eine beliebige Anzahl von Mikroprozessoren, integrierten Schaltkreisen, Speichervorrichtungen (z. B. Flash-Speicher, Direktzugriffsspeicher (RAM), Nurlesespeicher (ROM), elektrisch programmierbare Nurlesespeicher (EPROM), elektrisch löschbare programmierbare Nurlesespeicher (EEPROM) oder andere geeignete Varianten davon) und Software umfassen kann, die miteinander zum Ausführen der hierin offenbarten Operation(en) zusammenwirken. Außerdem kann eine Steuerung in der offenbarten Form einen oder mehrere Mikroprozessoren nutzen, um ein Computerprogramm auszuführen, das in einem nichttransitorischen computerlesbaren Medium verkörpert ist, um eine beliebige Anzahl von Funktionen wie offenbart auszuführen. Ferner umfasst ein Computer wie hierin vorgesehen ein Gehäuse und die verschiedenen im Gehäuse angeordneten Anzahlen von Mikroprozessoren, integrierten Schaltkreisen und Speichervorrichtungen (z. B. Flash-Speicher, Direktzugriffsspeicher (RAM), Nurlesespeicher (ROM), elektrisch programmierbare Nurlesespeicher (EPROM), elektrisch löschbare programmierbare Nurlesespeicher (EEPROM)). Computer, Prozessor(en) und Steuerung(en) in der offenbarten Form umfassen auch Eingaben und Ausgaben auf Hardwarebasis zum Empfangen und Senden von Daten jeweils von und zu anderen Vorrichtungen auf Hardwarebasis wie hierin ausgeführt.
  • Während verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Durchschnittsfachmann offenkundig, dass im Umfang der Erfindung viele weitere Ausführungsformen und Implementierungen möglich sind. Insbesondere versteht sich für den Fachmann, dass die verschiedenen Merkmale von unterschiedlichen Ausführungsformen gegeneinander austauschbar sind. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht sich, dass diese Techniken und Systeme über die speziell offenbarten Ausführungsformen auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausdehnbar sind.

Claims (21)

  1. Verfahren zur Zeitverzögerungsschätzung, das dazu ausgebildet ist, ein erstes Eingangssignal (bp(n)) und ein zweites Eingangssignal (bn(n)) zu verarbeiten, um ein erstes Ausgangssignal und ein zweites Ausgangssignal bereitzustellen, wobei das erste Eingangssignal (bp(n)) ein erwünschtes Signal als Hauptkomponente und das zweite Eingangssignal (bn(n)) ein unerwünschtes Signal als Hauptkomponente umfasst; wobei das Verfahren folgende Schritte beinhaltet: Bestimmen der Energie des ersten Eingangssignals (bp(n)) und der Energie des zweiten Eingangssignals (bn(n)); Vergleichen der Energie des ersten Eingangssignals (bp(n)) mit der Energie des zweiten Eingangssignals (bn(n)); und Einstellen des ersten Ausgangssignals auf das zweite Eingangssignal (bn(n)) und des zweiten Ausgangssignals auf das erste Eingangssignal (bp(n)), wenn die Energie des zweiten Eingangssignals die Energie des ersten Eingangssignals (bp(n)) um einen Grenzwert überschreitet, und ansonsten Einstellen des ersten Ausgangssignals auf das erste Eingangssignal (bp(n)) und des zweiten Ausgangssignals auf das zweite Eingangssignal (bn(n)).
  2. Verfahren nach Anspruch 1, das weiterhin das kontinuierliche Korrelieren des ersten Eingangssignals (bp(n)) mit dem zweiten Eingangssignal (bn(n)) beinhaltet, um ein Korrelationssignal bereitzustellen.
  3. Verfahren nach Anspruch 2, wobei das kontinuierliche Korrelieren ein adaptives Filtern des zweiten Eingangssignals (bn(n)) und Subtrahieren des gefilterten zweiten Eingangssignals (bn(n)) vom ersten Eingangssignal (bp(n)) beinhaltet, um ein Fehlersignal bereitzustellen (e(n)), das gemeinsam mit dem zweiten Eingangssignal (bn(n)) die Basis zum Steuern des adaptiven Filterns bildet.
  4. Verfahren nach Anspruch 3, wobei das erste Eingangssignal (bp(n)) um eine Verzögerungszeit verzögert wird, bevor das zweite Eingangssignal (bn(n)) davon subtrahiert wird.
  5. Verfahren nach Anspruch 4, wobei das adaptive Filtern mit einem adaptiven Filter (704, 705, 706) ausgeführt wird, das eine Filterlänge aufweist, und die Verzögerungszeit die halbe Filterlänge minus 1 beträgt.
  6. Verfahren nach Anspruch 5, wobei das adaptive Filter (704, 705, 706) eine Transferfunktion aufweist und ein die Transferfunktion darstellendes Signal als Korrektursignal verwendet wird.
  7. Verfahren nach Anspruch 5 oder 6, wobei das adaptive Filtern auf der Basis von mindestens einem von einem Referenzsignal, Sprachaktivitätsdetektor, Codewortdetektor und automatischer Spracherkennung gesteuert wird.
  8. Verfahren nach einem der Ansprüche 2-7, wobei das Korrelationssignal geglättet wird, bevor die Entscheidung getroffen wird.
  9. Verfahren nach Anspruch 8, wobei das Glätten von niedrigeren Frequenzen zu höheren Frequenzen ausgeführt wird oder von höheren Frequenzen zu niedrigeren Frequenzen oder beides ausgeführt wird.
  10. Verfahren nach einem der Ansprüche 1-9, das ferner ein Erkennen des Vorhandenseins von Echos beinhaltet und den Vergleich nur aktiviert, wenn keine Echos vorhanden sind.
  11. System zur Zeitverzögerungsschätzung, das Signaleingänge zum Empfangen eines ersten Eingangssignals (bp(n)) und eines zweiten Eingangssignals (bn(n)), einen Signalausgang zum Bereitstellen eines ersten Ausgangssignals und eines zweiten Ausgangssignals beinhaltet, wobei das erste Eingangssignal (bp(n)) ein erwünschtes Signal als Hauptkomponente und das zweite Eingangssignal (bn(n)) ein unerwünschtes Signal als Hauptkomponente umfasst, wobei das System ferner mindestens eine mit dem Eingang und Ausgang verbundene Verarbeitungseinheit beinhaltet, wobei die mindestens eine Verarbeitungseinheit ausgebildet ist zum: Bestimmen der Energie des ersten Eingangssignals (bp(n)) und der Energie des zweiten Eingangssignals (bn(n)); Vergleichen der Energie des ersten Eingangssignals (bp(n)) mit der Energie des zweiten Eingangssignals (bn(n)); und Einstellen des ersten Ausgangssignals auf das zweite Eingangssignal (bn(n)) und des zweiten Ausgangssignals auf das erste Eingangssignal (bp(n)), wenn die Energie des zweiten Eingangssignals (bn(n)) die Energie des ersten Eingangssignals (bp(n)) um einen Grenzwert überschreitet, und ansonsten Einstellen des ersten Ausgangssignals auf das erste Eingangssignal (bp(n)) und des zweiten Ausgangssignals auf das zweite Eingangssignal (bn(n)).
  12. System nach Anspruch 11, wobei die mindestens eine Verarbeitungseinheit ferner zum kontinuierlichen Korrelieren des ersten Eingangssignals (bp(n)) mit dem zweiten Eingangssignal (bn(n)) ausgebildet ist, um ein Korrelationssignal bereitzustellen.
  13. System nach Anspruch 12, wobei das kontinuierliche Korrelieren ein adaptives Filtern des zweiten Eingangssignals (bn(n)) und Subtrahieren des gefilterten zweiten Eingangssignals (bn(n)) vom ersten Eingangssignal (bp(n)) beinhaltet, um ein Fehlersignal (e(n)) bereitzustellen, das gemeinsam mit dem zweiten Eingangssignal (bn(n)) die Basis zum Steuern des adaptiven Filterns bildet.
  14. System nach Anspruch 13, wobei die mindestens eine Verarbeitungseinheit ferner zum Verzögern des ersten Eingangsignals (bp(n)) um eine Verzögerungszeit, bevor das zweite Eingangssignal (bn(n)) davon subtrahiert wird, ausgebildet ist.
  15. System nach Anspruch 14, wobei das adaptive Filtern mit einem adaptiven Filter (704, 705, 706) ausgeführt wird, das eine Filterlänge aufweist, und die Verzögerungszeit die halbe Filterlänge minus 1 beträgt.
  16. System nach Anspruch 15, wobei das adaptive Filter (704, 705, 706) eine Transferfunktion aufweist und ein die Transferfunktion darstellendes Signal als Korrektursignal verwendet wird.
  17. System nach Anspruch 15 oder 16, wobei das adaptive Filtern ferner auf der Basis von mindestens einem von einem Referenzsignal, Sprachaktivitätsdetektor, Codewortdetektor und automatischer Spracherkennung gesteuert wird.
  18. System nach einem der Ansprüche 12-17, wobei die mindestens eine Verarbeitungseinheit ferner zum Glätten des Korrelationssignals, bevor die Entscheidung getroffen wird, ausgebildet ist.
  19. System nach Anspruch 18, wobei das Glätten von niedrigeren Frequenzen zu höheren Frequenzen ausgeführt wird oder von höheren Frequenzen zu niedrigeren Frequenzen oder beides ausgeführt wird.
  20. System nach einem der Ansprüche 11-19, wobei die mindestens eine Verarbeitungseinheit ferner zum Erkennen des Vorhandenseins von Echos und nur wenn keine Echos vorhanden sind zum Aktivieren des Vergleichs ausgebildet ist.
  21. Computerlesbares Speichermedium, das Anweisungen beinhaltet, die bei Ausführung durch einem Computer den Computer dazu veranlassen, das Verfahren nach einem der Ansprüche 1 bis 10 auszuführen.
DE102019105458.3A 2019-03-04 2019-03-04 System und Verfahren zur Zeitverzögerungsschätzung Active DE102019105458B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019105458.3A DE102019105458B4 (de) 2019-03-04 2019-03-04 System und Verfahren zur Zeitverzögerungsschätzung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019105458.3A DE102019105458B4 (de) 2019-03-04 2019-03-04 System und Verfahren zur Zeitverzögerungsschätzung

Publications (2)

Publication Number Publication Date
DE102019105458A1 DE102019105458A1 (de) 2020-09-10
DE102019105458B4 true DE102019105458B4 (de) 2021-06-10

Family

ID=72146654

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019105458.3A Active DE102019105458B4 (de) 2019-03-04 2019-03-04 System und Verfahren zur Zeitverzögerungsschätzung

Country Status (1)

Country Link
DE (1) DE102019105458B4 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114141224B (zh) * 2021-11-30 2023-06-09 北京百度网讯科技有限公司 信号处理方法和装置、电子设备、计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080015845A1 (en) * 2006-07-11 2008-01-17 Harman Becker Automotive Systems Gmbh Audio signal component compensation system
US20180270565A1 (en) * 2017-03-20 2018-09-20 Bose Corporation Audio signal processing for noise reduction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080015845A1 (en) * 2006-07-11 2008-01-17 Harman Becker Automotive Systems Gmbh Audio signal component compensation system
US20180270565A1 (en) * 2017-03-20 2018-09-20 Bose Corporation Audio signal processing for noise reduction

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LARSEN, E., SCHMITZ; C. D., LANSING; C. R., O'BRIEN, W. D.; WHEELER, B. C.; FENG, A. S.: Acoustic scene analysis using estimated impulse responses. In: The Thirty-Seventh Asilomar Conference on Signals, Systems & Computers, 2003. IEEE, 2003, 725-729. *

Also Published As

Publication number Publication date
DE102019105458A1 (de) 2020-09-10

Similar Documents

Publication Publication Date Title
DE69932626T2 (de) Signalverarbeitungsvorrichtung und verfahren
DE112009000805B4 (de) Rauschreduktion
DE112009002617B4 (de) Wahlweises Schalten zwischen mehreren Mikrofonen
DE69835644T2 (de) Akustischer Echokompensator
EP1771034A2 (de) Mikrofonkalibrierung bei einem RGSC-Beamformer
DE102018127071B3 (de) Audiosignalverarbeitung mit akustischer Echounterdrückung
DE102010023615B4 (de) Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
EP1251493A2 (de) Verfahren zur Geräuschreduktion mit selbststeuernder Störfrequenz
DE102008039329A1 (de) Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
DE102008039330A1 (de) Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung
DE69634841T2 (de) Verfahren und Vorrichtung zur Echokompensation
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE102007030209A1 (de) Glättungsverfahren
DE112017004612T5 (de) Vollduplex-sprachkommunikationssystem und -verfahren
WO2000019770A1 (de) Hörgerät und verfahren zum verarbeiten von mikrofonsignalen in einem hörgerät
DE112012006780T5 (de) Strahlformungsvorrichtung
EP3393143B1 (de) Verfahren zum betrieb eines hörgerätes
DE102018117557B4 (de) Adaptives nachfiltern
DE102018117558A1 (de) Adaptives nachfiltern
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
AT504164B1 (de) Vorrichtung zur gerauschunterdruckung bei einem audiosignal
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
DE60304147T2 (de) Virtuelle Mikrophonanordnung
DE102018117556B4 (de) Einzelkanal-rauschreduzierung
EP0615226B1 (de) Verfahren zur Geräuschreduktion für gestörte Sprachkanäle

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final