DE102017102134B4 - Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung - Google Patents

Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung Download PDF

Info

Publication number
DE102017102134B4
DE102017102134B4 DE102017102134.5A DE102017102134A DE102017102134B4 DE 102017102134 B4 DE102017102134 B4 DE 102017102134B4 DE 102017102134 A DE102017102134 A DE 102017102134A DE 102017102134 B4 DE102017102134 B4 DE 102017102134B4
Authority
DE
Germany
Prior art keywords
covariance matrix
audio signals
sound field
received audio
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102017102134.5A
Other languages
English (en)
Other versions
DE102017102134A1 (de
Inventor
Yiteng Huang
Alejandro LUEBS
Jan Skoglund
Willem Bastiaan Kleijn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE102017102134A1 publication Critical patent/DE102017102134A1/de
Application granted granted Critical
Publication of DE102017102134B4 publication Critical patent/DE102017102134B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

Computerimplementiertes Verfahren, umfassend:Empfang (502) von Audiosignalen (109) über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105);Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109);Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109);Bestimmen (505) von Modellen der Kovarianzmatrix auf Basis der Schallfeldhypothese;Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109);Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert;Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; undErzeugen einer Audioausgabe aufgrund der empfangenen Audiosignale (109) und den Nachfilter-Koeffizienten.

Description

  • HINTERGRUND
  • Mikrofonarrays werden zunehmend als effektives Werkzeug zur Bekämpfung von Geräuschen, Interferenzen und Hall bei der Spracherfassung in einer akustisch ungünstigen Umgebung anerkannt. Zu den Anwendungen zählen robuste Spracherkennung, Freisprechkommunikation, Telefonkonferenzen und Hörhilfen, um nur einige zu nennen. Strahlformung ist eine traditionelle Verarbeitungstechnologie für Mikrofonarrays, die eine Art der räumlichen Filterung bietet: Signale aus bestimmten Richtungen werden empfangen, Signale aus anderen Richtungen werden gedämpft. Obwohl eine räumliche Filterung möglich ist, stellt sie aus der Perspektive der Signalrekonstruktion im Sinne des kleinsten mittleren quadratischen Fehlers (MMSE) keine optimale Lösung dar.
  • Ein konventionelles Verfahren der Nachfilterung ist der Mehrkanal-Wiener-Filter (MWF), der in einen MVDR-Strahlformers (minimum variance distortionless response) und einen Einkanal-Nachfilter zerlegt werden kann. Zurzeit bekannte herkömmliche Verfahren der Nachfilterung können die Sprachqualität nach dem Strahlformung verbessern, allerdings haben diese vorhandenen Verfahren zwei allgemeine Einschränkungen bzw. Mängel. Zunächst gehen die Verfahren davon aus, dass die relevanten Geräusche entweder weißes Rauschen (inkohärent) oder diffuses Rauschen sind, somit behandeln die Verfahren keine Punktstörer. Punktstörer finden sich beispielsweise in einer Umgebung mit mehreren Personen, die sprechen, wobei eine Person die erwünschte Audioquelle darstellt, während die unerwünschten Störgeräusche von den anderen Sprechern stammen. Diese bestehenden Ansätze wenden dann eine heuristische Technik an, bei der Nachfilter-Koeffizienten geschätzt werden, indem zwei Mikrofone gleichzeitig verwendet werden und dann der Durchschnitt aller Mikrofonpaare ermittelt wird, was keine optimalen Resultate ergibt.
  • US2014/0056435 A1 offenbart ein Verfahren, das Folgendes umfasst: Verarbeiten einer ersten Anzahl von Teilband-Kommunikationssignalen und einer zweiten Anzahl von zielausgelöschten Signalen in jedem Teilband mit einem Satz von StrahlformerKoeffizienten, um eine inverse zielausgelöschte Kovarianzmatrix der Ordnung der zweiten Anzahl in jedem Band zu erhalten; Verwenden eines Zielabwesenheitssignals, um eine anfängliche Schätzung der Rauschleistung in einem Strahlformer-Ausgangssignal zu erhalten, gemittelt über die letzten Rahmen mit Zielabwesenheit in jedem Teilband; Multiplizieren der anfänglichen Rauschschätzung mit einem Rauschkorrekturfaktor, um eine verfeinerte Schätzung der Leistung der Rauschsignalkomponente des Strahlformerausgangs in jedem Teilband zu erhalten; Verarbeiten der verfeinerten Schätzung mit der Größe des Strahlformerausgangs, um einen Nachfilter-Verstärkungswert in jedem Teilband zu erhalten; Verarbeiten des Strahlformerausgangssignals mit dem Nachfilter-Verstärkungswert, um ein Nachfilter-Ausgangssignal in jedem Teilband zu erhalten; und Verarbeiten der Nachfilter-Ausgangsteilbandsignale, um ein verbessertes strahlgeformtes Ausgangssignal zu erhalten.
  • McCowan et al., „Microphone Array Post-Filter Based on Noise Field Coherence“, IEEE Transactions On Speech And Audio Processing, 2003, offenbart ein Verfahren zur Schätzung der Signalleistungs-Spektraldichte, die in der Übertragungsfunktion eines Mikrofonarrays nach dem Filter verwendet werden soll.
  • US 5,729,613 A offenbart ein Mehrkanal-Nachhallsystem mit einer im wesentlichen konstanten Mehrkanal-Leistungsverstärkung bei Audiofrequenzen und mit mehreren Signaleingängen, einem für jeden Eingangskanal, einer Anzahl von Kammfilternetzwerken, die mit jedem Signaleingang verbunden sind, wobei jedes Kammfilternetzwerk eine Vorwärtskopplungsstufe, ein Kreuzkopplungsnetzwerk, das die Kammfilter kreuzweise koppelt, um die Nachhall-Echodichte zu erhöhen, und mehrere Signalausgänge, einen für jeden Ausgangskanal, aufweist.
  • US2010/0217590 A1 offenbart ein System und ein Verfahren zur Durchführung der Sprecherlokalisierung. Das System und das Verfahren nutzen die Sprechererkennung, um eine Schätzung der Ankunftsrichtung (DOA) von Sprachschallwellen zu liefern, die von einem gewünschten Sprecher in Bezug auf ein im System enthaltenes Mikrofonarray ausgehen. Mögliche DOA-Schätzungen können vorausgewählt oder durch eine oder mehrere andere DOA-Schätztechniken erzeugt werden.
  • KURZDARSTELLUNG
  • Diese Zusammenfassung stellt eine Auswahl von Konzepten in einer vereinfachten Form dar, um ein grundsätzliches Verständnis einiger Aspekte der vorliegenden Offenbarung zu ermöglichen. Diese Zusammenfassung ist keine umfangreiche Übersicht über die Offenbarung und zielt nicht darauf ab, Schlüssel- oder kritische Elemente der Offenbarung festzustellen, oder den Umfang der Offenbarung abzugrenzen. Diese Zusammenfassung stellt lediglich einige der Konzepte der Offenbarung dar, wie eine Einleitung zur ausführlichen Beschreibung, die unten bereitgestellt wird.
  • Generell kann ein Aspekt des in dieser Spezifikation beschriebenen Gegenstands in Verfahren, Vorrichtungen und maschinenlesbaren Medien verkörpert sein. Eine Beispielvorrichtung enthält eines oder mehrere Verarbeitungsgeräte und ein oder mehrere Speichergeräte, auf denen Anweisungen gespeichert sind, die, wenn sie von dem einen oder den mehreren Verarbeitungsgeräten ausgeführt werden, die Implementierung eines Beispielverfahrens durch die Verarbeitungsgeräte veranlassen. Ein maschinenlesbares Beispielspeichermedium beinhaltet Sätze von Anweisungen zur Implementierung eines Beispielverfahrens. Eine Ausführungsform der vorliegenden Offenbarung bezieht sich auf ein Verfahren für die Schätzung von Koeffizienten zur Geräuschreduktion für einen Nachfilter, das Verfahren umfassend: Erhalt der Audiosignale von den Schallquellen in einer Umgebung über ein Mikrofonarray; Bildung einer Schallfeldhypothese aufgrund der erhaltenen Audiosignale; Berechnung fester Koeffizienten für den Strahlformer aufgrund der erhaltenen Audiosignale; Bestimmung von Modellen der Kovarianzmatrix aufgrund der Schallfeldhypothese; Berechnung einer Kovarianzmatrix aufgrund der erhaltenen Audiosignale; Schätzung der Energie der Schallquellen, um eine Lösung zu finden, die den Unterschied zwischen der bestimmten und der berechneten Kovarianzmatrix minimiert; Berechnung und Anwendung der Koeffizienten für den Nachfilter aufgrund der geschätzten Energie; und Erzeugung eines Audioausgangssignals auf Basis der erhaltenen Audiosignale und der Koeffizienten des Nachfilters.
  • Bei einer oder mehreren der Ausführungsformen können die hier beschriebenen Verfahren optional eine oder mehrere der folgenden zusätzlichen Eigenschaften beinhalten: Bildung vieler Schallfeldhypothesen zur Schaffung mehrerer Ausgangssignale, wobei die erstellten Ausgangssignale verglichen werden und das Signal mit dem höchsten Rauschabstand unter den erstellten Ausgangssignalen ermittelt wird; Schätzung der Energie nach der Frobenius-Norm, wobei die Frobenius-Norm wiederum wird unter Verwendung der Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird; Bestimmung des Standortes zumindest einer Schallquelle durch Verwendung von Lokalisierungsverfahren für Schallquellen zur Erstellung der Schallfeldhypothese, Bestimmung des Modells für die Kovarianzmatrix und Berechnung der Kovarianzmatrix; die Kovarianzmatrixmodelle werden basierend auf der Vielzahl von Schallfeldhypothesen erstellt, wobei eines der Kovarianzmatrixmodelle zur Maximierung einer Objektfunktion der Rauschunterdrückung ausgewählt wird, und wobei diese Objektfunktion die Stichprobenvarianz des finalen Audioausgangssignals ist.
  • Der weitere Geltungsbereich der vorliegenden Offenbarung ergibt sich aus der nachstehenden detaillierten Beschreibung. Es sollte jedoch klar sein, dass die detaillierte Beschreibung trotz der Verwendung bevorzugter Ausführungsformen nur zur Veranschaulichung dient, da verschiedene Änderungen und Modifikationen innerhalb des Geists und Umfangs der Offenbarung für Fachleute auf dem Gebiet aus dieser detaillierten Beschreibung ersichtlich werden.
  • Figurenliste
  • Diese und andere Gegenstände, Merkmale und Eigenschaften der vorliegenden Offenbarung werden für Fachleute nach einem Studium der folgenden detaillierten Beschreibung in Verbindung mit den beigefügten Ansprüchen und Zeichnungen, die alle einen Teil dieser Spezifikation bilden, deutlicher werden. In den Zeichnungen gilt:
    • 1 ist ein Funktionsblockdiagramm, das ein Beispielsystem für die Erzeugung eines postgefilterten Ausgangssignals veranschaulicht, das auf einer Schallfeldhypothese beruht und einer oder mehreren der hier beschriebenen Ausführungsformen entspricht.
    • 2 ist ein Funktionsblockdiagramm, das eine strahlgeformte Einkanal-Ausgabe der Rauschumgebung in einem Beispielsystem veranschaulicht.
    • 3 ist ein Funktionsblockdiagramm, das die Bestimmung der Kovarianzmatrixmodelle auf Basis einer Schallfeldhypothese in einem Beispielsystem veranschaulicht.
    • 4 ist ein Funktionsblockdiagramm, das die Nachfilterschätzung für eine Frequenzlinie veranschaulicht.
    • 5 ist ein Ablaufdiagramm, das Beispielschritte für die Berechnung der Koeffizienten des Nachfilters für eine Frequenzlinie in Übereinstimmung mit einer Ausführungsform der Offenbarung veranschaulicht.
    • 6 veranschaulicht die räumliche Anordnung des Mikrofonarrays und der Schallquellen, auf die sich die experimentellen Ergebnisse beziehen.
    • 7 ist ein Blockdiagramm, das ein exemplarisches Computergerät veranschaulicht.
  • Die hier verwendeten Überschriften dienen nur der Bequemlichkeit und beeinflussen nicht zwingend den Umfang oder die Bedeutung der Ansprüche.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die vorliegende Offenbarung bezieht sich allgemein auf Systeme und Verfahren zur Verarbeitung von Audiosignalen. Genauer gesagt, beziehen sich Aspekte der vorliegenden Offenbarung auf Techniken der Nachfilterung zur Sprachverbesserung bei einem Mikrofonarray.
  • Die folgende Beschreibung bietet spezifische Details für ein vollständiges Verständnis der Offenbarung und ermöglicht ihre Beschreibung. Fachleute werden jedoch verstehen, dass eine oder mehrere der hier beschriebenen Ausführungsformen auch ohne viele dieser Details umsetzbar sind. Gleichwohl werden Fachleute auch verstehen, dass die hier beschriebenen Beispielausführungsformen viele andere offensichtliche Merkmale enthalten können, die hier nicht im Detail beschrieben werden. Zudem können einige wohlbekannte Strukturen oder Funktionen nachfolgend nicht im Detail gezeigt oder beschrieben werden, um in der entsprechenden Beschreibung nicht für eine unnötige Verwirrung zu sorgen.
  • 1. Einführung
  • Bestimmte Ausführungsformen und Eigenschaften der vorliegenden Offenbarung beziehen sich auf Verfahren und Systeme zur Nachfilterung von Audiosignalen mit einem Signalmodell, das nicht nur weißes und diffuses Rauschen, sondern auch Punktstörer berücksichtigt. Wie nachfolgend genauer beschrieben wird, sind die Verfahren und die Systeme so ausgelegt, dass sie eine global optimierte KQ-Lösung (kleinste Quadrate) für Mikrofone in einem Mikrofonarray erzielen. In bestimmten Ausführungsformen wird die Leistung des offenbarten Verfahrens unter Verwendung von Aufnahmen realer Impulsantworten für die gewünschten und störenden Quellen ausgewertet, darunter auch künstliches diffuses und weißes Rauschen. Die Impulsantwort ist die Ausgabe bzw. Reaktion eines dynamischen Systems auf ein kurzes Eingabesignal, das als Impuls bezeichnet wird.
  • 1 veranschaulicht ein Beispielsystem für die Erzeugung eines postgefilterten Ausgangssignals (175), das auf einer Schallfeldhypothese (111) beruht. Eine Schallfeldhypothese (111) ist eine Feststellung der Zusammensetzung der Rauschkomponenten (106-108) in einer Rauschumgebung (105). In dieser Beispielausführungsform wird eine Schallfeldhypothese (111) für verschiedene Frequenzlinien F1 bis Fn (165a-c) eingegeben, um ein Ausgangs-/gewünschtes Signal (175) zu generieren. Für eine Schallfeldhypothese (111) werden Signale zu einem Frequenzbereich umgewandelt. Strahlformung und Nachfilterung werden unabhängig von Frequenz zu Frequenz durchgeführt.
  • In dieser Beispielausführungsform gehört zu einer Schallfeldhypothese eine Störquelle. In anderen Beispielausführungsformen können die Schallfeldhypothesen komplizierter sein und zahlreiche Störfaktoren umfassen.
  • Auch können bei anderen Beispielausführungsformen viele Schallfeldhypothesen zur Erzeugung von vielen Ausgangssignalen ermittelt werden. Fachleute werden verstehen, dass mehrere Schallfeldhypothesen auf unterschiedlichen Faktoren beruhen können, wie beispielsweise Informationen zur Umgebung, die entweder bekannt sein oder festgestellt werden können. Fachleute werden weiterhin verstehen, dass die Qualität der Ausgangssignale von verschiedenen Faktoren beeinflusst werden können, wie z. B. der Messung des Signal-Rauschabstands (wie beispielsweise in den nachfolgend erörterten Experimenten gemessen). Bei anderen Beispielausführungsformen können Fachleute andere Verfahren für die Erstellung von Schallfeldhypothesen und die Ermittlung der Qualität von Ausgangssignalen verwenden.
  • 1 veranschaulicht eine Rauschumgebung (105), die eine oder mehrere Rauschkomponenten (106-108) enthalten kann. Die Rauschkomponenten (106-108) in einer Umgebung (105) können z. B. diffuses Rauschen, weißes Rauschen und/oder Punktstörer als Rauschquellen beinhalten. Die Rauschkomponenten (106-108) oder die Rauschquellen in einer Umgebung (105) können sich in verschiedenen Positionen befinden und Geräusche in verschiedene Richtungen und mit unterschiedlichen Niveaus von Energie/Stärke abgeben. Jede Rauschkomponente (106-108) erzeugt Audiosignale, die von einer Vielzahl von Mikrofonen M1...Mn (115, 120, 125) in einem Mikrofonarray (130) aufgenommen werden können. Die von den Rauschkomponenten (106-108) in einer Umgebung (105) erzeugten und von jedem der Mikrofone (115, 120, 125) in einem Mikrofonarray (130) aufgenommenen Audiosignale werden in der Beispieldarstellung zur Vereinfachung als ein einzelner Pfeil 109 gezeigt.
  • Das Mikrofonarray (130) enthält eine Vielzahl von einzelnen Kugelmikrofonen (115, 120, 125). Diese Ausführungsform geht von Kugelmikrofonen aus. Andere Beispielausführungsformen können mit anderen Mikrofonarten arbeiten, was die Kovarianzmatrixmodelle verändern könnte. Die Audiosignale (109), die von jedem der Mikrofone M1 bis Mn (wobei „n“ eine willkürliche Ganzzahl ist) (115, 120, 125) aufgenommen werden, können mit einem Transformationsverfahren wie z. B. der Fourier-Transformation für zeitdiskrete Signale (DTFT) (116, 121, 126) in den Frequenzbereich umgewandelt werden. Andere Beispiele für Transformationsverfahren können u. a. FFT (Fast Fourier Transformation) oder STFT (Short-time Fourier Transformation) beinhalten. Der Einfachheit halber werden die durch die einzelnen DTFT erzeugten Ausgangssignale (116, 121, 126), die zu einer Frequenz gehören, durch einen einzelnen Pfeil dargestellt. Das erste DTFT-Audiosignal, das aus von Mikrofon M1 (115) aufgenommenem Audiomaterial erzeugt wurde, wird zum Beispiel an der ersten Frequenzlinie F1 (165a) als einzelner Pfeil 117a dargestellt.
  • 1 zeigt auch mehrere Frequenzlinien (165a-c) mit verschiedenen Komponenten, wobei die Nachfilterkomponente für jede Frequenzlinie ein postgefiltertes Ausgangssignal erzeugt. Die Nachfilterkomponente (160a) der Frequenzlinie F1 (165a) erzeugt zum Beispiel ein postgefiltertes Ausgangssignal (161a) der ersten Frequenzlinie. Die Ausgangssignale für jede Frequenzlinie (165a-c) werden in eine umgekehrte DTFT-Komponente (170) eingegeben, um das endgültige gewünschte Ausgangssignal (175) mit reduzierten unerwünschten Geräuschen zu erzeugen. Details und Schritte der verschiedenen Komponenten in den Frequenzlinien (165a-c) bei diesem Beispielsystem (100) werden nachfolgend genauer beschrieben.
  • 2. Signalmodelle
  • 2 zeigt eine strahlgeformten Einkanal-Ausgabe (136a) aus einer Rauschumgebung (105). Der Einfachheit halber wurden hier nicht erörterte Komponenten des Gesamtsystems 100 (wie in 1 dargestellt) in 2 weggelassen. Eine Rauschumgebung (105) enthält unterschiedliche Rauschkomponenten (106-108), die Schall erzeugen. In dieser Beispielausführungsform werden von der Rauschkomponente 106 erwünschter Schall und von den Rauschkomponenten 107 und 108 unerwünschte Schall abgegeben, wobei letztere in Form von diffusem Rauschen, weißem Rauschen oder Geräuschen von Punktstörern vorliegen können. Jede der Rauschkomponenten (106-108) generiert Schall; der Einfachheit halber wird die Gesamtausgabe der Rauschkomponenten (106-108) jedoch als ein einzelner Pfeil 109 dargestellt. Die Mikrofone (115, 120, 125) im Array (130) empfangen die Umgebungsgeräusche (109) in Abhängigkeit von den physikalischen Standorten der Mikrofone und den Richtungen und Stärken der eingehenden Audiosignale innerhalb der Umgebungsgeräusche (109) zu unterschiedlichen Zeiten. Jedes der von den Mikrofonen (115, 120, 125) aufgenommenen Audiosignale wird transformiert (116, 121, 126) und strahlgeformt (135a), um eine Einkanal-Ausgabe (137a) für eine einzelne Frequenz zu generieren. Diese Einkanal-Ausgabe (137a) aus dem Strahlformer (135a) wird an den Nachfilter (160a) geleitet. Die Strahlformungskoeffizienten (138a), als h(jω) dargestellt, sind mit der nachfolgenden Gleichung (6) assoziiert und bilden die Strahlformungsfilter (136a), die zur Berechnung der Nachfilter-Koeffizienten (155a) weitergegeben werden.
  • Eine genauere Beschreibung zur Erfassung der Umgebungsgeräusche (109), der Bildung des strahlgeformten Einkanal-Ausgangssignals (137a) und der Strahlformungsfilter (136a) erfolgt hier. Angenommen, ein Mikrofonarray (130) besteht aus M Elementen (115, 120, 125), wobei M eine willkürliche Ganzzahl ist, welche die Anzahl der Mikrofone im Array (130) angibt, die zur Signalaufnahme s(t) einer gewünschten Punktschallquelle (106) in einer akustischen Umgebung mit lauten Geräuschen (105) dienen. Die Ausgabe des m-ten Mikrofons im Zeitbereich wird geschrieben als x m ( t ) = g s , m s s ( t ) + ψ m ( t ) ,   m = 1,2, , M ,
    Figure DE102017102134B4_0001
    wobei gs, m die Impulsantwort der gewünschten Komponente (106) zum m-ten Mikrofon (z. B. 125) bezeichnet, * bezeichnet die lineare Faltung und ψm(t) sind die unerwünschten Nebengeräusche (beispielsweise durch die Rauschkomponenten 107 und 108 erzeugt).
  • Das offenbarte Verfahren kann viele Störquellen in unterschiedlichen Positionen handhaben; der Einfachheit halber wird jedoch nur ein Punktstörer in den aufgeführten Beispielen beschrieben. Die Nebengeräusche bestehen für gewöhnlich aus drei Arten von Schallkomponenten: 1) kohärentes Rauschen einer Störquelle, v(t), 2) diffuses Rauschen, um(t) und 3) weißes Rauschen, wm(t). Außerdem, ψ m ( t ) g v , m v ( t ) + u m ( t ) + w m ( t ) ,
    Figure DE102017102134B4_0002
    wobei gv, m die Impulsantwort der Punktrauschquelle an das m-te Mikrofon ist. In dieser Beispielausführungsform wird angenommen, dass das gewünschte Signal und diese Rauschkomponenten (106-108) vorrübergehend stationär und voneinander unabhängig sind. In anderen Beispielausführungsformen können die Rauschkomponenten anders zusammengesetzt sein. Eine Rauschumgebung kann zum Beispiel mehrere gewünschte Schallquellen haben, die sich bewegen und die anvisierte gewünschte Schallquelle kann sich mit der Zeit ändern. Mit anderen Worten, ein Raum mit vielen Menschen, in dem zwei Personen während einer Unterhaltung gehen.
  • Im Frequenzbereich wird dieses generalisierte Signalmodell des Mikrofonarrays in Gleichung (1) umgewandelt in X m ( j ω ) = G e , m ( j ω ) S ( ω ) + ψ ( j ω )  = G s , m ( j ω ) + S ( j ω ) + G v , m ( j ω ) V ( j ω ) +   U ( j ω ) + W ( j ω ) ,
    Figure DE102017102134B4_0003
    wobei j 1 ,
    Figure DE102017102134B4_0004
    ω die Winkelfrequenz ist und Xm(jω), Gs, m(jω), S(jω), Gv, m(), V(jω), U(jω), W(jω) jeweils die DTFT-Transformationen von xm(t), gs, m, s(t), gv, m, v(t), u(t) und W(t) sind. In den Beispielausführungsformen wird DTFT verwendet; dies sollte jedoch den Umfang der Erfindung nicht beschränken. Andere Beispielausführungsformen können andere Verfahren verwenden, beispielsweise STFT (Kurzzeit-Fourier-Transformation) oder FFT (schnelle Fourier-Transformation). Die Gleichung (3) in Vektor-/Matrixform ist wie folgt x ( j ω ) = S ( j ω ) + g s ( j ω ) + V ( j ω ) g v ( j ω ) + u ( j ω ) + w ( j ω ) ,
    Figure DE102017102134B4_0005
    wobei z ( j ω ) [ Z 1 ( j ω )   Z 2 ( j ω ) Z M ( j ω ) ] T ,  z ( x , u , w ) ,
    Figure DE102017102134B4_0006
    g z ( j ω ) [ G z ,1 ( j ω )   G z ,2 ( j ω ) G z , M ( j ω ) ] T ,  z ( s , v ) ,
    Figure DE102017102134B4_0007
    (·)T die Transposition eines Vektors oder einer Matrix bezeichnet. Die räumliche Kovarianzmatrix des Mikrofonarrays wird dann wie folgt festgestellt R x x ( j w ) = σ s 2 ( ω ) P g s ( j ω ) + R ψ ψ ( j ω ) = σ s 2 ( ω ) P g s ( j ω ) + σ s 2 ( ω ) P g v ( j ω ) + R u u ( j ω ) + R w w ( j ω ) ,
    Figure DE102017102134B4_0008
    wobei davon ausgegangen wird, dass die Signale voneinander unabhängig sind, R z z ( j ω ) E { z ( j ω ) z H ( j ω ) } ,   z { x , ψ . u . w } ,
    Figure DE102017102134B4_0009
    P g z ( j ω ) g z ( j ω ) g z H ( j ω ) ,  z ( s , v )
    Figure DE102017102134B4_0010
    σ s 2 ( ω ) E { Z ( j ω ) Z * ( j ω ) } ,   z { s , v } ,
    Figure DE102017102134B4_0011
    und E{·}, (·)H und (·)* die mathematische Erwartung ausdrücken, die Hermitische Transposition eines Vektors oder einer Matrix bzw. das Konjugat einer komplexen Variablen.
  • Ein Strahlformer (135a) filtert jedes Mikrofonsignal durch einen FIR-Filter Hm(jω) (m = 1, 2, ..., M) und addiert die Ergebnisse zur Erzeugung einer Einkanal-Ausgabe (137a) Y ( j ω ) = m = 1 M H m * ( j ω ) X m ( j ω ) = h H ( j ω ) x ( j ω ) ,
    Figure DE102017102134B4_0012
    und Strahlformungsfiltern (136a), wobei h ( j ω ) [ H 1 ( j ω )   H 2 ( j ω ) H M ( j ω ) ] T .
    Figure DE102017102134B4_0013
  • In Gleichung (6) wird auch die Kovarianzmatrix der gewünschten Schallquelle modelliert. Das Modell ist dem der Störquelle ähnlich, da sowohl die gewünschte wie auch die störende Quelle Punktquellen sind. In Bezug auf das Mikrofonarray unterscheiden sie sich in ihrer Ausrichtung.
  • 3. Modellieren der Matrizen für die Rauschkovarianz
  • 3 veranschaulicht die Schritte zur Bestimmung der Kovarianzmatrixmodelle auf Basis einer Schallfeldhypothese (111). Der Einfachheit halber wurden hier nicht erörterte Komponenten des Gesamtsystems 100 (wie in 1 dargestellt) in 3 weggelassen. Eine Schallfeldhypothese (111) wird auf der Grundlage der Rauschumgebung (105) festgelegt und in die Kovarianzmodelle (140a-c) für jede Frequenzlinie (165a-c) eingegeben.
  • In einer tatsächlichen Umgebung ist die Zusammenstellung der Rauschkomponenten, beispielsweise Anzahl und Positionen der Punktstörquellen und das Vorhandensein von Quellen für diffuses oder weißes Rauschen, womöglich nicht bekannt. Daher wird eine Schallfeldhypothese erstellt. Die obige Gleichung (2) zeigt eine Situation mit einer Punktstörquelle, diffusem und weißem Rauschen, was vier Unbekannte ergibt. Wird die Hypothese für das Szenario ohne Punktstörquelle und nur mit diffusem und weißem Rauschen erstellt, oder dies angenommen, so kann die obige Gleichung (5) vereinfacht werden und hat dann nur drei Unbekannte.
  • In Gleichung (5), werden die drei Komponenten (106-108), die mit Störung und Rauschen in Verbindung stehen, wie folgt modelliert:
    1. (1) Punktstörer: Die Kovarianzmatrix Pgv (jω) nimmt aufgrund der Störquelle des Punktes v(t) Platz Nr. 1 ein. Allgemein können die komplexen Elemente des Impulsantwortvektors gv bei Hall, oder wenn sich die Quelle im Nahbereich des Mikrofonarrays befindet, unterschiedliche Größen haben. Wird nur der direkte Weg berücksichtigt, oder ist die Punktquelle im Fernfeld, dann gilt g v ( j ω ) = [ e j ω τ v ,1   e j ω τ v ,2 e j ω τ v , M ] T ,
      Figure DE102017102134B4_0014
      was nur die Zeitunterschiede bezüglich der Ankunft der Störung bei den vielen Mikrofonen enthält τv, m (m = 1, 2, ..., M) mit Bezug auf einen gemeinsamen Referenzpunkt.
    2. (2) Diffuses Rauschen: Ein diffuses Rauschfeld wird als kugelförmig oder zylinderförmig isotrop angesehen, da es durch unverbundene Rauschsignale von gleicher Energie charakterisiert ist, die sich gleichzeitig in mehrere Richtungen ausbreiten. Die Kovarianzmatrix ergibt sich aus R u u ( j ω ) = σ s 2 ( ω ) Γ u u ( ω ) ,
      Figure DE102017102134B4_0015
      wobei das (p, q)-te Element von Γuu(ω) ist [ Γ u u ( ω ) ] p , g = { sinc ( ω d p g c ) , Kugelf o ¨ rmig isotrop J 0 ( ω d p g c ) , Zylinderf o ¨ rming isotrop
      Figure DE102017102134B4_0016
      dpq ist der Abstand zwischen den p-ten und q-ten Mikrofonen, c ist die Schallgeschwindigkeit und J0(·) ist die Bessel-Funktion 1. Art der Ordnung 0.
    3. (3) Weißes Rauschen: Die Kovarianzmatrix des zusätzlichen weißen Rauschens ist einfach eine gewichtete Identitätsmatrix: R w w ( j ω ) = σ w 2 ( ω ) I M × M .
      Figure DE102017102134B4_0017
  • 4. Mehrkanal-Wiener-Filter (MCWF), MVDR-Strahlformung und Nachfilterung
  • Wird ein Mikrofonarray verwendet, um ein gewünschtes Breitbandschallsignal aufzunehmen (z. B. Rede und/oder Musik), so besteht die Absicht, den Abstand zwischen Y (jω) in Gleichung (6) und S(jω) für ω's zu minimieren. Der MCWF, der im MMSE-Sinn optimal ist, kann in einen MVDR-Strahlformer und einen nachfolgenden Einkanal-Wiener-Filter (SCWF) zerlegt werden: h M C W F ( j ω ) = R ψ ψ 1 ( j ω ) g s ( j ω ) g s H ( j ω ) R ψ ψ 1 ( j ω ) g s ( j ω ) h M V D R ( j ω ) σ s 2 ( ω ) σ s ' 2 ( ω ) + σ ψ ' 2 ( ω ) h S C W F ( ω ) .
    Figure DE102017102134B4_0018
    wobei σ s 2 ( ω ) σ s 2 ( ω ) h M V D R H ( j ω ) P g s ( j ω ) h M V D R ( j ω ) ,
    Figure DE102017102134B4_0019
    σ ψ ' 2 ( ω ) h M V D R H ( j ω ) R ψ ψ ( j ω ) h M V D R ( j ω )
    Figure DE102017102134B4_0020
    die Energie des gewünschten Signals und des Rauschens jeweils am Ausgang des MVDR-Strahlformers sind. Diese Zerlegung führt zu der folgenden Struktur für die Spracherfassung durch ein Mikrofonarray: der SCWF wird als Nachfilter hinter dem MVDR-Strahlformer angesehen.
  • 5. Nachfilter-Schätzung
  • 4 veranschaulicht die Schritte der Nachfilter-Schätzung in einer Frequenzlinie. Um den MVDR-Strahlformer als ersten und den SCWF wie in Gleichung (11) als Nachfilter umzusetzen, werden die Matrizen der Signal-und-Rausch-Kovarianz von der berechneten Kovarianzmatrix der Mikrofonsignale geschätzt. Die Mehrkanal-Mikrofonsignale werden zunächst in Rahmen gestaffelt (z. B. als Fenster zur gewichteten Überlappungszusatzanalyse) und dann mit einer FFT zur Feststellung von x(jω, i) umgewandelt, wobei i der Rahmenindex ist. Die Schätzung der Kovarianzmatrix der Mikrofonsignale (145a) wird rekursiv aktualisiert, entweder dynamisch oder unter Verwendung eines Speicherelements, durch R ^ x x ( j ω , i ) = λ R ^ x x ( j ω , i 1 ) + ( 1 λ ) x ( j ω , i ) x H ( j ω , i ) ,
    Figure DE102017102134B4_0021
    wobei 0 < λ < 1 ein Vernachlässigungsfaktor ist.
  • Ähnlich wie bei der Gleichung (7) kann Hall vernachlässigt werden, dadurch ergibt sich g s ( j ω ) = [ e j ω τ s ,1   e j ω τ s ,2 e j ω τ s , M ] T ,
    Figure DE102017102134B4_0022
    wobei τs,m die Zeitdifferenz mit Bezug zu dem gemeinsamen Referenzpunkt beziffert, mit der das gewünschte Signal am w-ten Mikrofon eintrifft.
  • In einem anderen Beispiel wird angenommen, dass sowohl τs,m als auch τv,m bekannt sind und sich über die Zeit nicht ändern. Somit kann gemäß Gleichung (5), unter Verwendung der Gleichungen (8) und (10) am i-ten Zeitrahmen die Bestimmung der Modelle für die Kovarianzmatrix (140a) wie folgt aussehen: R ^ x x ( j ω , i ) = σ s 2 ( ω , i ) P g s ( j ω ) + σ v 2 ( ω , i ) P g v ( j ω ) +   σ u 2 ( ω , i ) Γ u u ( ω ) + σ w 2 ( ω , i ) I M × M .
    Figure DE102017102134B4_0023
  • Diese Gleichheit erlaubt die Bildung eines Kriteriums basierend auf der Frobenius-Norm für die Differenz zwischen der linken und der rechten Seite der Gleichung (14). Durch Minimierung eines solchen Kriteriums kann ein LS-Schätzer für { {σ2,s (ω, k), σ2,v (ω, k), σ2,u (ω, k), σ2,w (ω, k)} abgeleitet werden. Es ist zu beachten, dass die Matrizen in Gleichung (14) Hermitisch sind. Redundante Informationen in dieser Formel wurden der Klarheit halber ausgelassen.
  • Für eine M × M Hermitische Matrix A = [αpq] können zwei Vektoren definiert werden. Ein Vektor ist das diagonale Element und der andere ist das ODHV-Element (Halbvektorisierung abseits der Diagonalen) seines unteren dreieckigen Teils diag { A } [ a 11   a 22 a M M ] T ,
    Figure DE102017102134B4_0024
    odhv { A } [ a 21 a M 1   a 32 a M 2 a M ( M 1 ) ] T .
    Figure DE102017102134B4_0025
  • Eine Vielzahl von N Hermitischen Matrizen der gleichen Größe können definiert werden als diag { A 1 , , A N } [ diag { A 1 } diag { A N } ] .
    Figure DE102017102134B4_0026
    odhv { A 1 , , A N } [ odhv { A 1 } odhv { A N } ] .
    Figure DE102017102134B4_0027
  • Durch Verwendung dieser Darstellungen ergibt die reorganisierte Gleichung (14) ϕ ^ x x ( k ) = Θ x ( k ) ,
    Figure DE102017102134B4_0028
    wobei der Parameter jω der Klarheit halber ausgelassen wird und ϕ ^ x x ( k ) [ diag { R ^ x x ( j ω , k ) } odhv { R ^ x x ( j ω , k ) } ] , Θ [ D ( j ω ) C ( j ω ) ] .
    Figure DE102017102134B4_0029
    D ( j ω ) diag { P g s ( j ω ) , P g V ( j ω ) , Γ u u ( j ω ) , I M × M } ,
    Figure DE102017102134B4_0030
    C ( j ω ) odhv { P g s ( j ω ) , P g V ( j ω ) , Γ u u ( j ω ) , I M × M } ,
    Figure DE102017102134B4_0031
    x ( k ) [ σ s 2 ( ω , k ) σ v 2 ( ω , k ) σ u 2 ( ω , k ) σ w 2 ( ω , k ) ] T .
    Figure DE102017102134B4_0032
  • Hier ist das Ergebnis M (M + 1) / 2 Gleichungen und 4 Unbekannte. Wenn M ≥ 3, handelt es sich um ein überbestimmtes Problem. Das heißt, es gibt mehr Gleichungen als Unbekannte.
  • Das zuvor erwähnte Fehlerkriterium wird wie folgt geschrieben J ϕ ^ x x ( k ) Θ x ( k ) 2 .
    Figure DE102017102134B4_0033
  • Die Minimierung dieses Kriteriums führt bei der Umsetzung als Schätzung der Energie der Schallquellen (150a) zu x ^ L S = { ( Θ H Θ ) 1 Θ H ϕ ^ x x ( k ) } ,
    Figure DE102017102134B4_0034
    wobei ℜ{·} den Realteil komplexer Zahlen/Vektoren bezeichnet. Vermutlich sind die Schätzfehler in ϕ̂xx(k) unabhängige und identisch verteilte (u.i.v.) Zufallsvariablen. Daher ist die KQ-Lösung (kleinste Quadrate) in Gleichung (21) im MMSE-Sinne durch die Umsetzung bei der Berechnung der Koeffizienten für die Nachfilter (155a) optimal geeignet. Das Einsetzen dieser Schätzung in Gleichung (11) ergibt einen KQ-Nachfilter (LSPF) (160a), wie in dieser Offenbarung erwähnt.
  • In der obigen Beispielausführungsform geht die abgeleitete KQ-Lösung davon aus, dass M ≥ 3. Das ist der Verwendung eines generalisierten Modells für ein Akustikfeld geschuldet, das aus vier Arten von Schallsignalen besteht. In anderen Beispielausführungsformen, in denen zusätzliche Informationen zum Akustikfeld verfügbar sind, wodurch einige Arten von Störsignalen ignoriert werden können (z. B. kein Punktstörer und/oder lediglich weißes Rauschen), können die sich auf diese zu ignorierenden Schallquellen beziehenden Spalten in der Gleichung (19) entfernt werden und es kann dennoch ein KQ-Nachfilter gemäß der Beschreibung in der vorliegenden Offenbarung entwickelt werden, selbst für den Fall M = 2.
  • 5 ist ein Ablaufdiagramm, das Beispielschritte für die Berechnung der Koeffizienten des Nachfilters für eine Frequenzlinie (165a) in Übereinstimmung mit einer Ausführungsform der Offenbarung veranschaulicht. Die folgende Abbildung in 5 zeigt ein Umsetzungsbeispiel der zuvor offenbarten Details und der zuvor beschriebenen mathematischen Konzepte. Die offenbarten Schritte dienen nur der Veranschaulichung. Für Fachleute ist offensichtlich, dass einige Schritte gleichzeitig oder in anderer Reihenfolge innerhalb des Geistes und Umfangs dieser ausführlichen Beschreibung erfolgen können.
  • Unter Bezugnahme auf 5 beginnen die Beispielschritte bei Schritt 501. Im Schritt 502 werden Audiosignale von durch Schallquellen (106-108) in einer Umgebung (105) erzeugten Geräuschen (109) von einem Mikrofonarray (130) empfangen. Im Schritt 503 wird eine Schallfeldhypothese (111) erstellt. Im Schritt 504 werden feste Strahlformerkoeffizienten (138a) aufgrund der erhaltenen Audiosignale (117a, 122a, 127a) für eine Frequenzlinie (165a) berechnet. Im Schritt 505 werden die Modelle der Kovarianzmatrix (140a) auf Basis der Schallfeldhypothese (111) bestimmt. Im Schritt 506 wird eine Kovarianzmatrix (145a) aufgrund der erhaltenen Audiosignale (117a, 122a, 127a) berechnet. Im Schritt 507 wird die Energie der Schallquellen (150a) aufgrund der festgelegten Kovarianzmatrixmodelle (140a) und der errechneten Kovarianzmatrix (145a) geschätzt. Im Schritt 508 werden Nachfilter-Koeffizienten (155a) auf Basis der geschätzten Energie der Schallquellen (150a) und den berechneten festen Strahlformerkoeffizienten (138a) berechnet. Die Beispielschritte können dann mit dem Schritt 509 enden. Die zuvor erwähnten Schritte können für jede Frequenzlinie (165a-c) zur Generierung eines jeweiligen postgefilterten Ausgangssignals (161a-c) umgesetzt werden. Die postgefilterten Signale (161a-c) können dann umgeformt werden (170), um das finale gewünschte oder Ausgangssignal zu generieren (175).
  • Wie zuvor erwähnt, sind herkömmliche Verfahren der Nachfilterung nicht optimal und haben im Vergleich zu den hier beschriebenen Verfahren und Systemen Mängel. Die Beschränkungen und die Mängel herkömmlicher Ansätze werden im Hinblick auf die vorliegende Offenbarung nachfolgend weiter erörtert.
  • (a) Bei Nachfilter von Zelinski (ZPF) wird angenommen: 1) kein Punktstörer, z. B. σ2,v (ω) = 0, 2) kein diffuses Rauschen, z. B. σ2.u (ω) = 0 und 3) lediglich additives inkohärentes weißes Rauschen. Somit wird Gleichung (19) wie folgt vereinfacht [ diag { R ^ x x ( k ) } odhv { R ^ x x ( k ) } ] = [ diag { P g s } 1 M × 1 odhv { P g s } 0 ] [ σ s 2 ( k ) σ W 2 ( k ) ] .
    Figure DE102017102134B4_0035
  • Anstatt die optimale KQ-Lösung für σ2, s (k) mit der Gleichung (21) zu berechnen, verwendet der ZPF nur den unteren odhv-Teil der Gleichung (22) und erhält σ ^ s , Z P F 2 ( k ) = Σ p = 1 M ( M 1 ) / 2 { odhv { R ^ x x ( k ) } } p Σ p = 1 M ( M 1 ) / 2 { odhv { R ^ x x ( k ) } } p .
    Figure DE102017102134B4_0036
  • Es ist zu beachten, dass in Gleichung (13) R {odhv {Pgs}}p = 1 ist. Somit wird aus Gleichung (23) σ ^ s | , Z P F 2 ( k ) = Σ p = 1 M ( M 1 ) / 2 { odhv { R ^ x x ( k ) } } p M ( M 1 ) / 2 .
    Figure DE102017102134B4_0037
  • Wenn dasselbe akustische Modell des KQ-Filters für ZPF verwendet wird (z. B. nur weißes Rauschen), kann belegt werden, dass ZPF und KQ-Filter gleichwertig sind, wenn M = 2 ist. Allerdings unterscheiden sie sich grundlegend, wenn M ≥ 3 ist.
  • (b) Der Nachfilter von McCowan (MPF) geht von den folgenden Parametern aus: 1) kein Punktstörer z. B. σ2,v (ω)= 0, 2) kein additives weißes Rauschen z. B. σ2,w(ω) = 0 und 3) nur diffuses Rauschen. Unter diesen Annahmen wird aus Gleichung (19) [ diag { R ^ x x ( k ) } odhv { R ^ x x ( k ) } ] = [ diag { P g s } diag { Γ u u } odhv { P g s } odhv { Γ u u } ] [ σ s 2 ( k ) σ u 2 ( k ) ] .
    Figure DE102017102134B4_0038
  • Es ist zu beachten, dass in Gleichung (9) diag {Γuu} = 1M×1 ist.
  • Die Gleichung (25) ist ein überbestimmtes System. Der MPF wendet erneut, anstatt eine globale KQ-Lösung durch Befolgen der Gleichung (21) zu finden, drei Gleichungen aus Gleichung (25) an, die dem Paar der p-ten und q-ten Mikrofone entsprechen, um ein Untersystem wie das Folgende zu bilden [ σ ^ x p x p 2 σ ^ x q x q 2 σ ^ x p x q 2 ] = [ 1 1 1 1 1 Γ p q ] [ σ s 2 σ u 2 ] ,
    Figure DE102017102134B4_0039
    wobei ϕ ^ x p x q { R ^ x x } p , q , Γ p q { Γ u u } p , q
    Figure DE102017102134B4_0040
  • Das MPF-Verfahren löst die Gleichung (26) für σ2,s als { σ ^ s , M PF 2 } p . q = ( σ ^ x p x p 2 + σ ^ x q x q 2 ) / 2 ϕ ^ x p x q 1 Γ p q .
    Figure DE102017102134B4_0041
  • Da es M (M - 1) / 2 unterschiedliche Mikrofonpaare gibt, ist die abschließende MPF-Schätzung einfach der Durchschnitt der Ergebnisse aus den Untersystemen, wie folgt: σ ^ s , M PF 2 = Σ p = 1 M 1 Σ q = p + 11 M { σ ^ s , M PF 2 } p , q M ( M 1 ) / 2 .
    Figure DE102017102134B4_0042
  • Das Modell des diffusen Rauschens ist in der Praxis weiter verbreitet als das des weißen Rauschens. Letzteres kann als Sonderfall des ersteren angesehen werden, wenn Γuu = IM×M ist. Aber der Ansatz des MPF zur Lösung der Gleichung (25) ist heuristisch und somit auch nicht optimal. Wenn der KQ-Nachfilter (LSPF) nur ein Modell des diffusen Rauschens verwendet, entspricht er dem MPF in dem Fall, dass M = 2 ist, aber sie sind grundlegend verschieden, wenn M ≥ 3 ist.
  • (c) Der Nachfilter von Leukimmiatis folgt den Algorithmen aus dem MPF zur Bestimmung von σ2,s (k). Leukimmiatis u. a. beheben einfach den Fehler der Nachfilter von Zelinski und McCowan, dass der Nenner des Nachfilters in ( 11 ) σ 2, s ' ( ω ) + σ 2, ψ ' ( ω )
    Figure DE102017102134B4_0043
    sein sollte anstatt σ2,s (ω) + σ2, ψ (ω).
  • 6. Experimentelle Ergebnisse
  • Es folgen Ergebnisse der Experimente zur Verbesserung von Sprachbeispielen, die zur Validierung von Systemen und Verfahren der KQ-Lösung der vorliegenden Offenbarung durchgeführt wurden. 6 veranschaulicht die räumliche Anordnung des Mikrofonarrays (610) und der Schallquellen (620, 630) der Experimente. Die Positionen der Elemente innerhalb der Figuren sollen nicht den genauen Maßstab oder Abstand darstellen, welche in der folgenden Beschreibung angegeben werden. Es wird ein Satz von Experimenten bereitgestellt, bei dem die ersten vier Mikrofone M1-M4 (601-604) eines Mikrofonarrays (610) betrachtet werden, wobei der Abstand zwischen jedem der Mikrophone 3 Zentimeter beträgt. Die 60 dB Nachhallzeit beträgt 360 ms. Die gewünschte Quelle (620) ist an der Breitseite (0°) des Arrays, während sich die Störquelle (630) in der Richtung 45° befindet. Beide sind 2 Meter vom Array entfernt. Für diese Punktschallquellen werden saubere, ununterbrochene Sprachsignale in 16 kHz/16-bit verwendet. Eine weibliche Sprecherin stellt die gewünschte Quelle (620) dar, die Störquelle (630) übernimmt ein männlicher Sprecher. Die Sprachanteile der beiden Signale haben viele Überschneidungen. Dementsprechend werden die Impulsantworten bei 16 kHz neu gesampelt, auf 4096 Samples reduziert und kugelförmig isotropes diffuses Rauschen erzeugt. In den experimentellen Simulationen werden 72 × 36 = 2592 Punktquellen verwendet, die sich über einen großen Bereich verteilen. Die Signale werden auf 20 s gekürzt.
  • Bei den vorstehenden Experimenten werden drei Vollband-Messungen definiert, um ein Schallfeld zu kennzeichnen (Abk. SF): nämlich den Signal-Störabstand (SIR), Signal-Rauschabstand (SNR) und das Verhältnis von diffusem zu weißem Rauschen (DWR), wie folgt S I R S F 10 l o g 10 { σ s 2 / σ v 2 } ,
    Figure DE102017102134B4_0044
    S N R S F 10 l o g 10 { σ s 2 / ( σ u 2 + σ w 2 ) } ,
    Figure DE102017102134B4_0045
    D W R S F 10 l o g 10 { σ u 2 / σ w 2 } ,
    Figure DE102017102134B4_0046
    wobei σ z 2 E { z 2 ( t ) }
    Figure DE102017102134B4_0047
    und z ∈ {s, v, u, w}.
  • Für die Leistungsbewertung werden zwei objektive Metriken analysiert: der Signal-Stör-und-Rauschabstand (SINR) und die Wahrnehmungsbewertung der Sprachqualität (PESQ). Die SINR und PESQ werden für jedes Mikrofon berechnet und die Durchschnittswerte ergeben jeweils den Eingabe-SINR und -PESQ. Ausgabe-SINR und -PESQ (gekennzeichnet durch SINRo bzw. PESQo) werden ähnlich geschätzt. Die Differenz zwischen den Eingabe- und Ausgabemessungen (z. B. die Deltawerte) wird analysiert. Zur besseren Feststellung der Rauschreduktion und Sprachverzerrung am Ausgang werden auch die Stör- und Rauschreduktion (INR) und die auf die gewünschte Sprache beschränkte PESQ (dPESQ) errechnet. Für dPESQ werden verarbeitete gewünschte Sprache und saubere Sprache an den PESQ-Schätzer übergeben. Die PESQ-Ausgabe deutet auf die Qualität des verbesserten Signals hin, der dPESQ-Wert quantifiziert den Grad der eingeführten Sprachverzerrung. In dieser Studie werden die Matlab-Codes von Hu & Loizou verwendet.
  • Um das weithin bekannte Problem des Signalabbruchs im MVDR-Strahlformer (minimum variance distortionless response) aufgrund von Raumhall zu vermeiden, wird für das Front-End-Processing der D&S-Strahlformer eingesetzt und mit den folgenden vier unterschiedlichen Nachfilteralgorithmen verglichen: keine, ZPF, MPF und LSPF. Ein exklusiver Einsatz von D&S dient als Maßstab. Für ZPF und MPF wurde die Korrektur von Leukimmiatis verwendet. Tests wurden für die folgenden drei unterschiedlichen Konfigurationen durchgeführt: 1) NUR weißes Rauschen: SIRSF = 30 dB, SNRSF = 5 dB DWRSF = -30 dB, 2) NUR diffuses Rauschen: SIRSF = 30 dB, SNRSF = 10 dB, DWRSF = 30 dB, 3) Gemischtes Rauschen/Störungen: SIRSF = 0 dB, SNRSF = 10 dB, DWRSF = 0 dB. Die Ergebnisse sind wie folgt aus: Tabelle 1: Ergebnisse der Sprachverbesserung im Mikrofonarray.
    Verfahren INR (dB) SINRo / ΔSINR (dB) PESQo / ΔPESQ DPESQo / ΔdPESQ
    Nur weißes Rauschen
    Nur D&S 5.978 14.201/ +5.667 1.795/+0.363 2.2861-0.019
    D&S+ZPF 11.893 17.827/ +9.293 2055/+0.623 2.351/+0.046
    D&S+MPF 16.924 17.161/ +8.627 2115/+0.683 2.1301-0.175
    D&S+LSPF 13.858 21.4601+12.925 2.180/+0.748 2.299/-0.006
    Nur diffuses Rauschen
    Nur D&S 3.735 16.915/ +3.423 1.852/+0.088 2.286/-0.019
    D&S+ZPF 7.467 18.594/ +5.102 1.954/+0.190 2.311/+0.006
    D&S+MPF 10.012 16.545/ +3.053 2122/+0.358 2.427/+0.121
    D&S+LSPF 12.236 17.699/ +4.207 2.254/+0.490 2.5161+0.211
    Gemischtes Rauschen/Störungen
    Nur D&S 0.782 2.398/ +0.435 1.493/+0.122 2.2861-0.019
    D&S+ZPF 2.879 2.424/ +0.461 1.563/+0.193 2.3141+0.009
    D&S+MPF 9.470 4.211/ +2.248 1.791/+0.420 2.297/-0.008
    D&S+LSPF 16.374 9.773/ +7.810 1.940/+0.569 2.336/+0.031
  • In diesen Tests werden für die STFT-Analyse die Quadratwurzel des Hamming-Fensters und ein FFT mit 512 Punkten verwendet. Zwei benachbarte Fenster haben eine Sample-Überlappung von 50 %. Zur Rekonstruktion des verarbeiteten Signals wird das gewichtete Überlappungszusatzverfahren eingesetzt.
  • Die Ergebnisse des Experiments sind in Tabelle 1 zusammengefasst. Zuerst werden die Ergebnisse für das Schallfeld bei nur weißem Rauschen analysiert. Da diese Art Schallfeld vom ZPF-Verfahren abgedeckt wird, kann der ZPF hier eine recht gute Rauschunterdrückung und Verbesserung der Sprachqualität leisten. Allerdings erzielt der vorgeschlagene LSPF eine größere Rauschreduktion und bietet eine höhere PESQ-Ausgabe, obwohl er bei einem leicht niedrigeren dPESQ eine höhere Sprachverzerrung bringt. Der MPF produziert ein trügerisch hohes INR, da sein SINR-Zuwachs unter dem von ZPF und LSPF liegt. Das bedeutet, dass der MPF nicht nur Rauschen sondern auch Sprachsignale signifikant unterdrückt. Die Werte für PESQ und dPESQ liegen niedriger als die des LSPF.
  • Im zweiten Schallfeld erweist sich erwartungsgemäß, dass der D&S-Strahlformer bei diffusem Rauschen weniger wirkungsvoll ist und sich die Leistung des ZPF ist ebenfalls verschlechtert. In diesem Fall ist die Leistung des MPF recht gut, während dennoch der LSPF das eindeutig beste Ergebnis erbringt.
  • Das dritte Schallfeld ist aufgrund einer zeitlich veränderlichen Störquelle für die Sprache augenscheinlich die größte Herausforderung. Allerdings übertrifft der LSPF die anderen herkömmlichen Verfahren in allen Metriken.
  • Abschließend ist bemerkenswert, dass diese rein objektiven Ergebnisse der Leistungsbewertung mit dem subjektiven Empfinden der vier Techniken bei formlosen Hörtests übereinstimmen, die mit einigen unserer Kollegen durchgeführt wurden.
  • Die vorliegende Offenbarung beschreibt Verfahren und Systeme für eine KQ-Nachfilterung (LSPF) in Anwendungen mit Mikrofonarrays. Anders als herkömmliche Nachfiltertechniken betrachtet das beschriebene Verfahren nicht nur diffuses und weißes Rauschen, sondern auch Punktstörer. Außerdem stellt es eine umfassend optimale Lösung dar, in der die von einem Mikrofonarray aufgenommenen Informationen besser genutzt werden, als dies bei herkömmlichen Verfahren der Fall ist. Außerdem wurden die Vorteile der offenbarten Technik gegenüber vorhandenen Verfahren durch Simulationen in verschiedenen akustischen Szenarien belegt und quantitativ bestimmt.
  • 7 ist ein allgemeines Blockdiagramm zur Veranschaulichung einer Anwendung in einem Computergerät (700). In einer grundlegenden Konfiguration (701) beinhaltet das Computergerät (700) typischerweise einen oder mehrere Prozessoren (710), einen Systemspeicher (720) und einen Speicherbus (730). Der Speicherbus wird für die Kommunikation zwischen den Prozessoren und dem Systemspeicher verwendet. Die Konfiguration kann auch eine separate Komponente zur Nachfilterung (726) beinhalten, welche das obige Verfahren einführt, oder sie kann in einer Anwendung (722, 723) integriert sein.
  • Je nach Konfiguration kann der Prozessor (710) ein Mikroprozessor (µP), ein Mikrocontroller (µC), ein Digitalsignalprozessor (DSP) oder eine beliebige Kombination aus diesen sein. Der Prozessor (710) kann eine oder mehrere Ebenen von Cachespeichern haben, z. B. einen L1 Cache (711) und einen L2 Cache (712), einen Prozessorkern (713), und Register (714). Der Prozessorkern (713) kann eine arithmetische Logikeinheit (ALU), eine Gleitkommaeinheit (FPU), einen Digitalsignalverarbeitungskern (DSP Core) oder eine beliebige Kombination davon beinhalten. Ein Speichercontroller (716) kann entweder ein unabhängiges Teil oder ein internes Teil des Prozessors (710) sein.
  • Je nach der gewünschten Konfiguration kann der Systemspeicher (720) ein beliebiger Typ sein, einschließlich u. a. flüchtiger Speicher (wie RAM), nichtflüchtiger Speicher (wie ROM oder Flash-Speicher usw.) oder eine beliebige Kombination aus diesen. Der Systemspeicher (720) enthält typischerweise ein Betriebssystem (721), eine oder mehrere Anwendungen (722) und Programmdaten (724). Die Anwendung (722) kann eine Komponente der Nachfilterung (726) beinhalten oder ein System und Verfahren zur Anwendung der global optimierten Kleinste-Quadrate--Nachfilterung (LSPF) (723) für die Verbesserung der Sprache. Zu den Programmdaten (724) gehört das Speichern von Anweisungen, die bei Ausführung durch eine oder mehrere Verarbeitungsgeräte ein Verfahren und System für das beschriebene Verfahren und die Komponente implementieren. (723). Ersatzweise kann die Ausführung der Anweisung und Implementierung durch die Komponente der Nachfilterung (726) durchgeführt werden. In einigen Ausführungsformen kann die Anwendung (722) so angeordnet sein, dass sie mit Programmdaten (724) auf einem Betriebssystem (721) betrieben wird.
  • Das Computergerät (700) kann zusätzliche Eigenschaften oder Funktionen sowie zusätzliche Schnittstellen haben, um die Kommunikation zwischen der Grundkonfiguration (701) und allen erforderlichen Geräten und Schnittstellen zu ermöglichen.
  • Der Systemspeicher (720) ist ein Beispiel für ein Computer-Speichermedium. Computerspeichermedien beinhalten u. a. RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital-Versatile-Disks (DVD) oder andere optische Speicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichergeräte oder jedes andere Medium, das verwendet werden kann, um die gewünschte Information zu speichern, und auf die durch das Computergerät 700 zugegriffen werden kann. Jedes derartige Computerspeichermedium kann Teil des Geräts (700) sein.
  • Das Computergerät (700) kann als Teil eines kleinen, tragbaren oder mobilen elektronischen Gerätes umgesetzt sein, wie etwa ein Mobiltelefon, ein Smartphone, ein PDA, ein persönlicher Media-Player, ein Tablet-Computer (Tablet), ein drahtloses Internet-Gerät, ein persönliches Headset, ein anwendungsspezifisches Gerät oder ein Hybrid-Gerät, das eine der oben genannten Funktionen enthält. Das Computergerät (700) kann auch als ein Personal Computer implementiert werden, der sowohl Laptop-Computer- als auch Nicht-Laptop-Computerkonfigurationen enthält.
  • Die vorstehende ausführliche Beschreibung hat verschiedene Ausführungsformen der Geräte und/oder der Prozesse mithilfe von Blockdiagrammen, Ablaufdiagrammen und/oder Beispielen dargelegt. Insoweit wie solche Blockdiagramme, Ablaufdiagramme und/oder Beispiele eine oder mehrere Funktionen und/oder Operationen beinhalten, werden Fachleute verstehen, dass jede Funktion und/oder Operation in solchen Blockdiagrammen, Ablaufdiagrammen oder Beispielen individuell und/oder kollektiv, durch eine große Auswahl von Hardware, Software, Firmware oder eine beliebige Kombination aus diesen implementiert werden können. In einer Ausführungsform können einige Teile des hier beschriebenen Gegenstands über anwendungsspezifische integrierte Schaltungen (ASICs), Field Programmable Gate Arrays (FPGAs), digitale Signalprozessoren (DSPs) oder andere integrierte Formate implementiert werden. Jedoch werden Fachleute erkennen, dass einige Aspekte der hier offenbarten Ausführungsformen ganz oder teilweise ebenso in integrierten Schaltungen umgesetzt sein können, als ein oder mehrere Computerprogramme, die auf einem oder mehreren Computern laufen, als ein oder mehrere Programme, die auf einem oder mehreren Prozessoren als Firmware laufen, oder als praktisch jede Kombination aus diesen, und dass sich der Entwurf der Schaltungen und/oder das Schreiben des Software- und Firmware-Codes in Bezug auf diese Offenbarung sehr wohl im Rahmen der Fähigkeiten von Fachleuten bewegen. Außerdem werden Fachleute verstehen, dass die Mechanismen dieses hier beschriebenen Gegenstands in der Lage sind, als ein Programmprodukt in einer Vielzahl von Formen verteilt zu werden, und dass eine veranschaulichende Ausführungsform des hier beschriebenen Gegenstands unabhängig von der besonderen Art des nicht-flüchtigen signaltragenden Mediums gilt, das für die tatsächliche Verteilung verwendet wird. Beispiele für ein nicht-transitorisches signaltragenden Mediums beinhalten u. a. Folgendes: Disketten, Festplattenlaufwerk, CD (Compact Disc), DVD (Digital Video Disk), digitales Band, Computerspeicher usw.; und ein Medium des Übertragungstyps, wie beispielsweise ein digitales und/oder analoges Kommunikationsmedium, (z. B. ein Glasfaserkabel, Wellenleiter, verdrahtete und drahtlose Kommunikationsverbindung usw.)
  • In Bezug auf den Gebrauch von jeglichen Begriffen im Plural und/oder Singular hierin, können Fachleute je nach Kontext und/oder Anwendung vom Plural auf den Singular und/oder vom Singular auf den Plural schließen. Die verschiedenen Singular-/Plural-Permutationen können hierin ausdrücklich aus Gründen der Klarheit dargelegt.
  • Bei einer Umsetzung beschreibt das Verfahren eine Nachfilterlösung, die Signalmodelle implementiert, welche weißes Rauschen, diffuses Rauschen und Punktstörer handhaben können, wobei das Verfahren ebenfalls einen global optimierten LSPF-Ansatz für die Mikrofone in einem Mikrofonarray einbringt und somit eine bessere Lösung als bestehende herkömmliche Verfahren bietet. Die Ergebnisse der Experimente zeigen, wie das beschriebene Verfahren die herkömmlichen Methoden in verschiedenen akustischen Situationen leistungsmäßig übertrifft.
  • Folglich wurden bestimmte Ausführungsformen der Thematik beschrieben. Weitere Ausführungsformen gehören zum Umfang der folgenden Ansprüche. So können in einigen Fällen die in den Ansprüchen angegebenen Aktionen in einer anderen Reihenfolge durchgeführt werden und dennoch erwünschte Ergebnisse erzielen. Zusätzlich erfordern beispielsweise die in den beigefügten Figuren dargestellten Prozesse nicht unbedingt die gezeigte spezielle Reihenfolge oder fortlaufende Reihenfolge, um erwünschte Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und Parallelverarbeitung von Vorteil sein.

Claims (20)

  1. Computerimplementiertes Verfahren, umfassend: Empfang (502) von Audiosignalen (109) über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105); Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109); Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109); Bestimmen (505) von Modellen der Kovarianzmatrix auf Basis der Schallfeldhypothese; Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109); Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert; Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; und Erzeugen einer Audioausgabe aufgrund der empfangenen Audiosignale (109) und den Nachfilter-Koeffizienten.
  2. Verfahren nach Anspruch 1, ferner umfassend: Erstellen mehrerer Schallfeldhypothesen zur Erzeugung von mehreren Ausgangssignalen.
  3. Verfahren nach Anspruch 2, wobei die mehreren erzeugten Ausgangssignale verglichen werden und das Ausgangssignal mit dem höchsten Rauschabstand unter diesen als das finale Ausgangssignal gewählt wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Bestimmung der Energie auf der Frobenius-Norm basiert.
  5. Verfahren nach Anspruch 4, wobei die Frobenius-Norm mit einer Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird.
  6. Verfahren nach einem der Ansprüche 1 bis 5, ferner umfassend: Feststellen der Position von zumindest einer der Schallquellen mit Verfahren zur Standortbestimmung von Schallquellen, um eine Schallfeldhypothese zu erstellen, die Kovarianzmatrixmodelle festzulegen und die Kovarianzmatrix zu berechnen.
  7. Verfahren nach Anspruch 1, wobei die Kovarianzmatrixmodelle auf der Grundlage von vielen Schallfeldhypothesen erstellt werden.
  8. Verfahren nach Anspruch 7, wobei ein Kovarianzmatrixmodell zur Maximierung einer Zielfunktion für die Rauschreduzierung gewählt wird.
  9. Verfahren nach Anspruch 8, wobei die Zielfunktion die Beispielabweichung des finalen Audioausgangssignals ist.
  10. Vorrichtung, umfassend: eines oder mehrere Verarbeitungsgeräte und eines oder mehrere Speichergeräte, die Anweisungen speichern, die, wenn sie von dem einen oder den mehreren Verarbeitungsgeräten ausgeführt werden, die Verarbeitungsgeräte zu Folgendem veranlassen: Empfangen (502) von Audiosignalen (109) über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105); Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109); Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109); Bestimmen (505) von Kovarianzmatrixmodellen aufgrund der Schallfeldhypothese; Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109); Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert; Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; und Erzeugen eines Audioausgangssignals, das auf den empfangenen Audiosignalen (109) und den Nachfilterkoeffizienten basiert.
  11. Vorrichtung gemäß Anspruch 10, ferner mehrere Schallfeldhypothesen umfassend, um mehrere Ausgangssignale zu erzeugen.
  12. Vorrichtung nach Anspruch 11, wobei die mehreren erzeugten Ausgangssignale verglichen werden und das Ausgangssignal mit dem höchsten Rauschabstand unter diesen als das finale Ausgangssignal gewählt wird.
  13. Vorrichtung nach einem der Ansprüche 10 bis 12, wobei die Bestimmung der Energie auf der Frobenius-Norm basiert.
  14. Vorrichtung nach Anspruch 13, wobei die Frobenius-Norm mit einer Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird.
  15. Vorrichtung nach einem der Ansprüche 10 bis 14, ferner umfassend: Feststellen der Position von zumindest einer der Schallquellen mit Verfahren zur Standortbestimmung von Schallquellen, um eine Schallfeldhypothese zu erstellen, die Kovarianzmatrixmodelle festzulegen und die Kovarianzmatrix zu berechnen.
  16. Nicht-flüchtiges computerlesbares Medium mit Sätzen von Anweisungen für Folgendes: Empfang (502) von Audiosignalen über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105); Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109); Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109); Bestimmen (505) der Modelle der Kovarianzmatrix auf Basis der Schallfeldhypothese; Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109); Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert; Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; und Erzeugen einer Audioausgabe aufgrund der empfangenen Audiosignale (109) und den Nachfilter-Koeffizienten.
  17. Nicht-flüchtiges computerlesbares Medium nach Anspruch 16, das viele Schallfeldhypothesen zur Erzeugung vieler Ausgangssignale enthält.
  18. Nicht-flüchtiges computerlesbares Medium nach Anspruch 17, wobei die vielen erzeugten Ausgangssignale verglichen werden und das Ausgangssignal mit dem höchsten Rauschabstand unter diesen als das finale Ausgangssignal gewählt wird.
  19. Nicht-flüchtiges computerlesbares Medium nach einem der Ansprüche 16 bis 18, wobei die Bestimmung der Energie auf der Frobenius-Norm basiert.
  20. Nicht-flüchtiges computerlesbares Medium nach Anspruch 19, wobei die Frobenius-Norm mit einer Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird.
DE102017102134.5A 2016-02-03 2017-02-03 Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung Active DE102017102134B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/014,481 US9721582B1 (en) 2016-02-03 2016-02-03 Globally optimized least-squares post-filtering for speech enhancement
US15/014,481 2016-02-03

Publications (2)

Publication Number Publication Date
DE102017102134A1 DE102017102134A1 (de) 2017-08-03
DE102017102134B4 true DE102017102134B4 (de) 2022-12-15

Family

ID=58044200

Family Applications (2)

Application Number Title Priority Date Filing Date
DE202017102564.0U Active DE202017102564U1 (de) 2016-02-03 2017-02-03 Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE102017102134.5A Active DE102017102134B4 (de) 2016-02-03 2017-02-03 Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE202017102564.0U Active DE202017102564U1 (de) 2016-02-03 2017-02-03 Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung

Country Status (9)

Country Link
US (1) US9721582B1 (de)
JP (1) JP6663009B2 (de)
KR (1) KR102064902B1 (de)
CN (1) CN107039045B (de)
AU (1) AU2017213807B2 (de)
CA (1) CA3005463C (de)
DE (2) DE202017102564U1 (de)
GB (1) GB2550455A (de)
WO (1) WO2017136532A1 (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
EP3223279B1 (de) * 2016-03-21 2019-01-09 Nxp B.V. Sprachsignalverarbeitungsschaltung
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10182290B2 (en) * 2017-02-23 2019-01-15 Microsoft Technology Licensing, Llc Covariance matrix estimation with acoustic imaging
DE102018117557B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Adaptives nachfiltern
US10110994B1 (en) * 2017-11-21 2018-10-23 Nokia Technologies Oy Method and apparatus for providing voice communication with spatial audio
CN108172235B (zh) * 2017-12-26 2021-05-14 南京信息工程大学 基于维纳后置滤波的ls波束形成混响抑制方法
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10986437B1 (en) * 2018-06-21 2021-04-20 Amazon Technologies, Inc. Multi-plane microphone array
CN109194422B (zh) * 2018-09-04 2021-06-22 南京航空航天大学 一种基于子空间的snr估计方法
KR102432406B1 (ko) * 2018-09-05 2022-08-12 엘지전자 주식회사 비디오 신호의 부호화/복호화 방법 및 이를 위한 장치
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11902758B2 (en) 2018-12-21 2024-02-13 Gn Audio A/S Method of compensating a processed audio signal
CN109932689A (zh) * 2019-02-24 2019-06-25 华东交通大学 一种适用于特定定位场景的任意阵列优化方法
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
WO2020241858A1 (ja) * 2019-05-30 2020-12-03 シャープ株式会社 画像復号装置
WO2020243471A1 (en) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
CN110277087B (zh) * 2019-07-03 2021-04-23 四川大学 一种广播信号预判预处理方法
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
CN110838307B (zh) * 2019-11-18 2022-02-25 思必驰科技股份有限公司 语音消息处理方法及装置
CN113035216B (zh) * 2019-12-24 2023-10-13 深圳市三诺数字科技有限公司 麦克风阵列语音的增强方法、及其相关设备
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
CN113506556B (zh) * 2021-06-07 2023-08-08 哈尔滨工业大学(深圳) 主动噪声控制方法、装置、存储介质和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729613A (en) 1993-10-15 1998-03-17 Industrial Research Limited Reverberators for use in wide band assisted reverberation systems
US20100217590A1 (en) 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
US20140056435A1 (en) 2012-08-24 2014-02-27 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7218741B2 (en) * 2002-06-05 2007-05-15 Siemens Medical Solutions Usa, Inc System and method for adaptive multi-sensor arrays
EP1473964A3 (de) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Mikrofonvorrichtung, Verfahren zur Verarbeitung von Signalen von dieser Mikrofonvorrichtung und dieses benutzende Spracherkennungsverfahren und Spracherkennungssystem
US7872583B1 (en) * 2005-12-15 2011-01-18 Invisitrack, Inc. Methods and system for multi-path mitigation in tracking objects using reduced attenuation RF technology
EP2026597B1 (de) 2007-08-13 2009-11-11 Harman Becker Automotive Systems GmbH Rauschverringerung mittels Kombination aus Strahlformung und Nachfilterung
DE602008002695D1 (de) 2008-01-17 2010-11-04 Harman Becker Automotive Sys Postfilter für einen Strahlformer in der Sprachverarbeitung
JP5267982B2 (ja) * 2008-09-02 2013-08-21 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、雑音除去方法及びコンピュータプログラム
EP2394270A1 (de) * 2009-02-03 2011-12-14 University Of Ottawa Verfahren und system zur mehrfach-mikrofon-rauschminderung
JP2010210728A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音響信号処理方法及び装置
CN103125104B (zh) * 2010-07-22 2015-10-21 伊卡诺斯通讯公司 用于操作矢量化vdsl线路组的方法
EP2738762A1 (de) 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Verfahren zur Raumfilterung von mindestens einem ersten Tonsignal, computerlesbares Speichermedium und Raumfilterungssystem basierend auf Kreuzmuster-Kohärenz
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
DK2916321T3 (en) * 2014-03-07 2018-01-15 Oticon As Processing a noisy audio signal to estimate target and noise spectral variations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729613A (en) 1993-10-15 1998-03-17 Industrial Research Limited Reverberators for use in wide band assisted reverberation systems
US20100217590A1 (en) 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
US20140056435A1 (en) 2012-08-24 2014-02-27 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MCCOWAN, I. A. et al.: „Microphone Array Post-Filter Based on Noise Field Coherence". In: IEEE Transactions on Speech and Audio Processing, Vol. 11, pages 709-716, Nov. 2003,https://ieeexplore.ieee.org/document/1255457

Also Published As

Publication number Publication date
AU2017213807B2 (en) 2019-06-06
US20170221502A1 (en) 2017-08-03
DE202017102564U1 (de) 2017-07-31
JP6663009B2 (ja) 2020-03-11
WO2017136532A1 (en) 2017-08-10
US9721582B1 (en) 2017-08-01
DE102017102134A1 (de) 2017-08-03
JP2019508719A (ja) 2019-03-28
GB2550455A (en) 2017-11-22
CN107039045B (zh) 2020-10-23
KR20180069879A (ko) 2018-06-25
KR102064902B1 (ko) 2020-01-10
CN107039045A (zh) 2017-08-11
AU2017213807A1 (en) 2018-04-19
GB201701727D0 (en) 2017-03-22
CA3005463C (en) 2020-07-28
CA3005463A1 (en) 2017-08-10

Similar Documents

Publication Publication Date Title
DE102017102134B4 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
Kinoshita et al. A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research
DE102019110272A1 (de) Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung
DE60304859T2 (de) Verfahren zur Verarbeitung von Audiosignalen
DE102007048973B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE112017006486T5 (de) Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen
DE112009000805B4 (de) Rauschreduktion
DE102006050068B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
DE112015004830T5 (de) Nachhall-Schätzer
DE102018127071B3 (de) Audiosignalverarbeitung mit akustischer Echounterdrückung
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
CN107369456A (zh) 数字助听器中基于广义旁瓣抵消器的噪声消除方法
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
DE102018117558A1 (de) Adaptives nachfiltern
Fontaine et al. Multichannel audio modeling with elliptically stable tensor decomposition
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
Laufer et al. ML estimation and CRBs for reverberation, speech, and noise PSDs in rank-deficient noise field
DE102018117556A1 (de) Einzelkanal-rauschreduzierung
Jensen et al. Variable span filters for speech enhancement
Koldovský et al. Time-domain blind audio source separation method producing separating filters of generalized feedforward structure

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R138 Derivation of utility model

Ref document number: 202017102564

Country of ref document: DE

R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE INC., MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: BETTEN & RESCH PATENT- UND RECHTSANWAELTE PART, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final