DE102017102134B4

DE102017102134B4 - Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung

Info

Publication number: DE102017102134B4
Application number: DE102017102134.5A
Authority: DE
Inventors: Yiteng Huang; Alejandro LUEBS; Jan Skoglund; Willem Bastiaan Kleijn
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-03
Filing date: 2017-02-03
Publication date: 2022-12-15
Anticipated expiration: 2037-02-04
Also published as: AU2017213807B2; US20170221502A1; DE202017102564U1; JP6663009B2; WO2017136532A1; US9721582B1; DE102017102134A1; JP2019508719A; GB2550455A; CN107039045B; KR20180069879A; KR102064902B1; CN107039045A; AU2017213807A1; GB201701727D0; CA3005463C; CA3005463A1

Abstract

Computerimplementiertes Verfahren, umfassend:Empfang (502) von Audiosignalen (109) über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105);Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109);Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109);Bestimmen (505) von Modellen der Kovarianzmatrix auf Basis der Schallfeldhypothese;Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109);Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert;Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; undErzeugen einer Audioausgabe aufgrund der empfangenen Audiosignale (109) und den Nachfilter-Koeffizienten.

Description

HINTERGRUND
Mikrofonarrays werden zunehmend als effektives Werkzeug zur Bekämpfung von Geräuschen, Interferenzen und Hall bei der Spracherfassung in einer akustisch ungünstigen Umgebung anerkannt. Zu den Anwendungen zählen robuste Spracherkennung, Freisprechkommunikation, Telefonkonferenzen und Hörhilfen, um nur einige zu nennen. Strahlformung ist eine traditionelle Verarbeitungstechnologie für Mikrofonarrays, die eine Art der räumlichen Filterung bietet: Signale aus bestimmten Richtungen werden empfangen, Signale aus anderen Richtungen werden gedämpft. Obwohl eine räumliche Filterung möglich ist, stellt sie aus der Perspektive der Signalrekonstruktion im Sinne des kleinsten mittleren quadratischen Fehlers (MMSE) keine optimale Lösung dar.
Ein konventionelles Verfahren der Nachfilterung ist der Mehrkanal-Wiener-Filter (MWF), der in einen MVDR-Strahlformers (minimum variance distortionless response) und einen Einkanal-Nachfilter zerlegt werden kann. Zurzeit bekannte herkömmliche Verfahren der Nachfilterung können die Sprachqualität nach dem Strahlformung verbessern, allerdings haben diese vorhandenen Verfahren zwei allgemeine Einschränkungen bzw. Mängel. Zunächst gehen die Verfahren davon aus, dass die relevanten Geräusche entweder weißes Rauschen (inkohärent) oder diffuses Rauschen sind, somit behandeln die Verfahren keine Punktstörer. Punktstörer finden sich beispielsweise in einer Umgebung mit mehreren Personen, die sprechen, wobei eine Person die erwünschte Audioquelle darstellt, während die unerwünschten Störgeräusche von den anderen Sprechern stammen. Diese bestehenden Ansätze wenden dann eine heuristische Technik an, bei der Nachfilter-Koeffizienten geschätzt werden, indem zwei Mikrofone gleichzeitig verwendet werden und dann der Durchschnitt aller Mikrofonpaare ermittelt wird, was keine optimalen Resultate ergibt.
US2014/0056435 A1 offenbart ein Verfahren, das Folgendes umfasst: Verarbeiten einer ersten Anzahl von Teilband-Kommunikationssignalen und einer zweiten Anzahl von zielausgelöschten Signalen in jedem Teilband mit einem Satz von StrahlformerKoeffizienten, um eine inverse zielausgelöschte Kovarianzmatrix der Ordnung der zweiten Anzahl in jedem Band zu erhalten; Verwenden eines Zielabwesenheitssignals, um eine anfängliche Schätzung der Rauschleistung in einem Strahlformer-Ausgangssignal zu erhalten, gemittelt über die letzten Rahmen mit Zielabwesenheit in jedem Teilband; Multiplizieren der anfänglichen Rauschschätzung mit einem Rauschkorrekturfaktor, um eine verfeinerte Schätzung der Leistung der Rauschsignalkomponente des Strahlformerausgangs in jedem Teilband zu erhalten; Verarbeiten der verfeinerten Schätzung mit der Größe des Strahlformerausgangs, um einen Nachfilter-Verstärkungswert in jedem Teilband zu erhalten; Verarbeiten des Strahlformerausgangssignals mit dem Nachfilter-Verstärkungswert, um ein Nachfilter-Ausgangssignal in jedem Teilband zu erhalten; und Verarbeiten der Nachfilter-Ausgangsteilbandsignale, um ein verbessertes strahlgeformtes Ausgangssignal zu erhalten.
McCowan et al., „Microphone Array Post-Filter Based on Noise Field Coherence“, IEEE Transactions On Speech And Audio Processing, 2003, offenbart ein Verfahren zur Schätzung der Signalleistungs-Spektraldichte, die in der Übertragungsfunktion eines Mikrofonarrays nach dem Filter verwendet werden soll.
US 5,729,613 A offenbart ein Mehrkanal-Nachhallsystem mit einer im wesentlichen konstanten Mehrkanal-Leistungsverstärkung bei Audiofrequenzen und mit mehreren Signaleingängen, einem für jeden Eingangskanal, einer Anzahl von Kammfilternetzwerken, die mit jedem Signaleingang verbunden sind, wobei jedes Kammfilternetzwerk eine Vorwärtskopplungsstufe, ein Kreuzkopplungsnetzwerk, das die Kammfilter kreuzweise koppelt, um die Nachhall-Echodichte zu erhöhen, und mehrere Signalausgänge, einen für jeden Ausgangskanal, aufweist.
US2010/0217590 A1 offenbart ein System und ein Verfahren zur Durchführung der Sprecherlokalisierung. Das System und das Verfahren nutzen die Sprechererkennung, um eine Schätzung der Ankunftsrichtung (DOA) von Sprachschallwellen zu liefern, die von einem gewünschten Sprecher in Bezug auf ein im System enthaltenes Mikrofonarray ausgehen. Mögliche DOA-Schätzungen können vorausgewählt oder durch eine oder mehrere andere DOA-Schätztechniken erzeugt werden.
KURZDARSTELLUNG
Diese Zusammenfassung stellt eine Auswahl von Konzepten in einer vereinfachten Form dar, um ein grundsätzliches Verständnis einiger Aspekte der vorliegenden Offenbarung zu ermöglichen. Diese Zusammenfassung ist keine umfangreiche Übersicht über die Offenbarung und zielt nicht darauf ab, Schlüssel- oder kritische Elemente der Offenbarung festzustellen, oder den Umfang der Offenbarung abzugrenzen. Diese Zusammenfassung stellt lediglich einige der Konzepte der Offenbarung dar, wie eine Einleitung zur ausführlichen Beschreibung, die unten bereitgestellt wird.
Generell kann ein Aspekt des in dieser Spezifikation beschriebenen Gegenstands in Verfahren, Vorrichtungen und maschinenlesbaren Medien verkörpert sein. Eine Beispielvorrichtung enthält eines oder mehrere Verarbeitungsgeräte und ein oder mehrere Speichergeräte, auf denen Anweisungen gespeichert sind, die, wenn sie von dem einen oder den mehreren Verarbeitungsgeräten ausgeführt werden, die Implementierung eines Beispielverfahrens durch die Verarbeitungsgeräte veranlassen. Ein maschinenlesbares Beispielspeichermedium beinhaltet Sätze von Anweisungen zur Implementierung eines Beispielverfahrens. Eine Ausführungsform der vorliegenden Offenbarung bezieht sich auf ein Verfahren für die Schätzung von Koeffizienten zur Geräuschreduktion für einen Nachfilter, das Verfahren umfassend: Erhalt der Audiosignale von den Schallquellen in einer Umgebung über ein Mikrofonarray; Bildung einer Schallfeldhypothese aufgrund der erhaltenen Audiosignale; Berechnung fester Koeffizienten für den Strahlformer aufgrund der erhaltenen Audiosignale; Bestimmung von Modellen der Kovarianzmatrix aufgrund der Schallfeldhypothese; Berechnung einer Kovarianzmatrix aufgrund der erhaltenen Audiosignale; Schätzung der Energie der Schallquellen, um eine Lösung zu finden, die den Unterschied zwischen der bestimmten und der berechneten Kovarianzmatrix minimiert; Berechnung und Anwendung der Koeffizienten für den Nachfilter aufgrund der geschätzten Energie; und Erzeugung eines Audioausgangssignals auf Basis der erhaltenen Audiosignale und der Koeffizienten des Nachfilters.
Bei einer oder mehreren der Ausführungsformen können die hier beschriebenen Verfahren optional eine oder mehrere der folgenden zusätzlichen Eigenschaften beinhalten: Bildung vieler Schallfeldhypothesen zur Schaffung mehrerer Ausgangssignale, wobei die erstellten Ausgangssignale verglichen werden und das Signal mit dem höchsten Rauschabstand unter den erstellten Ausgangssignalen ermittelt wird; Schätzung der Energie nach der Frobenius-Norm, wobei die Frobenius-Norm wiederum wird unter Verwendung der Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird; Bestimmung des Standortes zumindest einer Schallquelle durch Verwendung von Lokalisierungsverfahren für Schallquellen zur Erstellung der Schallfeldhypothese, Bestimmung des Modells für die Kovarianzmatrix und Berechnung der Kovarianzmatrix; die Kovarianzmatrixmodelle werden basierend auf der Vielzahl von Schallfeldhypothesen erstellt, wobei eines der Kovarianzmatrixmodelle zur Maximierung einer Objektfunktion der Rauschunterdrückung ausgewählt wird, und wobei diese Objektfunktion die Stichprobenvarianz des finalen Audioausgangssignals ist.
Der weitere Geltungsbereich der vorliegenden Offenbarung ergibt sich aus der nachstehenden detaillierten Beschreibung. Es sollte jedoch klar sein, dass die detaillierte Beschreibung trotz der Verwendung bevorzugter Ausführungsformen nur zur Veranschaulichung dient, da verschiedene Änderungen und Modifikationen innerhalb des Geists und Umfangs der Offenbarung für Fachleute auf dem Gebiet aus dieser detaillierten Beschreibung ersichtlich werden.
Figurenliste
Diese und andere Gegenstände, Merkmale und Eigenschaften der vorliegenden Offenbarung werden für Fachleute nach einem Studium der folgenden detaillierten Beschreibung in Verbindung mit den beigefügten Ansprüchen und Zeichnungen, die alle einen Teil dieser Spezifikation bilden, deutlicher werden. In den Zeichnungen gilt:

1 ist ein Funktionsblockdiagramm, das ein Beispielsystem für die Erzeugung eines postgefilterten Ausgangssignals veranschaulicht, das auf einer Schallfeldhypothese beruht und einer oder mehreren der hier beschriebenen Ausführungsformen entspricht.
2 ist ein Funktionsblockdiagramm, das eine strahlgeformte Einkanal-Ausgabe der Rauschumgebung in einem Beispielsystem veranschaulicht.
3 ist ein Funktionsblockdiagramm, das die Bestimmung der Kovarianzmatrixmodelle auf Basis einer Schallfeldhypothese in einem Beispielsystem veranschaulicht.
4 ist ein Funktionsblockdiagramm, das die Nachfilterschätzung für eine Frequenzlinie veranschaulicht.
5 ist ein Ablaufdiagramm, das Beispielschritte für die Berechnung der Koeffizienten des Nachfilters für eine Frequenzlinie in Übereinstimmung mit einer Ausführungsform der Offenbarung veranschaulicht.
6 veranschaulicht die räumliche Anordnung des Mikrofonarrays und der Schallquellen, auf die sich die experimentellen Ergebnisse beziehen.
7 ist ein Blockdiagramm, das ein exemplarisches Computergerät veranschaulicht.

Die hier verwendeten Überschriften dienen nur der Bequemlichkeit und beeinflussen nicht zwingend den Umfang oder die Bedeutung der Ansprüche.
AUSFÜHRLICHE BESCHREIBUNG
Die vorliegende Offenbarung bezieht sich allgemein auf Systeme und Verfahren zur Verarbeitung von Audiosignalen. Genauer gesagt, beziehen sich Aspekte der vorliegenden Offenbarung auf Techniken der Nachfilterung zur Sprachverbesserung bei einem Mikrofonarray.
Die folgende Beschreibung bietet spezifische Details für ein vollständiges Verständnis der Offenbarung und ermöglicht ihre Beschreibung. Fachleute werden jedoch verstehen, dass eine oder mehrere der hier beschriebenen Ausführungsformen auch ohne viele dieser Details umsetzbar sind. Gleichwohl werden Fachleute auch verstehen, dass die hier beschriebenen Beispielausführungsformen viele andere offensichtliche Merkmale enthalten können, die hier nicht im Detail beschrieben werden. Zudem können einige wohlbekannte Strukturen oder Funktionen nachfolgend nicht im Detail gezeigt oder beschrieben werden, um in der entsprechenden Beschreibung nicht für eine unnötige Verwirrung zu sorgen.
1. Einführung
Bestimmte Ausführungsformen und Eigenschaften der vorliegenden Offenbarung beziehen sich auf Verfahren und Systeme zur Nachfilterung von Audiosignalen mit einem Signalmodell, das nicht nur weißes und diffuses Rauschen, sondern auch Punktstörer berücksichtigt. Wie nachfolgend genauer beschrieben wird, sind die Verfahren und die Systeme so ausgelegt, dass sie eine global optimierte KQ-Lösung (kleinste Quadrate) für Mikrofone in einem Mikrofonarray erzielen. In bestimmten Ausführungsformen wird die Leistung des offenbarten Verfahrens unter Verwendung von Aufnahmen realer Impulsantworten für die gewünschten und störenden Quellen ausgewertet, darunter auch künstliches diffuses und weißes Rauschen. Die Impulsantwort ist die Ausgabe bzw. Reaktion eines dynamischen Systems auf ein kurzes Eingabesignal, das als Impuls bezeichnet wird.
1 veranschaulicht ein Beispielsystem für die Erzeugung eines postgefilterten Ausgangssignals (175), das auf einer Schallfeldhypothese (111) beruht. Eine Schallfeldhypothese (111) ist eine Feststellung der Zusammensetzung der Rauschkomponenten (106-108) in einer Rauschumgebung (105). In dieser Beispielausführungsform wird eine Schallfeldhypothese (111) für verschiedene Frequenzlinien F1 bis Fn (165a-c) eingegeben, um ein Ausgangs-/gewünschtes Signal (175) zu generieren. Für eine Schallfeldhypothese (111) werden Signale zu einem Frequenzbereich umgewandelt. Strahlformung und Nachfilterung werden unabhängig von Frequenz zu Frequenz durchgeführt.
In dieser Beispielausführungsform gehört zu einer Schallfeldhypothese eine Störquelle. In anderen Beispielausführungsformen können die Schallfeldhypothesen komplizierter sein und zahlreiche Störfaktoren umfassen.
Auch können bei anderen Beispielausführungsformen viele Schallfeldhypothesen zur Erzeugung von vielen Ausgangssignalen ermittelt werden. Fachleute werden verstehen, dass mehrere Schallfeldhypothesen auf unterschiedlichen Faktoren beruhen können, wie beispielsweise Informationen zur Umgebung, die entweder bekannt sein oder festgestellt werden können. Fachleute werden weiterhin verstehen, dass die Qualität der Ausgangssignale von verschiedenen Faktoren beeinflusst werden können, wie z. B. der Messung des Signal-Rauschabstands (wie beispielsweise in den nachfolgend erörterten Experimenten gemessen). Bei anderen Beispielausführungsformen können Fachleute andere Verfahren für die Erstellung von Schallfeldhypothesen und die Ermittlung der Qualität von Ausgangssignalen verwenden.
1 veranschaulicht eine Rauschumgebung (105), die eine oder mehrere Rauschkomponenten (106-108) enthalten kann. Die Rauschkomponenten (106-108) in einer Umgebung (105) können z. B. diffuses Rauschen, weißes Rauschen und/oder Punktstörer als Rauschquellen beinhalten. Die Rauschkomponenten (106-108) oder die Rauschquellen in einer Umgebung (105) können sich in verschiedenen Positionen befinden und Geräusche in verschiedene Richtungen und mit unterschiedlichen Niveaus von Energie/Stärke abgeben. Jede Rauschkomponente (106-108) erzeugt Audiosignale, die von einer Vielzahl von Mikrofonen M1...Mn (115, 120, 125) in einem Mikrofonarray (130) aufgenommen werden können. Die von den Rauschkomponenten (106-108) in einer Umgebung (105) erzeugten und von jedem der Mikrofone (115, 120, 125) in einem Mikrofonarray (130) aufgenommenen Audiosignale werden in der Beispieldarstellung zur Vereinfachung als ein einzelner Pfeil 109 gezeigt.
Das Mikrofonarray (130) enthält eine Vielzahl von einzelnen Kugelmikrofonen (115, 120, 125). Diese Ausführungsform geht von Kugelmikrofonen aus. Andere Beispielausführungsformen können mit anderen Mikrofonarten arbeiten, was die Kovarianzmatrixmodelle verändern könnte. Die Audiosignale (109), die von jedem der Mikrofone M1 bis Mn (wobei „n“ eine willkürliche Ganzzahl ist) (115, 120, 125) aufgenommen werden, können mit einem Transformationsverfahren wie z. B. der Fourier-Transformation für zeitdiskrete Signale (DTFT) (116, 121, 126) in den Frequenzbereich umgewandelt werden. Andere Beispiele für Transformationsverfahren können u. a. FFT (Fast Fourier Transformation) oder STFT (Short-time Fourier Transformation) beinhalten. Der Einfachheit halber werden die durch die einzelnen DTFT erzeugten Ausgangssignale (116, 121, 126), die zu einer Frequenz gehören, durch einen einzelnen Pfeil dargestellt. Das erste DTFT-Audiosignal, das aus von Mikrofon M1 (115) aufgenommenem Audiomaterial erzeugt wurde, wird zum Beispiel an der ersten Frequenzlinie F1 (165a) als einzelner Pfeil 117a dargestellt.
1 zeigt auch mehrere Frequenzlinien (165a-c) mit verschiedenen Komponenten, wobei die Nachfilterkomponente für jede Frequenzlinie ein postgefiltertes Ausgangssignal erzeugt. Die Nachfilterkomponente (160a) der Frequenzlinie F1 (165a) erzeugt zum Beispiel ein postgefiltertes Ausgangssignal (161a) der ersten Frequenzlinie. Die Ausgangssignale für jede Frequenzlinie (165a-c) werden in eine umgekehrte DTFT-Komponente (170) eingegeben, um das endgültige gewünschte Ausgangssignal (175) mit reduzierten unerwünschten Geräuschen zu erzeugen. Details und Schritte der verschiedenen Komponenten in den Frequenzlinien (165a-c) bei diesem Beispielsystem (100) werden nachfolgend genauer beschrieben.
2. Signalmodelle
2 zeigt eine strahlgeformten Einkanal-Ausgabe (136a) aus einer Rauschumgebung (105). Der Einfachheit halber wurden hier nicht erörterte Komponenten des Gesamtsystems 100 (wie in 1 dargestellt) in 2 weggelassen. Eine Rauschumgebung (105) enthält unterschiedliche Rauschkomponenten (106-108), die Schall erzeugen. In dieser Beispielausführungsform werden von der Rauschkomponente 106 erwünschter Schall und von den Rauschkomponenten 107 und 108 unerwünschte Schall abgegeben, wobei letztere in Form von diffusem Rauschen, weißem Rauschen oder Geräuschen von Punktstörern vorliegen können. Jede der Rauschkomponenten (106-108) generiert Schall; der Einfachheit halber wird die Gesamtausgabe der Rauschkomponenten (106-108) jedoch als ein einzelner Pfeil 109 dargestellt. Die Mikrofone (115, 120, 125) im Array (130) empfangen die Umgebungsgeräusche (109) in Abhängigkeit von den physikalischen Standorten der Mikrofone und den Richtungen und Stärken der eingehenden Audiosignale innerhalb der Umgebungsgeräusche (109) zu unterschiedlichen Zeiten. Jedes der von den Mikrofonen (115, 120, 125) aufgenommenen Audiosignale wird transformiert (116, 121, 126) und strahlgeformt (135a), um eine Einkanal-Ausgabe (137a) für eine einzelne Frequenz zu generieren. Diese Einkanal-Ausgabe (137a) aus dem Strahlformer (135a) wird an den Nachfilter (160a) geleitet. Die Strahlformungskoeffizienten (138a), als h(jω) dargestellt, sind mit der nachfolgenden Gleichung (6) assoziiert und bilden die Strahlformungsfilter (136a), die zur Berechnung der Nachfilter-Koeffizienten (155a) weitergegeben werden.
Eine genauere Beschreibung zur Erfassung der Umgebungsgeräusche (109), der Bildung des strahlgeformten Einkanal-Ausgangssignals (137a) und der Strahlformungsfilter (136a) erfolgt hier. Angenommen, ein Mikrofonarray (130) besteht aus M Elementen (115, 120, 125), wobei M eine willkürliche Ganzzahl ist, welche die Anzahl der Mikrofone im Array (130) angibt, die zur Signalaufnahme s(t) einer gewünschten Punktschallquelle (106) in einer akustischen Umgebung mit lauten Geräuschen (105) dienen. Die Ausgabe des m-ten Mikrofons im Zeitbereich wird geschrieben als $x_{m} (t) = g_{s, m} * s s (t) + ψ_{m} (t), m = 1,2, \dots, M,$
wobei g_s, _m die Impulsantwort der gewünschten Komponente (106) zum m-ten Mikrofon (z. B. 125) bezeichnet, * bezeichnet die lineare Faltung und ψ_m(t) sind die unerwünschten Nebengeräusche (beispielsweise durch die Rauschkomponenten 107 und 108 erzeugt).
Das offenbarte Verfahren kann viele Störquellen in unterschiedlichen Positionen handhaben; der Einfachheit halber wird jedoch nur ein Punktstörer in den aufgeführten Beispielen beschrieben. Die Nebengeräusche bestehen für gewöhnlich aus drei Arten von Schallkomponenten: 1) kohärentes Rauschen einer Störquelle, v(t), 2) diffuses Rauschen, u_m(t) und 3) weißes Rauschen, w_m(t). Außerdem, $ψ_{m} (t) ≜ g_{v, m} * v (t) + u_{m} (t) + w_{m} (t),$
wobei g_v, _m die Impulsantwort der Punktrauschquelle an das m-te Mikrofon ist. In dieser Beispielausführungsform wird angenommen, dass das gewünschte Signal und diese Rauschkomponenten (106-108) vorrübergehend stationär und voneinander unabhängig sind. In anderen Beispielausführungsformen können die Rauschkomponenten anders zusammengesetzt sein. Eine Rauschumgebung kann zum Beispiel mehrere gewünschte Schallquellen haben, die sich bewegen und die anvisierte gewünschte Schallquelle kann sich mit der Zeit ändern. Mit anderen Worten, ein Raum mit vielen Menschen, in dem zwei Personen während einer Unterhaltung gehen.
Im Frequenzbereich wird dieses generalisierte Signalmodell des Mikrofonarrays in Gleichung (1) umgewandelt in $\begin{array}{l} X_{m} (j ω) = G_{e, m} (j ω) S (ω) + ψ (j ω) \\ = G_{s, m} (j ω) + S (j ω) + G_{v, m} (j ω) V (j ω) + \\ U (j ω) + W (j ω), \end{array}$
wobei $j ≜ \sqrt{- 1},$
ω die Winkelfrequenz ist und X_m(jω), G_{s, m}(jω), S(jω), G_{v, m}(_jω), V(jω), U(jω), W(jω) jeweils die DTFT-Transformationen von x_m(t), g_{s, m}, s(t), g_{v, m}, v(t), u(t) und W(t) sind. In den Beispielausführungsformen wird DTFT verwendet; dies sollte jedoch den Umfang der Erfindung nicht beschränken. Andere Beispielausführungsformen können andere Verfahren verwenden, beispielsweise STFT (Kurzzeit-Fourier-Transformation) oder FFT (schnelle Fourier-Transformation). Die Gleichung (3) in Vektor-/Matrixform ist wie folgt $x (j ω) = S (j ω) + g_{s} (j ω) + V (j ω) g_{v} (j ω) + u (j ω) + w (j ω),$
wobei $z (j ω) ≜ {[Z_{1} (j ω) Z_{2} (j ω) \dots Z_{M} (j ω)]}^{T}, z \in (x, u, w),$
$g_{z} (j ω) ≜ {[G_{z,1} (j ω) G_{z,2} (j ω) \dots G_{z, M} (j ω)]}^{T}, z \in (s, v),$
(·)^T die Transposition eines Vektors oder einer Matrix bezeichnet. Die räumliche Kovarianzmatrix des Mikrofonarrays wird dann wie folgt festgestellt $\begin{array}{l} R_{x x} (j w) = σ_{s}^{2} (ω) P_{g_{s}} (j ω) + R_{ψ ψ} (j ω) \\ = σ_{s}^{2} (ω) P_{g_{s}} (j ω) + σ_{s}^{2} (ω) P_{g_{v}} (j ω) + R_{u u} (j ω) + R_{w w} (j ω), \end{array}$
wobei davon ausgegangen wird, dass die Signale voneinander unabhängig sind, $R_{z z} (j ω) ≜ E {z (j ω) z^{H} (j ω)}, z \in {x, ψ . u . w},$
$P_{g_{z}} (j ω) ≜ g_{z} (j ω) g_{z}^{H} (j ω), z \in (s, v)$
$σ_{s}^{2} (ω) ≜ E {Z (j ω) Z * (j ω)}, z \in {s, v},$
und E{·}, (·)^H und (·)* die mathematische Erwartung ausdrücken, die Hermitische Transposition eines Vektors oder einer Matrix bzw. das Konjugat einer komplexen Variablen.
Ein Strahlformer (135a) filtert jedes Mikrofonsignal durch einen FIR-Filter H_m(jω) (m = 1, 2, ..., M) und addiert die Ergebnisse zur Erzeugung einer Einkanal-Ausgabe (137a) $Y (j ω) = \sum_{m = 1}^{M} H_{m}^{*} (j ω) X_{m} (j ω) = h^{H} (j ω) x (j ω),$
und Strahlformungsfiltern (136a), wobei $h (j ω) ≜ {[H_{1} (j ω) H_{2} (j ω) \dots H_{M} (j ω)]}^{T} .$
In Gleichung (6) wird auch die Kovarianzmatrix der gewünschten Schallquelle modelliert. Das Modell ist dem der Störquelle ähnlich, da sowohl die gewünschte wie auch die störende Quelle Punktquellen sind. In Bezug auf das Mikrofonarray unterscheiden sie sich in ihrer Ausrichtung.
3. Modellieren der Matrizen für die Rauschkovarianz
3 veranschaulicht die Schritte zur Bestimmung der Kovarianzmatrixmodelle auf Basis einer Schallfeldhypothese (111). Der Einfachheit halber wurden hier nicht erörterte Komponenten des Gesamtsystems 100 (wie in 1 dargestellt) in 3 weggelassen. Eine Schallfeldhypothese (111) wird auf der Grundlage der Rauschumgebung (105) festgelegt und in die Kovarianzmodelle (140a-c) für jede Frequenzlinie (165a-c) eingegeben.
In einer tatsächlichen Umgebung ist die Zusammenstellung der Rauschkomponenten, beispielsweise Anzahl und Positionen der Punktstörquellen und das Vorhandensein von Quellen für diffuses oder weißes Rauschen, womöglich nicht bekannt. Daher wird eine Schallfeldhypothese erstellt. Die obige Gleichung (2) zeigt eine Situation mit einer Punktstörquelle, diffusem und weißem Rauschen, was vier Unbekannte ergibt. Wird die Hypothese für das Szenario ohne Punktstörquelle und nur mit diffusem und weißem Rauschen erstellt, oder dies angenommen, so kann die obige Gleichung (5) vereinfacht werden und hat dann nur drei Unbekannte.
In Gleichung (5), werden die drei Komponenten (106-108), die mit Störung und Rauschen in Verbindung stehen, wie folgt modelliert:

(1) Punktstörer: Die Kovarianzmatrix Pg_v (jω) nimmt aufgrund der Störquelle des Punktes v(t) Platz Nr. 1 ein. Allgemein können die komplexen Elemente des Impulsantwortvektors g_v bei Hall, oder wenn sich die Quelle im Nahbereich des Mikrofonarrays befindet, unterschiedliche Größen haben. Wird nur der direkte Weg berücksichtigt, oder ist die Punktquelle im Fernfeld, dann gilt $g_{v} (j ω) = {[e^{- j ω τ_{v},1} e^{- j ω τ_{v},2} \dots e^{- j ω τ_{v}, M}]}^{T},$
was nur die Zeitunterschiede bezüglich der Ankunft der Störung bei den vielen Mikrofonen enthält τ_{v, m} (m = 1, 2, ^..., M) mit Bezug auf einen gemeinsamen Referenzpunkt.
(2) Diffuses Rauschen: Ein diffuses Rauschfeld wird als kugelförmig oder zylinderförmig isotrop angesehen, da es durch unverbundene Rauschsignale von gleicher Energie charakterisiert ist, die sich gleichzeitig in mehrere Richtungen ausbreiten. Die Kovarianzmatrix ergibt sich aus $R_{u u} (j ω) = σ_{s}^{2} (ω) Γ_{u u} (ω),$
wobei das (p, q)-te Element von Γuu(ω) ist ${[Γ_{u u} (ω)]}_{p, g} = {\begin{matrix} sinc (\frac{ω \cdot d_{p g}}{c}), Kugelf \ddot{o} rmig isotrop \\ J_{0} (\frac{ω \cdot d_{p g}}{c}), Zylinderf \ddot{o} rming isotrop \end{matrix}$
d_pq ist der Abstand zwischen den p-ten und q-ten Mikrofonen, c ist die Schallgeschwindigkeit und J₀(·) ist die Bessel-Funktion 1. Art der Ordnung 0.
(3) Weißes Rauschen: Die Kovarianzmatrix des zusätzlichen weißen Rauschens ist einfach eine gewichtete Identitätsmatrix: $R_{w w} (j ω) = σ_{w}^{2} (ω) \cdot I_{M \times M} .$

4. Mehrkanal-Wiener-Filter (MCWF), MVDR-Strahlformung und Nachfilterung
Wird ein Mikrofonarray verwendet, um ein gewünschtes Breitbandschallsignal aufzunehmen (z. B. Rede und/oder Musik), so besteht die Absicht, den Abstand zwischen Y (jω) in Gleichung (6) und S(jω) für ω's zu minimieren. Der MCWF, der im MMSE-Sinn optimal ist, kann in einen MVDR-Strahlformer und einen nachfolgenden Einkanal-Wiener-Filter (SCWF) zerlegt werden: $h_{M C W F} (j ω) = \frac{R_{ψ ψ}^{- 1} (j ω) g_{s} (j ω)}{\underset{≜ h_{M V D R} (j ω)}{\underset{︸}{g_{s}^{H} (j ω) R_{ψ ψ}^{- 1} (j ω) g_{s} (j ω)}}} \cdot \frac{σ_{s}^{2} (ω)}{\underset{≜ h_{S C W F} (ω)}{\underset{︸}{σ_{s'}^{2} (ω) + σ_{ψ'}^{2} (ω)}}} .$
wobei $σ_{s}^{2} (ω) ≜ σ_{s}^{2} (ω) \cdot h_{_{M V D R}}^{H} (j ω) P_{g_{s}} (j ω) h_{M V D R} (j ω),$
$σ_{ψ'}^{2} (ω) ≜ h_{_{M V D R}}^{H} (j ω) R_{ψ ψ} (j ω) h_{M V D R} (j ω)$
die Energie des gewünschten Signals und des Rauschens jeweils am Ausgang des MVDR-Strahlformers sind. Diese Zerlegung führt zu der folgenden Struktur für die Spracherfassung durch ein Mikrofonarray: der SCWF wird als Nachfilter hinter dem MVDR-Strahlformer angesehen.
5. Nachfilter-Schätzung
4 veranschaulicht die Schritte der Nachfilter-Schätzung in einer Frequenzlinie. Um den MVDR-Strahlformer als ersten und den SCWF wie in Gleichung (11) als Nachfilter umzusetzen, werden die Matrizen der Signal-und-Rausch-Kovarianz von der berechneten Kovarianzmatrix der Mikrofonsignale geschätzt. Die Mehrkanal-Mikrofonsignale werden zunächst in Rahmen gestaffelt (z. B. als Fenster zur gewichteten Überlappungszusatzanalyse) und dann mit einer FFT zur Feststellung von x(jω, i) umgewandelt, wobei i der Rahmenindex ist. Die Schätzung der Kovarianzmatrix der Mikrofonsignale (145a) wird rekursiv aktualisiert, entweder dynamisch oder unter Verwendung eines Speicherelements, durch ${\hat{R}}_{x x} (j ω, i) = λ {\hat{R}}_{x x} (j ω, i - 1) + (1 - λ) x (j ω, i) x^{H} (j ω, i),$
wobei 0 < λ < 1 ein Vernachlässigungsfaktor ist.
Ähnlich wie bei der Gleichung (7) kann Hall vernachlässigt werden, dadurch ergibt sich $g_{s} (j ω) = {[e^{- j ω τ_{s,1}} e^{- j ω τ_{s,2}} \dots e^{- j ω τ_{s, M}}]}^{T},$
wobei τ_s,m die Zeitdifferenz mit Bezug zu dem gemeinsamen Referenzpunkt beziffert, mit der das gewünschte Signal am w-ten Mikrofon eintrifft.
In einem anderen Beispiel wird angenommen, dass sowohl τ_s,m als auch τ_v,m bekannt sind und sich über die Zeit nicht ändern. Somit kann gemäß Gleichung (5), unter Verwendung der Gleichungen (8) und (10) am i-ten Zeitrahmen die Bestimmung der Modelle für die Kovarianzmatrix (140a) wie folgt aussehen: $\begin{array}{l} {\hat{R}}_{x x} (j ω, i) = σ_{s}^{2} (ω, i) P_{g_{s}} (j ω) + σ_{v}^{2} (ω, i) P_{g_{v}} (j ω) + \\ σ_{u}^{2} (ω, i) Γ_{u u} (ω) + σ_{w}^{2} (ω, i) I_{M \times M} . \end{array}$
Diese Gleichheit erlaubt die Bildung eines Kriteriums basierend auf der Frobenius-Norm für die Differenz zwischen der linken und der rechten Seite der Gleichung (14). Durch Minimierung eines solchen Kriteriums kann ein LS-Schätzer für { {σ2,s (ω, k), σ2,v (ω, k), σ2,u (ω, k), σ2,w (ω, k)} abgeleitet werden. Es ist zu beachten, dass die Matrizen in Gleichung (14) Hermitisch sind. Redundante Informationen in dieser Formel wurden der Klarheit halber ausgelassen.
Für eine M × M Hermitische Matrix A = [α_pq] können zwei Vektoren definiert werden. Ein Vektor ist das diagonale Element und der andere ist das ODHV-Element (Halbvektorisierung abseits der Diagonalen) seines unteren dreieckigen Teils $diag {A} ≜ {[a_{11} a_{22} \dots a_{M M}]}^{T},$
$odhv {A} ≜ {[a_{21} \dots a_{M 1} a_{32} \dots a_{M 2} \dots a_{M (M - 1)}]}^{T} .$
Eine Vielzahl von N Hermitischen Matrizen der gleichen Größe können definiert werden als $diag {A_{1}, \dots, A_{N}} ≜ [diag {A_{1}} \dots diag {A_{N}}] .$
$odhv {A_{1}, \dots, A_{N}} ≜ [odhv {A_{1}} \dots odhv {A_{N}}] .$
Durch Verwendung dieser Darstellungen ergibt die reorganisierte Gleichung (14) ${\hat{ϕ}}_{x x} (k) = Θ \cdot x (k),$
wobei der Parameter jω der Klarheit halber ausgelassen wird und ${\hat{ϕ}}_{x x} (k) ≜ [\begin{matrix} diag {{\hat{R}}_{x x} (j ω, k)} \\ odhv {{\hat{R}}_{x x} (j ω, k)} \end{matrix}], Θ ≜ [\begin{matrix} D (j ω) \\ C (j ω) \end{matrix}] .$
$D (j ω) ≜ diag {P_{g_{s}} (j ω), P_{g_{V}} (j ω), Γ_{u u} (j ω), I_{M \times M}},$
$C (j ω) ≜ odhv {P_{g_{s}} (j ω), P_{g_{V}} (j ω), Γ_{u u} (j ω), I_{M \times M}},$
$x (k) ≜ {[σ_{s}^{2} (ω, k) σ_{v}^{2} (ω, k) σ_{u}^{2} (ω, k) σ_{w}^{2} (ω, k)]}^{T} .$
Hier ist das Ergebnis M (M + 1) / 2 Gleichungen und 4 Unbekannte. Wenn M ≥ 3, handelt es sich um ein überbestimmtes Problem. Das heißt, es gibt mehr Gleichungen als Unbekannte.
Das zuvor erwähnte Fehlerkriterium wird wie folgt geschrieben $J ≜ {‖ {\hat{ϕ}}_{x x} (k) - Θ \cdot x (k) ‖}^{2} .$
Die Minimierung dieses Kriteriums führt bei der Umsetzung als Schätzung der Energie der Schallquellen (150a) zu ${\hat{x}}_{L S} = ℜ {{(Θ^{H} Θ)}^{- 1} Θ^{H} {\hat{ϕ}}_{x x} (k)},$
wobei ℜ{·} den Realteil komplexer Zahlen/Vektoren bezeichnet. Vermutlich sind die Schätzfehler in ϕ̂_xx(k) unabhängige und identisch verteilte (u.i.v.) Zufallsvariablen. Daher ist die KQ-Lösung (kleinste Quadrate) in Gleichung (21) im MMSE-Sinne durch die Umsetzung bei der Berechnung der Koeffizienten für die Nachfilter (155a) optimal geeignet. Das Einsetzen dieser Schätzung in Gleichung (11) ergibt einen KQ-Nachfilter (LSPF) (160a), wie in dieser Offenbarung erwähnt.
In der obigen Beispielausführungsform geht die abgeleitete KQ-Lösung davon aus, dass M ≥ 3. Das ist der Verwendung eines generalisierten Modells für ein Akustikfeld geschuldet, das aus vier Arten von Schallsignalen besteht. In anderen Beispielausführungsformen, in denen zusätzliche Informationen zum Akustikfeld verfügbar sind, wodurch einige Arten von Störsignalen ignoriert werden können (z. B. kein Punktstörer und/oder lediglich weißes Rauschen), können die sich auf diese zu ignorierenden Schallquellen beziehenden Spalten in der Gleichung (19) entfernt werden und es kann dennoch ein KQ-Nachfilter gemäß der Beschreibung in der vorliegenden Offenbarung entwickelt werden, selbst für den Fall M = 2.
5 ist ein Ablaufdiagramm, das Beispielschritte für die Berechnung der Koeffizienten des Nachfilters für eine Frequenzlinie (165a) in Übereinstimmung mit einer Ausführungsform der Offenbarung veranschaulicht. Die folgende Abbildung in 5 zeigt ein Umsetzungsbeispiel der zuvor offenbarten Details und der zuvor beschriebenen mathematischen Konzepte. Die offenbarten Schritte dienen nur der Veranschaulichung. Für Fachleute ist offensichtlich, dass einige Schritte gleichzeitig oder in anderer Reihenfolge innerhalb des Geistes und Umfangs dieser ausführlichen Beschreibung erfolgen können.
Unter Bezugnahme auf 5 beginnen die Beispielschritte bei Schritt 501. Im Schritt 502 werden Audiosignale von durch Schallquellen (106-108) in einer Umgebung (105) erzeugten Geräuschen (109) von einem Mikrofonarray (130) empfangen. Im Schritt 503 wird eine Schallfeldhypothese (111) erstellt. Im Schritt 504 werden feste Strahlformerkoeffizienten (138a) aufgrund der erhaltenen Audiosignale (117a, 122a, 127a) für eine Frequenzlinie (165a) berechnet. Im Schritt 505 werden die Modelle der Kovarianzmatrix (140a) auf Basis der Schallfeldhypothese (111) bestimmt. Im Schritt 506 wird eine Kovarianzmatrix (145a) aufgrund der erhaltenen Audiosignale (117a, 122a, 127a) berechnet. Im Schritt 507 wird die Energie der Schallquellen (150a) aufgrund der festgelegten Kovarianzmatrixmodelle (140a) und der errechneten Kovarianzmatrix (145a) geschätzt. Im Schritt 508 werden Nachfilter-Koeffizienten (155a) auf Basis der geschätzten Energie der Schallquellen (150a) und den berechneten festen Strahlformerkoeffizienten (138a) berechnet. Die Beispielschritte können dann mit dem Schritt 509 enden. Die zuvor erwähnten Schritte können für jede Frequenzlinie (165a-c) zur Generierung eines jeweiligen postgefilterten Ausgangssignals (161a-c) umgesetzt werden. Die postgefilterten Signale (161a-c) können dann umgeformt werden (170), um das finale gewünschte oder Ausgangssignal zu generieren (175).
Wie zuvor erwähnt, sind herkömmliche Verfahren der Nachfilterung nicht optimal und haben im Vergleich zu den hier beschriebenen Verfahren und Systemen Mängel. Die Beschränkungen und die Mängel herkömmlicher Ansätze werden im Hinblick auf die vorliegende Offenbarung nachfolgend weiter erörtert.
(a) Bei Nachfilter von Zelinski (ZPF) wird angenommen: 1) kein Punktstörer, z. B. σ2,v (ω) = 0, 2) kein diffuses Rauschen, z. B. σ2.u (ω) = 0 und 3) lediglich additives inkohärentes weißes Rauschen. Somit wird Gleichung (19) wie folgt vereinfacht $[\begin{matrix} diag {{\hat{R}}_{x x} (k)} \\ odhv {{\hat{R}}_{x x} (k)} \end{matrix}] = [\begin{matrix} diag {P_{g_{s}}} & 1_{M \times 1} \\ odhv {P_{g_{s}}} & 0 \end{matrix}] [\begin{matrix} σ_{s}^{2} (k) \\ σ_{W}^{2} (k) \end{matrix}] .$
Anstatt die optimale KQ-Lösung für σ2, s (k) mit der Gleichung (21) zu berechnen, verwendet der ZPF nur den unteren odhv-Teil der Gleichung (22) und erhält ${\hat{σ}}_{s, Z P F}^{2} (k) = \frac{Σ_{p = 1}^{M (M - 1) / 2} ℜ {odhv {{\hat{R}}_{x x} (k)}}_{p}}{Σ_{p = 1}^{M (M - 1) / 2} ℜ {odhv {{\hat{R}}_{x x} (k)}}_{p}} .$
Es ist zu beachten, dass in Gleichung (13) R {odhv {P_gs}}_p = 1 ist. Somit wird aus Gleichung (23) ${\hat{σ}}_{s |, Z P F}^{2} (k) = \frac{Σ_{p = 1}^{M (M - 1) / 2} ℜ {odhv {{\hat{R}}_{x x} (k)}}_{p}}{M (M - 1) / 2} .$
Wenn dasselbe akustische Modell des KQ-Filters für ZPF verwendet wird (z. B. nur weißes Rauschen), kann belegt werden, dass ZPF und KQ-Filter gleichwertig sind, wenn M = 2 ist. Allerdings unterscheiden sie sich grundlegend, wenn M ≥ 3 ist.
(b) Der Nachfilter von McCowan (MPF) geht von den folgenden Parametern aus: 1) kein Punktstörer z. B. σ2,v (ω)= 0, 2) kein additives weißes Rauschen z. B. σ2,w(ω) = 0 und 3) nur diffuses Rauschen. Unter diesen Annahmen wird aus Gleichung (19) $[\begin{matrix} diag {{\hat{R}}_{x x} (k)} \\ odhv {{\hat{R}}_{x x} (k)} \end{matrix}] = [\begin{matrix} diag {P_{g_{s}}} & diag {Γ_{u u}} \\ odhv {P_{g_{s}}} & odhv {Γ_{u u}} \end{matrix}] [\begin{matrix} σ_{s}^{2} (k) \\ σ_{u}^{2} (k) \end{matrix}] .$
Es ist zu beachten, dass in Gleichung (9) diag {Γ_uu} = 1_M×1 ist.
Die Gleichung (25) ist ein überbestimmtes System. Der MPF wendet erneut, anstatt eine globale KQ-Lösung durch Befolgen der Gleichung (21) zu finden, drei Gleichungen aus Gleichung (25) an, die dem Paar der p-ten und q-ten Mikrofone entsprechen, um ein Untersystem wie das Folgende zu bilden $[\begin{matrix} {\hat{σ}}_{x_{p} x_{p}}^{2} \\ {\hat{σ}}_{x_{q} x_{q}}^{2} \\ {\hat{σ}}_{x_{p} x_{q}}^{2} \end{matrix}] = [\begin{matrix} 1 & 1 \\ 1 & 1 \\ 1 & Γ_{p q} \end{matrix}] \cdot [\begin{matrix} σ_{s}^{2} \\ σ_{u}^{2} \end{matrix}],$
wobei ${\hat{ϕ}}_{x_{p} x_{q}} ≜ ℜ {{\hat{R}}_{x x}}_{p, q}, Γ_{p q} ≜ ℜ {Γ_{u u}}_{p, q}$
Das MPF-Verfahren löst die Gleichung (26) für σ2,s als ${{\hat{σ}}_{s, M PF}^{2}}_{p . q} = \frac{({\hat{σ}}_{x_{p} x_{p}}^{2} + {\hat{σ}}_{x_{q} x_{q}}^{2}) / 2 - {\hat{ϕ}}_{x_{p} x_{q}}}{1 - Γ_{p q}} .$
Da es M (M - 1) / 2 unterschiedliche Mikrofonpaare gibt, ist die abschließende MPF-Schätzung einfach der Durchschnitt der Ergebnisse aus den Untersystemen, wie folgt: ${\hat{σ}}_{s, M PF}^{2} = \frac{Σ_{p = 1}^{M - 1} Σ_{q = p + 11}^{M} {{\hat{σ}}_{s, M PF}^{2}}_{p, q}}{M (M - 1) / 2} .$
Das Modell des diffusen Rauschens ist in der Praxis weiter verbreitet als das des weißen Rauschens. Letzteres kann als Sonderfall des ersteren angesehen werden, wenn Γ_uu = I_M×M ist. Aber der Ansatz des MPF zur Lösung der Gleichung (25) ist heuristisch und somit auch nicht optimal. Wenn der KQ-Nachfilter (LSPF) nur ein Modell des diffusen Rauschens verwendet, entspricht er dem MPF in dem Fall, dass M = 2 ist, aber sie sind grundlegend verschieden, wenn M ≥ 3 ist.
(c) Der Nachfilter von Leukimmiatis folgt den Algorithmen aus dem MPF zur Bestimmung von σ_2,s (k). Leukimmiatis u. a. beheben einfach den Fehler der Nachfilter von Zelinski und McCowan, dass der Nenner des Nachfilters in $(11) σ 2, s' (ω) + σ 2, ψ' (ω)$
sein sollte anstatt σ_2,s (ω) + σ_{2, ψ} (ω).
6. Experimentelle Ergebnisse
Es folgen Ergebnisse der Experimente zur Verbesserung von Sprachbeispielen, die zur Validierung von Systemen und Verfahren der KQ-Lösung der vorliegenden Offenbarung durchgeführt wurden. 6 veranschaulicht die räumliche Anordnung des Mikrofonarrays (610) und der Schallquellen (620, 630) der Experimente. Die Positionen der Elemente innerhalb der Figuren sollen nicht den genauen Maßstab oder Abstand darstellen, welche in der folgenden Beschreibung angegeben werden. Es wird ein Satz von Experimenten bereitgestellt, bei dem die ersten vier Mikrofone M1-M4 (601-604) eines Mikrofonarrays (610) betrachtet werden, wobei der Abstand zwischen jedem der Mikrophone 3 Zentimeter beträgt. Die 60 dB Nachhallzeit beträgt 360 ms. Die gewünschte Quelle (620) ist an der Breitseite (0°) des Arrays, während sich die Störquelle (630) in der Richtung 45° befindet. Beide sind 2 Meter vom Array entfernt. Für diese Punktschallquellen werden saubere, ununterbrochene Sprachsignale in 16 kHz/16-bit verwendet. Eine weibliche Sprecherin stellt die gewünschte Quelle (620) dar, die Störquelle (630) übernimmt ein männlicher Sprecher. Die Sprachanteile der beiden Signale haben viele Überschneidungen. Dementsprechend werden die Impulsantworten bei 16 kHz neu gesampelt, auf 4096 Samples reduziert und kugelförmig isotropes diffuses Rauschen erzeugt. In den experimentellen Simulationen werden 72 × 36 = 2592 Punktquellen verwendet, die sich über einen großen Bereich verteilen. Die Signale werden auf 20 s gekürzt.
Bei den vorstehenden Experimenten werden drei Vollband-Messungen definiert, um ein Schallfeld zu kennzeichnen (Abk. SF): nämlich den Signal-Störabstand (SIR), Signal-Rauschabstand (SNR) und das Verhältnis von diffusem zu weißem Rauschen (DWR), wie folgt $S I R_{S F} ≜ 10 \cdot l o g_{10} {σ_{s}^{2} / σ_{v}^{2}},$
$S N R_{S F} ≜ 10 \cdot l o g_{10} {σ_{s}^{2} / (σ_{u}^{2} + σ_{w}^{2})},$
$D W R_{S F} ≜ 10 \cdot l o g_{10} {σ_{u}^{2} / σ_{w}^{2}},$
wobei $σ_{z}^{2} ≜ E {z^{2} (t)}$
und z ∈ {s, v, u, w}.
Für die Leistungsbewertung werden zwei objektive Metriken analysiert: der Signal-Stör-und-Rauschabstand (SINR) und die Wahrnehmungsbewertung der Sprachqualität (PESQ). Die SINR und PESQ werden für jedes Mikrofon berechnet und die Durchschnittswerte ergeben jeweils den Eingabe-SINR und -PESQ. Ausgabe-SINR und -PESQ (gekennzeichnet durch SINRo bzw. PESQo) werden ähnlich geschätzt. Die Differenz zwischen den Eingabe- und Ausgabemessungen (z. B. die Deltawerte) wird analysiert. Zur besseren Feststellung der Rauschreduktion und Sprachverzerrung am Ausgang werden auch die Stör- und Rauschreduktion (INR) und die auf die gewünschte Sprache beschränkte PESQ (dPESQ) errechnet. Für dPESQ werden verarbeitete gewünschte Sprache und saubere Sprache an den PESQ-Schätzer übergeben. Die PESQ-Ausgabe deutet auf die Qualität des verbesserten Signals hin, der dPESQ-Wert quantifiziert den Grad der eingeführten Sprachverzerrung. In dieser Studie werden die Matlab-Codes von Hu & Loizou verwendet.

Um das weithin bekannte Problem des Signalabbruchs im MVDR-Strahlformer (minimum variance distortionless response) aufgrund von Raumhall zu vermeiden, wird für das Front-End-Processing der D&S-Strahlformer eingesetzt und mit den folgenden vier unterschiedlichen Nachfilteralgorithmen verglichen: keine, ZPF, MPF und LSPF. Ein exklusiver Einsatz von D&S dient als Maßstab. Für ZPF und MPF wurde die Korrektur von Leukimmiatis verwendet. Tests wurden für die folgenden drei unterschiedlichen Konfigurationen durchgeführt: 1) NUR weißes Rauschen: SIRSF = 30 dB, SNRSF = 5 dB DWRSF = -30 dB, 2) NUR diffuses Rauschen: SIRSF = 30 dB, SNRSF = 10 dB, DWRSF = 30 dB, 3) Gemischtes Rauschen/Störungen: SIRSF = 0 dB, SNRSF = 10 dB, DWRSF = 0 dB. Die Ergebnisse sind wie folgt aus: Tabelle 1: Ergebnisse der Sprachverbesserung im Mikrofonarray.

Verfahren	INR (dB)	SINR_o / ΔSINR (dB)	PESQ_o / ΔPESQ	DPESQ_o / ΔdPESQ
Nur weißes Rauschen
Nur D&S	5.978	14.201/ +5.667	1.795/+0.363	2.2861-0.019
D&S+ZPF	11.893	17.827/ +9.293	2055/+0.623	2.351/+0.046
D&S+MPF	16.924	17.161/ +8.627	2115/+0.683	2.1301-0.175
D&S+LSPF	13.858	21.4601+12.925	2.180/+0.748	2.299/-0.006

Nur diffuses Rauschen
Nur D&S	3.735	16.915/ +3.423	1.852/+0.088	2.286/-0.019
D&S+ZPF	7.467	18.594/ +5.102	1.954/+0.190	2.311/+0.006
D&S+MPF	10.012	16.545/ +3.053	2122/+0.358	2.427/+0.121
D&S+LSPF	12.236	17.699/ +4.207	2.254/+0.490	2.5161+0.211

Gemischtes Rauschen/Störungen
Nur D&S	0.782	2.398/ +0.435	1.493/+0.122	2.2861-0.019
D&S+ZPF	2.879	2.424/ +0.461	1.563/+0.193	2.3141+0.009
D&S+MPF	9.470	4.211/ +2.248	1.791/+0.420	2.297/-0.008
D&S+LSPF	16.374	9.773/ +7.810	1.940/+0.569	2.336/+0.031

In diesen Tests werden für die STFT-Analyse die Quadratwurzel des Hamming-Fensters und ein FFT mit 512 Punkten verwendet. Zwei benachbarte Fenster haben eine Sample-Überlappung von 50 %. Zur Rekonstruktion des verarbeiteten Signals wird das gewichtete Überlappungszusatzverfahren eingesetzt.
Die Ergebnisse des Experiments sind in Tabelle 1 zusammengefasst. Zuerst werden die Ergebnisse für das Schallfeld bei nur weißem Rauschen analysiert. Da diese Art Schallfeld vom ZPF-Verfahren abgedeckt wird, kann der ZPF hier eine recht gute Rauschunterdrückung und Verbesserung der Sprachqualität leisten. Allerdings erzielt der vorgeschlagene LSPF eine größere Rauschreduktion und bietet eine höhere PESQ-Ausgabe, obwohl er bei einem leicht niedrigeren dPESQ eine höhere Sprachverzerrung bringt. Der MPF produziert ein trügerisch hohes INR, da sein SINR-Zuwachs unter dem von ZPF und LSPF liegt. Das bedeutet, dass der MPF nicht nur Rauschen sondern auch Sprachsignale signifikant unterdrückt. Die Werte für PESQ und dPESQ liegen niedriger als die des LSPF.
Im zweiten Schallfeld erweist sich erwartungsgemäß, dass der D&S-Strahlformer bei diffusem Rauschen weniger wirkungsvoll ist und sich die Leistung des ZPF ist ebenfalls verschlechtert. In diesem Fall ist die Leistung des MPF recht gut, während dennoch der LSPF das eindeutig beste Ergebnis erbringt.
Das dritte Schallfeld ist aufgrund einer zeitlich veränderlichen Störquelle für die Sprache augenscheinlich die größte Herausforderung. Allerdings übertrifft der LSPF die anderen herkömmlichen Verfahren in allen Metriken.
Abschließend ist bemerkenswert, dass diese rein objektiven Ergebnisse der Leistungsbewertung mit dem subjektiven Empfinden der vier Techniken bei formlosen Hörtests übereinstimmen, die mit einigen unserer Kollegen durchgeführt wurden.
Die vorliegende Offenbarung beschreibt Verfahren und Systeme für eine KQ-Nachfilterung (LSPF) in Anwendungen mit Mikrofonarrays. Anders als herkömmliche Nachfiltertechniken betrachtet das beschriebene Verfahren nicht nur diffuses und weißes Rauschen, sondern auch Punktstörer. Außerdem stellt es eine umfassend optimale Lösung dar, in der die von einem Mikrofonarray aufgenommenen Informationen besser genutzt werden, als dies bei herkömmlichen Verfahren der Fall ist. Außerdem wurden die Vorteile der offenbarten Technik gegenüber vorhandenen Verfahren durch Simulationen in verschiedenen akustischen Szenarien belegt und quantitativ bestimmt.
7 ist ein allgemeines Blockdiagramm zur Veranschaulichung einer Anwendung in einem Computergerät (700). In einer grundlegenden Konfiguration (701) beinhaltet das Computergerät (700) typischerweise einen oder mehrere Prozessoren (710), einen Systemspeicher (720) und einen Speicherbus (730). Der Speicherbus wird für die Kommunikation zwischen den Prozessoren und dem Systemspeicher verwendet. Die Konfiguration kann auch eine separate Komponente zur Nachfilterung (726) beinhalten, welche das obige Verfahren einführt, oder sie kann in einer Anwendung (722, 723) integriert sein.
Je nach Konfiguration kann der Prozessor (710) ein Mikroprozessor (µP), ein Mikrocontroller (µC), ein Digitalsignalprozessor (DSP) oder eine beliebige Kombination aus diesen sein. Der Prozessor (710) kann eine oder mehrere Ebenen von Cachespeichern haben, z. B. einen L1 Cache (711) und einen L2 Cache (712), einen Prozessorkern (713), und Register (714). Der Prozessorkern (713) kann eine arithmetische Logikeinheit (ALU), eine Gleitkommaeinheit (FPU), einen Digitalsignalverarbeitungskern (DSP Core) oder eine beliebige Kombination davon beinhalten. Ein Speichercontroller (716) kann entweder ein unabhängiges Teil oder ein internes Teil des Prozessors (710) sein.
Je nach der gewünschten Konfiguration kann der Systemspeicher (720) ein beliebiger Typ sein, einschließlich u. a. flüchtiger Speicher (wie RAM), nichtflüchtiger Speicher (wie ROM oder Flash-Speicher usw.) oder eine beliebige Kombination aus diesen. Der Systemspeicher (720) enthält typischerweise ein Betriebssystem (721), eine oder mehrere Anwendungen (722) und Programmdaten (724). Die Anwendung (722) kann eine Komponente der Nachfilterung (726) beinhalten oder ein System und Verfahren zur Anwendung der global optimierten Kleinste-Quadrate--Nachfilterung (LSPF) (723) für die Verbesserung der Sprache. Zu den Programmdaten (724) gehört das Speichern von Anweisungen, die bei Ausführung durch eine oder mehrere Verarbeitungsgeräte ein Verfahren und System für das beschriebene Verfahren und die Komponente implementieren. (723). Ersatzweise kann die Ausführung der Anweisung und Implementierung durch die Komponente der Nachfilterung (726) durchgeführt werden. In einigen Ausführungsformen kann die Anwendung (722) so angeordnet sein, dass sie mit Programmdaten (724) auf einem Betriebssystem (721) betrieben wird.
Das Computergerät (700) kann zusätzliche Eigenschaften oder Funktionen sowie zusätzliche Schnittstellen haben, um die Kommunikation zwischen der Grundkonfiguration (701) und allen erforderlichen Geräten und Schnittstellen zu ermöglichen.
Der Systemspeicher (720) ist ein Beispiel für ein Computer-Speichermedium. Computerspeichermedien beinhalten u. a. RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital-Versatile-Disks (DVD) oder andere optische Speicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichergeräte oder jedes andere Medium, das verwendet werden kann, um die gewünschte Information zu speichern, und auf die durch das Computergerät 700 zugegriffen werden kann. Jedes derartige Computerspeichermedium kann Teil des Geräts (700) sein.
Das Computergerät (700) kann als Teil eines kleinen, tragbaren oder mobilen elektronischen Gerätes umgesetzt sein, wie etwa ein Mobiltelefon, ein Smartphone, ein PDA, ein persönlicher Media-Player, ein Tablet-Computer (Tablet), ein drahtloses Internet-Gerät, ein persönliches Headset, ein anwendungsspezifisches Gerät oder ein Hybrid-Gerät, das eine der oben genannten Funktionen enthält. Das Computergerät (700) kann auch als ein Personal Computer implementiert werden, der sowohl Laptop-Computer- als auch Nicht-Laptop-Computerkonfigurationen enthält.
Die vorstehende ausführliche Beschreibung hat verschiedene Ausführungsformen der Geräte und/oder der Prozesse mithilfe von Blockdiagrammen, Ablaufdiagrammen und/oder Beispielen dargelegt. Insoweit wie solche Blockdiagramme, Ablaufdiagramme und/oder Beispiele eine oder mehrere Funktionen und/oder Operationen beinhalten, werden Fachleute verstehen, dass jede Funktion und/oder Operation in solchen Blockdiagrammen, Ablaufdiagrammen oder Beispielen individuell und/oder kollektiv, durch eine große Auswahl von Hardware, Software, Firmware oder eine beliebige Kombination aus diesen implementiert werden können. In einer Ausführungsform können einige Teile des hier beschriebenen Gegenstands über anwendungsspezifische integrierte Schaltungen (ASICs), Field Programmable Gate Arrays (FPGAs), digitale Signalprozessoren (DSPs) oder andere integrierte Formate implementiert werden. Jedoch werden Fachleute erkennen, dass einige Aspekte der hier offenbarten Ausführungsformen ganz oder teilweise ebenso in integrierten Schaltungen umgesetzt sein können, als ein oder mehrere Computerprogramme, die auf einem oder mehreren Computern laufen, als ein oder mehrere Programme, die auf einem oder mehreren Prozessoren als Firmware laufen, oder als praktisch jede Kombination aus diesen, und dass sich der Entwurf der Schaltungen und/oder das Schreiben des Software- und Firmware-Codes in Bezug auf diese Offenbarung sehr wohl im Rahmen der Fähigkeiten von Fachleuten bewegen. Außerdem werden Fachleute verstehen, dass die Mechanismen dieses hier beschriebenen Gegenstands in der Lage sind, als ein Programmprodukt in einer Vielzahl von Formen verteilt zu werden, und dass eine veranschaulichende Ausführungsform des hier beschriebenen Gegenstands unabhängig von der besonderen Art des nicht-flüchtigen signaltragenden Mediums gilt, das für die tatsächliche Verteilung verwendet wird. Beispiele für ein nicht-transitorisches signaltragenden Mediums beinhalten u. a. Folgendes: Disketten, Festplattenlaufwerk, CD (Compact Disc), DVD (Digital Video Disk), digitales Band, Computerspeicher usw.; und ein Medium des Übertragungstyps, wie beispielsweise ein digitales und/oder analoges Kommunikationsmedium, (z. B. ein Glasfaserkabel, Wellenleiter, verdrahtete und drahtlose Kommunikationsverbindung usw.)
In Bezug auf den Gebrauch von jeglichen Begriffen im Plural und/oder Singular hierin, können Fachleute je nach Kontext und/oder Anwendung vom Plural auf den Singular und/oder vom Singular auf den Plural schließen. Die verschiedenen Singular-/Plural-Permutationen können hierin ausdrücklich aus Gründen der Klarheit dargelegt.
Bei einer Umsetzung beschreibt das Verfahren eine Nachfilterlösung, die Signalmodelle implementiert, welche weißes Rauschen, diffuses Rauschen und Punktstörer handhaben können, wobei das Verfahren ebenfalls einen global optimierten LSPF-Ansatz für die Mikrofone in einem Mikrofonarray einbringt und somit eine bessere Lösung als bestehende herkömmliche Verfahren bietet. Die Ergebnisse der Experimente zeigen, wie das beschriebene Verfahren die herkömmlichen Methoden in verschiedenen akustischen Situationen leistungsmäßig übertrifft.
Folglich wurden bestimmte Ausführungsformen der Thematik beschrieben. Weitere Ausführungsformen gehören zum Umfang der folgenden Ansprüche. So können in einigen Fällen die in den Ansprüchen angegebenen Aktionen in einer anderen Reihenfolge durchgeführt werden und dennoch erwünschte Ergebnisse erzielen. Zusätzlich erfordern beispielsweise die in den beigefügten Figuren dargestellten Prozesse nicht unbedingt die gezeigte spezielle Reihenfolge oder fortlaufende Reihenfolge, um erwünschte Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und Parallelverarbeitung von Vorteil sein.

Claims

Computerimplementiertes Verfahren, umfassend: Empfang (502) von Audiosignalen (109) über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105); Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109); Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109); Bestimmen (505) von Modellen der Kovarianzmatrix auf Basis der Schallfeldhypothese; Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109); Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert; Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; und Erzeugen einer Audioausgabe aufgrund der empfangenen Audiosignale (109) und den Nachfilter-Koeffizienten.
Verfahren nach Anspruch 1, ferner umfassend: Erstellen mehrerer Schallfeldhypothesen zur Erzeugung von mehreren Ausgangssignalen.
Verfahren nach Anspruch 2, wobei die mehreren erzeugten Ausgangssignale verglichen werden und das Ausgangssignal mit dem höchsten Rauschabstand unter diesen als das finale Ausgangssignal gewählt wird.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Bestimmung der Energie auf der Frobenius-Norm basiert.
Verfahren nach Anspruch 4, wobei die Frobenius-Norm mit einer Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird.
Verfahren nach einem der Ansprüche 1 bis 5, ferner umfassend: Feststellen der Position von zumindest einer der Schallquellen mit Verfahren zur Standortbestimmung von Schallquellen, um eine Schallfeldhypothese zu erstellen, die Kovarianzmatrixmodelle festzulegen und die Kovarianzmatrix zu berechnen.
Verfahren nach Anspruch 1, wobei die Kovarianzmatrixmodelle auf der Grundlage von vielen Schallfeldhypothesen erstellt werden.
Verfahren nach Anspruch 7, wobei ein Kovarianzmatrixmodell zur Maximierung einer Zielfunktion für die Rauschreduzierung gewählt wird.
Verfahren nach Anspruch 8, wobei die Zielfunktion die Beispielabweichung des finalen Audioausgangssignals ist.
Vorrichtung, umfassend: eines oder mehrere Verarbeitungsgeräte und eines oder mehrere Speichergeräte, die Anweisungen speichern, die, wenn sie von dem einen oder den mehreren Verarbeitungsgeräten ausgeführt werden, die Verarbeitungsgeräte zu Folgendem veranlassen: Empfangen (502) von Audiosignalen (109) über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105); Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109); Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109); Bestimmen (505) von Kovarianzmatrixmodellen aufgrund der Schallfeldhypothese; Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109); Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert; Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; und Erzeugen eines Audioausgangssignals, das auf den empfangenen Audiosignalen (109) und den Nachfilterkoeffizienten basiert.
Vorrichtung gemäß Anspruch 10, ferner mehrere Schallfeldhypothesen umfassend, um mehrere Ausgangssignale zu erzeugen.
Vorrichtung nach Anspruch 11, wobei die mehreren erzeugten Ausgangssignale verglichen werden und das Ausgangssignal mit dem höchsten Rauschabstand unter diesen als das finale Ausgangssignal gewählt wird.
Vorrichtung nach einem der Ansprüche 10 bis 12, wobei die Bestimmung der Energie auf der Frobenius-Norm basiert.
Vorrichtung nach Anspruch 13, wobei die Frobenius-Norm mit einer Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird.
Vorrichtung nach einem der Ansprüche 10 bis 14, ferner umfassend: Feststellen der Position von zumindest einer der Schallquellen mit Verfahren zur Standortbestimmung von Schallquellen, um eine Schallfeldhypothese zu erstellen, die Kovarianzmatrixmodelle festzulegen und die Kovarianzmatrix zu berechnen.
Nicht-flüchtiges computerlesbares Medium mit Sätzen von Anweisungen für Folgendes: Empfang (502) von Audiosignalen über ein Mikrofonarray (130) von Schallquellen (106, 107, 108) in einer Umgebung (105); Erstellen (503) einer Schallfeldhypothese aufgrund der empfangenen Audiosignale (109); Berechnen (504) fester Strahlformerkoeffizienten aufgrund der empfangenen Audiosignale (109); Bestimmen (505) der Modelle der Kovarianzmatrix auf Basis der Schallfeldhypothese; Berechnen (506) einer Kovarianzmatrix aufgrund der empfangenen Audiosignale (109); Schätzen (507) der Energie der Schallquellen zur Ermittlung einer Lösung, die den Unterschied zwischen den bestimmten Kovarianzmatrixmodellen und der errechneten Kovarianzmatrix minimiert; Berechnen (508) und Anwenden von Nachfilter-Koeffizienten aufgrund der geschätzten Energie; und Erzeugen einer Audioausgabe aufgrund der empfangenen Audiosignale (109) und den Nachfilter-Koeffizienten.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 16, das viele Schallfeldhypothesen zur Erzeugung vieler Ausgangssignale enthält.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 17, wobei die vielen erzeugten Ausgangssignale verglichen werden und das Ausgangssignal mit dem höchsten Rauschabstand unter diesen als das finale Ausgangssignal gewählt wird.
Nicht-flüchtiges computerlesbares Medium nach einem der Ansprüche 16 bis 18, wobei die Bestimmung der Energie auf der Frobenius-Norm basiert.
Nicht-flüchtiges computerlesbares Medium nach Anspruch 19, wobei die Frobenius-Norm mit einer Hermitischen Symmetrie der Kovarianzmatrizen berechnet wird.