DE102012107952A1

DE102012107952A1 - Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte

Info

Publication number: DE102012107952A1
Application number: DE201210107952
Authority: DE
Inventors: Marco Jeub; Christoph Nelke; Christian Herglotz; Peter Vary; Christophe Beaugeant
Original assignee: Intel Mobile Communications GmbH
Current assignee: Intel Deutschland GmbH
Priority date: 2011-08-29
Filing date: 2012-08-29
Publication date: 2013-02-28
Also published as: CN104053092A; US20130054231A1; CN104053092B; US8903722B2; CN102969001B; CN102969001A

Abstract

Ein Verfahren, System und Computerprogramm-Produkt, um Rauschen in einem Rauschreduzierungssystem zu behandeln, aufweisend: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren der Rauschabschätzung im ersten Signal und zweiten Signal; das Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.

Description

Verschiedene Ausführungsformen beziehen sich allgemein auf Rauschreduzierungssysteme wie beispielsweise bei Kommunikationsgeräten. Insbesondere beziehen sich die verschiedenen Ausführungsformen auf eine Rauschreduzierung in Dual-Mikrofon-Kommunikationsgeräten.
Rauschreduzierung ist der Prozess, Rauschen aus einem Signal zu entfernen. Ein Rauschen kann irgendein unerwünschter Klang sein, der im Signal vorhanden ist.
Rauschreduzierungstechniken sind konzeptionell unabhängig vom Signal, das verarbeitet wird, sehr ähnlich, jedoch kann das a priori Wissen der Eigenschaften eines erwarteten Signals bedeuten, dass die Implementierungen dieser Techniken abhängig von der Art des Signals stark variieren.
Alle Aufzeichnungsgeräte, sowohl analog als auch digital, besitzen Merkmale, die sie für Rauschen anfällig machen. Rauschen kann zufälliges oder weißes Rauschen ohne Kohärenz sein, oder Rauschen, das durch einen Mechanismus des Gerätes oder durch Verarbeitungsalgorithmen eingeführt wird.
In elektronischen Aufzeichnungsgeräten ist eine Form von Rauschen ein Zischton, der durch zufällige Elektronen verursacht wird, die, stark beeinflusst von Wärme, von ihrem bezeichneten Weg abweichen. Diese Streuelektronen können die Spannung des Ausgangssignals beeinflussen und somit ein erfassbares Rauschen erzeugen.
Algorithmen zur Reduzierung des Hintergrundrauschens werden in vielen Sprachkommunikationssystemen verwendet. Mobiltelefone und Hörgeräte haben integrierte Ein- oder Mehrkanalalgorithmen, um die Sprachqualität in schwierigen Umfeldern zu verbessern. Unter solchen Algorithmen ist ein Verfahren das spektrale Subtraktionsverfahren, welches generell die Einschätzung der Leistungsspektraldichte (PSD) des ungewünschten Hintergrundrauschens erfordert. Unterschiedliche Einkanal-PSD-Rauschabschätzer sind vorgeschlagen worden. Mehrkanal-PSD-Rauschabschätzer für Systeme mit zwei oder mehr Mikrofonen wurden nicht sehr intensiv studiert.
In verschiedenen Ausführungsbeispielen wird ein Verfahren zum Reduzieren von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das Verfahren aufweist: Empfangen eines ersten Signals an einem ersten Mikrofon; Empfangen eines zweiten Signals an einem zweiten Mikrofon; Identifizieren einer Rauschabschätzung im ersten Signal und zweiten Signal; Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des ersten Signals und einer Leistungsspektraldichte des zweiten Signals; und Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
In einer Ausgestaltung kann das Identifizieren der Übertragungsfunktion aufweisen: Verwenden eines Verhältnisses der Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zur Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
In noch einer Ausgestaltung kann die Verstärkung null sein, wenn der Leistungspegel des zweiten Signals größer ist als der Leistungspegel des ersten Signals.
In noch einer Ausgestaltung kann das Identifizieren einer Abschätzung des Rauschens aufweisen: Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und Identifizieren der Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt.
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwenden, wobei Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, und ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Übertragungsfunktion des Rauschreduzierungssystems die Gleichung:
verwenden, wobei H(λ, μ) die Übertragungsfunktion ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Verstärkung die Gleichung:
verwenden, wobei H(λ, μ) die Übertragungsfunktion ist, σ ^ 2 / N(λ, μ) die Rauschabschätzung ist, Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, und G(λ, μ) die Verstärkung ist.
In noch einer Ausgestaltung kann Δϕ(λ, μ) = max(ϕ_X1X1(λ, μ) – ϕ_X2X2(λ, μ), 0) sein.
In verschiedenen Ausführungsbeispielen wird ein Verfahren zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das Verfahren aufweist: Empfangen eines ersten Signals an einem ersten Mikrofon; Empfangen eines zweiten Signals an einem zweiten Mikrofon; Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
In einer Ausgestaltung kann der Schritt des Identifizierens der normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwenden, wobei Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, β ein Gewichtungsfaktor ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist und ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
In noch einer Ausgestaltung kann das Verfahren ferner aufweisen: Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
In verschiedenen Ausführungsbeispielen wird ein Verfahren zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das Verfahren aufweist: Empfangen eines ersten Signals an einem ersten Mikrofon; Empfangen eines zweiten Signals an einem zweiten Mikrofon; Identifizieren einer Kohärenz zwischen dem ersten Signal und dem zweiten Signal; und Identifizieren einer Rauschabschätzung unter Verwendung der Kohärenz.
In einer Ausgestaltung kann der Schritt des Identifizierens der Kohärenz die Gleichung:
verwenden, wobei Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und dem zweiten Signal ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Rauschabschätzung die Gleichung:
verwenden, wobei ϕ_NN(λ, μ) die Rauschabschätzung ist, Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
In noch einer Ausgestaltung kann das Verfahren ferner aufweisen: Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
In verschiedenen Ausführungsbeispielen wird ein System zum Reduzieren von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das System aufweist: ein erstes Mikrofon, das konfiguriert ist, um ein erstes Signal zu empfangen; ein zweites Mikrofon, das konfiguriert ist, um ein zweites Signal zu empfangen; ein Rauschabschätzungsmodul, das konfiguriert ist, um eine Rauschabschätzung im ersten Signal und zweiten Signal zu identifizieren; ein Sprachverbesserungsmodul, das konfiguriert ist, um eine Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals zu identifizieren und eine Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion zu identifizieren.
In einer Ausgestaltung kann das Sprachverbesserungsmodul, das die Übertragungsfunktion identifiziert, weiter konfiguriert sein, ein Verhältnis einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zu einer Leistungsspektraldichte des ersten Signals zu verwenden, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
In noch einer Ausgestaltung kann das Sprachverbesserungsmodul, das die Übertragungsfunktion des Rauschreduzierungssystems identifiziert, die Gleichung:
verwenden, wobei ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, H(λ, μ) die Übertragungsfunktion ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
In verschiedenen Ausführungsbeispielen wird ein System zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das System aufweist: ein erstes Mikrofon, das konfiguriert ist, um ein erstes Signal zu empfangen; ein zweites Mikrofon, das konfiguriert ist, um ein zweites Signal zu empfangen; ein Rauschabschätzungsmodul, das konfiguriert ist, um eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals zu identifizieren; und das Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
In einer Ausgestaltung kann das System kann ferner aufweisen ein Sprachverbesserungsmodul, das konfiguriert ist, um eine Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals zu identifizieren, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
In verschiedenen Ausführungsbeispielen wird ein System zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das System aufweist: ein erstes Mikrofon, das konfiguriert ist, ein erstes Signal zu empfangen; ein zweites Mikrofon, das konfiguriert ist, ein zweites Signal zu empfangen; ein Rauschabschätzungsmodul, das konfiguriert ist, um eine Kohärenz zwischen dem ersten Signal und dem zweiten Signal zu identifizieren und eine Rauschabschätzung unter Verwendung der Kohärenz zu identifizieren.
In einer Ausgestaltung kann das Rauschabschätzungsmodul, das die Kohärenz identifiziert, die Gleichung:
verwenden, wobei Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
In noch einer Ausgestaltung kann das Rauschabschätzungsmodul, welches das Rauschen identifiziert, die Gleichung:
verwenden, wobei ϕ_NN(λ, μ) die Rauschabschätzung ist, Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
In verschiedenen Ausführungsbeispielen wird ein Computerprogramm-Produkt bereitgestellt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren einer Rauschabschätzung im ersten Signal und zweiten Signal; und das Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des ersten Signals und einer Leistungsspektraldichte des zweiten Signals; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
In einer Ausgestaltung kann das Identifizieren der Übertragungsfunktion aufweisen das Verwenden eines Verhältnisses der Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zur Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
In noch einer Ausgestaltung können Anweisungen für das Identifizieren einer Abschätzung von Rauschen Anweisungen aufweisen für: das Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und das Identifizieren der Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt.
In noch einer Ausgestaltung können die Anweisungen für das Identifizieren der Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwenden, wobei Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, und
die Leistungsspektraldichte des zweiten Signals ist.
In noch einer Ausgestaltung können die Anweisungen für das Identifizieren der Übertragungsfunktion des Rauschreduzierungssystems die Gleichung:
verwenden, wobei H(λ, μ) die Übertragungsfunktion ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
In verschiedenen Ausführungsbeispielen wird ein Computerprogramm-Produkt bereitgestellt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und das Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
In verschiedenen Ausführungsbeispielen wird ein Computerprogramm-Produkt bereitgestellt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren einer Kohärenz zwischen dem ersten Signal und dem zweiten Signal; und das Identifizieren einer Rauschabschätzung unter Verwendung der Kohärenz.
In einer Ausgestaltung können die Anweisungen für das Identifizieren der Kohärenz die Gleichung:
verwenden, wobei Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
In noch einer Ausgestaltung können die Anweisungen für das Identifizieren der Rauschabschätzung die Gleichung:
verwenden, wobei ϕ_NN(λ, μ) die Rauschabschätzung ist, Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann
In den Zeichnungen verweisen gleiche Bezugsnummern generell auf gleiche Teile überall in den verschiedenen Ansichten. Die Zeichnungen nicht sind notwendigerweise maßstäblich, die Betonung ist stattdessen generell auf die Veranschaulichung der Prinzipien der Erfindung gelegt worden. In der folgenden Beschreibung werden verschiedene Ausführungsformen unter Bezugnahme auf die folgenden Zeichnungen beschrieben, in denen:
Es zeigen
1 eine Ansicht eines Geräts gemäß einer Ausführungsform ist;
2 eine Ansicht eines Geräts gemäß einer Ausführungsform ist;
3 ein Signalmodell gemäß einer Ausführungsform ist;
4 ein Prinzipschaltbild eines Sprachverbesserungssystems gemäß einer Ausführungsform ist;
5 ein Prinzipschaltbild eines Rauschreduzierungssystems gemäß einer Ausführungsform ist;
6 ein Ablaufdiagramm ist, um Rauschen in einem Rauschreduzierungssystem gemäß einer Ausführungsform zu reduzieren;
7 ein Ablaufdiagramm ist, um Rauschen in einem Rauschreduzierungssystem gemäß einer Ausführungsform zu identifizieren; und
8 ein Ablaufdiagramm ist, um Rauschen in einem Rauschreduzierungssystem gemäß einer Ausführungsform zu identifizieren.
Die folgende ausführliche Beschreibung nimmt auf die begleitenden Zeichnungen Bezug, die anhand einer Veranschaulichung spezifische Details und Ausführungsformen zeigen, in denen die Erfindung praktiziert werden kann. Das Wort „exemplarisch“ wird hier in der Bedeutung „als ein Beispiel, Fall oder Veranschaulichung“ verwendet. Irgendeine Ausführungsform oder Konstruktion, die hier als „exemplarisch“ beschrieben wird, ist nicht zwangsläufig als bevorzugt oder vorteilhaft gegenüber anderen Ausführungsformen oder Konstruktionen auszulegen.
Zu beachten ist, dass in dieser Spezifikation Bezugnahmen auf verschiedene Merkmale (z.B. Elemente, Strukturen, Module, Komponenten, Schritte, Operationen, Eigenschaften, usw.), die in „einer Ausführungsform“, „beispielhafter Ausführungsform“, „einer Ausführungsform“, „einer anderen Ausführungsform“, „einigen Ausführungsformen“, „verschiedenen Ausführungsformen“, „anderen Ausführungsformen“, „unterschiedlichen Ausführungsformen“, „alternativen Ausführungsform“ und Ähnlichem enthalten sind, dazu beabsichtigt sind, zu bedeuten, dass jegliche solche Merkmale in einer oder mehreren Ausführungsformen der vorliegenden Offenbarung enthalten sind und in den gleichen Ausführungsformen kombiniert sein können oder auch nicht.
Die verschiedenen Ausführungsformen berücksichtigen und erkennen, dass existierende Algorithmen zur Rauschreduzierung von einer hohen rechnerischen Komplexität sind, einen hohen Speicherbedarf haben und Schwierigkeiten dabei haben, nicht ortsfestes Rauschen einzuschätzen. Des Weiteren berücksichtigen und erkennen die verschiedenen Ausführungsformen, dass irgendwelche vorhandenen Algorithmen, die fähig sind, nicht ortsfestes Rauschen nachzuverfolgen, nur einkanalig sind. Jedoch sind selbst einkanalige Algorithmen meistens nicht fähig, nicht ortsfestes Rauschen nachzuverfolgen.
Des Weiteren stellen die verschiedenen Ausführungsformen einen Zweikanal-PSD-Rauschabschätzer bereit, der Wissen über die Störfeld-Kohärenz einsetzt. Außerdem stellen die verschiedenen Ausführungsformen einen Prozess mit niedriger rechnerischer Komplexität bereit, und der Prozess kann mit anderen Sprachverbesserungssystemen kombiniert werden.
Des Weiteren stellen die verschiedenen Ausführungsformen einen Prozess für eine skalierbare Erweiterung eines existierenden einkanaligen Rauschunterdrückungssystems durch Ausnutzen eines sekundären Mikrofonkanals für eine robustere Rauschabschätzung bereit. Die verschiedenen Ausführungsformen bieten ein zweikanaliges Sprachverbesserungssystem, indem sie a priori Wissen der Störfeld-Kohärenz verwenden, um ungewünschtes Hintergrundrauschen in diffusen Störfeldbedingungen zu reduzieren.
Das Vorangehende hat eher breit die Merkmale und technischen Vorteile der unterschiedlichen veranschaulichenden Ausführungsformen dargestellt, damit die folgende ausführliche Beschreibung der Erfindung besser verstanden werden kann. Zusätzliche Funktionen und Vorteile der unterschiedlichen veranschaulichenden Ausführungsformen werden im Folgenden beschrieben. Es ist für fachkundige Personen selbstverständlich, dass die Konzeption und die spezifischen offenbarten Ausführungsformen leicht als eine Basis verwendet werden können, um andere Strukturen oder Prozesse zu modifizieren oder neu zu entwerfen und die gleichen Zwecke der unterschiedlichen veranschaulichenden Ausführungsformen auszuführen. Es sollte für fachkundige Personen auch offensichtlich sein, dass solche äquivalenten Ausführungen nicht vom Sinn und Umfang der Erfindung, wie sie in den angefügten Ansprüchen beschrieben sind, abweichen.
1 ist eine Ansicht eines Geräts gemäß einer veranschaulichenden Ausführungsform. Gerät 2 ist ein Teilnehmerendgerät mit den Mikrofonen 4 und 6. Gerät 2 kann ein Kommunikationsgerät, Mobiltelefon oder ein anderes geeignetes Gerät mit Mikrofonen sein. Bei unterschiedlichen Ausführungsformen kann Gerät 2 mehr oder weniger Mikrofone aufweisen. Gerät 2 kann ein Smartphone, Tablet-PC, Headset, Personal-Computer oder eine andere Art von geeignetem Gerät sein, das Mikrofone verwendet, um Klänge zu empfangen. Bei dieser Ausführungsform sind die Mikrofone 4 und 6 ca. 2 cm auseinander gezeigt. Jedoch können die Mikrofone bei anderen Ausführungsformen in verschiedenen Entfernungen platziert sein. Des Weiteren können die Mikrofone 4 und 6 sowie andere Mikrofone auf jeder Fläche des Gerätes 2 platziert sein oder sie können drahtlos verbunden sein und sich in der Ferne befinden.
2 ist eine Ansicht eines Geräts gemäß einer veranschaulichenden Ausführungsform. Gerät 8 ist ein Teilnehmerendgerät mit den Mikrofonen 10 und 12. Gerät 8 kann ein Kommunikationsgerät, Mobiltelefon oder ein anderes geeignetes Gerät mit Mikrofonen sein. Bei unterschiedlichen Ausführungsformen kann Gerät 8 mehr oder weniger Mikrofone aufweisen. Gerät 8 kann ein Smartphone, Tablet-PC, Headset, Personal-Computer oder eine andere Art von geeignetem Gerät sein, das Mikrofone verwendet, um Klänge zu empfangen. Bei dieser Ausführungsform sind die Mikrofone 10 und 12 ca. 102 cm auseinander gezeigt. Jedoch können die Mikrofone bei anderen Ausführungsformen in verschiedenen Entfernungen und Anordnungen platziert sein. Des Weiteren können die Mikrofone 10 und 12 sowie andere Mikrofone auf jeder Fläche von Gerät 8 platziert sein oder sie können drahtlos verbunden sein und sich in der Ferne befinden.
3 ist ein Signalmodell gemäß einer veranschaulichenden Ausführungsform. Signalmodell 14 ist ein zweikanaliges Signalmodell. Die zwei Mikrofonsignale xp(k) und xs(k) sind die Eingänge des zweikanaligen Sprachverbesserungssystems und sie sind mit reinen Sprachsignalen s(k) und additiven Hintergrundrauschsignalen n1(k) und n2(k) durch das Signalmodell 14 mit dem diskreten Zeitindex k verbunden. Die akustischen Übertragungsfunktionen zwischen der Quelle und den Mikrofonen sind durch H1(ejΩ) und H2(ejΩ) bezeichnet. Die normalisierte Kreisfrequenz ist gegeben durch Ω = 2πf/fs mit Frequenzvariable f und Abtastfrequenz fs. Die Quelle an jedem Mikrofon ist jeweils s1(k) und s2(k). Sobald ein Rauschen zur Quelle hinzugefügt wird, wird es von jedem Mikrofon als xp(k) und xs(k), hier auch als x1(k) und x2(k) bezeichnet, aufgenommen.
4 ist ein Prinzipschaltbild eines Sprachverbesserungssystems gemäß einer veranschaulichenden Ausführungsform. Sprachverbesserungssystem 16 ist ein zweikanaliges Sprachverbesserungssystem. Bei anderen Ausführungsformen kann Sprachverbesserungssystem 16 mehr als zwei Kanäle aufweisen.
Das Sprachverbesserungssystem 16 weist die Segmentierungsfenstertechnikeinheiten 18 und 20 auf. Die Segmentierungsfenstertechnikeinheiten 16 und 18 teilen die Eingangssignale xp(k) und xs(k) in überlappende Frames der Länge L auf. Hier kann xp(k) und xs(k) auch als x1(k) und x2(k) bezeichnet werden. Die Segmentierungsfenstertechnikeinheiten 16 und 18 können ein Hann-Fenster oder ein anderes geeignetes Fenster anwenden. Nach der Fensterung transformieren die Zeitfrequenzanalyseeinheiten 22 und 24 die Frames der Länge M in den spektralen Kurzzeitbereich. Bei einer oder mehreren Ausführungsformen verwenden die Zeitfrequenzanalyseeinheiten 22 und 24 eine schnelle Fourier-Transformation (FFT). Bei anderen Ausführungsformen können andere Arten der Zeitfrequenzanalyse verwendet sein. Die jeweiligen Ausgangsspektren sind durch Xp(λ, µ) und Xs(λ, µ) bezeichnet. Das diskrete Frequenzbin und der Frame-Index sind jeweils durch µ und λ bezeichnet.
Die Rauschleistungsspektraldichte(PSD)-Abschätzungseinheit 26 berechnet die Rauschleistungsspektraldichte-Abschätzung
für ein Frequenzbereich-Sprachverbesserungssystem. Die Rauschleistungsspektraldichte-Abschätzung kann berechnet werden, indem xp(k) und xs(k) oder im Frequenzbereich Xp(λ, µ) und Xs(λ, µ) verwendet werden. Die Rauschleistungsspektraldichte kann auch als Autoleistungsspektraldichte bezeichnet werden.
Die spektrale Verstärkungsberechnungseinheit 28 berechnet die spektralen Gewichtungsverstärkungen G(λ, µ). Die spektrale Verstärkungsberechnungseinheit 28 verwendet die Rauschleistungsspektraldichteabschätzung und die Ausgangsspektren Xp(λ, µ) und Xs(λ, µ).
Das erweiterte Spektrum Ŝ(λ, µ) ist durch die Multiplikation der Koeffizienten Xp(λ, µ) mit den spektralen Gewichtungsverstärkungen G(λ, µ) gegeben. Die inverse Zeit-Frequenzanalyseeinheit 30 wendet eine invertierte schnelle Fourier-Transformation an; dann wird ein Overlap-Add durch die Overlap-Add-Einheit 32 angewendet, um das erweiterte Zeitbereich-Signal ŝ(k) zu erzeugen. Die inverse Zeit-Frequenzanalyseeinheit 30 kann eine invertierte schnelle Fourier-Transformation oder eine andere Art von inverser Zeit-Frequenzanalyse verwenden.
Es sollte beachtet werden, dass ein Filtern im Zeitbereich mittels eines Filterbank-Ausgleichers oder der Verwendung irgendeiner Art von Analyse- oder Synthese-Filterbank auch möglich ist.
5 ist ein Prinzipschaltbild eines Rauschreduzierungssystems gemäß einer veranschaulichenden Ausführungsform. Das Rauschreduzierungssystem 34 ist ein System, bei dem ein oder mehrere Geräte Signale für die Verarbeitung durch Mikrofone empfangen können. Das Rauschreduzierungssystem 34 kann ein Teilnehmerendgerät 36, eine Sprachquelle 38 und eine Vielzahl von Rauschquellen 40 aufweisen. Bei anderen Ausführungsformen weist das Rauschreduzierungssystem 34 mehr als ein Teilnehmerendgerät 36 und/oder mehr als eine Sprachquelle 38 auf. Das Teilnehmerendgerät 36 kann ein Beispiel einer Implementierung des Teilnehmerendgeräts 8 von 2 und/oder des Teilnehmerendgeräts 2 von 1 sein.
Die Sprachquelle 38 kann eine gewünschte akustische Quelle sein. Die gewünschte akustische Quelle ist die Quelle, die ein akustisches Signal erzeugt, das wünschenswert ist. Beispielsweise kann die Sprachquelle 38 eine Person sein, die gleichzeitig in das erste Mikrofon 42 und das zweite Mikrofon 44 spricht. Im Gegensatz dazu können die Vielzahl von Rauschquellen 40 unerwünschte akustische Quellen sein. Die Vielzahl von Rauschquellen 40 kann Hintergrundrauschen sein. Beispielsweise können die Vielzahl von Rauschquellen 40 ein Automotor, ein Ventilator oder andere Arten von Hintergrundrauschen sein. Bei einer oder mehreren Ausführungsformen kann die Sprachquelle 38 dem ersten Mikrofon 42 näher sein als dem zweiten Mikrofon 44. Bei unterschiedlichen vorteilhaften Ausführungsformen kann Sprachquelle 38 abstandsgleich zum ersten Mikrofon 42 und zum zweiten Mikrofon 44 sein oder sich in der Nähe des zweiten Mikrofons 44 befinden.
Die Sprachquelle 38 und die Vielzahl von Rauschquellen 40 emittieren Audiosignale, die gleichzeitig oder mit einer bestimmten Zeitverzögerung aufgrund der unterschiedlichen Schallwellenausbreitungszeit zwischen den Quellen und dem ersten Mikrofon 42 und den Quellen und dem zweiten Mikrofon 44 durch das erste Mikrofon 42 und das zweite Mikrofon 44 jeweils als ein Teil eines kombinierten Signals empfangen werden. Das erste Mikrofon 42 kann einen Teil des kombinierten Signals in Form des ersten Signals 46 empfangen. Das zweite Mikrofon 44 kann einen Teil des kombinierten Signals in Form des zweiten Signals 48 empfangen.
Das Teilnehmerendgerät 36 kann verwendet werden, um Sprache von einer Person zu empfangen und dann diese Sprache zu einem anderen Teil des Teilnehmerendgeräts zu übertragen. Während des Empfangs der Sprache kann ungewünschtes Hintergrundrauschen auch von der Vielzahl von Rauschquellen 40 empfangen werden. Die Vielzahl von Rauschquellen 40 bildet den Teil des ersten Signals 46 und des zweiten Signals 48, der unerwünschter Klang sein kann. Hintergrundrauschen, das von der Vielzahl von Rauschquellen 40 erzeugt werden, können unerwünscht sein und die Qualität und Klarheit der Sprache reduzieren. Deshalb stellt das Rauschreduzierungssystem 34 Systeme, Verfahren und Computerprogramm-Produkte bereit, um Hintergrundrauschen zu reduzieren und/oder zu entfernen, die vom ersten Mikrofon 42 und dem zweiten Mikrofon 44 empfangen werden.
Eine Abschätzung des Hintergrundrauschens kann identifiziert und verwendet werden, um unerwünschtes Rauschen zu entfernen und/oder zu reduzieren. Das Rauschabschätzungsmodul 50 befindlich im Teilnehmerendgerät 36, identifiziert die Rauschabschätzung 52 im ersten Signal 46 und dem zweiten Signal 48, indem ein Leistungspegel-Gleichheits-(PLE)-Algorithmus verwendet wird, der Differenzen der Leistungsspektraldichte zwischen dem ersten Mikrofon 42 und dem zweiten Mikrofon 44 ausnutzt. Die Gleichung lautet: Gleichung 1
wobei Δϕ(λ, μ) die normalisierte Differenz 52 in der Leistungsspektraldichte 54 des ersten Signals 46 und der Leistungsspektraldichte 56 des zweiten Signals 48 ist, β ist ein Gewichtungsfaktor ist,
ϕ_X1X1(λ, μ) die Leistungsspektraldichte 54 des ersten Signals 46 ist, und ϕ_X2X2(λ, μ) die Leistungsspektraldichte 56 des zweiten Signals 48 ist. ϕ_X1X1(λ, μ) und ϕ_X2X2(λ, μ) können entsprechend X1(k) und X2(k) repräsentieren. Bei unterschiedlichen Ausführungsformen kann der Absolutwert in Gleichung 1 genommen werden oder nicht.
Die normalisierte Differenz 52 kann die Differenz der Leistungspegel ϕ_X1X1(λ, μ) und ϕ_X2X2(λ, μ) relativ zur Summe von ϕ_X1X1(λ, μ) und ϕ_X2X2(λ, μ) und sein. Das erste Signal 46 und das zweite Signal 48 können unterschiedliche Audiosignale und Klänge von unterschiedlichen Quellen sein. Die Leistungsspektraldichte 54 und Leistungsspektraldichte 56 können eine positive tatsächliche Funktion einer Frequenzvariable verbunden mit einem stationären stochastischen Prozess sein, oder eine deterministische Zeitfunktion, welche die Dimensionen Leistung pro Hertz (Hz) oder Energie pro Hertz aufweist. Die Leistungsspektraldichte 54 und die Leistungsspektraldichte 56 können auch als das Spektrum eines Signals bezeichnet werden. Die Leistungsspektraldichte 54 und Leistungsspektraldichte 56 können den Inhalt der Frequenz eines stochastischen Prozesses messen und dabei helfen Periodizität zu identifizieren.
Unterschiedliche Ausführungsformen berücksichtigten unterschiedliche Bedingungen. Beispielsweise berücksichtigen eine oder mehrere Ausführungsformen, dass die Vielzahl von Rauschquellen 40 Rauschen erzeugt, das homogen ist, wobei der Rauschleistungspegel in beiden Kanälen gleich ist. Es ist nicht relevant, ob das Rauschen in diesen Ausführungsformen kohärent oder diffus ist. Bei anderen Ausführungsformen kann es relevant sein, dass das Rauschen kohärent oder diffus ist.
Bei verschiedenen Eingängen wird die Gleichung abweichende Resultate aufweisen. Wenn zum Beispiel nur diffuses Hintergrundrauschen vorhanden ist, wird Δϕ(λ, μ) nahe null sein, da die Aufnahmeleistungspegel fast gleich sind. Deshalb kann der Eingang am ersten Mikrofon 42 als das Rauschen-PSD verwendet werden. Zweitens wird im Falle, dass einfach reine Sprache vorhanden ist und die Leistung der Sprache in Mikrofon 44 im Vergleich zum ersten Mikrofon 42 sehr niedrig ist, der Wert von Δϕ(λ, μ) nahe eins sein. Als Resultat wird die Bewertung des letzten Frames behalten. Wenn der Eingang sich zwischen diesen zwei oben gezeigten Extremen befindet, wird eine Rauschabschätzung unter Verwendung des zweiten Mikrofons 44 als Annäherung der Rauschabschätzung 52 verwendet. Die unterschiedlichen Herangehensweisen werden basierend auf dem spezifizierten Bereich 53 verwendet. Der spezifizierte Bereich 53 liegt zwischen ϕmin und ϕmax. Die drei unterschiedlichen Herangehensweisen werden in den folgenden Gleichungen abhängig davon, wo sich im spezifizierten Bereich 53 die normalisierte Differenz 52 befindet, gezeigt:
Wenn Δϕ(λ, μ) < ϕmin dann
Gleichung 1.1

σ 2 / N(λ, μ) = α·σ 2 / N(λ – 1, μ) + (1 – α)·|X₁|²(λ, μ) verwenden, wobei
|X₁|²(λ, μ) die Kreuzleistungsspektraldichte 58 des ersten Signals 46 und des zweiten Signals 48 ist;
Wenn Δϕ(λ, μ) > ϕmax dann σ 2 / N(λ, μ) = σ 2 / N(λ – 1, μ) verwenden, in unterschiedlichen Ausführungsformen können andere Verfahren verwendet sein, was auch in Zeiträumen von Sprachanwesenheit funktioniert;
wenn ϕmin < Δϕ(λ, μ) dann

Gleichung 1.2

σ 2 / N(λ, μ) = α·σ 2 / N(λ – 1, μ) + (1 – α)·|X₂|²(λ, μ) verwenden,
wobei X₁ der Zeitbereich-Koeffizient des Signals x1(k) und X2 der Zeitbereich-Koeffizient des Signals x2(k) ist.

Feste oder adaptive Werte können für ϕmin, ϕmax, und α. verwendet werden. Der Ausdruck σ 2 / N(λ, μ) kann die Rauschabschätzung 52 sein. Die Werte von α. in Gleichung 1.1 und Gleichung 1.2 können unterschiedlich oder gleich sein. Der Ausdruck λ kann als der diskrete Frame-Index definiert werden. Der Ausdruck μ kann als der diskrete Frequenzindex definiert werden. Der Ausdruck α kann als der Glättungsfaktor definiert werden.
Bei Sprachverarbeitungsanwendungen kann das Sprachsignal in Frames (λ) aufgeteilt sein. Diese Frames werden dann transformiert in den Frequenzbereich (μ), das Kurzzeitspektrum X1. Um ein zuverlässigeres Maß des Leistungsspektrums eines Signals zu erhalten, werden die Kurzzeitspektren rekursiv über aufeinanderfolgende Frames geglättet. Die Glättung über die Zeit stellt die PSD-Abschätzungen in Gleichung 1.3–1.5 bereit.
Bei einigen Ausführungsformen wird die Gleichung in der spektralen Kurzzeitdomäne realisiert und die erforderlichen PSD-Ausdrücke in Gleichung 1 werden rekursiv mittels der diskreten Kurzzeitabschätzungen gemäß den folgenden Gleichungen abgeschätzt: Gleichung 1.3
Gleichung 1.4
Gleichung 1.5
wobei β ein fester oder adaptiver Glättungsfaktor ist und 0 ≤ β ≤ 1 ist, und * bezeichnet die konjugierte Zahl.
Des Weiteren ist in unterschiedlichen Ausführungsformen eine Kombination mit alternativen einkanaligen oder zweikanaligen PSD-Rauschabschätzern auch möglich. Abhängig vom Abschätzer kann diese Kombination auf dem Minimum, Maximum oder irgendeiner Art von Durchschnitt, pro Frequenzband und/oder einer frequenzabhängigen Kombination basieren.
Bei einer oder mehreren Ausführungsformen kann das Rauschabschätzungsmodul 50 ein anderes System und Verfahren zur Identifizierung der Rauschabschätzung 52 verwenden. Das Rauschabschätzungsmodul 50 kann die Kohärenz 60 zwischen dem ersten Signal 46 und dem zweiten Signal 48 identifizieren und dann die Rauschabschätzung 52 unter Verwendung von Kohärenz 60 identifizieren.
Die unterschiedlichen veranschaulichenden Ausführungsformen erkennen und berücksichtigen, dass gängige Methoden Abschätzer für die Sprach-PSD basierend auf der Störfeld-Kohärenz und abgeleitet und integriert in einer Wiener-Filter-Regel zur Reduzierung des diffusen Hintergrundrauschens verwenden. Eine oder mehrere veranschaulichende Ausführungsformen stellen eine PSD-Rauschabschätzung für eine vielseitige Anwendung in jeder spektralen Rauschunterdrückungsregel bereit. Die komplexe Kohärenz zwischen dem ersten Signal 46 und dem zweiten Signal 48 ist im Frequenzbereich durch die folgende Gleichung definiert: Gleichung 2
Wenn die Rauschquellen n1(k) und n2(k) von 3 mit den Sprachsignalen s(k) von 3 unkorreliert sind, lesen sich in unterschiedlichen veranschaulichenden Ausführungsformen die Autoleistungsspektraldichte und Kreuzleistungsspektraldichte am Eingang des Sprachverbesserungssystems xp(k) und xs(k) als: ϕ_X1X1 = ϕ_SS + ϕ_n1n1; ϕ_X2X2 = ϕ_SS + ϕ_n2n2; und ϕ_X1X2 = ϕ_SS + ϕ_n1n2, wobei ϕ_SS = ϕ_S1S1 = ϕ_S2S2; und wobei ϕ_SS die Leistungsspektraldichte der Sprache ist, ϕ_n1n1 die Autoleistungsspektraldichte des Rauschens am ersten Mikrofon 42 ist, ϕ_n2n2 die Autoleistungsspektraldichte des Rauschens am zweiten Mikrofon 44 ist und ϕ_n1n2 die Kreuzleistungsspektraldichte des Rauschens beider Mikrofone ist.
Wenn angewandt auf Gleichung 2, ist die Kohärenz der Sprachsignale Γ_X1X2(λ, μ) = 1. In unterschiedlichen Ausführungsformen kann die Kohärenz 60 nahe 1 sein, wenn die Entfernung Klangquelle zu Mikrofon kleiner ist als eine kritische Entfernung. Die kritische Entfernung kann als die Entfernung von der Quelle definiert werden, bei der die Schallenergie aufgrund der Komponente des direkten Weges des Signals zur Schallenergie aufgrund des Widerhalls des Signals gleich ist.
Außerdem können verschiedene Ausführungsformen berücksichtigen, dass das Störfeld als diffus charakterisiert ist, wobei die Kohärenz des ungewünschten Hintergrundrauschens nm(k) abgesehen von niedrigen Frequenzen in der Nähe von null ist. Des Weiteren können verschiedene Ausführungsformen berücksichtigen, dass ein homogenes diffuses Störfeld in ϕ_n1n1 = ϕ_n2n2 = σ 2 / N resultiert. In einigen der nachfolgenden Gleichungen können die Kennziffern von Frame und Frequenz (λ und µ) zur Klarheit ausgelassen sein. Bei verschiedenen Ausführungsformen kann Gleichung 2 wie folgt neu geordnet werden:
wobei Γ_n1n2 ein willkürliches Störfeldmodell sein kann, wie beispielsweise
in einem unkorrelierten Störfeld, wo Γ_X1X2(λ, μ) = 0, oder
in einem idealen homogenen kugelförmig isotropen Störfeld, wo
wobei d_mic die Entfernung zwischen zwei Kugelmikrofonen bei der Frequenz f und Schallgeschwindigkeit c ist.
Deshalb kann die Autoleistungsspektraldichte formuliert werden als: ϕ_X1X1 = ϕ_SS + σ 2 / N; und ϕ_X2X2 = ϕ_SS + σ 2 / N.
Außerdem kann die Kreuzleistungsspektraldichte formuliert werden als: ϕ_X1X2 = ϕ_SS + Γ_n1n2·σ 2 / N.
Mit dem geometrischen Mittel der zwei Autoleistungsspektraldichten als:
und der Neuanordnung der Kreuzleistungsspektraldichte zu: ϕ_SS = ϕ_X1X2 – Γ_n1n2·σ 2 / N kann die folgende Gleichung formuliert werden:
Basierend auf der oben genannten Gleichung ist der Istwert der PSD-Rauschabschätzung: Gleichung 3
wobei 1 – Re[Γ_n1n2(λ, μ)] > 0 für den Nenner sichergestellt werden muss, beispielsweise ein oberer Grenzwert der Kohärenz 60 von Γ_max = 0.99. Die Funktion {.} gibt den Realteil ihres Arguments zurück. Bei unterschiedlichen Ausführungsformen können die Realteile, die in der Gleichung 3 genommen wurden, nicht genommen werden. Des Weiteren können irgendwelche Realteile, die in einigen der Gleichung hierin genommen wurden, optional sein. Des Weiteren können in unterschiedlichen Ausführungsformen die unterschiedlichen PSD-Elemente jeweils gleichmäßig oder ungleichmäßig gewichtet sein.
Sobald das Rauschabschätzungsmodul 50 die Rauschabschätzung 52 identifiziert, kann das Sprachverbesserungsmodul 62 die Verstärkung 64 des Rauschreduzierungssystems 34 identifizieren. Die Verstärkung 64 kann die spektralen Verstärkungen sein, die am ersten Signal 46 und dem zweiten Signal 48 während der Verarbeitung durch das Rauschreduzierungssystem 34 angewandt wurden. Die Gleichung für die Verstärkungen 64 verwendet die Leistungspegeldifferenz zwischen beiden Mikrofonen wie folgt:
Gleichung 4

Δϕ(λ, μ) = |ϕ_X1X1(λ, μ) – ϕ_X2X2(λ, μ)|.

Wenn reines Rauschen vorhanden ist, resultiert die obige Gleichung in der Nähe von null während, wenn reine Sprache vorhanden ist, ein Absolutwert größer als Null erreicht wird. Des Weiteren können die unterschiedlichen Ausführungsformen sich wie folgt verwenden:
Gleichung 5

Δϕ(λ, μ) = max(ϕ_X1X1(λ, μ) – ϕ_X2X2(λ, μ), 0).

In Gleichung 5 ist die Leistungspegeldifferenz null, wenn der Leistungspegel des zweiten Signals größer ist als der Leistungspegel des ersten Signals. Diese Ausführungsform erkennt und berücksichtigt, dass der Leistungspegel am zweiten Mikrofon 44 nicht höher sein sollte als der Leistungspegel am ersten Mikrofon 42. Jedoch bei einigen Ausführungsformen kann es wünschenswert sein 4 zu verwenden. Wenn beispielsweise die zwei Mikrofone von der Sprachquelle 38 abstandsgleich sind.
Unter Verwendung der obigen Gleichung können die Verstärkungen 64 berechnet werden als: Gleichung 6
wobei H(λ, μ) die Übertragungsfunktion 66 zwischen dem ersten Mikrofon 42 und dem zweiten Mikrofon 44 ist, σ ^ 2 / N(λ, μ) die Rauschabschätzung 52 ist, γ ein Gewichtungsfaktor ist, Δϕ(λ, μ) die normalisierte Differenz 52 ist und G(λ, μ) die Verstärkung 64 ist.
Im Fall von einem Fehlen von Sprache hat Sprachquelle 38 keinen Ausgang, Δϕ(λ, μ) wird Null sein und daher wird die Verstärkung 64 null sein. Wenn es Sprache ohne Rauschen gibt, hat die Vielzahl von Rauschquellen 40 keinen Ausgang, der rechte Teil des Nenners der Gleichung 6 wird null sein, und dementsprechend wird der Bruch eins ergeben.
Das Sprachverbesserungsmodul 62 kann die Übertragungsfunktion 66 unter Verwendung eines Verhältnisses 67 der Leistungsspektraldichte 56 des zweiten Signals 48 abzüglich der Rauschabschätzung 52 zur Leistungsspektraldichte 54 des ersten Signals 46 identifizieren. Die Rauschabschätzung 52 wird nur von der Leistungsspektraldichte 56 des zweiten Signals 48 entfernt. Die Übertragungsfunktion 66 wird wie folgt berechnet: Gleichung 7
wobei H(λ, μ) die Übertragungsfunktion 66 ist,
ϕ_X1X1(λ, μ) die Leistungsspektraldichte 54 des ersten Signals 46 ist,
ϕ_X2X2(λ, μ) die Leistungsspektraldichte 56 des zweiten Signals 44 ist, und
σ ^ 2 / N(λ, μ) die Rauschabschätzung 54 ist, die hier auch als ϕ_NN(λ, μ) bezeichnet werden kann.
Bei anderen Ausführungsformen kann die Übertragungsfunktion 66 eine andere Gleichung sein wie folgt: Gleichung 8
In diesem Fall, wenn die Sprache niedrig ist, konvergieren sowohl der Dividend als auch der Nenner nahe an Null.
Des Weiteren verwenden unterschiedliche vorteilhafte Ausführungsformen Verfahren, um den Umfang an Reststörungen zu reduzieren. Beispielsweise kann in unterschiedlichen Ausführungsformen ein Verfahren ähnlich einer entscheidungsgerichteten Herangehensweise, die auf der Abschätzung von H(λ, μ) funktioniert, wie folgt verwendet werden: 1 – Gλ, µ, und 1 – ξλ, µ, wobei α unterschiedliche Werte in den unterschiedlichen Gleichungen hierin sein kann.
Des Weiteren kann eine Herangehensweise des Glättens der Frequenz weiter den Umfang an Reststörungen reduzieren. Des Weiteren kann in unterschiedlichen Ausführungsformen eine Verstärkungsglättung nur über einem bestimmten Frequenzbereich angewandt werden. Bei anderen Ausführungsformen kann eine Verstärkungsglättung für keine oder alle Frequenzen angewandt werden.
Des Weiteren kann Teilnehmerendgerät 34 ein oder mehrere Speicherelemente (z. B. Speicherelement 24) aufweisen, um Informationen zu speichern, die beim Erreichen von Operationen zu verwenden sind, welche mit dem Anwendungsmanagement verbunden sind, wie es hier dargestellt ist. Diese Geräte können weiter Informationen in jedem geeigneten Speicherelement (z. B. Random Access Memory (RAM), Read Only Memory (ROM), Field Programmable Gate Array (FPGA), löschbarer programmierbarer ROM (EPROM), elektrisch lösch- und programmierbarer ROM (EEPROM), usw.), in jeder Software, Hardware oder in jeder anderen geeigneten Komponente, Gerät, Element oder Objekt speichern, wo es geeignet ist und auf speziellen Notwendigkeiten basiert. Alle Speicherelemente, die hier beschrieben wurden, sollten als innerhalb des breiten Ausdrucks ‚Speicherelement‘ eingeschlossen ausgelegt werden, wie er hier in dieser Spezifikation verwendet wird.
In unterschiedlichen veranschaulichenden Ausführungsformen können die Operationen, die hier dargestellt sind, um Rauschen zu reduzieren und einzuschätzen, mittels Logik implementiert sein, die in einem oder mehreren konkreten Medien verschlüsselt ist, welche nichtflüchtige Medien (z. B. eingebettete Logik bereitgestellt in einem ASIC, Digitalsignal-Prozessor-(DSP)-Anweisungen, Software potenziell inklusive des Maschinencodes und des Quellcodes, der durch einen Prozessor oder eine andere ähnliche Maschine auszuführen ist, usw.) einschließen können. In einigen dieser Fälle können ein oder mehrere Speicherelemente (z.B. Speicherelement 68) Daten speichern, die für die hier beschriebenen Operationen verwendet werden. Dies umfasst die Speicherelemente, die Software, Logik, Code oder Prozessor-Anweisungen speichern können, welche ausgeführt werden, um die in dieser Spezifikation beschriebenen Aktivitäten auszuführen.
Des Weiteren kann das Teilnehmerendgerät 36 das Verarbeitungselement 70 aufweisen. Ein Prozessor kann jede Art von Anweisungen ausführen, die mit den Daten verbunden sind, um die Operationen zu erreichen, die in dieser Spezifikation beschrieben sind. Bei einem Beispiel können die Prozessoren (wie gezeigt in 5) ein Element oder einen Artikel (z. B. Daten) von einem Zustand oder einer Sache zu einem anderen Zustand oder einer Sache transformieren. Bei einem weiteren Beispiel können die hier dargestellten Aktivitäten mit fester Logik oder programmierbarer Logik implementiert sein (z. B. Software-/Computeranweisungen, die durch einen Prozessor ausgeführt werden), und die hier identifizierten Elemente könnten eine Art eines programmierbaren Prozessors, einer programmierbaren Digitallogik (z. B. ein FPGA, ein EPROM, ein EEPROM) oder ein ASIC sein, das Digitallogik, Software, Code, elektronische Anweisungen, Flash-Speicher, optische Disks, CDs, DVD-ROM, magnetische oder optische Speicherkarten und andere Arten von maschinenlesbaren Medien umfasst, die geeignet sind, um elektronische Anweisungen zu speichern, oder irgendeine geeignete Kombination davon.
Des Weiteren weist das Teilnehmerendgerät 36 die Kommunikationseinheit 70 auf, welche Kommunikationen mit anderen Geräten bereitstellt. Die Kommunikationseinheit 70 kann Kommunikationen entweder über die Verwendung von physischen Links als auch von Links mit drahtloser Kommunikation oder beidem bereitstellen.
Die Veranschaulichung des Rauschreduzierungssystems 34 in 5 ist nicht dazu beabsichtigt physische oder architektonische Einschränkungen in Bezug auf die Art und Weise, in der unterschiedliche veranschaulichende Ausführungsformen implementiert sein können, zu implizieren. Andere Komponenten können zusätzlich und/oder anstelle von denjenigen, die veranschaulicht sind, verwendet werden. Einige Komponenten können in einigen veranschaulichenden Ausführungsformen unnötig sein. Außerdem werden die Blocks präsentiert, um einige funktionelle Komponenten zu veranschaulichen. Ein oder mehrere dieser Blocks können kombiniert und/oder in unterschiedliche Blocks unterteilt sein, wenn sie in unterschiedlichen vorteilhaften Ausführungsformen implementiert sind.
6 ist ein Ablaufdiagramm, um Rauschen in einem Rauschreduzierungssystem gemäß einer veranschaulichenden Ausführungsform zu reduzieren. Prozess 600 kann im Rauschreduzierungssystem 34 von 5 implementiert sein.
Prozess 600 beginnt mit dem Teilnehmerendgerät, das ein erstes Signal an einem ersten Mikrofon empfängt (Schritt 602). Außerdem empfängt das Teilnehmerendgerät ein zweites Signal an einem zweiten Mikrofon (Schritt 604). Die Schritte 602 und 604 können in jeder Reihenfolge oder gleichzeitig erfolgen. Das Teilnehmerendgerät kann ein Kommunikationsgerät, Laptop, Tablet-PC oder jedes andere Gerät sein, das Mikrofone einsetzt.
Dann identifiziert ein Rauschabschätzungsmodul die Rauschabschätzung im ersten Signal und zweiten Signal (Schritt 606). Das Rauschabschätzungsmodul kann eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals identifizieren und die Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt, identifizieren.
Dann identifiziert ein Sprachverbesserungsmodul eine Übertragungsfunktion des Rauschreduzierungssystems, indem es ein Verhältnis einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zu einer Leistungsspektraldichte des ersten Signals verwendet (Schritt 608). Die Rauschabschätzung wird nur von der Leistungsspektraldichte des zweiten Signals entfernt. Letztendlich identifiziert das Sprachverbesserungsmodul eine Verstärkung des Rauschreduzierungssystems, indem es die Übertragungsfunktion (Schritt 610) verwendet. Danach endet der Prozess.
7 ist ein Ablaufdiagramm, um Rauschen in einem Rauschreduzierungssystem gemäß einer veranschaulichenden Ausführungsform zu identifizieren. Prozess 700 kann im Rauschreduzierungssystem 34 von 5 implementiert sein.
Prozess 700 beginnt mit dem Teilnehmerendgerät, das ein erstes Signal an einem ersten Mikrofon empfängt (Schritt 702). Außerdem empfängt das Teilnehmerendgerät ein zweites Signal an einem zweiten Mikrofon (Schritt 704). Die Schritte 702 und 704 können in jeder Reihenfolge oder gleichzeitig erfolgen. Das Teilnehmerendgerät kann ein Kommunikationsgerät, Laptop, Tablet-PC oder jedes andere Gerät sein, das Mikrofone einsetzt.
Dann identifiziert ein Rauschabschätzungsmodul eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals (Schritt 706). Letztendlich identifiziert das Rauschabschätzungsmodul eine Rauschabschätzung, indem es die Differenz verwendet (Schritt 708). Danach endet der Prozess.
8 ist ein Ablaufdiagramm, um Rauschen in einem Rauschreduzierungssystem gemäß einer veranschaulichenden Ausführungsform zu identifizieren. Prozess 800 kann im Rauschreduzierungssystem 34 von 5 implementiert sein.
Prozess 800 beginnt mit dem Teilnehmerendgerät, das ein erstes Signal an einem ersten Mikrofon (Schritt 802) empfängt. Außerdem empfängt das Teilnehmerendgerät ein zweites Signal an einem zweiten Mikrofon (Schritt 804). Die Schritte 802 und 804 können in jeder Reihenfolge oder gleichzeitig erfolgen. Das Teilnehmerendgerät kann ein Kommunikationsgerät, Laptop, Tablet-PC oder jedes andere Gerät sein, das Mikrofone einsetzt.
Dann identifiziert ein Rauschabschätzungsmodul die Kohärenz zwischen dem ersten Signal und dem zweiten Signal (Schritt 806). Letztendlich identifiziert das Rauschabschätzungsmodul eine Rauschabschätzung, indem es die Kohärenz verwendet (Schritt 808). Danach endet der Prozess.
Die Ablaufdiagramme und Prinzipschaltbilder in den unterschiedlichen abgebildeten Ausführungsformen veranschaulichen die Architektur, Funktionalität und die Operation von einigen möglichen Implementierungen von Vorrichtung, Verfahren, System und Computerprogramm-Produkten. In dieser Hinsicht kann jeder Block im Ablaufdiagramm oder den Prinzipschaltbildern ein Modul, Segment oder Abschnitt von computernutzbarem oder lesbarem Programmcode repräsentieren, der eine oder mehrere ausführbare Anweisungen umfasst, um die angegebene Funktion oder angegebenen Funktionen zu implementieren. Bei einigen alternativen Implementierungen kann eine Funktion oder Funktionen, die im Block angemerkt sind, außer der Reihenfolge auftreten, wie sie in den Figuren angemerkt ist. Beispielsweise können in einigen Fällen zwei in Abfolge gezeigte Blocks im Wesentlichen gleichzeitig ausgeführt werden oder die Blocks können manchmal abhängig von der einbezogenen Funktionalität in umgekehrter Reihenfolge ausgeführt werden.

Claims

Verfahren zum Reduzieren von Rauschen in einem Rauschreduzierungssystem, wobei das Verfahren aufweist: • Empfangen eines ersten Signals an einem ersten Mikrofon; • Empfangen eines zweiten Signals an einem zweiten Mikrofon; • Identifizieren einer Rauschabschätzung im ersten Signal und zweiten Signal; • Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des ersten Signals und einer Leistungsspektraldichte des zweiten Signals; und • Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
Verfahren gemäß Anspruch 1, wobei das Identifizieren der Übertragungsfunktion aufweist: Verwenden eines Verhältnisses der Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zur Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
Verfahren gemäß Anspruch 1 oder 2, wobei die Verstärkung null ist, wenn der Leistungspegel des zweiten Signals größer ist als der Leistungspegel des ersten Signals.
Verfahren gemäß einem der Ansprüche 1 bis 3, wobei das Identifizieren einer Abschätzung des Rauschens aufweist: • Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und • Identifizieren der Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt.
Verfahren gemäß Anspruch 4, wobei der Schritt des Identifizierens der Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwendet, wobei • Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, und • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
Verfahren gemäß einem der Ansprüche 1 bis 5, wobei der Schritt des Identifizierens der Übertragungsfunktion des Rauschreduzierungssystems die Gleichung:
verwendet, wobei • H(λ, μ) die Übertragungsfunktion ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
Verfahren gemäß einem der Ansprüche 1 bis 6, wobei der Schritt des Identifizierens der Verstärkung die Gleichung:
verwendet, wobei • H(λ, μ) die Übertragungsfunktion ist, • σ ^ 2 / N(λ, μ) die Rauschabschätzung ist, • Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, und • G(λ, μ) die Verstärkung ist.
Verfahren gemäß Anspruch 6 oder 7, wobei Δϕ(λ, μ) = max(ϕ_X1X1(λ, μ) – ϕ_X2X2(λ, μ), 0).
Verfahren zum Schätzen von Rauschen in einem Rauschreduzierungssystem, wobei das Verfahren aufweist: • Empfangen eines ersten Signals an einem ersten Mikrofon; • Empfangen eines zweiten Signals an einem zweiten Mikrofon; • Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und • Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
Verfahren gemäß Anspruch 9, wobei der Schritt des Identifizierens der normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwendet, wobei • Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, • β ein Gewichtungsfaktor ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist und • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
Verfahren gemäß Anspruch 9 oder 10, ferner aufweisend: • Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und • Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
Verfahren zum Schätzen von Rauschen in einem Rauschreduzierungssystem, wobei das Verfahren aufweist: • Empfangen eines ersten Signals an einem ersten Mikrofon; • Empfangen eines zweiten Signals an einem zweiten Mikrofon; • Identifizieren einer Kohärenz zwischen dem ersten Signal und dem zweiten Signal; und • Identifizieren einer Rauschabschätzung unter Verwendung der Kohärenz.
Verfahren gemäß Anspruch 12, wobei der Schritt des Identifizierens der Kohärenz die Gleichung:
verwendet, wobei • Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und dem zweiten Signal ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
Verfahren gemäß Anspruch 12 oder 13, wobei der Schritt des Identifizierens der Rauschabschätzung die Gleichung:
verwendet, wobei • ϕ_NN(λ, μ) die Rauschabschätzung ist, • Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
Verfahren gemäß einem der Ansprüche 12 bis 14, ferner aufweisend: • Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und • Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
System zum Reduzieren von Rauschen in einem Rauschreduzierungssystem, wobei das System aufweist: • ein erstes Mikrofon, das konfiguriert ist, um ein erstes Signal zu empfangen; • ein zweites Mikrofon, das konfiguriert ist, um ein zweites Signal zu empfangen; • ein Rauschabschätzungsmodul, das konfiguriert ist, um eine Rauschabschätzung im ersten Signal und zweiten Signal zu identifizieren; • ein Sprachverbesserungsmodul, das konfiguriert ist, um eine Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals zu identifizieren und eine Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion zu identifizieren.
System gemäß Anspruch 16, wobei das Sprachverbesserungsmodul, das die Übertragungsfunktion identifiziert, weiter konfiguriert ist, ein Verhältnis einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zu einer Leistungsspektraldichte des ersten Signals zu verwenden, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
System gemäß Anspruch 16 oder 17, wobei das Sprachverbesserungsmodul, das die Übertragungsfunktion des Rauschreduzierungssystems identifiziert, die Gleichung:
verwendet, wobei • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • H(λ, μ) die Übertragungsfunktion ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
System zum Schätzen von Rauschen in einem Rauschreduzierungssystem, wobei das System aufweist: • ein erstes Mikrofon, das konfiguriert ist, um ein erstes Signal zu empfangen; • ein zweites Mikrofon, das konfiguriert ist, um ein zweites Signal zu empfangen; • ein Rauschabschätzungsmodul, das konfiguriert ist, um eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals zu identifizieren; und das Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
System gemäß Anspruch 19, ferner aufweisend: ein Sprachverbesserungsmodul, das konfiguriert ist, um eine Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals zu identifizieren, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
System zum Schätzen von Rauschen in einem Rauschreduzierungssystem, wobei das System aufweist: • ein erstes Mikrofon, das konfiguriert ist, ein erstes Signal zu empfangen; • ein zweites Mikrofon, das konfiguriert ist, ein zweites Signal zu empfangen; • ein Rauschabschätzungsmodul, das konfiguriert ist, um eine Kohärenz zwischen dem ersten Signal und dem zweiten Signal zu identifizieren und eine Rauschabschätzung unter Verwendung der Kohärenz zu identifizieren.
System gemäß Anspruch 21, wobei das Rauschabschätzungsmodul, das die Kohärenz identifiziert, die Gleichung:
verwendet, wobei • Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
System gemäß Anspruch 21 oder 22, wobei das Rauschabschätzungsmodul, welches das Rauschen identifiziert, die Gleichung:
verwendet, wobei • ϕ_NN(λ, μ) die Rauschabschätzung ist, • Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
Computerprogramm-Produkt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: • das Empfangen eines ersten Signals an einem ersten Mikrofon; • das Empfangen eines zweiten Signals an einem zweiten Mikrofon; • das Identifizieren einer Rauschabschätzung im ersten Signal und zweiten Signal; und • das Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des ersten Signals und einer Leistungsspektraldichte des zweiten Signals; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
Computerprogramm-Produkt gemäß Anspruch 24, wobei das Identifizieren der Übertragungsfunktion aufweist: das Verwenden eines Verhältnisses der Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zur Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
Computerprogramm-Produkt gemäß Anspruch 24 oder 25, wobei Anweisungen für das Identifizieren einer Abschätzung von Rauschen Anweisungen aufweist für: • das Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und • das Identifizieren der Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt.
Computerprogramm-Produkt gemäß Anspruch 25 oder 26, wobei die Anweisungen für das Identifizieren der Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwendet, wobei • Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, und • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
Computerprogramm-Produkt gemäß einem der Ansprüche 24 bis 27, wobei die Anweisungen für das Identifizieren der Übertragungsfunktion des Rauschreduzierungssystems die Gleichung:
verwendet, wobei • H(λ, μ) die Übertragungsfunktion ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
Computerprogramm-Produkt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: • das Empfangen eines ersten Signals an einem ersten Mikrofon; • das Empfangen eines zweiten Signals an einem zweiten Mikrofon; • das Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und • das Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
Computerprogramm-Produkt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: • das Empfangen eines ersten Signals an einem ersten Mikrofon; • das Empfangen eines zweiten Signals an einem zweiten Mikrofon; • das Identifizieren einer Kohärenz zwischen dem ersten Signal und dem zweiten Signal; und • das Identifizieren einer Rauschabschätzung unter Verwendung der Kohärenz.
Computerprogramm-Produkt gemäß Anspruch 30, wobei die Anweisungen für das Identifizieren der Kohärenz die Gleichung:
verwenden, wobei • Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
Computerprogramm-Produkt gemäß Anspruch 30 oder 31, wobei die Anweisungen für das Identifizieren der Rauschabschätzung die Gleichung:
verwenden, wobei • ϕ_NN(λ, μ) die Rauschabschätzung ist, • Γ_X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, • ϕ_X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, • ϕ_X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und • ϕ_X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.