-
Verschiedene Ausführungsformen beziehen sich allgemein auf Rauschreduzierungssysteme wie beispielsweise bei Kommunikationsgeräten. Insbesondere beziehen sich die verschiedenen Ausführungsformen auf eine Rauschreduzierung in Dual-Mikrofon-Kommunikationsgeräten.
-
Rauschreduzierung ist der Prozess, Rauschen aus einem Signal zu entfernen. Ein Rauschen kann irgendein unerwünschter Klang sein, der im Signal vorhanden ist.
-
Rauschreduzierungstechniken sind konzeptionell unabhängig vom Signal, das verarbeitet wird, sehr ähnlich, jedoch kann das a priori Wissen der Eigenschaften eines erwarteten Signals bedeuten, dass die Implementierungen dieser Techniken abhängig von der Art des Signals stark variieren.
-
Alle Aufzeichnungsgeräte, sowohl analog als auch digital, besitzen Merkmale, die sie für Rauschen anfällig machen. Rauschen kann zufälliges oder weißes Rauschen ohne Kohärenz sein, oder Rauschen, das durch einen Mechanismus des Gerätes oder durch Verarbeitungsalgorithmen eingeführt wird.
-
In elektronischen Aufzeichnungsgeräten ist eine Form von Rauschen ein Zischton, der durch zufällige Elektronen verursacht wird, die, stark beeinflusst von Wärme, von ihrem bezeichneten Weg abweichen. Diese Streuelektronen können die Spannung des Ausgangssignals beeinflussen und somit ein erfassbares Rauschen erzeugen.
-
Algorithmen zur Reduzierung des Hintergrundrauschens werden in vielen Sprachkommunikationssystemen verwendet. Mobiltelefone und Hörgeräte haben integrierte Ein- oder Mehrkanalalgorithmen, um die Sprachqualität in schwierigen Umfeldern zu verbessern. Unter solchen Algorithmen ist ein Verfahren das spektrale Subtraktionsverfahren, welches generell die Einschätzung der Leistungsspektraldichte (PSD) des ungewünschten Hintergrundrauschens erfordert. Unterschiedliche Einkanal-PSD-Rauschabschätzer sind vorgeschlagen worden. Mehrkanal-PSD-Rauschabschätzer für Systeme mit zwei oder mehr Mikrofonen wurden nicht sehr intensiv studiert.
-
In verschiedenen Ausführungsbeispielen wird ein Verfahren zum Reduzieren von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das Verfahren aufweist: Empfangen eines ersten Signals an einem ersten Mikrofon; Empfangen eines zweiten Signals an einem zweiten Mikrofon; Identifizieren einer Rauschabschätzung im ersten Signal und zweiten Signal; Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des ersten Signals und einer Leistungsspektraldichte des zweiten Signals; und Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
-
In einer Ausgestaltung kann das Identifizieren der Übertragungsfunktion aufweisen: Verwenden eines Verhältnisses der Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zur Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
-
In noch einer Ausgestaltung kann die Verstärkung null sein, wenn der Leistungspegel des zweiten Signals größer ist als der Leistungspegel des ersten Signals.
-
In noch einer Ausgestaltung kann das Identifizieren einer Abschätzung des Rauschens aufweisen: Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und Identifizieren der Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt.
-
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwenden, wobei Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, und ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
-
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Übertragungsfunktion des Rauschreduzierungssystems die Gleichung:
verwenden, wobei H(λ, μ) die Übertragungsfunktion ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und
σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
-
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Verstärkung die Gleichung:
verwenden, wobei H(λ, μ) die Übertragungsfunktion ist,
σ ^ 2 / N(λ, μ) die Rauschabschätzung ist, Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, und G(λ, μ) die Verstärkung ist.
-
In noch einer Ausgestaltung kann Δϕ(λ, μ) = max(ϕX1X1(λ, μ) – ϕX2X2(λ, μ), 0) sein.
-
In verschiedenen Ausführungsbeispielen wird ein Verfahren zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das Verfahren aufweist: Empfangen eines ersten Signals an einem ersten Mikrofon; Empfangen eines zweiten Signals an einem zweiten Mikrofon; Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
-
In einer Ausgestaltung kann der Schritt des Identifizierens der normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwenden, wobei Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, β ein Gewichtungsfaktor ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist und ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist.
-
In noch einer Ausgestaltung kann das Verfahren ferner aufweisen: Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
-
In verschiedenen Ausführungsbeispielen wird ein Verfahren zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das Verfahren aufweist: Empfangen eines ersten Signals an einem ersten Mikrofon; Empfangen eines zweiten Signals an einem zweiten Mikrofon; Identifizieren einer Kohärenz zwischen dem ersten Signal und dem zweiten Signal; und Identifizieren einer Rauschabschätzung unter Verwendung der Kohärenz.
-
In einer Ausgestaltung kann der Schritt des Identifizierens der Kohärenz die Gleichung:
verwenden, wobei Γ
X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und dem zweiten Signal ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ
X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
-
In noch einer Ausgestaltung kann der Schritt des Identifizierens der Rauschabschätzung die Gleichung:
verwenden, wobei ϕ
NN(λ, μ) die Rauschabschätzung ist, Γ
X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ
X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
-
In noch einer Ausgestaltung kann das Verfahren ferner aufweisen: Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
-
In verschiedenen Ausführungsbeispielen wird ein System zum Reduzieren von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das System aufweist: ein erstes Mikrofon, das konfiguriert ist, um ein erstes Signal zu empfangen; ein zweites Mikrofon, das konfiguriert ist, um ein zweites Signal zu empfangen; ein Rauschabschätzungsmodul, das konfiguriert ist, um eine Rauschabschätzung im ersten Signal und zweiten Signal zu identifizieren; ein Sprachverbesserungsmodul, das konfiguriert ist, um eine Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals zu identifizieren und eine Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion zu identifizieren.
-
In einer Ausgestaltung kann das Sprachverbesserungsmodul, das die Übertragungsfunktion identifiziert, weiter konfiguriert sein, ein Verhältnis einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zu einer Leistungsspektraldichte des ersten Signals zu verwenden, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
-
In noch einer Ausgestaltung kann das Sprachverbesserungsmodul, das die Übertragungsfunktion des Rauschreduzierungssystems identifiziert, die Gleichung:
verwenden, wobei ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, H(λ, μ) die Übertragungsfunktion ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und
σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
-
In verschiedenen Ausführungsbeispielen wird ein System zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das System aufweist: ein erstes Mikrofon, das konfiguriert ist, um ein erstes Signal zu empfangen; ein zweites Mikrofon, das konfiguriert ist, um ein zweites Signal zu empfangen; ein Rauschabschätzungsmodul, das konfiguriert ist, um eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals zu identifizieren; und das Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
-
In einer Ausgestaltung kann das System kann ferner aufweisen ein Sprachverbesserungsmodul, das konfiguriert ist, um eine Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung eines Verhältnisses einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung einer Leistungsspektraldichte des ersten Signals zu identifizieren, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
-
In verschiedenen Ausführungsbeispielen wird ein System zum Schätzen von Rauschen in einem Rauschreduzierungssystem bereitgestellt, wobei das System aufweist: ein erstes Mikrofon, das konfiguriert ist, ein erstes Signal zu empfangen; ein zweites Mikrofon, das konfiguriert ist, ein zweites Signal zu empfangen; ein Rauschabschätzungsmodul, das konfiguriert ist, um eine Kohärenz zwischen dem ersten Signal und dem zweiten Signal zu identifizieren und eine Rauschabschätzung unter Verwendung der Kohärenz zu identifizieren.
-
In einer Ausgestaltung kann das Rauschabschätzungsmodul, das die Kohärenz identifiziert, die Gleichung:
verwenden, wobei Γ
X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ
X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
-
In noch einer Ausgestaltung kann das Rauschabschätzungsmodul, welches das Rauschen identifiziert, die Gleichung:
verwenden, wobei ϕ
NN(λ, μ) die Rauschabschätzung ist, Γ
X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ
X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
-
In verschiedenen Ausführungsbeispielen wird ein Computerprogramm-Produkt bereitgestellt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren einer Rauschabschätzung im ersten Signal und zweiten Signal; und das Identifizieren einer Übertragungsfunktion des Rauschreduzierungssystems unter Verwendung einer Leistungsspektraldichte des ersten Signals und einer Leistungsspektraldichte des zweiten Signals; und das Identifizieren einer Verstärkung des Rauschreduzierungssystems unter Verwendung der Übertragungsfunktion.
-
In einer Ausgestaltung kann das Identifizieren der Übertragungsfunktion aufweisen das Verwenden eines Verhältnisses der Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zur Leistungsspektraldichte des ersten Signals, wobei die Rauschabschätzung nur von der Leistungsspektraldichte des zweiten Signals entfernt wird.
-
In noch einer Ausgestaltung können Anweisungen für das Identifizieren einer Abschätzung von Rauschen Anweisungen aufweisen für: das Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und das Identifizieren der Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt.
-
In noch einer Ausgestaltung können die Anweisungen für das Identifizieren der Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals die Gleichung:
verwenden, wobei Δϕ(λ, μ) die normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, und
die Leistungsspektraldichte des zweiten Signals ist.
-
In noch einer Ausgestaltung können die Anweisungen für das Identifizieren der Übertragungsfunktion des Rauschreduzierungssystems die Gleichung:
verwenden, wobei H(λ, μ) die Übertragungsfunktion ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und
σ ^ 2 / N(λ, μ) die Rauschabschätzung ist.
-
In verschiedenen Ausführungsbeispielen wird ein Computerprogramm-Produkt bereitgestellt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren einer normalisierten Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals; und das Identifizieren einer Rauschabschätzung unter Verwendung der Differenz.
-
In verschiedenen Ausführungsbeispielen wird ein Computerprogramm-Produkt bereitgestellt, das Logik aufweist, die auf konkreten Medien verschlüsselt ist, wobei die Logik Anweisungen aufweist für: das Empfangen eines ersten Signals an einem ersten Mikrofon; das Empfangen eines zweiten Signals an einem zweiten Mikrofon; das Identifizieren einer Kohärenz zwischen dem ersten Signal und dem zweiten Signal; und das Identifizieren einer Rauschabschätzung unter Verwendung der Kohärenz.
-
In einer Ausgestaltung können die Anweisungen für das Identifizieren der Kohärenz die Gleichung:
verwenden, wobei Γ
X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ
X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
-
In noch einer Ausgestaltung können die Anweisungen für das Identifizieren der Rauschabschätzung die Gleichung:
verwenden, wobei ϕ
NN(λ, μ) die Rauschabschätzung ist, Γ
X1X2(λ, μ) die Kohärenz zwischen dem ersten Signal und zweiten Signal ist, ϕ
X1X1(λ, μ) die Leistungsspektraldichte des ersten Signals ist, ϕ
X2X2(λ, μ) die Leistungsspektraldichte des zweiten Signals ist und ϕ
X1X2(λ, μ) die Kreuzleistungsspektraldichte des ersten Signals und des zweiten Signals ist.
-
In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann In noch einer Ausgestaltung kann
-
In den Zeichnungen verweisen gleiche Bezugsnummern generell auf gleiche Teile überall in den verschiedenen Ansichten. Die Zeichnungen nicht sind notwendigerweise maßstäblich, die Betonung ist stattdessen generell auf die Veranschaulichung der Prinzipien der Erfindung gelegt worden. In der folgenden Beschreibung werden verschiedene Ausführungsformen unter Bezugnahme auf die folgenden Zeichnungen beschrieben, in denen:
-
Es zeigen
-
1 eine Ansicht eines Geräts gemäß einer Ausführungsform ist;
-
2 eine Ansicht eines Geräts gemäß einer Ausführungsform ist;
-
3 ein Signalmodell gemäß einer Ausführungsform ist;
-
4 ein Prinzipschaltbild eines Sprachverbesserungssystems gemäß einer Ausführungsform ist;
-
5 ein Prinzipschaltbild eines Rauschreduzierungssystems gemäß einer Ausführungsform ist;
-
6 ein Ablaufdiagramm ist, um Rauschen in einem Rauschreduzierungssystem gemäß einer Ausführungsform zu reduzieren;
-
7 ein Ablaufdiagramm ist, um Rauschen in einem Rauschreduzierungssystem gemäß einer Ausführungsform zu identifizieren; und
-
8 ein Ablaufdiagramm ist, um Rauschen in einem Rauschreduzierungssystem gemäß einer Ausführungsform zu identifizieren.
-
Die folgende ausführliche Beschreibung nimmt auf die begleitenden Zeichnungen Bezug, die anhand einer Veranschaulichung spezifische Details und Ausführungsformen zeigen, in denen die Erfindung praktiziert werden kann. Das Wort „exemplarisch“ wird hier in der Bedeutung „als ein Beispiel, Fall oder Veranschaulichung“ verwendet. Irgendeine Ausführungsform oder Konstruktion, die hier als „exemplarisch“ beschrieben wird, ist nicht zwangsläufig als bevorzugt oder vorteilhaft gegenüber anderen Ausführungsformen oder Konstruktionen auszulegen.
-
Zu beachten ist, dass in dieser Spezifikation Bezugnahmen auf verschiedene Merkmale (z.B. Elemente, Strukturen, Module, Komponenten, Schritte, Operationen, Eigenschaften, usw.), die in „einer Ausführungsform“, „beispielhafter Ausführungsform“, „einer Ausführungsform“, „einer anderen Ausführungsform“, „einigen Ausführungsformen“, „verschiedenen Ausführungsformen“, „anderen Ausführungsformen“, „unterschiedlichen Ausführungsformen“, „alternativen Ausführungsform“ und Ähnlichem enthalten sind, dazu beabsichtigt sind, zu bedeuten, dass jegliche solche Merkmale in einer oder mehreren Ausführungsformen der vorliegenden Offenbarung enthalten sind und in den gleichen Ausführungsformen kombiniert sein können oder auch nicht.
-
Die verschiedenen Ausführungsformen berücksichtigen und erkennen, dass existierende Algorithmen zur Rauschreduzierung von einer hohen rechnerischen Komplexität sind, einen hohen Speicherbedarf haben und Schwierigkeiten dabei haben, nicht ortsfestes Rauschen einzuschätzen. Des Weiteren berücksichtigen und erkennen die verschiedenen Ausführungsformen, dass irgendwelche vorhandenen Algorithmen, die fähig sind, nicht ortsfestes Rauschen nachzuverfolgen, nur einkanalig sind. Jedoch sind selbst einkanalige Algorithmen meistens nicht fähig, nicht ortsfestes Rauschen nachzuverfolgen.
-
Des Weiteren stellen die verschiedenen Ausführungsformen einen Zweikanal-PSD-Rauschabschätzer bereit, der Wissen über die Störfeld-Kohärenz einsetzt. Außerdem stellen die verschiedenen Ausführungsformen einen Prozess mit niedriger rechnerischer Komplexität bereit, und der Prozess kann mit anderen Sprachverbesserungssystemen kombiniert werden.
-
Des Weiteren stellen die verschiedenen Ausführungsformen einen Prozess für eine skalierbare Erweiterung eines existierenden einkanaligen Rauschunterdrückungssystems durch Ausnutzen eines sekundären Mikrofonkanals für eine robustere Rauschabschätzung bereit. Die verschiedenen Ausführungsformen bieten ein zweikanaliges Sprachverbesserungssystem, indem sie a priori Wissen der Störfeld-Kohärenz verwenden, um ungewünschtes Hintergrundrauschen in diffusen Störfeldbedingungen zu reduzieren.
-
Das Vorangehende hat eher breit die Merkmale und technischen Vorteile der unterschiedlichen veranschaulichenden Ausführungsformen dargestellt, damit die folgende ausführliche Beschreibung der Erfindung besser verstanden werden kann. Zusätzliche Funktionen und Vorteile der unterschiedlichen veranschaulichenden Ausführungsformen werden im Folgenden beschrieben. Es ist für fachkundige Personen selbstverständlich, dass die Konzeption und die spezifischen offenbarten Ausführungsformen leicht als eine Basis verwendet werden können, um andere Strukturen oder Prozesse zu modifizieren oder neu zu entwerfen und die gleichen Zwecke der unterschiedlichen veranschaulichenden Ausführungsformen auszuführen. Es sollte für fachkundige Personen auch offensichtlich sein, dass solche äquivalenten Ausführungen nicht vom Sinn und Umfang der Erfindung, wie sie in den angefügten Ansprüchen beschrieben sind, abweichen.
-
1 ist eine Ansicht eines Geräts gemäß einer veranschaulichenden Ausführungsform. Gerät 2 ist ein Teilnehmerendgerät mit den Mikrofonen 4 und 6. Gerät 2 kann ein Kommunikationsgerät, Mobiltelefon oder ein anderes geeignetes Gerät mit Mikrofonen sein. Bei unterschiedlichen Ausführungsformen kann Gerät 2 mehr oder weniger Mikrofone aufweisen. Gerät 2 kann ein Smartphone, Tablet-PC, Headset, Personal-Computer oder eine andere Art von geeignetem Gerät sein, das Mikrofone verwendet, um Klänge zu empfangen. Bei dieser Ausführungsform sind die Mikrofone 4 und 6 ca. 2 cm auseinander gezeigt. Jedoch können die Mikrofone bei anderen Ausführungsformen in verschiedenen Entfernungen platziert sein. Des Weiteren können die Mikrofone 4 und 6 sowie andere Mikrofone auf jeder Fläche des Gerätes 2 platziert sein oder sie können drahtlos verbunden sein und sich in der Ferne befinden.
-
2 ist eine Ansicht eines Geräts gemäß einer veranschaulichenden Ausführungsform. Gerät 8 ist ein Teilnehmerendgerät mit den Mikrofonen 10 und 12. Gerät 8 kann ein Kommunikationsgerät, Mobiltelefon oder ein anderes geeignetes Gerät mit Mikrofonen sein. Bei unterschiedlichen Ausführungsformen kann Gerät 8 mehr oder weniger Mikrofone aufweisen. Gerät 8 kann ein Smartphone, Tablet-PC, Headset, Personal-Computer oder eine andere Art von geeignetem Gerät sein, das Mikrofone verwendet, um Klänge zu empfangen. Bei dieser Ausführungsform sind die Mikrofone 10 und 12 ca. 102 cm auseinander gezeigt. Jedoch können die Mikrofone bei anderen Ausführungsformen in verschiedenen Entfernungen und Anordnungen platziert sein. Des Weiteren können die Mikrofone 10 und 12 sowie andere Mikrofone auf jeder Fläche von Gerät 8 platziert sein oder sie können drahtlos verbunden sein und sich in der Ferne befinden.
-
3 ist ein Signalmodell gemäß einer veranschaulichenden Ausführungsform. Signalmodell 14 ist ein zweikanaliges Signalmodell. Die zwei Mikrofonsignale xp(k) und xs(k) sind die Eingänge des zweikanaligen Sprachverbesserungssystems und sie sind mit reinen Sprachsignalen s(k) und additiven Hintergrundrauschsignalen n1(k) und n2(k) durch das Signalmodell 14 mit dem diskreten Zeitindex k verbunden. Die akustischen Übertragungsfunktionen zwischen der Quelle und den Mikrofonen sind durch H1(ejΩ) und H2(ejΩ) bezeichnet. Die normalisierte Kreisfrequenz ist gegeben durch Ω = 2πf/fs mit Frequenzvariable f und Abtastfrequenz fs. Die Quelle an jedem Mikrofon ist jeweils s1(k) und s2(k). Sobald ein Rauschen zur Quelle hinzugefügt wird, wird es von jedem Mikrofon als xp(k) und xs(k), hier auch als x1(k) und x2(k) bezeichnet, aufgenommen.
-
4 ist ein Prinzipschaltbild eines Sprachverbesserungssystems gemäß einer veranschaulichenden Ausführungsform. Sprachverbesserungssystem 16 ist ein zweikanaliges Sprachverbesserungssystem. Bei anderen Ausführungsformen kann Sprachverbesserungssystem 16 mehr als zwei Kanäle aufweisen.
-
Das Sprachverbesserungssystem 16 weist die Segmentierungsfenstertechnikeinheiten 18 und 20 auf. Die Segmentierungsfenstertechnikeinheiten 16 und 18 teilen die Eingangssignale xp(k) und xs(k) in überlappende Frames der Länge L auf. Hier kann xp(k) und xs(k) auch als x1(k) und x2(k) bezeichnet werden. Die Segmentierungsfenstertechnikeinheiten 16 und 18 können ein Hann-Fenster oder ein anderes geeignetes Fenster anwenden. Nach der Fensterung transformieren die Zeitfrequenzanalyseeinheiten 22 und 24 die Frames der Länge M in den spektralen Kurzzeitbereich. Bei einer oder mehreren Ausführungsformen verwenden die Zeitfrequenzanalyseeinheiten 22 und 24 eine schnelle Fourier-Transformation (FFT). Bei anderen Ausführungsformen können andere Arten der Zeitfrequenzanalyse verwendet sein. Die jeweiligen Ausgangsspektren sind durch Xp(λ, µ) und Xs(λ, µ) bezeichnet. Das diskrete Frequenzbin und der Frame-Index sind jeweils durch µ und λ bezeichnet.
-
Die Rauschleistungsspektraldichte(PSD)-Abschätzungseinheit
26 berechnet die Rauschleistungsspektraldichte-Abschätzung
für ein Frequenzbereich-Sprachverbesserungssystem. Die Rauschleistungsspektraldichte-Abschätzung kann berechnet werden, indem xp(k) und xs(k) oder im Frequenzbereich Xp(λ, µ) und Xs(λ, µ) verwendet werden. Die Rauschleistungsspektraldichte kann auch als Autoleistungsspektraldichte bezeichnet werden.
-
Die spektrale Verstärkungsberechnungseinheit 28 berechnet die spektralen Gewichtungsverstärkungen G(λ, µ). Die spektrale Verstärkungsberechnungseinheit 28 verwendet die Rauschleistungsspektraldichteabschätzung und die Ausgangsspektren Xp(λ, µ) und Xs(λ, µ).
-
Das erweiterte Spektrum Ŝ(λ, µ) ist durch die Multiplikation der Koeffizienten Xp(λ, µ) mit den spektralen Gewichtungsverstärkungen G(λ, µ) gegeben. Die inverse Zeit-Frequenzanalyseeinheit 30 wendet eine invertierte schnelle Fourier-Transformation an; dann wird ein Overlap-Add durch die Overlap-Add-Einheit 32 angewendet, um das erweiterte Zeitbereich-Signal ŝ(k) zu erzeugen. Die inverse Zeit-Frequenzanalyseeinheit 30 kann eine invertierte schnelle Fourier-Transformation oder eine andere Art von inverser Zeit-Frequenzanalyse verwenden.
-
Es sollte beachtet werden, dass ein Filtern im Zeitbereich mittels eines Filterbank-Ausgleichers oder der Verwendung irgendeiner Art von Analyse- oder Synthese-Filterbank auch möglich ist.
-
5 ist ein Prinzipschaltbild eines Rauschreduzierungssystems gemäß einer veranschaulichenden Ausführungsform. Das Rauschreduzierungssystem 34 ist ein System, bei dem ein oder mehrere Geräte Signale für die Verarbeitung durch Mikrofone empfangen können. Das Rauschreduzierungssystem 34 kann ein Teilnehmerendgerät 36, eine Sprachquelle 38 und eine Vielzahl von Rauschquellen 40 aufweisen. Bei anderen Ausführungsformen weist das Rauschreduzierungssystem 34 mehr als ein Teilnehmerendgerät 36 und/oder mehr als eine Sprachquelle 38 auf. Das Teilnehmerendgerät 36 kann ein Beispiel einer Implementierung des Teilnehmerendgeräts 8 von 2 und/oder des Teilnehmerendgeräts 2 von 1 sein.
-
Die Sprachquelle 38 kann eine gewünschte akustische Quelle sein. Die gewünschte akustische Quelle ist die Quelle, die ein akustisches Signal erzeugt, das wünschenswert ist. Beispielsweise kann die Sprachquelle 38 eine Person sein, die gleichzeitig in das erste Mikrofon 42 und das zweite Mikrofon 44 spricht. Im Gegensatz dazu können die Vielzahl von Rauschquellen 40 unerwünschte akustische Quellen sein. Die Vielzahl von Rauschquellen 40 kann Hintergrundrauschen sein. Beispielsweise können die Vielzahl von Rauschquellen 40 ein Automotor, ein Ventilator oder andere Arten von Hintergrundrauschen sein. Bei einer oder mehreren Ausführungsformen kann die Sprachquelle 38 dem ersten Mikrofon 42 näher sein als dem zweiten Mikrofon 44. Bei unterschiedlichen vorteilhaften Ausführungsformen kann Sprachquelle 38 abstandsgleich zum ersten Mikrofon 42 und zum zweiten Mikrofon 44 sein oder sich in der Nähe des zweiten Mikrofons 44 befinden.
-
Die Sprachquelle 38 und die Vielzahl von Rauschquellen 40 emittieren Audiosignale, die gleichzeitig oder mit einer bestimmten Zeitverzögerung aufgrund der unterschiedlichen Schallwellenausbreitungszeit zwischen den Quellen und dem ersten Mikrofon 42 und den Quellen und dem zweiten Mikrofon 44 durch das erste Mikrofon 42 und das zweite Mikrofon 44 jeweils als ein Teil eines kombinierten Signals empfangen werden. Das erste Mikrofon 42 kann einen Teil des kombinierten Signals in Form des ersten Signals 46 empfangen. Das zweite Mikrofon 44 kann einen Teil des kombinierten Signals in Form des zweiten Signals 48 empfangen.
-
Das Teilnehmerendgerät 36 kann verwendet werden, um Sprache von einer Person zu empfangen und dann diese Sprache zu einem anderen Teil des Teilnehmerendgeräts zu übertragen. Während des Empfangs der Sprache kann ungewünschtes Hintergrundrauschen auch von der Vielzahl von Rauschquellen 40 empfangen werden. Die Vielzahl von Rauschquellen 40 bildet den Teil des ersten Signals 46 und des zweiten Signals 48, der unerwünschter Klang sein kann. Hintergrundrauschen, das von der Vielzahl von Rauschquellen 40 erzeugt werden, können unerwünscht sein und die Qualität und Klarheit der Sprache reduzieren. Deshalb stellt das Rauschreduzierungssystem 34 Systeme, Verfahren und Computerprogramm-Produkte bereit, um Hintergrundrauschen zu reduzieren und/oder zu entfernen, die vom ersten Mikrofon 42 und dem zweiten Mikrofon 44 empfangen werden.
-
Eine Abschätzung des Hintergrundrauschens kann identifiziert und verwendet werden, um unerwünschtes Rauschen zu entfernen und/oder zu reduzieren. Das Rauschabschätzungsmodul
50 befindlich im Teilnehmerendgerät
36, identifiziert die Rauschabschätzung
52 im ersten Signal
46 und dem zweiten Signal
48, indem ein Leistungspegel-Gleichheits-(PLE)-Algorithmus verwendet wird, der Differenzen der Leistungsspektraldichte zwischen dem ersten Mikrofon
42 und dem zweiten Mikrofon
44 ausnutzt. Die Gleichung lautet: Gleichung 1
wobei Δϕ(λ, μ) die normalisierte Differenz
52 in der Leistungsspektraldichte
54 des ersten Signals
46 und der Leistungsspektraldichte
56 des zweiten Signals
48 ist, β ist ein Gewichtungsfaktor ist,
ϕ
X1X1(λ, μ) die Leistungsspektraldichte
54 des ersten Signals
46 ist, und ϕ
X2X2(λ, μ) die Leistungsspektraldichte
56 des zweiten Signals
48 ist. ϕ
X1X1(λ, μ) und ϕ
X2X2(λ, μ) können entsprechend X1(k) und X2(k) repräsentieren. Bei unterschiedlichen Ausführungsformen kann der Absolutwert in Gleichung 1 genommen werden oder nicht.
-
Die normalisierte Differenz 52 kann die Differenz der Leistungspegel ϕX1X1(λ, μ) und ϕX2X2(λ, μ) relativ zur Summe von ϕX1X1(λ, μ) und ϕX2X2(λ, μ) und sein. Das erste Signal 46 und das zweite Signal 48 können unterschiedliche Audiosignale und Klänge von unterschiedlichen Quellen sein. Die Leistungsspektraldichte 54 und Leistungsspektraldichte 56 können eine positive tatsächliche Funktion einer Frequenzvariable verbunden mit einem stationären stochastischen Prozess sein, oder eine deterministische Zeitfunktion, welche die Dimensionen Leistung pro Hertz (Hz) oder Energie pro Hertz aufweist. Die Leistungsspektraldichte 54 und die Leistungsspektraldichte 56 können auch als das Spektrum eines Signals bezeichnet werden. Die Leistungsspektraldichte 54 und Leistungsspektraldichte 56 können den Inhalt der Frequenz eines stochastischen Prozesses messen und dabei helfen Periodizität zu identifizieren.
-
Unterschiedliche Ausführungsformen berücksichtigten unterschiedliche Bedingungen. Beispielsweise berücksichtigen eine oder mehrere Ausführungsformen, dass die Vielzahl von Rauschquellen 40 Rauschen erzeugt, das homogen ist, wobei der Rauschleistungspegel in beiden Kanälen gleich ist. Es ist nicht relevant, ob das Rauschen in diesen Ausführungsformen kohärent oder diffus ist. Bei anderen Ausführungsformen kann es relevant sein, dass das Rauschen kohärent oder diffus ist.
-
Bei verschiedenen Eingängen wird die Gleichung abweichende Resultate aufweisen. Wenn zum Beispiel nur diffuses Hintergrundrauschen vorhanden ist, wird Δϕ(λ, μ) nahe null sein, da die Aufnahmeleistungspegel fast gleich sind. Deshalb kann der Eingang am ersten Mikrofon 42 als das Rauschen-PSD verwendet werden. Zweitens wird im Falle, dass einfach reine Sprache vorhanden ist und die Leistung der Sprache in Mikrofon 44 im Vergleich zum ersten Mikrofon 42 sehr niedrig ist, der Wert von Δϕ(λ, μ) nahe eins sein. Als Resultat wird die Bewertung des letzten Frames behalten. Wenn der Eingang sich zwischen diesen zwei oben gezeigten Extremen befindet, wird eine Rauschabschätzung unter Verwendung des zweiten Mikrofons 44 als Annäherung der Rauschabschätzung 52 verwendet. Die unterschiedlichen Herangehensweisen werden basierend auf dem spezifizierten Bereich 53 verwendet. Der spezifizierte Bereich 53 liegt zwischen ϕmin und ϕmax. Die drei unterschiedlichen Herangehensweisen werden in den folgenden Gleichungen abhängig davon, wo sich im spezifizierten Bereich 53 die normalisierte Differenz 52 befindet, gezeigt:
-
Wenn Δϕ(λ, μ) < ϕmin dann
-
Gleichung 1.1
-
- σ 2 / N(λ, μ) = α·σ 2 / N(λ – 1, μ) + (1 – α)·|X1|2(λ, μ) verwenden, wobei
- |X1|2(λ, μ) die Kreuzleistungsspektraldichte 58 des ersten Signals 46 und des zweiten Signals 48 ist;
- Wenn Δϕ(λ, μ) > ϕmax dann σ 2 / N(λ, μ) = σ 2 / N(λ – 1, μ) verwenden, in unterschiedlichen Ausführungsformen können andere Verfahren verwendet sein, was auch in Zeiträumen von Sprachanwesenheit funktioniert;
- wenn ϕmin < Δϕ(λ, μ) dann
-
Gleichung 1.2
-
- σ 2 / N(λ, μ) = α·σ 2 / N(λ – 1, μ) + (1 – α)·|X2|2(λ, μ) verwenden,
- wobei X1 der Zeitbereich-Koeffizient des Signals x1(k) und X2 der Zeitbereich-Koeffizient des Signals x2(k) ist.
-
Feste oder adaptive Werte können für ϕmin, ϕmax, und α. verwendet werden. Der Ausdruck σ 2 / N(λ, μ) kann die Rauschabschätzung 52 sein. Die Werte von α. in Gleichung 1.1 und Gleichung 1.2 können unterschiedlich oder gleich sein. Der Ausdruck λ kann als der diskrete Frame-Index definiert werden. Der Ausdruck μ kann als der diskrete Frequenzindex definiert werden. Der Ausdruck α kann als der Glättungsfaktor definiert werden.
-
Bei Sprachverarbeitungsanwendungen kann das Sprachsignal in Frames (λ) aufgeteilt sein. Diese Frames werden dann transformiert in den Frequenzbereich (μ), das Kurzzeitspektrum X1. Um ein zuverlässigeres Maß des Leistungsspektrums eines Signals zu erhalten, werden die Kurzzeitspektren rekursiv über aufeinanderfolgende Frames geglättet. Die Glättung über die Zeit stellt die PSD-Abschätzungen in Gleichung 1.3–1.5 bereit.
-
Bei einigen Ausführungsformen wird die Gleichung in der spektralen Kurzzeitdomäne realisiert und die erforderlichen PSD-Ausdrücke in Gleichung 1 werden rekursiv mittels der diskreten Kurzzeitabschätzungen gemäß den folgenden Gleichungen abgeschätzt: Gleichung 1.3
Gleichung 1.4
Gleichung 1.5
wobei β ein fester oder adaptiver Glättungsfaktor ist und 0 ≤ β ≤ 1 ist, und * bezeichnet die konjugierte Zahl.
-
Des Weiteren ist in unterschiedlichen Ausführungsformen eine Kombination mit alternativen einkanaligen oder zweikanaligen PSD-Rauschabschätzern auch möglich. Abhängig vom Abschätzer kann diese Kombination auf dem Minimum, Maximum oder irgendeiner Art von Durchschnitt, pro Frequenzband und/oder einer frequenzabhängigen Kombination basieren.
-
Bei einer oder mehreren Ausführungsformen kann das Rauschabschätzungsmodul 50 ein anderes System und Verfahren zur Identifizierung der Rauschabschätzung 52 verwenden. Das Rauschabschätzungsmodul 50 kann die Kohärenz 60 zwischen dem ersten Signal 46 und dem zweiten Signal 48 identifizieren und dann die Rauschabschätzung 52 unter Verwendung von Kohärenz 60 identifizieren.
-
Die unterschiedlichen veranschaulichenden Ausführungsformen erkennen und berücksichtigen, dass gängige Methoden Abschätzer für die Sprach-PSD basierend auf der Störfeld-Kohärenz und abgeleitet und integriert in einer Wiener-Filter-Regel zur Reduzierung des diffusen Hintergrundrauschens verwenden. Eine oder mehrere veranschaulichende Ausführungsformen stellen eine PSD-Rauschabschätzung für eine vielseitige Anwendung in jeder spektralen Rauschunterdrückungsregel bereit. Die komplexe Kohärenz zwischen dem ersten Signal
46 und dem zweiten Signal
48 ist im Frequenzbereich durch die folgende Gleichung definiert: Gleichung 2
-
Wenn die Rauschquellen n1(k) und n2(k) von 3 mit den Sprachsignalen s(k) von 3 unkorreliert sind, lesen sich in unterschiedlichen veranschaulichenden Ausführungsformen die Autoleistungsspektraldichte und Kreuzleistungsspektraldichte am Eingang des Sprachverbesserungssystems xp(k) und xs(k) als: ϕX1X1 = ϕSS + ϕn1n1; ϕX2X2 = ϕSS + ϕn2n2; und ϕX1X2 = ϕSS + ϕn1n2, wobei ϕSS = ϕS1S1 = ϕS2S2; und wobei ϕSS die Leistungsspektraldichte der Sprache ist, ϕn1n1 die Autoleistungsspektraldichte des Rauschens am ersten Mikrofon 42 ist, ϕn2n2 die Autoleistungsspektraldichte des Rauschens am zweiten Mikrofon 44 ist und ϕn1n2 die Kreuzleistungsspektraldichte des Rauschens beider Mikrofone ist.
-
Wenn angewandt auf Gleichung 2, ist die Kohärenz der Sprachsignale ΓX1X2(λ, μ) = 1. In unterschiedlichen Ausführungsformen kann die Kohärenz 60 nahe 1 sein, wenn die Entfernung Klangquelle zu Mikrofon kleiner ist als eine kritische Entfernung. Die kritische Entfernung kann als die Entfernung von der Quelle definiert werden, bei der die Schallenergie aufgrund der Komponente des direkten Weges des Signals zur Schallenergie aufgrund des Widerhalls des Signals gleich ist.
-
Außerdem können verschiedene Ausführungsformen berücksichtigen, dass das Störfeld als diffus charakterisiert ist, wobei die Kohärenz des ungewünschten Hintergrundrauschens nm(k) abgesehen von niedrigen Frequenzen in der Nähe von null ist. Des Weiteren können verschiedene Ausführungsformen berücksichtigen, dass ein homogenes diffuses Störfeld in
ϕn1n1 = ϕn2n2 = σ 2 / N resultiert. In einigen der nachfolgenden Gleichungen können die Kennziffern von Frame und Frequenz (λ und µ) zur Klarheit ausgelassen sein. Bei verschiedenen Ausführungsformen kann Gleichung 2 wie folgt neu geordnet werden:
wobei Γ
n1n2 ein willkürliches Störfeldmodell sein kann, wie beispielsweise
in einem unkorrelierten Störfeld, wo
ΓX1X2(λ, μ) = 0, oder in einem idealen homogenen kugelförmig isotropen Störfeld, wo
wobei d
mic die Entfernung zwischen zwei Kugelmikrofonen bei der Frequenz f und Schallgeschwindigkeit c ist.
-
Deshalb kann die Autoleistungsspektraldichte formuliert werden als: ϕX1X1 = ϕSS + σ 2 / N; und ϕX2X2 = ϕSS + σ 2 / N.
-
Außerdem kann die Kreuzleistungsspektraldichte formuliert werden als: ϕX1X2 = ϕSS + Γn1n2·σ 2 / N.
-
Mit dem geometrischen Mittel der zwei Autoleistungsspektraldichten als:
und der Neuanordnung der Kreuzleistungsspektraldichte zu:
ϕSS = ϕX1X2 – Γn1n2·σ 2 / N kann die folgende Gleichung formuliert werden:
-
Basierend auf der oben genannten Gleichung ist der Istwert der PSD-Rauschabschätzung: Gleichung 3
wobei 1 – Re[Γ
n1n2(λ, μ)] > 0 für den Nenner sichergestellt werden muss, beispielsweise ein oberer Grenzwert der Kohärenz
60 von Γ
max = 0.99. Die Funktion {.} gibt den Realteil ihres Arguments zurück. Bei unterschiedlichen Ausführungsformen können die Realteile, die in der Gleichung 3 genommen wurden, nicht genommen werden. Des Weiteren können irgendwelche Realteile, die in einigen der Gleichung hierin genommen wurden, optional sein. Des Weiteren können in unterschiedlichen Ausführungsformen die unterschiedlichen PSD-Elemente jeweils gleichmäßig oder ungleichmäßig gewichtet sein.
-
Sobald das Rauschabschätzungsmodul 50 die Rauschabschätzung 52 identifiziert, kann das Sprachverbesserungsmodul 62 die Verstärkung 64 des Rauschreduzierungssystems 34 identifizieren. Die Verstärkung 64 kann die spektralen Verstärkungen sein, die am ersten Signal 46 und dem zweiten Signal 48 während der Verarbeitung durch das Rauschreduzierungssystem 34 angewandt wurden. Die Gleichung für die Verstärkungen 64 verwendet die Leistungspegeldifferenz zwischen beiden Mikrofonen wie folgt:
-
Gleichung 4
-
-
Δϕ(λ, μ) = |ϕX1X1(λ, μ) – ϕX2X2(λ, μ)|.
-
Wenn reines Rauschen vorhanden ist, resultiert die obige Gleichung in der Nähe von null während, wenn reine Sprache vorhanden ist, ein Absolutwert größer als Null erreicht wird. Des Weiteren können die unterschiedlichen Ausführungsformen sich wie folgt verwenden:
-
Gleichung 5
-
-
Δϕ(λ, μ) = max(ϕX1X1(λ, μ) – ϕX2X2(λ, μ), 0).
-
In Gleichung 5 ist die Leistungspegeldifferenz null, wenn der Leistungspegel des zweiten Signals größer ist als der Leistungspegel des ersten Signals. Diese Ausführungsform erkennt und berücksichtigt, dass der Leistungspegel am zweiten Mikrofon 44 nicht höher sein sollte als der Leistungspegel am ersten Mikrofon 42. Jedoch bei einigen Ausführungsformen kann es wünschenswert sein 4 zu verwenden. Wenn beispielsweise die zwei Mikrofone von der Sprachquelle 38 abstandsgleich sind.
-
Unter Verwendung der obigen Gleichung können die Verstärkungen
64 berechnet werden als: Gleichung 6
wobei H(λ, μ) die Übertragungsfunktion
66 zwischen dem ersten Mikrofon
42 und dem zweiten Mikrofon
44 ist,
σ ^ 2 / N(λ, μ) die Rauschabschätzung
52 ist, γ ein Gewichtungsfaktor ist, Δϕ(λ, μ) die normalisierte Differenz
52 ist und G(λ, μ) die Verstärkung
64 ist.
-
Im Fall von einem Fehlen von Sprache hat Sprachquelle 38 keinen Ausgang, Δϕ(λ, μ) wird Null sein und daher wird die Verstärkung 64 null sein. Wenn es Sprache ohne Rauschen gibt, hat die Vielzahl von Rauschquellen 40 keinen Ausgang, der rechte Teil des Nenners der Gleichung 6 wird null sein, und dementsprechend wird der Bruch eins ergeben.
-
Das Sprachverbesserungsmodul
62 kann die Übertragungsfunktion
66 unter Verwendung eines Verhältnisses
67 der Leistungsspektraldichte
56 des zweiten Signals
48 abzüglich der Rauschabschätzung
52 zur Leistungsspektraldichte
54 des ersten Signals
46 identifizieren. Die Rauschabschätzung
52 wird nur von der Leistungsspektraldichte
56 des zweiten Signals
48 entfernt. Die Übertragungsfunktion
66 wird wie folgt berechnet: Gleichung 7
wobei H(λ, μ) die Übertragungsfunktion
66 ist,
ϕ
X1X1(λ, μ) die Leistungsspektraldichte
54 des ersten Signals
46 ist,
ϕ
X2X2(λ, μ) die Leistungsspektraldichte
56 des zweiten Signals
44 ist, und
σ ^ 2 / N(λ, μ) die Rauschabschätzung
54 ist, die hier auch als ϕ
NN(λ, μ) bezeichnet werden kann.
-
Bei anderen Ausführungsformen kann die Übertragungsfunktion
66 eine andere Gleichung sein wie folgt: Gleichung 8
-
In diesem Fall, wenn die Sprache niedrig ist, konvergieren sowohl der Dividend als auch der Nenner nahe an Null.
-
Des Weiteren verwenden unterschiedliche vorteilhafte Ausführungsformen Verfahren, um den Umfang an Reststörungen zu reduzieren. Beispielsweise kann in unterschiedlichen Ausführungsformen ein Verfahren ähnlich einer entscheidungsgerichteten Herangehensweise, die auf der Abschätzung von H(λ, μ) funktioniert, wie folgt verwendet werden: 1 – Gλ, µ, und 1 – ξλ, µ, wobei α unterschiedliche Werte in den unterschiedlichen Gleichungen hierin sein kann.
-
Des Weiteren kann eine Herangehensweise des Glättens der Frequenz weiter den Umfang an Reststörungen reduzieren. Des Weiteren kann in unterschiedlichen Ausführungsformen eine Verstärkungsglättung nur über einem bestimmten Frequenzbereich angewandt werden. Bei anderen Ausführungsformen kann eine Verstärkungsglättung für keine oder alle Frequenzen angewandt werden.
-
Des Weiteren kann Teilnehmerendgerät 34 ein oder mehrere Speicherelemente (z. B. Speicherelement 24) aufweisen, um Informationen zu speichern, die beim Erreichen von Operationen zu verwenden sind, welche mit dem Anwendungsmanagement verbunden sind, wie es hier dargestellt ist. Diese Geräte können weiter Informationen in jedem geeigneten Speicherelement (z. B. Random Access Memory (RAM), Read Only Memory (ROM), Field Programmable Gate Array (FPGA), löschbarer programmierbarer ROM (EPROM), elektrisch lösch- und programmierbarer ROM (EEPROM), usw.), in jeder Software, Hardware oder in jeder anderen geeigneten Komponente, Gerät, Element oder Objekt speichern, wo es geeignet ist und auf speziellen Notwendigkeiten basiert. Alle Speicherelemente, die hier beschrieben wurden, sollten als innerhalb des breiten Ausdrucks ‚Speicherelement‘ eingeschlossen ausgelegt werden, wie er hier in dieser Spezifikation verwendet wird.
-
In unterschiedlichen veranschaulichenden Ausführungsformen können die Operationen, die hier dargestellt sind, um Rauschen zu reduzieren und einzuschätzen, mittels Logik implementiert sein, die in einem oder mehreren konkreten Medien verschlüsselt ist, welche nichtflüchtige Medien (z. B. eingebettete Logik bereitgestellt in einem ASIC, Digitalsignal-Prozessor-(DSP)-Anweisungen, Software potenziell inklusive des Maschinencodes und des Quellcodes, der durch einen Prozessor oder eine andere ähnliche Maschine auszuführen ist, usw.) einschließen können. In einigen dieser Fälle können ein oder mehrere Speicherelemente (z.B. Speicherelement 68) Daten speichern, die für die hier beschriebenen Operationen verwendet werden. Dies umfasst die Speicherelemente, die Software, Logik, Code oder Prozessor-Anweisungen speichern können, welche ausgeführt werden, um die in dieser Spezifikation beschriebenen Aktivitäten auszuführen.
-
Des Weiteren kann das Teilnehmerendgerät 36 das Verarbeitungselement 70 aufweisen. Ein Prozessor kann jede Art von Anweisungen ausführen, die mit den Daten verbunden sind, um die Operationen zu erreichen, die in dieser Spezifikation beschrieben sind. Bei einem Beispiel können die Prozessoren (wie gezeigt in 5) ein Element oder einen Artikel (z. B. Daten) von einem Zustand oder einer Sache zu einem anderen Zustand oder einer Sache transformieren. Bei einem weiteren Beispiel können die hier dargestellten Aktivitäten mit fester Logik oder programmierbarer Logik implementiert sein (z. B. Software-/Computeranweisungen, die durch einen Prozessor ausgeführt werden), und die hier identifizierten Elemente könnten eine Art eines programmierbaren Prozessors, einer programmierbaren Digitallogik (z. B. ein FPGA, ein EPROM, ein EEPROM) oder ein ASIC sein, das Digitallogik, Software, Code, elektronische Anweisungen, Flash-Speicher, optische Disks, CDs, DVD-ROM, magnetische oder optische Speicherkarten und andere Arten von maschinenlesbaren Medien umfasst, die geeignet sind, um elektronische Anweisungen zu speichern, oder irgendeine geeignete Kombination davon.
-
Des Weiteren weist das Teilnehmerendgerät 36 die Kommunikationseinheit 70 auf, welche Kommunikationen mit anderen Geräten bereitstellt. Die Kommunikationseinheit 70 kann Kommunikationen entweder über die Verwendung von physischen Links als auch von Links mit drahtloser Kommunikation oder beidem bereitstellen.
-
Die Veranschaulichung des Rauschreduzierungssystems 34 in 5 ist nicht dazu beabsichtigt physische oder architektonische Einschränkungen in Bezug auf die Art und Weise, in der unterschiedliche veranschaulichende Ausführungsformen implementiert sein können, zu implizieren. Andere Komponenten können zusätzlich und/oder anstelle von denjenigen, die veranschaulicht sind, verwendet werden. Einige Komponenten können in einigen veranschaulichenden Ausführungsformen unnötig sein. Außerdem werden die Blocks präsentiert, um einige funktionelle Komponenten zu veranschaulichen. Ein oder mehrere dieser Blocks können kombiniert und/oder in unterschiedliche Blocks unterteilt sein, wenn sie in unterschiedlichen vorteilhaften Ausführungsformen implementiert sind.
-
6 ist ein Ablaufdiagramm, um Rauschen in einem Rauschreduzierungssystem gemäß einer veranschaulichenden Ausführungsform zu reduzieren. Prozess 600 kann im Rauschreduzierungssystem 34 von 5 implementiert sein.
-
Prozess 600 beginnt mit dem Teilnehmerendgerät, das ein erstes Signal an einem ersten Mikrofon empfängt (Schritt 602). Außerdem empfängt das Teilnehmerendgerät ein zweites Signal an einem zweiten Mikrofon (Schritt 604). Die Schritte 602 und 604 können in jeder Reihenfolge oder gleichzeitig erfolgen. Das Teilnehmerendgerät kann ein Kommunikationsgerät, Laptop, Tablet-PC oder jedes andere Gerät sein, das Mikrofone einsetzt.
-
Dann identifiziert ein Rauschabschätzungsmodul die Rauschabschätzung im ersten Signal und zweiten Signal (Schritt 606). Das Rauschabschätzungsmodul kann eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals identifizieren und die Rauschabschätzung basierend darauf, ob die normalisierte Differenz unter, innerhalb oder über einem spezifizierten Bereich liegt, identifizieren.
-
Dann identifiziert ein Sprachverbesserungsmodul eine Übertragungsfunktion des Rauschreduzierungssystems, indem es ein Verhältnis einer Leistungsspektraldichte des zweiten Signals abzüglich der Rauschabschätzung zu einer Leistungsspektraldichte des ersten Signals verwendet (Schritt 608). Die Rauschabschätzung wird nur von der Leistungsspektraldichte des zweiten Signals entfernt. Letztendlich identifiziert das Sprachverbesserungsmodul eine Verstärkung des Rauschreduzierungssystems, indem es die Übertragungsfunktion (Schritt 610) verwendet. Danach endet der Prozess.
-
7 ist ein Ablaufdiagramm, um Rauschen in einem Rauschreduzierungssystem gemäß einer veranschaulichenden Ausführungsform zu identifizieren. Prozess 700 kann im Rauschreduzierungssystem 34 von 5 implementiert sein.
-
Prozess 700 beginnt mit dem Teilnehmerendgerät, das ein erstes Signal an einem ersten Mikrofon empfängt (Schritt 702). Außerdem empfängt das Teilnehmerendgerät ein zweites Signal an einem zweiten Mikrofon (Schritt 704). Die Schritte 702 und 704 können in jeder Reihenfolge oder gleichzeitig erfolgen. Das Teilnehmerendgerät kann ein Kommunikationsgerät, Laptop, Tablet-PC oder jedes andere Gerät sein, das Mikrofone einsetzt.
-
Dann identifiziert ein Rauschabschätzungsmodul eine normalisierte Differenz in der Leistungsspektraldichte des ersten Signals und der Leistungsspektraldichte des zweiten Signals (Schritt 706). Letztendlich identifiziert das Rauschabschätzungsmodul eine Rauschabschätzung, indem es die Differenz verwendet (Schritt 708). Danach endet der Prozess.
-
8 ist ein Ablaufdiagramm, um Rauschen in einem Rauschreduzierungssystem gemäß einer veranschaulichenden Ausführungsform zu identifizieren. Prozess 800 kann im Rauschreduzierungssystem 34 von 5 implementiert sein.
-
Prozess 800 beginnt mit dem Teilnehmerendgerät, das ein erstes Signal an einem ersten Mikrofon (Schritt 802) empfängt. Außerdem empfängt das Teilnehmerendgerät ein zweites Signal an einem zweiten Mikrofon (Schritt 804). Die Schritte 802 und 804 können in jeder Reihenfolge oder gleichzeitig erfolgen. Das Teilnehmerendgerät kann ein Kommunikationsgerät, Laptop, Tablet-PC oder jedes andere Gerät sein, das Mikrofone einsetzt.
-
Dann identifiziert ein Rauschabschätzungsmodul die Kohärenz zwischen dem ersten Signal und dem zweiten Signal (Schritt 806). Letztendlich identifiziert das Rauschabschätzungsmodul eine Rauschabschätzung, indem es die Kohärenz verwendet (Schritt 808). Danach endet der Prozess.
-
Die Ablaufdiagramme und Prinzipschaltbilder in den unterschiedlichen abgebildeten Ausführungsformen veranschaulichen die Architektur, Funktionalität und die Operation von einigen möglichen Implementierungen von Vorrichtung, Verfahren, System und Computerprogramm-Produkten. In dieser Hinsicht kann jeder Block im Ablaufdiagramm oder den Prinzipschaltbildern ein Modul, Segment oder Abschnitt von computernutzbarem oder lesbarem Programmcode repräsentieren, der eine oder mehrere ausführbare Anweisungen umfasst, um die angegebene Funktion oder angegebenen Funktionen zu implementieren. Bei einigen alternativen Implementierungen kann eine Funktion oder Funktionen, die im Block angemerkt sind, außer der Reihenfolge auftreten, wie sie in den Figuren angemerkt ist. Beispielsweise können in einigen Fällen zwei in Abfolge gezeigte Blocks im Wesentlichen gleichzeitig ausgeführt werden oder die Blocks können manchmal abhängig von der einbezogenen Funktionalität in umgekehrter Reihenfolge ausgeführt werden.