-
TECHNISCHES GEBIET
-
Die vorliegende Erfindung bezieht sich auf eine Geräuschunterdrückungsvorrichtung zum Unterdrücken eines Hintergrundgeräuschs, das einem Eingangssignal überlagert ist.
-
HINTERGRUNDTECHNIK
-
Mit der jüngsten Entwicklung einer Digitalsignalverarbeitungstechnologie haben sich eine Außen-Sprach-Fernsprechkommunikation mit einem Mobiltelefon, eine fahrzeuginterne freihändige (englisch: hands-free) bzw. Freisprech-Sprach-Fernsprechkommunikation und ein freihändiger Betrieb unter Verwendung einer Spracherkennung weit verbreitet. Da Vorrichtungen zum Ausführen dieser Funktionen oftmals in einer sehr geräuschvollen Umgebung verwendet werden, werden ein Hintergrundgeräusch sowie Sprache in ein Mikrofon eingegeben, wodurch eine Verschlechterung der Fernsprechkommunikationssprache und eine Reduzierung der Spracherkennungsrate mit sich gebracht werden. Um dementsprechend eine angenehme Sprach-Fernsprechkommunikation und eine hochgenaue Spracherkennung zu realisieren, ist eine Geräuschunterdrückungsvorrichtung zum Reduzieren eines Hintergrundgeräuschs, das in ein Eingangssignal gemischt wird, erforderlich.
-
Als ein herkömmliches Geräuschunterdrückungsverfahren ist ein Verfahren bekannt, das ein Eingangssignal in dem Zeitbereich in ein Leistungsspektrum, das ein Signal in dem Frequenzbereich ist, wandelt, unter Verwendung des Leistungsspektrums des Eingangssignals und eines Geräuschspektrums, das getrennt von dem Eingangssignal geschätzt wird, ein Unterdrückungsgrad für eine Geräuschunterdrückung berechnet, unter Verwendung des erhaltenen Unterdrückungsgrades eine Amplitudenunterdrückung des Leistungsspektrums des Eingangssignals ausführt, und das Leistungsspektrum, das durch die Amplitudenunterdrückung geht, und das Phasenspektrum des Eingangssignals in den Zeitbereich wandelt, umbeispielsweise ein geräuschunterdrücktes Signal zu erhalten (siehe Nicht-Patentdokument 1).
-
Das herkömmliche Geräuschunterdrückungsverfahren berechnet aus dem Verhältnis (SN-Verhältnis) zwischen dem Leistungsspektrum der Sprache und dem geschätzten Geräuschleistungsspektrum den Unterdrückungsgrad. Dasselbe ist jedoch lediglich unter einer Bedingung wirksam, bei der das dem Eingangssignal überlagerte Geräusch in der Zeit-/Frequenzrichtung ein wenig stetig ist, kann jedoch den Unterdrückungsgrad nicht korrekt berechnen, wenn ein Geräusch, das in der Zeit-/Frequenzrichtung unstetig ist, eingegeben wird, was ein Problem eines Erzeugens eines künstlichen restlichen krächzenden Geräuschs, das ein Musikton genannt ist, vorbringt.
-
Was das vorhergehende Problem betrifft, ist beispielsweise ein Verfahren offenbart, das das restliche krächzende Geräusch weniger hörbar macht, indem ein Eingangssignal (ein ursprünglicher Laut), das durch eine geeignete Pegelanpassung geht, nach der Geräuschunterdrückung zu dem Ausgangssignal addiert wird (siehe beispielsweise Patentdokument 1).
-
Als ein anderes Verfahren ist ein Verfahren offenbart, das im Voraus ein vorgeschriebenes Zielspektrum einstellt, um eine stabile Geräuschunterdrückung auszuführen, und das Auftreten eines Musikgeräuschs hinsichtlich des unstetigen Geräuschs durch Steuern des Geräuschunterdrückungsgrades auf eine solche Art und Weise, dass sich das restliche Geräuschspektrum dem Zielspektrum nähert, reduziert, wodurch eine natürliche und stabile Geräuschunterdrückung ausgeführt wird (siehe beispielsweise Patentdokument 2).
-
Die Druckschrift
US 2008/0219471 A1 offenbart ein Signalverarbeitungsverfahren zum Konvertieren eines Signals, das über einen Übertragungsweg empfangen oder von einem Speichermedium gelesen wurde, in ein erstes akustisches Signal und zum Unterdrücken eines in dem ersten akustischen Signal enthaltenen Rauschens basierend auf einer vorbestimmten Audioqualitätsanpassungs-information.
-
Die Druckschrift
US 2006/0271362 A1 offenbart ein Verfahren und eine Vorrichtung zur Rauschunterdrückung. In der Rauschunterdrückungsvorrichtung zum Unterdrücken von in einem Sprachsignal enthaltenem Rauschen wird das Sprachsignal in einen ersten Vektor mit spektralen Sprachkomponenten und einen zweiten Vektor mit spektralen Sprachkomponenten, welcher mit dem ersten Vektor identisch ist, zerlegt. Ein Vektor mit Rauchunterdrückungs-koeffizienten wird basierend auf den spektralen Sprachkomponenten des ersten Vektors bestimmt. Ein Vektor mit geschätzten Rauschkomponenten wird auf den spektralen Sprachkomponenten des ersten Vektors bestimmt, und ein Sprachabschnittskorrekturfaktor und ein Nicht-Sprachabschnittskorrekturfaktor werden von den geschätzten Rauschkomponenten und den spektralen Sprachkomponenten des ersten Vektors berechnet, um einen kombinierten Korrekturfaktor zu erzeugen. Die Rauschunterdrückungs-koeffizienten werden durch den kombinierten Korrekturfaktor gewichtet, um einen Vektor mit Nach-Unterdrückungs-koeffizienten zu erzeugen. Die spektralen Sprachkomponenten des zweiten Vektors werden durch die Nach-Unterdrückungs-koeffizienten gewichtet, um einen Vektor mit verbesserten Sprachkomponenten zu erzeugen.
-
Die Druckschrift
US 2009/0196434 A1 offenbart ein Verfahren, eine Vorrichtung und ein Computerprogramm, welche eine Niederfrequenzbereichskomponente mit geringem Rechenaufwand unterdrücken und eine Rauschunterdrückung von hoher Qualität erreichen können.
-
DOKUMENT DES STANDS DER TECHNIK
-
PATENTDOKUMENT
-
- Patentdokument 1: Japanisches Patent JP 3 459 363 B2 (S. 5–6 und 1)
- Patentdokument 2: EP-Patentschrift EP 1 995 722 B1 .
-
NICHT-PATENTDOKUMENT
-
- Nicht-Patentdokument 1: Y. Ephraim, D. Malah, ”Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. ASSP, Band ASSP-32, Nr. 6, Dez. 1984.
-
OFFENBARUNG DER ERFINDUNG
-
Die vorhergehenden Verfahren besitzen die folgenden Probleme.
-
Das herkömmliche Verfahren, das in dem Patentdokument 1 beschrieben ist, besitzt ein Problem eines Variierens einer Klangfarbe des Ausgangssignals oder eines Geräuschvollmachens des Sprachsignals, da dasselbe dem Ausgangssignal ein vorgeschriebenes verarbeitetes Signal hinzufügt.
-
Obwohl das herkömmliche Verfahren, das in dem Patentdokument 2 beschrieben ist, nicht das neue Problem hat, das durch das herkömmliche Verfahren des Patentdokuments 1 verursacht wird, da dasselbe das Spektrum des restlichen Geräuschs nach der Geräuschunterdrückung steuert, um dasselbe gemäß der Leistung in einem vorgeschriebenen Band dem vorgeschriebenen Zielspektrum anzunähern, besitzt dasselbe das folgende Problem.
-
6 ist ein Diagramm, das das herkömmliche Verfahren, das in dem Patentdokument 2 beschrieben ist, schematisch darstellt, bei dem die vertikale Achse eine Amplitude zeigt, und die horizontale Achse eine Frequenz (0–4000 Hz) zeigt. In 6 zeigt eine gepunktete Linie ein geschätztes Geräuschspektrum, eine strichpunktierte Linie zeigt ein vorgeschriebenes Zielspektrum, eine durchgezogene Linie zeigt ein Spektrum des restlichen Geräuschs, das das Ausgangssignal nach der Geräuschunterdrückung, die durch das Verfahren des Patentdokuments 2 ausgeführt wird, ist, und eine gestrichelte Linie zeigt ein Spektrum des restlichen Geräuschs, das ohne Einführen des Verfahrens des Patentdokuments 2 erhalten wird, das heißt, das durch die Unterdrückung durch den konstanten Unterdrückungsgrad über das ganze Band geht. Das Verfahren des Patentdokuments 2 steuert den maximalen Unterdrückungsgrad der Geräuschunterdrückung, sodass der Spektrumspegel des restlichen Geräuschs mit dem Amplitudenpegel des Zielspektrums übereinstimmt. Wenn sich dementsprechend die Form und die Leistung des Zielspektrums stark von jenen des geschätzten Geräuschspektrums des Eingangssignals unterscheiden, kann ein Band auftreten, in dem die Unterdrückung zu viel oder zu wenig ist. Als ein Resultat kann ein Problem einer Sprachverzerrung und eines geräuschvollen Eindrucks auftreten.
-
Die vorliegende Erfindung ist implementiert, um die vorhergehenden Probleme zu lösen. Eine Aufgabe der vorliegenden Erfindung besteht daher darin, eine hochqualitative Geräuschunterdrückungsvorrichtung zu schaffen.
-
MITTEL ZUM LÖSEN DER PROBLEME
-
Eine Geräuschunterdrückungsvorrichtung gemäß der vorliegenden Erfindung hat eine Konfiguration, die unter Verwendung von spektralen Komponenten, die durch Wandeln eines Eingangssignals von einem Zeitbereich zu einem Frequenzbereich erhalten werden, und unter Verwendung eines geschätzten Geräuschspektrums, das aus dem Eingangssignal geschätzt wird, einen Unterdrückungskoeffizienten für eine Geräuschunterdrückung berechnet, unter Verwendung des Unterdrückungskoeffizienten eine Amplitudenunterdrückung der spektralen Komponenten des Eingangssignals ausführt, und die ein geräuschunterdrücktes Signal, das in den Zeitbereich gewandelt ist, erzeugt, wobei die Geräuschunterdrückungsvorrichtung eine Korrekturspektrumsberechnungseinheit zum Erhalten von statistischen Informationen, die eine Charakteristik des geschätzten Geräuschspektrums widerspiegeln, und zum Erzeugen eines Korrekturspektrums durch Korrigieren des geschätzten Geräuschspektrums gemäß den statistischen Informationen, eine Berechnungseinheit eines Unterdrückungsgrad begrenzenden Koeffizienten zum Erzeugen eines Unterdrückungsgrad begrenzenden Koeffizienten zum Definieren von oberen und unteren Grenzen der Geräuschunterdrückung aus dem Korrekturspektrum, das die Korrekturspektrumsberechnungseinheit erzeugt, und eine Unterdrückungsgradberechnungseinheit zum Steuern des Unterdrückungskoeffizienten unter Verwendung des Unterdrückungsgrad begrenzenden Koeffizienten, den die Berechnungseinheit eines Unterdrückungsgrad begrenzenden Koeffizienten erzeugt, aufweist.
-
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung kann die Korrekturspektrumsberechnungseinheit bei der Geräuschunterdrückungsvorrichtung eine Korrektur von mindestens entweder einem Frequenzrichtungsglätten oder einem Zwischenrahmenglätten auf das geschätzte Geräuschspektrum anwenden.
-
VORTEILE DER ERFINDUNG
-
Gemäß der vorliegenden Erfindung erhält dieselbe durch Korrigieren des Geräuschspektrums, das aus dem Eingangssignal geschätzt wird, das Korrekturspektrum und führt unter Verwendung des Unterdrückungsgrad begrenzenden Koeffizienten, der aus dem Korrekturspektrum erhalten wird, die begrenzende Verarbeitung der spektralen Verstärkung aus, wodurch dieselbe in der Lage ist, eine hochqualitative Geräuschunterdrückungsvorrichtung zu schaffen, die fähig ist, eine gute Geräuschunterdrückung auszuführen, ohne das Band zu erzeugen, in dem die Unterdrückung zu viel oder zu wenig ist, während verhindert wird, dass der Musikton auftritt.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist ein Blockdiagramm, das eine Konfiguration einer Geräuschunterdrückungsvorrichtung eines Ausführungsbeispiels 1 gemäß der vorliegenden Erfindung zeigt;
-
2 ist ein Blockdiagramm, das eine interne Konfiguration der Korrekturspektrumsberechnungseinheit bei dem Ausführungsbeispiel 1 zeigt;
-
3 ist eine grafische Darstellung, die ein Verhalten einer glättenden Verarbeitung bei der Korrekturspektrumsberechnungseinheit bei dem Ausführungsbeispiel 1 schematisch zeigt, wobei 3(a) ein geschätztes Geräuschspektrum vor dem Glätten zeigt, und 3(b) ein geschätztes Geräuschspektrum nach dem Glätten zeigt;
-
4 ist ein Blockdiagramm, das eine interne Konfiguration der Berechnungseinheit eines Unterdrückungsgrad begrenzenden Koeffizienten bei dem Ausführungsbeispiel 1 zeigt;
-
5 ist eine grafische Darstellung, die ein Verhalten eines Spektrums eines restlichen Geräuschs nach der Geräuschunterdrückung durch die Geräuschunterdrückungsvorrichtung des Ausführungsbeispiels 1 schematisch zeigt; und
-
6 eine grafische Darstellung, die ein Verhalten eines Spektrums eines restlichen Geräuschs nach der Geräuschunterdrückung durch ein Geräuschunterdrückungsverfahren des Patentdokuments 2 schematisch zeigt.
-
BESTER MODUS ZUM AUSFÜHREN DER ERFINDUNG
-
Der beste Modus zum Ausführen der Erfindung ist im Folgenden unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, um die vorliegende Erfindung im stärkeren Detail zu erläutern.
-
AUSFÜHRUNGSBEISPIEL 1
-
Die Geräuschunterdrückungsvorrichtung, die in 1 gezeigt ist, weist einen Eingangsanschluss 1, eine Fourier-Transformationseinheit 2, eine Leistungsspektrumsberechnungseinheit 3, eine Sprach-/Geräuschabschnitts-Feststellungseinheit 4, eine Geräuschspektrumsschätzungseinheit 5, eine Korrekturspektrumsberechnungseinheit 6, eine Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten, eine SN-Verhältnis-Berechnungseinheit 8, eine Unterdrückungsgradberechnungseinheit 9, eine Spektrumsunterdrückungseinheit 10, eine Fourier-Rücktransformationseinheit 11 und einen Ausgangsanschluss 12 auf.
-
Als eine Eingabe in die Geräuschunterdrückungsvorrichtung wird ein Signal verwendet, das durch eine A/D-(Analog-/Digital-)Wandlung einer Sprache und Musik, die mit einem Mikrofon (nicht gezeigt) erfasst werden, gefolgt von einem Abtasten mit einer vorgeschriebenen Abtastfrequenz (beispielsweise 8 kHz) und von einer Teilung in eine Rahmeneinheit (beispielsweise 10 ms) geht.
-
Das Betriebsprinzip der Geräuschunterdrückungsvorrichtung des Ausführungsbeispiels 1 ist im Folgenden unter Bezugnahme auf 1 beschrieben.
-
Der Eingangsanschluss 1 empfängt das im Vorhergehenden erwähnte Signal und führt der Fourier-Transformationseinheit 2 dasselbe als ein Eingangssignal zu.
-
Die Fourier-Transformationseinheit 2 wandelt durch Anwenden des Hamming-Fensters auf das Eingangssignal und dann Durchführen der schnellen Fourier-Transformation mit 256 Punkten, wie es durch den folgenden Ausdruck (1) gezeigt ist, das Zeitbereichssignal x(t) in spektrale Komponenten X(λ, k). Der Leistungsspektrumsberechnungseinheit 3 und der Spektrumsunterdrückungseinheit 10 werden jeweils die erhaltenen spektralen Komponenten X(λ, k) zugeführt. X(λ, k) = FT[x(t)] (1)
-
λ ist hier eine Rahmennummer, wenn das Eingangssignal in einen Rahmen geteilt ist, k ist eine Nummer zum Bezeichnen einer Frequenzkomponente in dem Frequenzband eines Leistungsspektrums (auf die von nun an als eine „Spektrumsnummer” Bezug genommen ist), FT[·] stellt die Fourier-Transformation dar, und t stellt die Nummer einer diskreten Zeit dar.
-
Die Leistungsspektrumsberechnungseinheit 3 berechnet unter Verwendung des folgenden Ausdrucks (2) aus den spektralen Komponenten X(λ, k) des Eingangssignals ein Leistungsspektrum Y(λ, k). Der Sprach-/Geräuschabschnitts-Feststellungseinheit 4, der Geräuschspektrumsschätzungseinheit 5, der Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten und der SN-Verhältnis-Berechnungseinheit 8 werden das erhaltene Leistungsspektrum Y(λ, k) zugeführt.
-
-
Hier stellen Re{X(λ, k)} und Im{X(λ, k)} einen Realteil bzw. einen Imaginärteil des Eingangssignalspektrums nach der Fourier-Transformation dar.
-
Durch Verwenden des Leistungsspektrums Y(λ, k), das die Leistungsspektrumsberechnungseinheit 3 ausgibt, und des geschätzten Geräuschspektrums N(λ – 1, k), das einen Rahmen vorher geschätzt wird und durch die Geräuschspektrumsschätzungseinheit 5 ausgegeben wird, die im Folgenden beschrieben ist, als ihre Eingabe stellt die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 fest, ob das Eingangssignal des vorliegenden Rahmens λ Sprache oder ein Geräusch ist, und gibt das Resultat als eine Feststellungs-Flag aus. Der Geräuschspektrumsschätzungseinheit 5 und der Korrekturspektrumsberechnungseinheit 6 wird die Feststellungs-Flag zugeführt.
-
Als das Feststellungsverfahren des Sprach-/Geräuschabschnitts durch die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 ist ein Verfahren bekannt, das die Feststellungs-Flag Vflag auf „1 (Sprache)” als Sprache einstellt, wenn mindestens einer der folgenden Ausdrücke (3) und (4) erfüllt ist, und in anderen Fällen die Feststellungs-Flag Vflag auf „0 (Geräusch)” als Geräusch einstellt.
-
-
In dem vorhergehenden Ausdruck (3) ist N(λ – 1, k) das geschätzte Geräuschspektrum des vorausgehenden Rahmens, Spow und Npow sind die Gesamtsumme des Leistungsspektrums des Eingangssignals bzw. die Gesamtsumme des geschätzten Geräuschspektrums. In dem vorhergehenden Ausdruck (4) ist ρmax(λ) der maximale Wert der normierten Autokorrelationsfunktion. Außerdem sind THFR_SN und THACF eine vorgeschriebene konstante Schwelle für eine Entscheidung. Obwohl ihr geeignetes Beispiel THFR_SN = 3,0 und THACF = 0,3 ist, können dieselben abhängig von dem Zustand des Eingangssignals und des Geräuschpegels geeignet variiert sein.
-
Nebenbei bemerkt kann in dem vorhergehenden Ausdruck (4) der maximale Wert ρmax(λ) der normierten Autokorrelationsfunktion wie folgt erhalten werden.
-
Unter Verwendung des folgenden Ausdrucks (5) wird erstens die normierte Autokorrelationsfunktion ρN(λ, τ) aus dem Leistungsspektrum Y(λ, k) erhalten. ρN(λ, τ) = ρ(λ, τ) / ρ(λ, 0) (5) wobei ρ(λ, r) = FT[Y(λ, k)]
-
Hier ist τ eine Verzögerungszeit, und FT [·] stellt, wie im Vorhergehenden erwähnt ist, die Fourier-Transformation dar. Die schnelle Fourier-Transformation an 256 Punkten ist beispielsweise bei dem vorhergehenden Ausdruck (1) ausreichend. Da nebenbei bemerkt der Ausdruck (5) das Wiener-Chintschin-Theorem ist, ist die Beschreibung desselben hier weggelassen.
-
Danach kann das Verwenden des folgenden Ausdrucks (6) den maximalen Wert ρmax(λ) der normierten Autokorrelationsfunktion angeben. ρmax(λ) = max[ρN(λ, τ)]; 16 ≤ τ ≤ 96 (6)
-
Der vorhergehende Ausdruck (6) zeigt hier ein Suchen nach dem maximalen Wert der normierten Autokorrelationsfunktion ρN(λ, τ) in dem Bereich von τ = 10–96 an. Um die Autokorrelationsfunktion zu analysieren, kann nebenbei bemerkt ein öffentlich bekanntes Verfahren wie die Cepstrum-Analyse neben dem in dem vorhergehenden Ausdruck (3) gezeigten Verfahren verwendet werden.
-
Die Geräuschspektrumsschätzungseinheit 5 schätzt durch Verwenden des Leistungsspektrums Y(λ, k), das die Leistungsspektrumsberechnungseinheit 3 ausgibt, und der Feststellungs-Flag Vflag, die die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 ausgibt, als ihre Eingabe gemäß dem folgenden Ausdruck (7) und der Feststellungs-Flag Vflag das Geräuschspektrum und aktualisiert dasselbe und gibt das geschätzte Geräuschspektrum N(λ, k) des vorliegenden Rahmens aus. Nicht nur der Korrekturspektrumsberechnungseinheit 6, der Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten und der SN-Verhältnis-Berechnungseinheit 8 wird das geschätzte Geräuschspektrum N(λ, k) zugeführt, sondern ferner der Sprach-/Geräuschabschnitts-Feststellungseinheit 4, wie es im Vorhergehenden beschrieben ist, als das geschätzte Geräuschspektrum N(λ – 1, k) des vorausgehenden Rahmens.
-
-
N(λ – 1, k), das das geschätzte Geräuschspektrum in dem vorausgehenden Rahmen ist, wird hier in einer Speicherungsvorrichtung (nicht gezeigt), wie zum Beispiel einem RAM (= Random Access Memory = Zufallszugriffsspeicher), in der Geräuschspektrumsschätzungseinheit 5 gehalten. α ist zusätzlich der Aktualisierungskoeffizient, der in dem Bereich von 0 < α < 1 eine vorgeschriebene Konstante ist. Als ein passendes Beispiel kann, obwohl α = 0,95 ist, derselbe gemäß dem Zustand des Eingangssignals und des Geräuschpegels geeignet geändert sein.
-
Wenn die Feststellungs-Flag in dem vorhergehenden Ausdruck (7) Vflag = 0 ist, da das Eingangssignal des vorliegenden Rahmens als ein Geräusch festgestellt wird, aktualisiert die Geräuschspektrumsschätzungseinheit 5 unter Verwendung des Leistungsspektrums des Eingangssignals Y(λ, k) und des Aktualisierungskoeffizienten α das geschätzte Geräuschspektrum N(λ – 1, k) des vorausgehenden Rahmens und gibt dasselbe als das geschätzte Geräuschspektrum N(λ, k) des vorliegenden Rahmens aus.
-
Wenn im Gegensatz dazu die Feststellungs-Flag Vflag = 1 ist, da das Eingangssignal des vorliegenden Rahmens als Sprache und nicht als Geräusch festgestellt wird, wird das geschätzte Geräuschspektrum N(λ – 1, k) des vorausgehenden Rahmens ohne eine Änderung als das geschätzte Geräuschspektrum N(λ, k) des vorliegenden Rahmens ausgegeben.
-
Die Korrekturspektrumsberechnungseinheit 6 berechnet unter Verwendung der Feststellungs-Flag Vflag, die die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 ausgibt, und des geschätzten Geräuschspektrums N(λ, k), das die Geräuschspektrumsschätzungseinheit 5 ausgibt, als ihre Eingabe das Korrekturspektrum R(λ, k), das zum Berechnen eines Unterdrückungsgrad begrenzenden Koeffizienten, der später beschrieben ist, notwendig ist. Der Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten wird das erhaltene Korrekturspektrum R(λ, k) zugeführt.
-
Das Korrekturspektrum R(λ, k) wird zum Bestimmen der Frequenzcharakteristik des Unterdrückungsgrad begrenzenden Koeffizienten bei der Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten, die später beschrieben ist, verwendet.
-
Der Betrieb der Korrekturspektrumsberechnungseinheit 6 ist hier unter Bezugnahme auf 2 beschrieben.
-
Die in 2 gezeigte Korrekturspektrumsberechnungseinheit weist eine Geräuschspektrumsanalyseeinheit 61, eine Geräuschspektrumskorrektureinheit 62 und eine Korrekturspektrumsaktualisierungseinheit 63 auf.
-
Die Geräuschspektrumsanalyseeinheit 61 analysiert unter Verwendung des geschätzten Geräuschspektrums N(λ, k) als ihre Eingabe den Grad von Variationen in dem geschätzten Geräuschspektrum. Dieselbe analysiert genauer gesagt durch ein statistisches Verfahren den Grad einer Unebenheit zwischen den spektralen Komponenten. Als das Analyseverfahren des Grads von Variationen gibt es ein Verfahren eines Verwendens einer Varianz der spektralen Komponenten, wie beispielsweise in dem folgenden Ausdruck (8).
-
-
N ist hier die Zahl von spektralen Komponenten, die als N = 128 bestimmt ist. NAVE(λ) benennt zusätzlich den Durchschnitt des geschätzten Geräuschspektrums N(λ) des vorliegenden Rahmens λ.
-
Unter Verwendung des vorhergehenden Ausdrucks (8) berechnet die Geräuschspektrumsanalyseeinheit 61 die Varianz V(λ) des vorliegenden Rahmens und führt der Geräuschspektrumskorrektureinheit 62 dieselbe als ihr Analyseresultat zu.
-
Die Geräuschspektrumskorrektureinheit 62 führt unter Verwendung der Varianz V(λ), die die Geräuschspektrumsanalyseeinheit 61 ausgibt, als ihre statistischen Informationen und der Feststellungs-Flag Vflag, die die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 ausgibt, eine Korrektur (ein Glätten) des geschätzten Geräuschspektrums N(λ, k) aus und gibt das korrigierte geschätzte Geräuschspektrum N–(λ, k) aus.
-
Um das geschätzte Geräuschspektrum zu korrigieren, ist beispielsweise ein Medianfilter, wie es in dem folgenden Ausdruck (9) gezeigt ist, verwendet, und das Filter wird gemäß dem Betrag der Varianz V(λ) geschaltet. Nebenbei bemerkt bezieht sich der Begriff „Medianfilter” auf die Verarbeitung eines Neuanordnens von Signalen in einer vorbeschriebenen Region in der Reihenfolge einer Leistung und eines Glättens durch Bilden ihres Medians bzw. Zentralwerts.
-
Hier ist für eine Bequemlichkeit eines elektronischen Archivierens ein „–” (hoher Strich) in dem folgenden Ausdruck (9) durch „–” ausgedrückt, was von nun an in den Ausdrücken gilt.
-
-
Fsm[N[λ, k), L] benennt ein Medianfilter, und L bezeichnet die Größe der Region. Der Grad eines Glättens durch das Medianfilter erhöht sich, sowie sich die Region L erhöht. VH und VL sind zusätzlich vorgeschriebene Schwellen zum Schalten des Filters und besitzen eine Beziehung VH > VL. Die Schwelle VH bezieht sich auf einen Fall, in dem die Varianz groß ist, das heißt, in dem die Variation des Spektrums sehr groß ist. Was die Schwelle VL betrifft bedeutet dies andererseits, dass, obwohl die Variation des Spektrums desselben nicht größer als dieselbe der Schwelle VH ist, die Variation des Spektrums gefunden werden kann, und dass VL gemäß dem Typ und dem Pegel jedes Eingangsgeräusch geeignet variabel ist.
-
In dem vorhergehenden Ausdruck (9) bedeutet L = 3 beispielsweise, dass die Filterverarbeitung unter Verwendung von drei Punkten des Spektrums, das heißt der interessierenden spektralen Komponente und ihrer benachbarten spektralen Komponenten, ausgeführt wird, und die Filterverarbeitung für die einzelnen spektralen Komponenten N(k) ausgeführt wird. An den Endstücken N(λ, 0) und N(λ, N – 1) werden die Werte derselben gehalten, ohne die Filterverarbeitung auszuführen.
-
Wenn zusätzlich die Varianz V(λ) klein ist (VL > V(λ)), wird das Glätten des geschätzten Geräuschspektrums nicht ausgeführt. Wenn zusätzlich die Feststellungs-Flag Vflag = 1 ist, da der vorliegende Rahmen Sprache ist, wird das geglättete geschätzte Geräuschspektrum N–(λ – 1, k), das durch den vorausgehenden Rahmen erhalten wird, ausgegeben. Dies macht es möglich, ein übermäßiges Glätten zu stoppen und zu verhindern, dass das Sprachsignal, das fälschlicherweise in das geschätzte Geräuschspektrum gemischt wird, eine Wirkung auf das Korrekturspektrum hat, wodurch man in der Lage ist, eine gute Geräuschunterdrückung auszuführen.
-
Das geglättete geschätzte Geräuschspektrum N–(λ – 1, k) des vorausgehenden Rahmens wird nebenbei bemerkt in einer Speicherungsvorrichtung (nicht gezeigt), wie zum Beispiel einem RAM, in der Korrekturspektrumsberechnungseinheit 6 gespeichert.
-
3 ist ein Diagramm, das die Verarbeitung der Geräuschspektrumskorrektureinheit 62 schematisch zeigt. 3(a) zeigt das geschätzte Geräuschspektrum N(λ, k), das eingegeben wird, und 3(b) zeigt das durch das Medianfilter geglättete geschätzte Geräuschspektrum N–(λ, k), das ausgegeben wird.
-
Es wird in 3 herausgefunden, dass in dem geglätteten geschätzten Geräuschspektrum N–(λ, k) nicht nur eine winzige Unebenheit, die die krächzenden Musiktöne des restlichen Geräuschs verursachen wird, reduziert ist, sondern ferner scharfe Spitzen und Täler eliminiert sind.
-
Obwohl der vorhergehende Ausdruck (9) das Medianfilter unter Verwendung der Varianz des Spektrums, das durch die zwei Pegel VH und VL für die Bequemlichkeit einer Erläuterung geteilt ist, schaltet, ist dies nebenbei bemerkt nicht wesentlich. Es ist beispielsweise ferner möglich, als das Filter ein Filter eines gleitenden Durchschnitts oder ein anderes öffentlich bekanntes glättendes Filter zu verwenden. Was die Schaltbedingungen des Filters betrifft, ist ferner eine Unterteilung oder kontinuierliche Änderung ebenfalls möglich.
-
Statt eines Schaltens des Typs des Filters gemäß der Varianz des Spektrums ist es zusätzlich ferner möglich, durch Multiplizieren des Medianfilters mit einer Region L = 3 eine Mehrzahl von Malen beispielsweise ein Glätten zu verbessern. Obwohl die Gewichtungen der einzelnen Komponenten der Filterverarbeitung des vorhergehenden Ausdrucks (9) gleich sind, können dieselben ferner unterschiedlich sein. Es ist beispielsweise denkbar, der interessierenden spektralen Komponente eine große Gewichtung zu geben.
-
Obwohl zusätzlich das einzelne Medianfilter alle Komponenten in dem Band des Spektrums in dem vorhergehenden Ausdruck (9) glättet, ist es ferner möglich, für die einzelnen Frequenzkomponenten unterschiedliche Filter zu verwenden oder die Glättungsintensität der Filter zu verändern. Als ein Beispiel ist ferner eine Konfiguration möglich, die ein Glätten verbessert, sowie sich die Frequenz erhöht. Die Konfiguration kann ferner die Unebenheit der Hochfrequenzkomponenten mit einer großen Geräuschstörung reduzieren, wodurch man in der Lage ist, eine bessere Geräuschunterdrückung zu erreichen.
-
Abhängig von dem Typ und der Glättungsintensität des Filters kann nebenbei bemerkt das Leistungsgleichgewicht zwischen dem Niederfrequenzbereich und dem Hochfrequenzbereich des geschätzten Geräuschspektrums vor und nach dem Glätten variieren. In diesem Fall ist es nicht ausreichend, einen Frequenzentzerrer (englisch: equalizer) oder ein Anhebungsfilter zu verwenden, um die Steigung des Spektrums oder dergleichen geeignet anzupassen.
-
Obwohl die Geräuschspektrumsanalyseeinheit 61 die Varianz des Spektrums als das Analysemittel des Grads einer Variation in dem geschätzten Geräuschspektrum bei dem vorliegenden Ausführungsbeispiel 1 nutzt, ist dies nicht wesentlich. Dieselbe kann beispielsweise ein öffentlich bekanntes Analysemittel, wie zum Beispiel eine spektrale Entropie oder eine Kombination einer Mehrzahl von Verfahren, verwenden. Was in diesem Fall die Filterschaltschwellen betrifft, so können dieselben gemäß dem Analysemittel, das zu verwenden ist, oder dem Analysemittel, das zu kombinieren ist, geeignet angepasst sein.
-
Obwohl zusätzlich das vorliegende Ausführungsbeispiel 1 eine Glättungssteuerung des Spektrums durch Erfassen der Varianz des Spektrums, das heißt der Variation in der Frequenzrichtung, ausführt, ist es ferner möglich, die Variation in der Zeitrichtung zu berücksichtigen. Eine Konfiguration ist beispielsweise ferner denkbar, die einen Unterschied der Leistung zwischen dem vorausgehenden Rahmen und dem vorliegenden Rahmen berechnet und ein Glätten ausführt, wenn der Unterschied größer als eine vorgeschriebene Schwelle ist.
-
Die Korrekturspektrumsaktualisierungseinheit 63 erzeugt durch Verwenden des Analyseresultats, das die Geräuschspektrumsanalyseeinheit 61 ausgibt (der Varianz des Spektrums V(λ)), des geglätteten geschätzten Geräuschspektrums N–(λ, k), das die Geräuschspektrumskorrektureinheit 62 ausgibt, der Feststellungs-Flag Vflag, die die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 ausgibt, des Korrekturspektrums R(λ – 1, k) des vorausgehenden Rahmens, das die Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten ausgibt, was später beschrieben ist, und einer vorgeschriebenen minimalen Verstärkung (eines maximalen Unterdrückungsgrades bei der Geräuschunterdrückung) GMIN, die ein Benutzer beliebig einstellt, als ihre Eingabe das Korrekturspektrum R(λ, k) und gibt dasselbe aus.
-
Das Korrekturspektrum R(λ, k) wird gemäß dem folgenden Ausdruck (10) erzeugt.
-
-
α ist hier ein vorbestimmter Zwischenrahmenglättungskoeffizient. Obwohl α = 0,9 ein geeigneter Wert ist, ist es ferner möglich, den Wert α gemäß der Varianz V(λ) zu ändern. Was eine große Varianz betrifft, macht es beispielsweise ein kleines α möglich, die Geschwindigkeit eines Aktualisierens des Korrekturspektrums zu erhöhen, wodurch es ermöglicht wird, raschen Veränderungen des Geräuschs in dem Eingangssignal zu folgen. Da zusätzlich die Feststellungs-Flag Vflag = 1 nicht ein Geräusch, sondern eine Sprache bezeichnet, wird die Aktualisierung des Korrekturspektrums durch Ausgeben des Korrekturspektrums R(λ – k, k) des vorausgehenden Rahmens gestoppt.
-
Das Korrekturspektrum R(λ – 1, k) des vorausgehenden Rahmens ist nebenbei bemerkt in einer Speicherungsvorrichtung (nicht gezeigt), wie zum Beispiel einem RAM, in der Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten gespeichert.
-
In dem vorhergehenden Ausdruck (10) kann nebenbei bemerkt der Zwischenrahmenglättungskoeffizient α für einzelne Frequenzen auf unterschiedliche Werte eingestellt sein. Derselbe kann beispielsweise reduziert werden, sowie sich die Frequenz von dem Niederfrequenzbereich zu dem Hochfrequenzbereich erhöht, um die Geschwindigkeit eines Aktualisierens der Hochfrequenzkomponente mit großen Frequenz-/Zeitvariationen zu erhöhen.
-
In 1 ändert die Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten unter Verwendung des Korrekturspektrums R(λ – 1, k), das die Korrekturspektrumsberechnungseinheit 6 ausgibt, des Leistungsspektrums Y(λ, k), das die Leistungsspektrumsberechnungseinheit 3 ausgibt, und der minimalen Verstärkung GMIN, die ein vorgeschriebener Wert, den der Benutzer auf die gleiche Art und Weise wie bei der Korrekturspektrumsaktualisierungseinheit 63 von 2 einstellt, ist, als ihre Eingabe die Verstärkung des Korrekturspektrums R(λ, k) ab, um mit dem geschätzten Geräuschspektrum N(λ, k) in dem vorliegenden Rahmen übereinzustimmen, und gibt das Resultat als den Unterdrückungsgrad begrenzenden Koeffizienten Gfloor(λ, k) aus. Der Unterdrückungsgradberechnungseinheit 9 wird der Unterdrückungsgrad begrenzende Koeffizient Gfloor(λ, k), der erhalten wird, zugeführt.
-
Der Betrieb der Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten ist hier unter Bezugnahme auf 4 beschrieben.
-
Die Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten, die in 4 gezeigt ist, weist eine Leistungsberechnungseinheit 71 und eine Koeffizientenkorrektureinheit 72 auf.
-
Gemäß dem folgenden Ausdruck (11) berechnet die Leistungsberechnungseinheit 71 die Leistung POWR(λ) des Korrekturspektrums R(λ, k), das die Korrekturspektrumsberechnungseinheit 6 ausgibt, und die Leistung POWN(λ) des geschätzten Geräuschspektrums N(λ, k), das die Geräuschspektrumsschätzungseinheit 5 ausgibt. Der Koeffizientenkorrektureinheit 72 werden die Leistungen POWR(λ) und POWN(λ) zugeführt.
-
-
POWR(λ) ist hier die Leistung des Korrekturspektrums R(λ, k) des vorliegenden Rahmens, und POWN(λ) ist die Leistung des geschätzten Geräuschspektrums N(λ, k) des vorliegenden Rahmens, wobei N = 128 ist.
-
Gemäß dem folgenden Ausdruck (12) vergleicht die Koeffizientenkorrektureinheit 72 die Leistung POWR(λ) des Korrekturspektrums mit dem Wert, der durch Multiplizieren der Leistung POWN(λ) des geschätzten Geräuschspektrums mit der minimalen Verstärkung GMIN erhalten wird, und bestimmt die abändernde Menge D(λ) des Korrekturspektrums R(λ, k) gemäß dem verglichenen Resultat.
-
-
DUP und DDOWN sind hier vorgeschriebene Konstanten, und obwohl bei dem vorliegenden Ausführungsbeispiel 1 dieselben vorzugsweise DUP = 1,05 und DDOWN = 0,95 sind, können dieselben gemäß dem Typ des Geräuschs und dem Geräuschpegel geeignet geändert sein. Die Werte von DUP und DDOWN sind jeweils zusätzlich nicht auf einen einzigen Wert begrenzt, können jedoch eine Mehrzahl von Werten haben, um die abändernde Menge D(λ) zu bestimmen. Obwohl der vorhergehende Ausdruck (12) die abändernde Menge D(λ) durch lediglich Vergleichen der Leistung bestimmt, kann beispielsweise, wenn der Leistungsunterschied größer (oder kleiner) als eine vorgeschriebene Schwelle ist, durch Setzen von DUP = 1,2 (oder DDOWN = 0,8, wenn kleiner) eine größere abändernde Menge eingestellt werden. Ein Ändern der abändernden Menge D(λ) gemäß dem Leistungsunterschied macht es somit möglich, den Korrekturfehler zu reduzieren und die Korrekturgeschwindigkeit zu erhöhen.
-
Obwohl das vorliegende Ausführungsbeispiel 1 die Leistung über das ganze Band durch den vorhergehenden Ausdruck (11) erhält, ist dies nebenbei bemerkt nicht wesentlich. Es ist beispielsweise ferner möglich, die Leistung in einem Teil des Bandes, wie zum Beispiel 200 Hz–800 Hz, zu erhalten und durch den vorhergehenden Ausdruck (12) einen Vergleich vorzunehmen.
-
Danach ändert gemäß dem folgenden Ausdruck (13) die Koeffizientenkorrektureinheit 72 unter Verwendung der abändernden Menge D(λ), die erhalten wird, die Verstärkung des Korrekturspektrums R(λ, k) ab und erhält ein verstärkungsabgeändertes Korrekturspektrum R^(λ, k). Der Korrekturspektrumsberechnungseinheit 6 wird das verstärkungsabgeänderte Korrekturspektrum R^(λ, k) zugeführt, die dasselbe als das Korrekturspektrum R(λ – 1, k) des vorausgehenden Rahmens handhabt.
-
Für eine Bequemlichkeit einer elektronischen Archivierung ist nebenbei bemerkt in dem folgenden Ausdruck (13) „^” (Hutzeichen) als „^” benannt, was von nun an in den Ausdrücken gilt. R ^(λ, k) = D(λ)·R(λ, k); k = 0, ..., N – 1 (13)
-
Die Koeffizientenkorrektureinheit 72 berechnet schließlich unter Verwendung des verstärkungsabgeänderten Korrekturspektrums R^(λ, k) und des Leistungsspektrums Y(λ, k) des Eingangssignals, das die Leistungsspektrumsberechnungseinheit 3 ausgibt, als ihre Eingabe den Unterdrückungsgrad begrenzenden Koeffizienten Gfloor(λ, k) mit einem folgenden Ausdruck (14) und einem Ausdruck (15). Der folgende Ausdruck (14) ist ein Ausdruck zum Bestimmen der oberen Grenze und der unteren Grenze des Unterdrückungsgrades, und der folgende Ausdruck (15) ist ein Ausdruck zum Ausführen eines Zwischenrahmenglättens des Unterdrückungsgrad begrenzenden Koeffizienten. Der Unterdrückungsgradberechnungseinheit 9 wird der Unterdrückungsgrad begrenzende Koeffizient Gfloor(λ, k), der erhalten wird, zugeführt. G ^floor(λ, k) = min(max(GMIN, R ^(λ, k)/Y(λ, k)), GMAX), k = 0, ..., N – 1 (14) Gfloor(λ, k) = β·G ^floor(λ – 1, k) + (1 – β)·G ^floor(λ, k), k = 0, ..., N – 1 (15)
-
GMAX ist hier die maximale Verstärkung, das heißt eine vorgeschriebene Konstante, die nicht größer als eins ist, die der minimale Unterdrückungsgrad der Geräuschunterdrückungsvorrichtung wird. β benennt zusätzlich einen vorgeschriebenen Glättungskoeffizienten, und β = 0,1 ist geeignet.
-
In 1 berechnet die SN-Verhältnis-Berechnungseinheit 8 unter Verwendung des Leistungsspektrums Y(λ, k), das die Leistungsspektrumsberechnungseinheit 3 ausgibt, des geschätzten Geräuschspektrums N(λ, k), das die Geräuschspektrumsschätzungseinheit 5 ausgibt, und des Spektrumsunterdrückungsgrades G(λ – 1, k) des vorausgehenden Rahmens, das die Unterdrückungsgradberechnungseinheit 9 ausgibt, die später beschrieben ist, als ihre Eingabe ein A-posteriori-SNR und ein A-priori-SNR für jede spektrale Komponente.
-
Das A-posteriori-SNR γ(λ, k) kann unter Verwendung des Leistungsspektrums Y(λ, k) und des geschätzten Geräuschspektrums N(λ, k) durch den folgenden Ausdruck (16) erhalten werden.
-
-
Das A-priori-SNR ξ(λ, k) kann zusätzlich unter Verwendung des Spektrumsunterdrückungsgrades G(λ – 1, k) des vorausgehenden Rahmens und des A-posteriori-SNR γ(λ – 1, k) des vorausgehenden Rahmens durch einen folgenden Ausdruck (17) erhalten werden.
-
-
δ ist hier ein Koeffizient eines Vergessens, der eine vorgeschriebene Konstante in dem Bereich von 0 < δ < 1 ist, und δ = 0,98 ist bei dem vorliegenden Ausführungsbeispiel 1 geeignet. F[·] bezeichnet zusätzlich eine Halbwellen- bzw. Einweggleichrichtung, die das A-posteriori-SNR γ(λ, k) zu einem Legen (englisch: flooring) auf null bringt, wenn es hinsichtlich von Dezibel negativ ist.
-
Der Unterdrückungsgradberechnungseinheit 9 werden das A-posteriori-SNR γ(λ, k) und das A-priori-SNR ξ(λ, k), die erhalten werden, zugeführt.
-
Die Unterdrückungsgradberechnungseinheit 9 erhält unter Verwendung des A-priori-SNR ξ(λ, k) und des A-posteriori-SNR γ(λ, k), die die SN-Verhältnis-Berechnungseinheit 8 ausgibt, und des Unterdrückungsgrad begrenzenden Koeffizienten Gfloor(λ, k), den die Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten ausgibt, als ihre Eingabe den Spektrumsunterdrückungsgrad G(λ, k), der ein Geräuschunterdrückungsgrad jeder Spektrumskomponente ist. Der Spektrumsunterdrückungseinheit 10 wird der Spektrumsunterdrückungsgrad G(λ, k) zugeführt.
-
Als ein Verfahren eines Erhaltens des Spektrumsunterdrückungsgrades G(λ, k) durch die Unterdrückungsgradberechnungseinheit 9 kann beispielsweise der Gemeinsam-MAP-(= Maximum A Posteriori)Schätzer angewendet sein. Der Gemeinsam-MAP-Schätzer, der ein Verfahren eines Schätzens des Spektrumsunterdrückungsgrades G(λ, k) unter der Annahme ist, dass das Geräuschsignal und das Sprachsignal eine Gaußverteilung haben, erhält das Amplitudenspektrum und das Phasenspektrum, die eine Funktion einer Dichte einer bedingten Wahrscheinlichkeit unter Verwendung des A-priori-SNR ξ(λ, k) und des A-posteriori-SNR γ(λ, k) maximieren werden, und benutzt die erhaltenen Werte als ein Schätzer. Bei der Konfiguration kann unter Verwendung von v und μ als Parameter, die die Form der Funktion einer Dichte einer Wahrscheinlichkeit bestimmen werden, der Spektrumsunterdrückungsgrad G(λ, k) durch einen folgenden Ausdruck (18) angegeben sein.
-
-
Nach einem Erhalten eines vorübergehenden Spektrumsunterdrückungsgrades G^(λ, k) durch den vorhergehenden Ausdruck (18) führt die Unterdrückungsgradberechnungseinheit 9 ein Begrenzen des minimalen Werts (eine Verarbeitung eines Legens (englisch: flooring) der spektralen Verstärkung unter Verwendung des Unterdrückungsgrad begrenzenden Koeffizienten Gfloor(λ, k) und eines folgenden Ausdrucks (19) aus und erhält den Spektrumsunterdrückungsgrad G(λ, k). G(λ, k) = max(G ^(λ, k), Gfloor(λ, k)) (19)
-
Was die Details des Spektrumsunterdrückungsgrad ableitenden Verfahrens bei dem Gemeinsam-MAP-Schätzer betrifft, sei nebenbei bemerkt auf „T. Lotter, P. Vary, ”Speech Enhancement by MAP Spectral Amplitude Estimation Using a Super-Gaussian Speech Model”, EURASIP Journal on Applied Signal Processing, S. 1110–1126, Nr. 7, 2005” Bezug genommen, und seine Erläuterung ist hier weggelassen.
-
Die Spektrumsunterdrückungseinheit 10 erhält unter Verwendung des Spektrumsunterdrückungsgrades G(λ, k), das die Unterdrückungsgradberechnungseinheit 9 ausgibt, durch Unterdrücken der spektralen Komponenten X(λ, k) des Eingangssignals für jedes Spektrum gemäß einem folgenden Ausdruck (20) ein geräuschunterdrücktes Sprachsignalspektrum S(λ, k) als ihre Eingabe. Der Fourier-Rücktransformationseinheit 11 wird das Sprachsignalspektrum S(λ, k), das erhalten wird, zugeführt. S(λ, k) = G(λ, k)·X(λ, k) (20)
-
Die Fourier-Rücktransformationseinheit 11 führt unter Verwendung des Sprachsignalspektrums S(λ, k), das die Spektrumsunterdrückungseinheit 10 ausgibt, und des Phasenspektrums des Sprachsignals die Fourier-Rücktransformation aus gefolgt von einem Überlagern über das Ausgangssignal des vorausgehenden Rahmens und dann Zuführen des geräuschunterdrückten Sprachsignals s(t) zu dem Ausgangsanschluss 12.
-
Der Ausgangsanschluss 12 gibt das geräuschunterdrückte Sprachsignal s(t) nach außen aus.
-
5 ist ein Diagramm, das ein Beispiel des Spektrums eines restlichen Geräuschs (das heißt des Sprachsignalspektrums S(λ, k)), das das Ausgangssignal der Geräuschunterdrückungsvorrichtung des vorliegenden Ausführungsbeispiels 1 ist, schematisch zeigt. Wie in 6, die im Vorhergehenden beschrieben ist, zeigt die gepunktete Linie das geschätzte Geräuschspektrum und die gestrichelte Linie zeigt das Spektrum eines restlichen Geräuschs, das durch die Unterdrückung durch den konstanten Unterdrückungsgrad über das ganze Band geht. Im Gegensatz dazu zeigt die durchgezogene Linie das Spektrum eines restlichen Geräuschs, das durch die Geräuschunterdrückung durch die Geräuschunterdrückungsvorrichtung des vorliegenden Ausführungsbeispiels 1 geht.
-
Was das Fahrgeräusch, das in einer tatsächlichen Geräuschumgebung, wie zum Beispiel bei einem Fahrzeug während eines Laufens, beobachtet wird, betrifft, hat dasselbe, da dasselbe aufgrund eines Windgeräuschs und eines Maschinenbeschleunigungsgeräuschs komplexe Spitzen haben kann, üblicherweise keine einfache stetig abfallende Form. Wenn ein solches Geräusch in das Eingangssignal gemischt wird, bestimmt das herkömmliche Verfahren (das durch die durchgezogene Linie in 6 gezeigt ist) den gesamten Unterdrückungsgrad auf eine solche Art und Weise, dass das restliche Geräusch nach der Geräuschunterdrückungsverarbeitung mit dem vorgeschriebenen Zielspektrum gleichkommt, wodurch ein Fall hervorgebracht wird, bei dem ein Band erscheint, in dem die Unterdrückung zu viel oder zu wenig ist. Im Gegensatz dazu kann, da das Verfahren des vorliegenden Ausführungsbeispiels 1 (das durch die durchgezogene Linie in 5 gezeigt ist) den Unterdrückungsgrad begrenzenden Koeffizienten Gfloor(λ, k) aus dem Geräuschspektrum N(λ, k), das aus dem Eingangssignal geschätzt wird, berechnet und die begrenzende Verarbeitung des spektralen Gewinns unter Verwendung des Koeffizienten ausführt, dasselbe verhindern, dass Musiktöne und Spitzenkomponenten und Täler (eine Unebenheit), die einen eigenartigen Laut verursachen, verbleiben, wie zum Beispiel, wenn der Unterdrückungsgrad fixiert ist (was durch die gestrichelten Linien in 5 und 6 gezeigt ist), und kann das Auftreten des Bands, in dem die Unterdrückung zu viel oder zu wenig ist, verhindern, wodurch man in der Lage ist, eine gute Geräuschunterdrückung auszuführen.
-
Wie es im Vorhergehenden beschrieben ist, weist gemäß dem Ausführungsbeispiel 1 die Geräuschunterdrückungsvorrichtung die Fourier-Transformationseinheit 2 zum Wandeln des Eingangssignals in dem Zeitbereich zu den spektralen Komponenten in dem Frequenzbereich, die Leistungsspektrumsberechnungseinheit 3 zum Berechnen des Leistungsspektrums aus den spektralen Komponenten, die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 zum Feststellen des Geräuschabschnitts des Eingangssignals, die Geräuschspektrumsschätzungseinheit 5 zum Schätzen des Geräuschspektrums aus dem Eingangssignal in dem Geräuschabschnitt, die Korrekturspektrumsberechnungseinheit 6 zum Erzeugen des Korrekturspektrums durch Erhalten der Varianz, die den Grad von Variationen des geschätzten Geräuschspektrums anzeigt, und durch Korrigieren des geschätzten Geräuschspektrums gemäß der Varianz und dem Feststellungsresultat des Sprach-/Geräuschabschnitts, die Berechnungseinheit 7 eines Unterdrückungsgrad begrenzenden Koeffizienten zum Erzeugen des Unterdrückungsgrad begrenzenden Koeffizienten, der die oberen und unteren Grenzen der Geräuschunterdrückung definiert, aus dem Korrekturspektrum, die SN-Verhältnis-Berechnungseinheit 8 zum Berechnen des SN-Verhältnisses des geschätzten Geräuschspektrums, die Unterdrückungsgradberechnungseinheit 9 zum Steuern des Unterdrückungskoeffizienten unter Verwendung des SN-Verhältnisses und des Unterdrückungsgrad begrenzenden Koeffizienten, die Spektrumsunterdrückungseinheit 10 zum Ausführen einer Amplitudenunterdrückung der spektralen Komponenten des Eingangssignals unter Verwendung des Unterdrückungskoeffizienten und die Fourier-Rücktransformationseinheit 11 zum Erzeugen des geräuschunterdrückten Signals durch Wandeln der amplitudenunterdrückten spektralen Komponenten in den Zeitbereich auf. Dieselbe kann dementsprechend eine hochqualitative Geräuschunterdrückungsvorrichtung liefern, die fähig ist, eine gute Geräuschunterdrückung auszuführen, ohne das Band zu erzeugen, in dem die Unterdrückung zu viel oder wenig ist, während verhindert wird, dass der Musikton auftritt.
-
Gemäß dem Ausführungsbeispiel 1 steuert zusätzlich die Korrekturspektrumsberechnungseinheit 6 durch Verändern des Filters oder Ändern der Zahl von Malen der Verarbeitung gemäß der Varianz des geschätzten Geräuschspektrums den Korrekturgrad, wodurch man in der Lage ist, eine gute Geräuschunterdrückung durchzuführen.
-
Als Korrekturverarbeitung des geschätzten Geräuschspektrums ist es nebenbei bemerkt möglich, mindestens entweder das Frequenzrichtungsglätten oder das Zwischenrahmenglätten auszuführen. Die Korrektur durch das Frequenzrichtungsglätten kann die Unebenheit der einzelnen Frequenzen eines Geräuschs reduzieren, wodurch man in der Lage ist, das Auftreten der Musiktöne zu verhindern. Die Korrektur durch das Zwischenrahmenglätten ermöglicht zusätzlich folgende plötzliche Veränderungen eines Geräuschs in dem Eingangssignal. Dieselbe kann dementsprechend eine bessere Geräuschunterdrückung erreichen.
-
Gemäß dem Ausführungsbeispiel 1 stoppt zusätzlich die Korrekturspektrumsberechnungseinheit 6 die Korrektur des geschätzten Geräuschspektrums, wenn die Varianz des geschätzten Geräuschspektrums nicht größer als die vorgeschriebene Schwelle ist, oder stoppt die Korrektur, wenn die Sprach-/Geräuschabschnitts-Feststellungseinheit 4 eine Entscheidung des Sprachabschnitts fällt. Dieselbe kann dementsprechend nicht nur ein übermäßiges Glätten stoppen, sondern kann ferner verhindern, dass das Sprachsignal, das fälschlicherweise in das geschätzte Geräuschspektrum gemischt wird, auf das Korrekturspektrum eine ungünstige Wirkung hat, wodurch man in der Lage ist, eine bessere Geräuschunterdrückung zu erreichen.
-
Gemäß dem Ausführungsbeispiel 1 kann zusätzlich ferner die Korrekturspektrumsberechnungseinheit 6 die Unebenheit der Hochfrequenzkomponente, in der mehr Geräusche auftreten können, durch Anwenden einer Korrektur, die ihr Glätten mit der Frequenz erhöht, auf das geschätzte Geräuschspektrum reduzieren, wodurch man in der Lage ist, eine bessere Geräuschunterdrückung zu erreichen.
-
Ein Reduzieren der Geschwindigkeit eines Aktualisierens des Korrekturspektrums von dem Niederfrequenzbereich zu dem Hochfrequenzbereich macht es ferner möglich, die Geschwindigkeit eines Aktualisierens der Hochfrequenzkomponente, bei der Änderungen der Frequenz und der Zeit groß sind, zu erhöhen, wodurch man in der Lage ist, eine bessere Geräuschunterdrückung zu erreichen.
-
Obwohl nebenbei bemerkt bei dem vorhergehenden Ausführungsbeispiel 1 die Korrekturspektrumsberechnungseinheit 6 unter Verwendung des geglätteten geschätzten Geräuschspektrums gemäß dem vorhergehenden Ausdruck (10) das Korrekturspektrum erzeugt, ist ferner eine Konfiguration möglich, die beispielsweise im Voraus ein vorgeschriebenes Korrekturspektrum lernt und hält, und das vorgeschriebene Korrekturspektrum, das im Voraus gelernt wird, statt des geglätteten geschätzten Geräuschspektrums als die Eingabe in dem Anfangszustand des Betriebs und in dem Fall, in dem sich das Geräusch in dem Eingangssignal plötzlich ändert, verwendet. Die Konfiguration kann die Geschwindigkeit eines Lernens und die Konvergenz des Korrekturspektrums in dem Anfangszustand und in dem Fall, in dem sich das Eingangssignal plötzlich ändert, erhöhen, wodurch man in der Lage ist, Qualitätsveränderungen in dem Ausgangssignal auf ein Minimum zu begrenzen.
-
Es ist ferner zusätzlich möglich, das vorgeschriebene Korrekturspektrum, das im Voraus gelernt wurde, in einem kleinen Ausmaß in das Korrekturspektrum, das durch den vorhergehenden Ausdruck (10) erhalten wird, immer zu mischen. Ein Mischen des vorgeschriebenen Korrekturspektrums in einem kleinen Ausmaß kann ein Überlernen des Korrekturspektrums unterdrücken (kann ein allmähliches Vergessen des Korrekturspektrums ermöglichen), wodurch man in der Lage ist, eine bessere Geräuschunterdrückung zu erreichen.
-
Obwohl zusätzlich das vorhergehende Ausführungsbeispiel 1 mittels eines Beispiels, das den Maximum-A-posteriori-Schätzer (MAP-Schätzer) als ein Verfahren einer Geräuschunterdrückung durch die Unterdrückungsgradberechnungseinheit 9 und die Spektrumsunterdrückungseinheit 10 nutzt, beschrieben ist, ist dasselbe nicht auf das Verfahren begrenzt, sondern ist auf einen Fall anwendbar, der andere Verfahren nutzt. Es gibt beispielsweise einen Schätzer eines minimalen mittleren quadratischen Fehlers einer spektralen Kurzzeitamplitude, der in dem Nicht-Patendokument 1 im Detail beschrieben ist, und eine spektrale Subtraktion, die im Detail in S. F. Boll, „Suppression of Acoustic Noise in Speech Using Spectral Subtraktion” (IEEE Trans. on ASSP, Band 27, Nr. 2, S. 113–120, Apr. 1979) beschrieben ist.
-
Obwohl zusätzlich das vorhergehende Ausführungsbeispiel 1 die Unterdrückungsgradsteuerung über das ganze Band des Eingangssignals ausführt, ist dies nicht wesentlich. Es ist ferner beispielsweise möglich, lediglich den Niederfrequenzbereich oder den Hochfrequenzbereich wie notwendig zu steuern, oder lediglich ein spezielles Frequenzband, wie zum Beispiel etwa 500–800 Hz, zu steuern.
-
Die Unterdrückungsgradsteuerung für das begrenzte Frequenzband ist für ein Schmalbandgeräusch, wie zum Beispiel ein Windgeräusch und ein Automaschinengeräusch, wirksam.
-
Obwohl das in den Zeichnungen gezeigte Beispiel den Schmalbandfernsprecher (0–4000 Hz) beschreibt, ist ferner die Geräuschunterdrückung nicht auf die Schmalbandfernsprechsprache begrenzt, sondern ist ferner auf eine Breitbandfernsprechsprache von 0–8000 Hz und auf ein akustisches Signal anwendbar.
-
Obwohl zusätzlich das Sprachsignal, das durch die Geräuschunterdrückung bei dem vorhergehenden Ausführungsbeispiel 1 geht, zu verschiedenen akustischen Verarbeitungsvorrichtungen, wie zum Beispiel einer Sprachcodierervorrichtung, einer Spracherkennungsvorrichtung, einer Sprachspeicherungsvorrichtung und einer Freisprech-Fernsprechkommunikationsvorrichtung, in einem Digitaldatenformat befördert werden kann, kann die Geräuschunterdrückungsvorrichtung des Ausführungsbeispiels 1 ferner einzeln oder als eine Kombination mit der anderen Vorrichtung, die im Vorhergehenden erwähnt ist, durch einen DSP (Digitalsignalprozessor) oder durch Ausführen von Softwareprogrammen realisiert sein. Die Programme können in einer Speicherungseinheit eines Computers, der die Softwareprogramme ausführt, gespeichert sein oder können eine Form eines Speicherungsmediums, das zu verteilen ist, wie zum Beispiel eine CD-ROM, annehmen. Die Programme können zusätzlich durch ein Netzwerk geliefert werden. Das geräuschunterdrückte Sprachsignal kann zusätzlich nicht nur zu verschiedenen akustischen Verarbeitungsvorrichtungen, sondern ferner nach einer D/A-(Digital-/Analog-)Wandlung zu einem Verstärker befördert werden, um als ein Sprachsignal direkt aus einem Lautsprecher ausgegeben zu werden.
-
Neben dem Vorhergehenden sind Variationen von irgendwelchen Komponenten des Ausführungsbeispiels oder einer Entfernung von irgendwelchen Komponenten des Ausführungsbeispiels innerhalb des Schutzbereichs der vorliegenden Erfindung möglich.
-
GEWERBLICHE ANWENDBARKEIT
-
Wie im Vorhergehenden beschrieben ist, kann eine Geräuschunterdrückungsvorrichtung gemäß der vorliegenden Erfindung eine hochqualitative Geräuschunterdrückung erreichen. Dieselbe ist dementsprechend zum Verbessern einer Klangqualität eines Sprachkommunikationssystems, wie zum Beispiel eines Autonavigationssystems, eines Mobiltelefons und einer Sprechanlage, und eines Freisprech-Fernsprechkommunikationssystems, eines Videokonferenzsystems und eines Überwachungssystems, in denen das Sprachkommunikations-/Sprachspeicherungs-/Spracherkennungssystemeingeführt ist, und zum Verbessern der Erkennungsrate eines Spracherkennungssystems passend.
-
Bezugszeichenliste
-
- 1
- Eingangsanschluss;
- 2
- Fourier-Transformationseinheit;
- 3
- Leistungsspektrumsberechnungseinheit;
- 4
- Sprach-/Geräuschabschnitts-Feststellungseinheit;
- 5
- Geräuschspektrumsschätzungseinheit;
- 6
- Korrekturschätzungsberechnungseinheit;
- 7
- Berechnungseinheit eines Unterdrückungsgrad begrenzenden Koeffizienten;
- 8
- SN-Verhältnis-Berechnungseinheit;
- 9
- Unterdrückungsgradberechnungseinheit;
- 10
- Spektrumsunterdrückungseinheit;
- 11
- Fourier-Rücktransformationseinheit;
- 12
- Ausgangsanschluss;
- 61
- Geräuschspektrumsanalyseeinheit;
- 62
- Geräuschspektrumskorrektureinheit;
- 63
- Korrekturspektrumsaktualisierungseinheit;
- 71
- Leistungsberechnungseinheit;
- 72
- Koeffizientenkorrektureinheit.