-
TECHNISCHES GEBIET
-
Diese Erfindung bezieht sich auf eine Störungsunterdrückungsvorrichtung, die zum Verbessern einer Erkennungsrate eines Spracherkennungssystems und zum Verbessern der Tonqualität einer Fahrzeugnavigation, eines Mobiltelefons, eines Sprachkommunikationssystems wie eines Intercom, eines Freisprech-Kommunikationssystems, eines TV-Konferenzsystems und eines Überwachungssystems verwendet wird, und bei der eine Sprachkommunikation, ein Sprachspeicher und ein Spracherkennungssystem eingeführt sind. Die Störungsunterdrückungsvorrichtung ist ausgebildet, eine in ein Eingangssignal gemischte Hintergrundstörung zu unterdrücken.
-
STAND DER TECHNIK
-
Zusammen mit kürzlichen Fortschritten von digitalen Signalverarbeitungstechniken sind eine Außensprachkommunikation mit Mobiltelefonen, eine Freisprech-Sprachkommunikation in Fahrzeugen und eine Freisprechoperation mit Spracherkennung in weitem Umfang verfügbar. Da derartige Apparate häufig in einem Umfeld mit hohen Störungen verwendet werden, werden Hintergrundstörungen zusammen mit der Sprache in ein Mikrofon eingegeben. Diese Situation bewirkt eine Verschlechterung der Qualität der Sprachkommunikation und der Spracherkennungsrate. Um eine sehr genaue Spracherkennung und eine bequeme Sprachkommunikation zu erzielen, ist eine Störunterdrückungsvorrichtung zum Unterdrücken der in das Eingangssignal gemischten Hintergrundstörungen erforderlich.
-
Ein Beispiel für ein herkömmliches Störunterdrückungsverfahren ist beispielsweise in dem Nichtpatent-Dokument 1 offenbart. Das herkömmliche Verfahren enthält die Umwandlung eines Eingangssignals in der Zeitdomäne in ein Energiespektrum, das ein Signal in der Frequenzdomäne ist, das Berechnen eines Unterdrückungsbetrags für die Störungsunterdrückung unter Verwendung des Energiespektrums des Eingangssignals und eines geschätzten Störungsspektrums, das getrennt von dem Eingangssignal geschätzt wird, das Durchführen einer Amplitudenunterdrückung des Energiespektrums des Eingangssignals unter Verwendung des Unterdrückungsbetrags, das Umwandeln des amplitudenunterdrückten Energiespektrums und des Phasenspektrums des Eingangssignals in die Zeitdomäne, und das Erhalten eines Störunterdrückungssignals.
-
Bei dem herkömmlichen Störunterdrückungsverfahren wird der Unterdrückungsbetrag auf der Grundlage des Verhältnisses des Sprachenergiespektrums zu dem geschätzten Störungsenergiespektrum (Störabstand) berechnet. Wenn jedoch der Unterdrückungsbetrag einen negativen Wert (in Dezibel) anzeigt, kann ein korrekter Unterdrückungsbetrag nicht erhalten werden. Beispielsweise ist in einem Sprachsignal, dem ein Autofahrgeräusch mit einer hohen Energie in einem Niedrigfrequenzbereich überlagert ist, der Niedrigfrequenzbereich der Sprache in dem Geräusch vergraben. In diesem Fall wird der Störabstand negativ, und als eine Folge besteht das Problem, dass der Niedrigfrequenzbereich des Sprachsignals übermäßig unterdrückt wird, um eine Verschlechterung der Sprachqualität zu bewirken.
-
Um das vorbeschriebene Problem zu lösen, wird ein herkömmliches Verfahren zum Erzeugen und zum Wiederherstellen eines Niedrigfrequenzbereichssignals, das verlorengegangen ist, beispielsweise in dem Patentdokument 1 offenbart. Dieser Stand der Technik offenbart ein Sprachsignal-Verarbeitungsgerät, das einige der harmonischen Komponenten eines Grundfrequenz(Tonhöhen)-Sprachsignals aus einem Eingangssignal herauszieht, subharmonische Komponenten durch Multiplizieren der herausgezogenen harmonischen Komponenten mit zwei erzeugt und die erhaltenen subharmonischen Komponenten dem Eingangssignal überlagert, wodurch ein Sprachsignal mit verbesserter Sprachqualität erhalten wird. Durch Anordnen des Sprachsignalverarbeitungsgeräts in einer einer Störunterdrückungsvorrichtung nachfolgenden Stufe kann eine Störunterdrückungsvorrichtung mit verbesserten Niedrigfrequenzbereichskomponenten erhalten werden.
-
ZITATLISTE
-
Patentliteratur
-
- Patentdokument 1: Japanische Patent-Offenlegungsschrift Nr. JP 2008-76 988 A (Seiten 5 bis 6, 1)
-
Nichtpatentliteratur
-
- Nichtpatentdokument 1: Y. Ephraim, D. Malah, ”Speech Enhancement Using a Minimum Mean Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. ASSP, Band ASSP-32, Nr. 6, Dezember 1984
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Jedoch wird bei dem herkömmlichen, in dem Patentdokument 1 offenbarten Sprachsignalverarbeitungsgerät das Niedrigfrequenzbereichssignal aus einem Eingangssignal analysiert und erzeugt. Daher wird, wenn das Eingangssignal verbleibende Störungen enthält, d. h., wenn das Ausgangssignal der Störunterdrückungsvorrichtung die verbleibenden Störungen enthält, die Niedrigfrequenzbereichskomponente durch die verbleibenden Störungen beeinträchtigt. Diese Situation kann das Problem bewirken, dass die Sprachqualität plötzlich verschlechtert ist. Weiterhin besteht das Problem, dass ein großer Rechenaufwand und eine große Speicherkapazität für die Erzeugung der Niedrigfrequenzkomponente, die Filterverarbeitung und die Steuerung des Grads der Überlagerung der Niedrigfrequenzbereichskomponente erforderlich sind.
-
Diese Erfindung wurde gemacht, um die vorbeschriebenen Probleme zu lösen, und sie hat die Aufgabe, eine Störunterdrückungsvorrichtung vorzusehen, die in der Lage ist, eine hohe Qualität durch einfache Verarbeitung zu erzielen.
-
Eine Störunterdrückungsvorrichtung gemäß dieser Erfindung enthält: eine Energiespektrum-Berechnungsvorrichtung, die ausgebildet ist zum Umwandeln eines Eingangssignals in der Zeitdomäne in ein Energiespektrum als ein Signal in der Frequenzdomäne; eine Sprach-/Störungs-Bestimmungseinheit, die ausgebildet ist zum Bestimmen, ob das Energiespektrum eine Sprache oder eine Störung anzeigt; eine Störungsspektrum-Schätzeinheit, die ausgebildet ist zum Schätzen des Störungsspektrums des Energiespektrums durch Verwenden eines Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit; eine Periodenkomponenten-Schätzeinheit, die ausgebildet ist zum Analysieren einer harmonischen Struktur, die das Energiespektrum bildet, und zum Schätzen periodischer Informationen über das Energiespektrum; eine Wichtungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Wichtungskoeffizienten für die Gewichtung des Energiespektrums durch Verwendung der periodischen Informationen, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit, und der Signalinformationen über das Energiespektrum; eine Unterdrückungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Unterdrückungskoeffizienten für die Unterdrückung von in dem Energiespektrum enthaltenen Störungen durch Verwendung des Energiespektrums, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und des Wichtungskoeffizienten; eine Spektrumunterdrückungseinheit, die ausgebildet ist zum Unterdrücken der Amplitude des Energiespektrums gemäß dem Unterdrückungskoeffizienten; und einen Transformator, der ausgebildet ist zum Umwandeln des Energiespektrums, dessen Amplitude durch die Spektrumunterdrückungseinheit unterdrückt wurde, in ein Signal in der Zeitdomäne, um ein störungsunterdrücktes Signal zu erzeugen.
-
Gemäß dieser Erfindung ist die Störunterdrückungsvorrichtung versehen mit: der Periodenkomponenten-Schätzeinheit, die ausgebildet ist zum Analysieren einer harmonischen Struktur, die das Energiespektrum bildet, und zum Schätzen periodischer Informationen über das Energiespektrum; der Wichtungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Wichtungskoeffizienten für die Gewichtung des Energiespektrums durch Verwenden der periodischen Informationen, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und der Signalinformationen über das Energiespektrum; der Unterdrückungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Unterdrückungskoeffizienten für die Unterdrückung von in dem Energiespektrum enthaltenen Störungen durch Verwendung des Energiespektrums, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und des Wichtungskoeffizienten; und der Spektrumunterdrückungseinheit, die ausgebildet ist zum Unterdrücken der Amplitude des Energiespektrums gemäß dem Unterdrückungskoeffizienten. Daher kann selbst in einem Frequenzband, in welchem die Sprache in den Störungen vergraben ist, eine Korrektur erfolgen, um die harmonische Struktur der Sprache beizubehalten, kann eine übermäßige Unterdrückung der Sprache vermieden werden und kann eine Störungsunterdrückung hoher Qualität erreicht werden.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
1 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 illustriert,
-
2 ist ein erläuterndes Diagramm, das schematisch die Erfassung der harmonischen Struktur von Sprache durch eine Periodenkomponenten-Schätzeinheit der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 illustriert,
-
3 ist ein erläuterndes Diagramm, das schematisch die Korrektur der harmonischen Struktur von Sprache durch eine Periodenkomponenten-Schätzeinheit der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 illustriert,
-
4 ist ein erläuterndes Diagramm, das schematisch einen Modus eines a priori-Störabstands illustriert, wenn ein a postariori-Störabstand verwendet wird, der durch eine Störabstand-Berechnungsvorrichtung der Störabstands-Berechnungsvorrichtung der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 gewichtet wurde,
-
5 ist eine Figur, die ein Beispiel für ein Ausgangsergebnis der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 illustriert, und
-
6 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 4 illustriert.
-
BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
-
Nachfolgend werden Ausführungsbeispiele der vorliegenden Erfindung mit Bezug auf die angefügten Zeichnungen erläutert.
-
(Ausführungsbeispiel 1)
-
1 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 dieser Erfindung illustriert.
-
Die Störunterdrückungsvorrichtung 100 enthält einen Eingangsanschluss 1, eine Fourier-Transformationsvorrichtung 2, eine Energiespektrum-Berechnungsvorrichtung 3, eine Periodenkomponenten-Schätzeinheit 4, eine Sprach-/Störungsabschnitts-Bestimmungseinheit (Sprach-/Störungs-Bestimmungseinheit) 5, eine Störungsspektrum-Schätzeinheit 6, eine Wichtungskoeffizienten-Berechnungseinheit 7, eine Störabstands-Berechnungsvorrichtung (Unterdrückungskoeffizienten-Berechnungsvorrichtung) 8, eine Unterdrückungsgrößen-Berechnungsvorrichtung 9, eine Spektrumunterdrückungseinheit 10, eine inverse Fourier-Transformationsvorrichtung (Transformator) 11, und einen Ausgangsanschluss 12.
-
Nachfolgend wird das Prinzip der Arbeitsweise der Störunterdrückungsvorrichtung 100 mit Bezug auf 1 erläutert.
-
Prozesse werden vorbereitend bei Sprache, Musik und dergleichen, die durch ein Mikrofon (nicht gezeigt) aufgenommen wurden, durchgeführt, um eine A/D(Analog/Digital)-Umwandlung, eine Abtastung mit einer vorbestimmten Abtastfrequenz (zum Beispiel 8 kHz) und eine Teilung der abgetasteten Daten in Rahmeneinheiten (zum Beispiel 10 ms) zu realisieren. Die Rahmen werden durch den Eingangsanschluss 1 in die Störunterdrückungsvorrichtung 100 eingegeben.
-
Die Fourier-Transformationsvorrichtung 2 wendet ein Hanning-Fenster oder dergleichen auf das Eingangssignal an und führt eine schnelle Fourier-Transformation bei beispielsweise 256 Punkten durch gemäß einer nachfolgenden Formel (1), um das Eingangssignal in der Zeitdomäne in Spektralkomponenten X(λ, k) zu transformieren. X(λ, k) = FT[x(t)] (1)
-
In dieser Formel bezeichnet ”λ” eine Rahmennummer, die für das in Rahmen geteilte Eingangssignal angewendet wird, ”k” bezeichnet eine Nummer, die eine Frequenzkomponente in einem Frequenzband von Energiespektren bezeichnet (nachfolgend als eine ”Spektrumnummer” bezeichnet), und ”FT[...]” bezeichnet die Fourier-Transformation.
-
Die Energiespektrum-Berechnungsvorrichtung 3 erhält Energiespektren Y(λ, k) aus den Spektralkomponenten des Eingangssignals durch die nachfolgende Formel (2).
-
-
Es ist zu beachten, dass ”Re{X(λ, k)}” und ”Im{X(λ, k)}” einen reellen Teil bzw. einen imaginären Teil der Eingangssignalspektren nach der Fourier-Transformation bezeichnen.
-
Die Periodenkomponenten-Schätzeinheit 4 nimmt die von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k) auf und analysiert die harmonische Struktur der eingegebenen Signalspektren. Wie in 2 gezeigt ist, wird die harmonische Struktur analysiert durch Erfassen einer Spitze der harmonischen Struktur, die durch die Energiespektren gebildet wird (nachfolgend bezeichnet als ”eine Spektralspitze”). Genauer gesagt, um kleine Spitzenkomponenten zu entfernen, die nicht die harmonische Struktur betreffen, werden beispielsweise 20% des maximalen Wertes der Energiespektren von jeder Energiespektralkomponente subtrahiert. Danach wird der maximale Wert der Spektrenumhüllung der Energiespektren gefunden durch Nachverfolgung in der Reihenfolge von dem Niedrigfrequenzbereich aus. Zur Vereinfachung der Erläuterung werden in dem Beispiel der Energiespektren nach 2 die Sprachspektren und die Störungsspektren als separate Komponenten beschrieben. Da jedoch ein tatsächliches Eingangssignal Sprachspektren hat, denen Störungsspektren überlagert (oder hinzugefügt) sind, ist es unmöglich, eine Spitze der Sprachspektren zu beobachten, deren Energie kleiner als die der Störungsspektren ist.
-
Durch Suchen der Spektralspitzen werden periodische Informationen p(λ, k) für jede Spektrumnummer k gesetzt. Die periodische Information ”p(λ, k) = 1” wird auf den maximalen Wert der Energiespektren (der die Spektralspitze ist) gesetzt, während ”p(λ, k) = 0” für die anderen gesetzt wird. Obgleich alle Spektralspitzen in dem Beispiel nach 2 herausgezogen sind, können Spektralspitzen nur in einem bestimmten Frequenzband herausgezogen werden, beispielsweise nur in einem Frequenzband mit einem höheren Störabstand.
-
Nachfolgend werden auf der Grundlage einer Periode von Harmonischen der beobachteten Spektralspitzen die Spitzen der in den Störungsspektren vergrabenen Sprachspektren geschätzt. Genauer gesagt, wird, wie in 3 gezeigt ist, mit Bezug auf Abschnitte, in denen keine Spektralspitzen beobachtet werden (d. h., Abschnitten des Niedrigfrequenzbereichs und/oder des Hochfrequenzbereichs, die in den Störungen vergraben sind) angenommen, dass Spektralspitzen mit der Periode der Harmonischen der beobachteten Spektralspitzen (das heißt, Spitzenintervall) existieren. Die periodischen Informationen p(λ, k) der Spektrumnummer für jede der angenommenen Spektralspitzen werden als ”1” gesetzt. Da die Sprachkomponente in einem extrem niedrigen Frequenzband (zum Beispiel 120 Hz oder weniger) kaum existiert, kann keine Notwendigkeit bestehen, die periodischen Informationen p(λ, k) für ein derartig niedriges Frequenzband als ”1” zu setzen. Dies kann auch für ein extrem hohes Frequenzband angewendet werden.
-
Eine normierte Autokorrelationsfunktion ρN(λ, τ) wird aus den Energiespektren Y(λ, k) durch die nachfolgende Formel (3) erhalten.
-
-
In dieser Formel bezeichnet ”τ” eine Verzögerungszeit, und ”FT[...]” bezeichnet einen Fourier-Transformationsprozess. Eine schnelle Fourier-Transformation kann mit derselben Punktzahl ”256” wie der der Formel (1) durchgeführt werden. Da die Formel (3) das Wiener-Khintchine-Theorem ist, werden Einzelheiten hiervon weggelassen. Nachfolgend wird der maximale Wert ρmax(λ) der normierten Autokorrelationsfunktion durch eine Formel (4) erhalten. Die Formel (4) stellt eine Suche nach dem maximalen Wert mit Bezug auf ρ(λ, τ) innerhalb des Bereichs 16 ≦ τ ≦ 96 dar. ρmax(λ) = max[ρ(λ, τ)], 16 ≤ τ ≤ 96 (4)
-
Die erhaltenen periodischen Informationen ρ(λ, τ) und der maximale Wert der Autokorrelationsfunktion ρmax(λ) werden jeweils ausgegeben. Die Periodizität kann nicht nur durch Spitzenanalyse der Energiespektren und die vorbeschriebene Autokorrelationsfunktion analysiert werden, sondern auch durch jedes bekannte Verfahren wie der Cepstrum-Analyse.
-
Die Sprach-/Störungsabschnitt-Bestimmungseinheit 5 nimmt die von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k), den von der Periodenkomponenten-Schätzeinheit 4 ausgegebenen maximalen Wert der Autokorrelationsfunktion ρmax(λ) und von der Störungsspektrum-Schätzeinheit 6 ausgegebene Störungsspektren N(λ, k) auf, wie später erläutert wird. Die Sprach-/Störungsabschnitt-Bestimmungseinheit 5 bestimmt, ob das Eingangssignal des gegenwärtigen Rahmens Sprache oder Störungen anzeigt, und gibt ein Ergebnis der Bestimmung als ein Bestimmungskennzeichen aus. Ein Beispiel für das Bestimmungsverfahren für den Sprach-/Störungsabschnitt kann wie folgt gegeben werden. Wenn einer oder beiden der nachfolgenden Formel (5) und Formel (6) genügt ist, wird das Eingangssignal als Sprache bestimmt, und ein V-Kennzeichen, das ”1 (Sprache)” anzeigt, wird als das Bestimmungskennzeichen gesetzt und ausgegeben. In den anderen Fällen wird das Eingangssignal als Störungen bestimmt, und ein V-Kennzeichen, das ”0 (Störungen)” anzeigt, wird als das Bestimmungskennzeichen gesetzt und ausgegeben.
-
-
In der Formel (5) bezeichnet ”N(λ, k)” geschätzte Störungsspektren, und ”Spow” und ”Npow” bezeichnen eine Summierung von Energiespektren des Eingangssignals bzw. eine Summierung von geschätzten Störungsspektren. ”THFR_SN” und ”THACF” bezeichnen vorbestimmte konstante Schwellenwerte für die Bestimmung. Bei einem bevorzugten Beispiel können ”THFR_SN = 3,0” und ”THACF = 0,3” gegeben sein, jedoch können sie in Abhängigkeit von einem Zustand des Eingangssignals und eines Störungspegels geändert werden.
-
Die Störungsspektrum-Schätzeinheit 6 nimmt die von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k) und das von der Sprach-/Störungsabschnitt-Bestimmungseinheit 5 ausgegebene Bestimmungskennzeichen Vflag auf. Die Störungsspektrum-Schätzeinheit 6 schätzt und aktualisiert die Störungsspektren durch das Bestimmungskennzeichen Vflag und die nachfolgende Formel (7), und gibt die geschätzten Störungsspektren N(λ, k) aus.
-
-
In dieser Formel bezeichnet ”N(λ – 1, k)” geschätzte Störungsspektren eines vorhergehenden Rahmens, die in einer Speichereinheit wie einem RAM (Speicher mit wahlfreiem Zugriff) in der Störungsspektrum-Schätzeinheit 6 gespeichert wurden. Wenn das Bestimmungskennzeichen ”Vflag = 0” in der Formel (7) anzeigt, wird das Eingangssignal des gegenwärtigen Rahmens durch die Störungen bestimmt. In diesem Fall werden die geschätzten Störungsspektren N(λ – 1, k) des vorhergehenden Rahmens aktualisiert durch Verwendung eines Aktualisierungskoeffizienten ”α” und der Energiespektren Y(λ, k) des Eingangssignals. Es ist zu beachten, dass der Aktualisierungskoeffizient α eine vorbestimmte Konstante innerhalb eines Bereichs von 0 < α < 1 ist. In einem bevorzugten Beispiel ist α gleich 0,95, kann aber in Abhängigkeit von einem Zustand des Eingangssignals und einem Störungspegel geändert werden.
-
Wenn andererseits das Bestimmungskennzeichen ”Vflag = 1” in der Formel (7) anzeigt, wird das Eingangssignal des gegenwärtigen Rahmens als Sprache bestimmt. In diesem Fall werden die geschätzten Störungsspektren N(λ – 1, k) des vorhergehenden Rahmens als die geschätzten Störungsspektren N(λ, k des gegenwärtigen Rahmens ausgegeben.
-
Die Wichtungskoeffizienten-Berechnungsvorrichtung 7 nimmt die von der Periodenkomponenten-Schätzeinheit 4 ausgegebenen periodischen Informationen p(λ, k), das von der Sprach-/Störungsabschnitt-Bestimmungseinheit 5 ausgegebene Bestimmungskennzeichen Vflag und einen Störabstand (Signal/Störungs-Verhältnis) für jede Spektralkomponente, der von der später erläuterten Störabstands-Berechnungsvorrichtung 8 ausgegeben wird, auf. Die Wichtungskoeffizienten-Berechnungsvorrichtung 7 berechnet einen Wichtungskoeffizienten W(λ, k) für die Wichtung des Störabstands für jede Spektralkomponente.
-
-
In dieser Formel bezeichnet ”W(λ – 1, k)” einen Wichtungskoeffizienten für einen vorhergehenden Rahmen, und ”β” bezeichnet eine vorbestimmte Konstante für die Glättung. Vorzugsweise ist β gleich 0,8. ”wp(k)” bezeichnet eine Wichtungskonstante, die beispielsweise durch die nachfolgende Formel (9) berechnet wird. Das heißt, ”wp(k)” wird durch den Störabstand für jede Spektralkomponente und das Bestimmungskennzeichen bestimmt und wird mit einem Wert wp(k) bei der Spektrumnummer k und Werten bei benachbarten Spektrumnummern geglättet. Nach dem Glätten mit den benachbarten Spektralkomponenten gibt es Vorteile der Unterdrückung der Steilheit des Wichtungskoeffizienten und der Fehlerabsorption bei der Spektralspitzenanalyse.
-
Es ist zu beachten, dass unter normalen Umständen eine Wichtungskonstante wZ(k) für ”p(λ, k) = 0” gleich 1,0 ohne Wichtung sein kann. Jedoch kann es möglich sein, wZ(k) in derselben Weise wie wp(k) zu steuern, das heißt, es in Abhängigkeit von dem Störabstand für jede Spektralkomponente und dem Bestimmungskennzeichen zu steuern.
-
-
Wenn die periodischen Informationen ”p(λ, k) = 1” anzeigen und das Bestimmungskennzeichen ”Vflag = 1 (Sprache)” anzeigt, wird das Folgende auf die Wichtungskonstante angewendet.
-
-
Und wenn die periodischen Informationen ”p(λ, k) = 1” anzeigen und das Bestimmungskennzeichen ”Vflag = 0 (Störungen)” anzeigt, wird das Folgende auf die Wichtungskonstante angewendet.
-
-
Es ist zu beachten, dass ”snr(k)” einen von der Störabstands-Berechnungsvorrichtung 8 ausgegebenen Störabstand für jede Spektralkomponente bezeichnet und ”THSB_SNR” einen vorbestimmten konstanten Schwellenwert bezeichnet. Wenn bestimmt wird, dass das Eingangssignal Sprache ist, durch Steuern der Wichtungskonstanten mit dem Störabstand für jede Spektralkomponente und des Bestimmungskennzeichens durch die Formel (9), wird die Wichtung wie folgt durchgeführt. Eine große Wichtung wird bei einer Spektralspitze (das heißt, einem Spitzenbereich der harmonischen Struktur der Spektren) in einem Frequenzband, in welchem die Sprache in Störungen vergraben ist, durchgeführt, während eine übermäßige Wichtung für eine Spektralkomponente in einem Frequenzband, in welchem der Störabstand ursprünglich hoch ist, nicht gegeben ist. Wenn andererseits bestimmt wird, dass das Eingangssignal Rauschen ist, wird eine gesperrte Wichtung (das heißt, die Wichtungskonstante ist auf ”1,0” gesetzt) bei einer Spektralkomponente durchgeführt, deren Störabstand als hoch geschätzt ist. Durch eine derartige Wichtungssteuerung kann, selbst wenn das Bestimmungskennzeichen derart inkorrekt ist, dass der gegenwärtige Rahmen, der Sprache ist, als Störung bestimmt ist, die Wichtung bei dem gegenwärtigen Rahmen, der das inkorrekte Kennzeichen erhalten hat, durchgeführt werden. Der Schwellenwert THSB_SNR kann in Abhängigkeit von dem Zustand des Eingangssignals und einem Störungspegel geändert werden.
-
Die Störabstands-Berechnungsvorrichtung 8 berechnet einen a postariori-Störabstand und einen a priori-Störabstand für jede Spektralkomponente durch Verwendung der von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k), der von der Störungsspektrum-Schätzeinheit ausgegebenen geschätzten Störungsspektren (N(λ, k), des von der Wichtungskoeffizienten-Berechnungsvorrichtung 7 ausgegebenen Wichtungskoeffizienten W(λ, k) und einer Spektrumunterdrückungsgröße G(λ – 1, k) des vorhergehenden Rahmens, die von der später erläuterten Unterdrückungsgrößen-Berechnungsvorrichtung 9 ausgegeben wurde.
-
Der a posteriori-Störabstand γ(λ, k) kann durch die nachfolgende Formel (10) berechnet werden, die die Energiespektren Y(λ, k) und die geschätzten Störungsspektren N(λ, k) verwendet. Indem eine Wichtung auf der Grundlage der vorstehenden Formel (9) gegeben wird, kann eine Korrektur so erfolgen, dass der a posteriori-Störabstand so geschätzt wird, dass er höher als die Spektralspitze ist.
-
-
Der a priori-Störabstand ξ(λ, k) wird durch die nachfolgende Formel (11) berechnet, die die Spektrumunterdrückungsgröße G(λ – 1, k) des vorhergehenden Rahmens und den a posteriori-Störabstand γ(λ – 1, k) des vorhergehenden Rahmens verwendet.
(λ, k) = δ·γ(λ – 1, k)·G2(λ – 1, k) + (1 – δ)·F[γ(λ, k) – 1] (11) worin
-
In dieser Formel bezeichnet ”δ” eine vorbestimmte Konstante innerhalb eines Bereichs 0 < δ < 1. Bei dem vorliegenden Ausführungsbeispiel ist δ bevorzugt gleich 0,98. Weiterhin bezeichnet ”F[...]” einen Halbwellen-Gleichrichter und führt eine Festlegung auf null durch, wenn der a posteriori-Störabstand einen negativen Wert in Dezibel anzeigt.
-
4 illustriert schematisch einen Modus des a priori-Störabstands, wenn der a posteriori-Störabstand, der auf der Grundlage des Wichtungskoeffizienten W(λ, k) gewichtet ist, verwendet wird. 4(a) zeigt dieselbe Wellenform wie 3 und zeigt eine Beziehung zwischen Sprachspektren und Störungsspektren. 4(b) zeigt einen Modus des a priori-Störabstands, wenn keine Wichtung durchgeführt ist. 4(c) zeigt einen Modus des a priori-Störabstands, wenn die Wichtung durchgeführt ist. Der Schwellenwert THSB_SNR ist in 4(b) gezeigt für die Erläuterung des Verfahrens. Durch den Vergleich von 4(b) und 4(c) wird verständlich, dass der Störabstand in 4(b) nicht gut herausgezogen werden kann in Spitzenbereichen von in Störungen vergrabenen Sprachspektren. Demgegenüber kann der Störabstand in 4(c) in Spitzenbereichen gut herausgezogen werden, und der Störabstand in den Spitzenbereichen über den Schwellenwert THSB_SNR hinaus ist nicht übermäßig hoch, so dass die Operation bevorzugt durchgeführt wird.
-
Bei dem Ausführungsbeispiel 1 wird die Wichtung nur bei dem a posteriori-Störabstand durchgeführt. Alternativ kann Wichtung bei dem a prior-Störabstand oder sowohl bei dem a posteriori-Störabstand als auch dem a priori-Störabstand durchgeführt werden. In diesen Fällen kann die Konstante in der vorstehenden Formel (9) geändert werden, um der Wichtung bei dem a priori-Störabstand angepasst zu sein.
-
Der vorgenannte a posteriori-Störabstand γ(λ, k) und der vorgenannte a priori-Störabstand ξ(λ, k) werden zu der Unterdrückungsgrößen-Berechnungsvorrichtung 9 ausgegeben und der a priori-Störabstand ξ(λ, k) wird auch zu der Wichtungskoeffizienten-Berechnungsvorrichtung 7 als der Störabstand für jede Spektralkomponente ausgegeben.
-
Die Unterdrückungsgrößen-Berechnungsvorrichtung 9 berechnet die Spektrumunterdrückungsgröße G(λ, k), die die Störungsunterdrückungsgröße für jedes Spektrum ist, durch Verwendung des a priori-Störabstands und des a posteriori-Störabstands γ(λ, k), die von der Störabstands-Berechnungsvorrichtung 8 ausgegeben wurden, und gibt die berechnete Spektrumunterdrückungsgröße G(λ, k) zu der Spektrumunterdrückungseinheit 10 aus.
-
Als ein Verfahren zum Berechnen der Spektrumunterdrückungsgröße G(λ, k) kann beispielsweise das Joint-MAP-Verfahren verwendet werden. Das Joint-MAP-Verfahren ist ein Verfahren zum Schätzen der Spektrumunterdrückungsgröße G(λ, k) unter der Annahme, dass das Störungssignal und das Sprachsignal eine Gauß'sche Verteilung haben. Gemäß dem Joint-MAP-Verfahren werden die Amplitudenspektren und die Phasenspektren, die eine Bedingungsfunktion der Wahrscheinlichkeitsdichte maximieren, durch Verwendung des a priori-Störabstands ξ(λ, k) und des a posteriori-Störabstands γ(λ, k) berechnet, und die berechneten Werte werden für die geschätzten Werte G(λ, k) verwendet. Die Spektrumunterdrückungsgröße kann als die nachfolgende Formel (12) ausgedrückt werden, in der ”ν” und ”μ” als Parameter zum Bestimmen der Form der Funktion der Wahrscheinlichkeitsdichte verwendet werden. Es ist zu beachten, dass die folgende ”Bezugsliteratur 1” die Einzelheiten eines Spektrumunterdrückungsgrößen-Ableitungsverfahrens gemäß dem Joint-MAP-Verfahren beschreibt, und eine Erläuterung von diesem wird hier weggelassen.
-
-
T. Lotter, P. Vary, ”Speech Enhancement by MAP spectral Amplitude Estimation Using a Super-Gaussian Speech Model”, EURASIP Journal an Applied Signal Processing, Seiten 1110–1126, Nr. 7, 2005.
-
Gemäß der nachfolgenden Formel (13) unterdrückt die Spektrumunterdrückungseinheit 10 das Eingangssignal für jedes Spektrum und erhält Sprachsignalspektren S(λ, k), deren Störungen unterdrückt wurden, und gibt sie zu der inversen Fourier-Transformationsvorrichtung aus. S(λ, k) = G(λ, k)·Y(λ, k) (13)
-
Die inverse Fourier-Transformationsvorrichtung 11 führt eine inverse Fourier-Transformation bei den erhaltenen Sprachsignalspektren S(λ, k) durch, um sie mit einem Ausgangssignal des vorhergehenden Rahmens zu überlagern. Danach gibt der Ausgangsanschluss 12 das Sprachsignal s(t), dessen Störungen unterdrückt wurden, aus.
-
5 illustriert schematisch Spektren eines Ausgangssignals eines Sprachabschnitts, das als ein Beispiel für ein Ausgangsergebnis der Störungsunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 angenommen wird. 5(a) zeigt ein Ausgangsergebnis gemäß einem herkömmlichen Verfahren, bei dem der Störabstand nicht gemäß der Formel (10) gewichtet ist, wenn die Spektren wie in 2 gezeigt als ein Eingangssignal verwendet werden. 5(b) zeigt ein Ausgangsergebnis, wenn das Verhältnis gemäß der Formel (10) gewichtet ist. In 5(a) ist die harmonische Struktur der Sprache bei Frequenzbändern, in denen die Sprache in Störungen vergraben ist, verloren. Demgegenüber ist die harmonische Struktur der Sprache in 5(b) in den Frequenzbändern, in denen die Sprache in Störungen vergraben ist, wiedergewonnen. Es ist dargestellt, dass die Störungsunterdrückung bevorzugt durchgeführt ist.
-
Wie vorstehend beschrieben ist, wird gemäß dem Ausführungsbeispiel 1, selbst in einem Frequenzband, in welchem die Sprache in Störungen vergraben ist und der Störabstand einen negativen Wert anzeigt, der Störabstand geschätzt mit einer Korrektur der harmonischen Struktur der Sprache derart, dass sie aufrechterhalten wird. Daher kann eine übermäßige Unterdrückung der Sprache vermieden werden, und eine Störungsunterdrückung hoher Qualität kann erzielt werden.
-
Gemäß dem Ausführungsbeispiel 1 ist es, da die harmonische Struktur von den Störungen vergrabener Sprache korrigiert werden kann durch Wichten des Störabstands, nicht erforderlich, ein Quasiniedrigfrequenzbereichssignal und dergleichen zu erzeugen. Daher kann eine Störungsunterdrückung hoher Qualität mit einem geringen Verarbeitungsaufwand und einer geringen Speichergröße erzielt werden.
-
Weiterhin werden gemäß dem Ausführungsbeispiel 1, da die Wichtung durch Verwendung des Störabstands für jede Spektralkomponente des vorhergehenden Rahmens und des Sprach-/Störungsabschnitt-Bestimmungskennzeichens gesteuert wird, Vorteile dahingehend erhalten, dass eine unnötige Wichtung in einem Frequenzband mit einem hohen Störabstand oder das ein Störungsabschnitt ist, vermieden wird und eine Störungsunterdrückung hoher Qualität erhalten wird.
-
Bei dem Ausführungsbeispiel 1 wird, obgleich die harmonische Struktur sowohl des Niedrigfrequenzbereichs als auch des Hochfrequenzbereichs korrigiert wird, ein Ausführungsbeispiel der vorliegenden Erfindung nicht auf dieses beschränkt. Erforderlichenfalls kann nur der Niedrigfrequenzbereich oder nur der Hochfrequenzbereich korrigiert werden. Alternativ kann beispielsweise ein bestimmtes Frequenzband wie nur ein Band von 500 Hz bis 800 Hz korrigiert werden. Diese Art der Korrektur des Frequenzbands ist wirksam für die Korrektur von in Schmalbandstörungen wie Windgeräuschen und Fahrzeugmaschinengeräuschen vergrabener Sprache.
-
(Ausführungsbeispiel 2)
-
In dem vorstehend erläuterten Ausführungsbeispiel 1 wird der Wert der Wichtung entlang einer Frequenzrichtung konstant gehalten, wie in der Formel (9) gezeigt ist. Das Ausführungsbeispiel 2 stellt eine Konfiguration dar, bei der der Wert der Wichtung in der Frequenzrichtung unterschiedlich gemacht ist.
-
Beispielsweise ist als ein allgemeines Merkmal von Sprache die harmonische Struktur in dem Niedrigfrequenzbereich klar. Daher kann die Wichtung in dem Niedrigfrequenzbereich erhöht werden, während die Wichtung abnehmen kann, wenn die Frequenz ansteigt. Die Elemente der Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 2 sind dieselben wie diejenigen des Ausführungsbeispiels 1, und deren Erläuterung wird weggelassen.
-
Wie vorstehend beschrieben ist, ist das Ausführungsbeispiel 2 so ausgebildet, dass eine unterschiedliche Wichtung für jede Frequenz bei der Schätzung des Störabstands verwendet wird. Daher kann eine geeignete Wichtung für jede Frequenz der Sprache erreicht werden, und eine Störungsunterdrückung mit noch höherer Qualität kann erzielt werden.
-
(Ausführungsbeispiel 3)
-
Das vorstehend erläuterte Ausführungsbeispiel 1 zeigt eine Konfiguration, bei der der Wert der Wichtung eine vorbestimmte Konstante ist, wie in der Formel (9) gezeigt ist. Das Ausführungsbeispiel 3 stellt eine Konfiguration dar, bei der mehrere Wichtungskonstanten umgeschaltet werden gemäß einem Index von Sprachwahrscheinlichkeit bei einem Eingangssignal, oder durch eine vorbestimmte Funktion gesteuert werden.
-
Der Index der Sprachwahrscheinlichkeit bei dem Eingangssignal, das heißt, ein Steuerfaktor für den Modus des Eingangssignals, kann so ausgebildet sein, dass, wenn der maximale Wert des Autokorrelationskoeffizienten in der Formel (4) hoch ist, das heißt, wenn die Periodenstruktur des Eingangssignals klar ist (d. h., es ist sehr wahrscheinlich, dass das Eingangssignal Sprache ist), die Wichtung erhöht werden kann, während die Wichtung herabgesetzt werden kann, wenn die Periodenstruktur der Wahrscheinlichkeit niedrig ist. Alternativ können die Autokorrelationsfunktion und das Sprach-/Störungsabschnitt-Bestimmungskennzeichen zusammen verwendet werden. Die Elemente der Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 3 sind dieselben wie diejenigen des Ausführungsbeispiels 1 und ihre Erläuterung wird weggelassen.
-
Wie vorstehend beschrieben ist, ist das Ausführungsbeispiel 3 so ausgebildet, dass der Wert der Wichtungskonstanten gemäß dem Modus des Eingangssignals gesteuert wird. Daher kann, wenn es sehr wahrscheinlich ist, dass das Eingangssignal Sprache ist, die Wichtung so durchgeführt werden, dass die Periodizitätsstruktur der Sprache betont wird. Dies kann eine Verschlechterung der Sprache vermeiden, während eine Störungsunterdrückung von hoher Qualität erzielt werden kann.
-
(Ausführungsbeispiel 4)
-
6 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 4 der vorliegenden Erfindung illustriert.
-
Das vorstehend erläuterte Ausführungsbeispiel 1 ist so ausgebildet, dass alle Spektralspitzen für die Schätzung von Periodenkomponenten erfasst werden. Bei dem Ausführungsbeispiel 4 wird der durch die Störabstand-Berechnungsvorrichtung 8 berechnete Störabstand eines vorhergehenden Rahmens zu der Periodenkomponenten-Schätzeinheit 4 ausgegeben, und die Periodenkomponenten-Schätzeinheit 4 erfasst Spektralspitzen nur in einem Frequenzband, in welchem der Störabstand hoch ist, durch Verwendung des Störabstands des vorhergehenden Rahmens. In gleicher Weise kann bei der Berechnung der normierten Autokorrelationsfunktion ρN(λ, τ) diese nur in einem Frequenzband durchgeführt werden, in welchem der Störabstand hoch ist. Die andere Konfiguration ist dieselbe wie die Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1, und deren Erläuterung wird weggelassen.
-
Wie vorstehend beschrieben ist, ist gemäß dem Ausführungsbeispiel 4 die Periodenkomponenten-Schätzeinheit 4 so ausgebildet, dass eine Spektralspitze nur in einem Frequenzband erfasst wird, in welchem der Störabstand hoch ist, durch Verwendung des von der Störabstand-Berechnungsvorrichtung 8 empfangenen Störabstands des vorhergehenden Rahmens, oder die normierte Autokorrelationsfunktion nur in einem Frequenzband berechnet wird, in welchem der Störabstand hoch ist. Daher kann die Erfassungsgenauigkeit der Spektralspitzen und die Genauigkeit der Sprach-/Störungsabschnitts-Bestimmung erhöht werden, und hierdurch kann eine Störungsunterdrückung von höherer Qualität erhalten werden.
-
(Ausführungsbeispiel 5)
-
Die vorstehend erläuterten Ausführungsbeispiele 1 bis 4 sind so ausgebildet, dass sie eine Wichtung des Störabstands so anwenden, dass die Wichtungskoeffizienten-Berechnungsvorrichtung 7 die Spektralspitzen betont. Demgegenüber stellt das Ausführungsbeispiel 5 eine Konfiguration dar, bei der die Wichtung durchgeführt wird, um Talbereiche der Spektren zu betonen, das heißt, den Störabstand in den Tälern der Spektren zu verringern.
-
Die Täler der Spektren können erfasst werden durch Betrachten eines mittleren Wertes von Spektrumnummern zwischen Spektralspitzen als einen Talbereich der Spektren. Die andere Konfiguration ist dieselbe wie die Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 und ihre Erläuterung wird weggelassen.
-
Wie vorstehend beschrieben ist, kann gemäß dem Ausführungsbeispiel 5, da die Wichtungskoeffizienten-Berechnungsvorrichtung 7 die Wichtung durchführt, um den Störabstand in den Tälern der Spektren zu verringern, die Frequenzstruktur der Sprache betont werden, und daher kann eine Störungsunterdrückung höherer Qualität erreicht werden.
-
In den vorstehend erläuterten Ausführungsbeispielen 1 bis 5 wird das Verfahren der maximalen a posteriori-Wahrscheinlichkeit (Joint-MAP-Verfahren) für die Störungsunterdrückung verwendet, jedoch können andere Verfahren verwendet werden. Beispielsweise gibt es ein Kurzzeit-Spektralamplitudenverfahren mit minimalen statistischem Gesamtfehler, das in dem Nichtpatentdokument 1 beschrieben ist, oder ein spektrales Subtraktionsverfahren, das in dem nachfolgend gezeigten Bezugsdokument 2 beschrieben ist.
-
[Bezugsdokument 2]
-
S. F. Boll, ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. an ASSP, Band ASSP-27, Nr. 2, Seiten 113–120, April 1979.
-
In den Ausführungsbeispielen 1 bis 5 wird jedes auf ein Schmalband-Telefon (0 bis 4000 Hz) angewendet, jedoch ist ein Ausführungsbeispiel der vorliegenden Erfindung nicht auf das Schmalband-Telefon beschränkt. Beispielsweise kann sie auch auf Sprach- und akustische Signale eines Breitband-Telefons, das 0 bis 8000 Hz stützt, angewendet werden.
-
In jedem der vorstehenden Ausführungsbeispiele wird das Ausgangssignal, dessen Störungen unterdrückt wurden, in einem digitalen Datenformat zu verschiedenen Arten von akustischen Sprachverarbeitungsgeräten wie einem Sprachcodiergerät, einem Spracherkennungsgerät, einem Sprachakkumulierungsgerät und einem Freisprech-Kommunikationsgerät übertragen. Die Störunterdrückungsvorrichtung 100 gemäß jedem Ausführungsbeispiel kann unabhängig oder zusammen mit anderen vorstehend erläuterten Geräten durch einen DSP (Digitalsignal-Verarbeitungsprozessor) erhalten werden, oder kann durch Ausführung von Softwareprogrammen erhalten werden. Die Programme können in einer Speichervorrichtung eines Computers, der die Softwareprogramme ausführt, gespeichert sein, oder sie können als ein Speichermedium wie einem CD-ROM verteilt sein. Alternativ können die Programme über ein Netzwerk erhalten werden. Das Ausgangssignal wird zu verschiedenen Arten von akustischen Sprachverarbeitungsgeräten übertragen, oder es kann durch eine Verstärkungsvorrichtung nach der D/A(Digital/Analog)-Umwandlung verstärkt und direkt von einem Lautsprecher als ein Sprachsignal ausgegeben werden.
-
Die vorstehend erläuterten Ausführungsbeispiele 1 bis 5 stellen Konfigurationen dar, in denen der Störabstand als ein Verhältnis der Energiespektren der Sprache zu den Energiespektren der geschätzten Störungen als Signalinformationen der Energiespektren verwendet wird. Neben dem Störabstand können beispielsweise nur die Energiespektren der Sprache verwendet werden, oder ein Verhältnis zwischen Energiespektren der geschätzten Störungen und Spektren, die durch Subtrahieren der Energiespektren der geschätzten Störungen von den Energiespektren der Sprache (d. h., Energiespektren der Sprache unter der Annahme, dass keine Störungen vorhanden sind) erhalten wurden, können verwendet werden.
-
Es ist zu beachten, dass innerhalb des Bereichs der Erfindung der vorliegenden Anmeldung jedes Ausführungsbeispiel frei kombiniert werden kann, jedes Element jedes Ausführungsbeispiels modifiziert werden kann oder jedes Element jedes Ausführungsbeispiels weggelassen werden kann.
-
GEWERBLICHE ANWENDBARKEIT
-
Die Störunterdrückungsvorrichtung nach der vorliegenden Erfindung kann verwendet werden, um eine Erkennungsrate eines Spracherkennungssystems zu verbessern und eine Tonqualität eines Sprachkommunikationssystems wie eines Mobiltelefons und eines Interkom, eines TV-Konferenzsystems, eine Überwachungssystems und einer Fahrzeugnavigation, bei der eine Sprachkommunikation, eine Sprachspeicherung und ein Spracherkennungssystem eingeführt sind, zu verbessern, und das Hintergrundstörungen, die mit einem Eingangssignal gemischt sind, unterdrückt.