DE112010005895B4 - Störungsunterdrückungsvorrichtung - Google Patents

Störungsunterdrückungsvorrichtung Download PDF

Info

Publication number
DE112010005895B4
DE112010005895B4 DE112010005895.4T DE112010005895T DE112010005895B4 DE 112010005895 B4 DE112010005895 B4 DE 112010005895B4 DE 112010005895 T DE112010005895 T DE 112010005895T DE 112010005895 B4 DE112010005895 B4 DE 112010005895B4
Authority
DE
Germany
Prior art keywords
suppression
spectrum
signal
spectra
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112010005895.4T
Other languages
English (en)
Other versions
DE112010005895T5 (de
Inventor
Satoru Furuta
Hirohisa Tasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112010005895T5 publication Critical patent/DE112010005895T5/de
Application granted granted Critical
Publication of DE112010005895B4 publication Critical patent/DE112010005895B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

Störunterdrückungsvorrichtung, welche aufweist: eine Fourier-Transformationsvorrichtung (2), die ausgebildet ist, ein Eingangssignal in der Zeitdomäne in Spektralkomponenten zu transformieren; eine Energiespektrum-Berechnungsvorrichtung (3) die ausgebildet ist zum Berechnen von Energiespektren aus den Spektralkomponenten; eine Sprach-/Störungs-Bestimmungseinheit, die ausgebildet ist zum Bestimmen, ob die Energiespektren eine Sprache oder Störungen anzeigen; eine Störungsspektrum-Schätzeinheit (6), die ausgebildet ist zum Schätzen von Störungsspektren der Energiespektren durch Verwendung eines Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit; eine Periodenkomponenten-Schätzeinheit (4), die ausgebildet ist zum Analysieren einer Oberwellenstruktur, die die Energiespektren bildet, und zum Schätzen periodischer Informationen über die Energiespektren; eine Wichtungskoeffizienten-Berechnungsvorrichtung (7), die ausgebildet ist zum Berechnen eines Wichtungskoeffizienten zum Wichten der Energiespektren durch Verwendung der periodischen Informationen, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und von Signalinformationen über die Energiespektren; eine Unterdrückungskoeffizienten-Berechnungsvorrichtung (8), die ausgebildet ist zum Berechnen eines a posteriori-Störabstands und eines a priori-Störabstands für jede Spektralkomponente durch Verwendung der Energiespektren, der durch die Störungsspektren-Schätzeinheit geschätzten Störungsspektren, des Wichtungskoeffizienten, und einer Spektrumunterdrückungsgröße eines vorhergehenden Rahmens, die von einer Unterdrückungsgrößen-Berechnungsvorrichtung (9) ausgegeben wurde, wobei die Unterdrückungsgrößen-Berechnungsvorrichtung (9) eine Spektrumsunterdrückungsgröße durch Verwendung des a priori-Störabstands und des a posteriori-Störabstandes, die von der Unterdrückungskoeffizienten-Berechnungsvorrichtung (8) ausgegeben wurden, berechnet; eine Spektrumunterdrückungseinheit (10), die ausgebildet ist zum Unterdrücken der Amplitude der Energiespektren gemäß der Spektrumsunterdrückungsgröße; und eine Transformationsvorrichtung (11), die ausgebildet ist zum Umwandeln der Energiespektren, deren Amplitude durch die Spektrumunterdrückungseinheit unterdrückt wurde, in ein Signal in der Zeitdomäne, um ein störungsunterdrücktes Signal zu erzeugen.

Description

  • TECHNISCHES GEBIET
  • Diese Erfindung bezieht sich auf eine Störungsunterdrückungsvorrichtung, die zum Verbessern einer Erkennungsrate eines Spracherkennungssystems und zum Verbessern der Tonqualität einer Fahrzeugnavigation, eines Mobiltelefons, eines Sprachkommunikationssystems wie eines Intercom, eines Freisprech-Kommunikationssystems, eines TV-Konferenzsystems und eines Überwachungssystems verwendet wird, und bei der eine Sprachkommunikation, ein Sprachspeicher und ein Spracherkennungssystem eingeführt sind. Die Störungsunterdrückungsvorrichtung ist ausgebildet, eine in ein Eingangssignal gemischte Hintergrundstörung zu unterdrücken.
  • STAND DER TECHNIK
  • Zusammen mit kürzlichen Fortschritten von digitalen Signalverarbeitungstechniken sind eine Außensprachkommunikation mit Mobiltelefonen, eine Freisprech-Sprachkommunikation in Fahrzeugen und eine Freisprechoperation mit Spracherkennung in weitem Umfang verfügbar. Da derartige Apparate häufig in einem Umfeld mit hohen Störungen verwendet werden, werden Hintergrundstörungen zusammen mit der Sprache in ein Mikrofon eingegeben. Diese Situation bewirkt eine Verschlechterung der Qualität der Sprachkommunikation und der Spracherkennungsrate. Um eine sehr genaue Spracherkennung und eine bequeme Sprachkommunikation zu erzielen, ist eine Störunterdrückungsvorrichtung zum Unterdrücken der in das Eingangssignal gemischten Hintergrundstörungen erforderlich.
  • Ein Beispiel für ein herkömmliches Störunterdrückungsverfahren ist beispielsweise in dem Nichtpatent-Dokument 1 offenbart. Das herkömmliche Verfahren enthält die Umwandlung eines Eingangssignals in der Zeitdomäne in ein Energiespektrum, das ein Signal in der Frequenzdomäne ist, das Berechnen eines Unterdrückungsbetrags für die Störungsunterdrückung unter Verwendung des Energiespektrums des Eingangssignals und eines geschätzten Störungsspektrums, das getrennt von dem Eingangssignal geschätzt wird, das Durchführen einer Amplitudenunterdrückung des Energiespektrums des Eingangssignals unter Verwendung des Unterdrückungsbetrags, das Umwandeln des amplitudenunterdrückten Energiespektrums und des Phasenspektrums des Eingangssignals in die Zeitdomäne, und das Erhalten eines Störunterdrückungssignals.
  • Bei dem herkömmlichen Störunterdrückungsverfahren wird der Unterdrückungsbetrag auf der Grundlage des Verhältnisses des Sprachenergiespektrums zu dem geschätzten Störungsenergiespektrum (Störabstand) berechnet. Wenn jedoch der Unterdrückungsbetrag einen negativen Wert (in Dezibel) anzeigt, kann ein korrekter Unterdrückungsbetrag nicht erhalten werden. Beispielsweise ist in einem Sprachsignal, dem ein Autofahrgeräusch mit einer hohen Energie in einem Niedrigfrequenzbereich überlagert ist, der Niedrigfrequenzbereich der Sprache in dem Geräusch vergraben. In diesem Fall wird der Störabstand negativ, und als eine Folge besteht das Problem, dass der Niedrigfrequenzbereich des Sprachsignals übermäßig unterdrückt wird, um eine Verschlechterung der Sprachqualität zu bewirken.
  • Um das vorbeschriebene Problem zu lösen, wird ein herkömmliches Verfahren zum Erzeugen und zum Wiederherstellen eines Niedrigfrequenzbereichssignals, das verlorengegangen ist, beispielsweise in dem Patentdokument 1 offenbart. Dieser Stand der Technik offenbart ein Sprachsignal-Verarbeitungsgerät, das einige der harmonischen Komponenten eines Grundfrequenz(Tonhöhen)-Sprachsignals aus einem Eingangssignal herauszieht, subharmonische Komponenten durch Multiplizieren der herausgezogenen harmonischen Komponenten mit zwei erzeugt und die erhaltenen subharmonischen Komponenten dem Eingangssignal überlagert, wodurch ein Sprachsignal mit verbesserter Sprachqualität erhalten wird. Durch Anordnen des Sprachsignalverarbeitungsgeräts in einer einer Störunterdrückungsvorrichtung nachfolgenden Stufe kann eine Störunterdrückungsvorrichtung mit verbesserten Niedrigfrequenzbereichskomponenten erhalten werden.
  • ZITATLISTE
  • Patentliteratur
    • Patentdokument 1: Japanische Patent-Offenlegungsschrift Nr. JP 2008-76 988 A (Seiten 5 bis 6, 1)
  • Nichtpatentliteratur
    • Nichtpatentdokument 1: Y. Ephraim, D. Malah, ”Speech Enhancement Using a Minimum Mean Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. ASSP, Band ASSP-32, Nr. 6, Dezember 1984
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Jedoch wird bei dem herkömmlichen, in dem Patentdokument 1 offenbarten Sprachsignalverarbeitungsgerät das Niedrigfrequenzbereichssignal aus einem Eingangssignal analysiert und erzeugt. Daher wird, wenn das Eingangssignal verbleibende Störungen enthält, d. h., wenn das Ausgangssignal der Störunterdrückungsvorrichtung die verbleibenden Störungen enthält, die Niedrigfrequenzbereichskomponente durch die verbleibenden Störungen beeinträchtigt. Diese Situation kann das Problem bewirken, dass die Sprachqualität plötzlich verschlechtert ist. Weiterhin besteht das Problem, dass ein großer Rechenaufwand und eine große Speicherkapazität für die Erzeugung der Niedrigfrequenzkomponente, die Filterverarbeitung und die Steuerung des Grads der Überlagerung der Niedrigfrequenzbereichskomponente erforderlich sind.
  • Diese Erfindung wurde gemacht, um die vorbeschriebenen Probleme zu lösen, und sie hat die Aufgabe, eine Störunterdrückungsvorrichtung vorzusehen, die in der Lage ist, eine hohe Qualität durch einfache Verarbeitung zu erzielen.
  • Eine Störunterdrückungsvorrichtung gemäß dieser Erfindung enthält: eine Energiespektrum-Berechnungsvorrichtung, die ausgebildet ist zum Umwandeln eines Eingangssignals in der Zeitdomäne in ein Energiespektrum als ein Signal in der Frequenzdomäne; eine Sprach-/Störungs-Bestimmungseinheit, die ausgebildet ist zum Bestimmen, ob das Energiespektrum eine Sprache oder eine Störung anzeigt; eine Störungsspektrum-Schätzeinheit, die ausgebildet ist zum Schätzen des Störungsspektrums des Energiespektrums durch Verwenden eines Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit; eine Periodenkomponenten-Schätzeinheit, die ausgebildet ist zum Analysieren einer harmonischen Struktur, die das Energiespektrum bildet, und zum Schätzen periodischer Informationen über das Energiespektrum; eine Wichtungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Wichtungskoeffizienten für die Gewichtung des Energiespektrums durch Verwendung der periodischen Informationen, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit, und der Signalinformationen über das Energiespektrum; eine Unterdrückungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Unterdrückungskoeffizienten für die Unterdrückung von in dem Energiespektrum enthaltenen Störungen durch Verwendung des Energiespektrums, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und des Wichtungskoeffizienten; eine Spektrumunterdrückungseinheit, die ausgebildet ist zum Unterdrücken der Amplitude des Energiespektrums gemäß dem Unterdrückungskoeffizienten; und einen Transformator, der ausgebildet ist zum Umwandeln des Energiespektrums, dessen Amplitude durch die Spektrumunterdrückungseinheit unterdrückt wurde, in ein Signal in der Zeitdomäne, um ein störungsunterdrücktes Signal zu erzeugen.
  • Gemäß dieser Erfindung ist die Störunterdrückungsvorrichtung versehen mit: der Periodenkomponenten-Schätzeinheit, die ausgebildet ist zum Analysieren einer harmonischen Struktur, die das Energiespektrum bildet, und zum Schätzen periodischer Informationen über das Energiespektrum; der Wichtungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Wichtungskoeffizienten für die Gewichtung des Energiespektrums durch Verwenden der periodischen Informationen, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und der Signalinformationen über das Energiespektrum; der Unterdrückungskoeffizienten-Berechnungsvorrichtung, die ausgebildet ist zum Berechnen eines Unterdrückungskoeffizienten für die Unterdrückung von in dem Energiespektrum enthaltenen Störungen durch Verwendung des Energiespektrums, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und des Wichtungskoeffizienten; und der Spektrumunterdrückungseinheit, die ausgebildet ist zum Unterdrücken der Amplitude des Energiespektrums gemäß dem Unterdrückungskoeffizienten. Daher kann selbst in einem Frequenzband, in welchem die Sprache in den Störungen vergraben ist, eine Korrektur erfolgen, um die harmonische Struktur der Sprache beizubehalten, kann eine übermäßige Unterdrückung der Sprache vermieden werden und kann eine Störungsunterdrückung hoher Qualität erreicht werden.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 illustriert,
  • 2 ist ein erläuterndes Diagramm, das schematisch die Erfassung der harmonischen Struktur von Sprache durch eine Periodenkomponenten-Schätzeinheit der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 illustriert,
  • 3 ist ein erläuterndes Diagramm, das schematisch die Korrektur der harmonischen Struktur von Sprache durch eine Periodenkomponenten-Schätzeinheit der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 illustriert,
  • 4 ist ein erläuterndes Diagramm, das schematisch einen Modus eines a priori-Störabstands illustriert, wenn ein a postariori-Störabstand verwendet wird, der durch eine Störabstand-Berechnungsvorrichtung der Störabstands-Berechnungsvorrichtung der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 gewichtet wurde,
  • 5 ist eine Figur, die ein Beispiel für ein Ausgangsergebnis der Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 1 illustriert, und
  • 6 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung nach dem Ausführungsbeispiel 4 illustriert.
  • BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
  • Nachfolgend werden Ausführungsbeispiele der vorliegenden Erfindung mit Bezug auf die angefügten Zeichnungen erläutert.
  • (Ausführungsbeispiel 1)
  • 1 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 dieser Erfindung illustriert.
  • Die Störunterdrückungsvorrichtung 100 enthält einen Eingangsanschluss 1, eine Fourier-Transformationsvorrichtung 2, eine Energiespektrum-Berechnungsvorrichtung 3, eine Periodenkomponenten-Schätzeinheit 4, eine Sprach-/Störungsabschnitts-Bestimmungseinheit (Sprach-/Störungs-Bestimmungseinheit) 5, eine Störungsspektrum-Schätzeinheit 6, eine Wichtungskoeffizienten-Berechnungseinheit 7, eine Störabstands-Berechnungsvorrichtung (Unterdrückungskoeffizienten-Berechnungsvorrichtung) 8, eine Unterdrückungsgrößen-Berechnungsvorrichtung 9, eine Spektrumunterdrückungseinheit 10, eine inverse Fourier-Transformationsvorrichtung (Transformator) 11, und einen Ausgangsanschluss 12.
  • Nachfolgend wird das Prinzip der Arbeitsweise der Störunterdrückungsvorrichtung 100 mit Bezug auf 1 erläutert.
  • Prozesse werden vorbereitend bei Sprache, Musik und dergleichen, die durch ein Mikrofon (nicht gezeigt) aufgenommen wurden, durchgeführt, um eine A/D(Analog/Digital)-Umwandlung, eine Abtastung mit einer vorbestimmten Abtastfrequenz (zum Beispiel 8 kHz) und eine Teilung der abgetasteten Daten in Rahmeneinheiten (zum Beispiel 10 ms) zu realisieren. Die Rahmen werden durch den Eingangsanschluss 1 in die Störunterdrückungsvorrichtung 100 eingegeben.
  • Die Fourier-Transformationsvorrichtung 2 wendet ein Hanning-Fenster oder dergleichen auf das Eingangssignal an und führt eine schnelle Fourier-Transformation bei beispielsweise 256 Punkten durch gemäß einer nachfolgenden Formel (1), um das Eingangssignal in der Zeitdomäne in Spektralkomponenten X(λ, k) zu transformieren. X(λ, k) = FT[x(t)] (1)
  • In dieser Formel bezeichnet ”λ” eine Rahmennummer, die für das in Rahmen geteilte Eingangssignal angewendet wird, ”k” bezeichnet eine Nummer, die eine Frequenzkomponente in einem Frequenzband von Energiespektren bezeichnet (nachfolgend als eine ”Spektrumnummer” bezeichnet), und ”FT[...]” bezeichnet die Fourier-Transformation.
  • Die Energiespektrum-Berechnungsvorrichtung 3 erhält Energiespektren Y(λ, k) aus den Spektralkomponenten des Eingangssignals durch die nachfolgende Formel (2).
  • Figure DE112010005895B4_0002
  • Es ist zu beachten, dass ”Re{X(λ, k)}” und ”Im{X(λ, k)}” einen reellen Teil bzw. einen imaginären Teil der Eingangssignalspektren nach der Fourier-Transformation bezeichnen.
  • Die Periodenkomponenten-Schätzeinheit 4 nimmt die von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k) auf und analysiert die harmonische Struktur der eingegebenen Signalspektren. Wie in 2 gezeigt ist, wird die harmonische Struktur analysiert durch Erfassen einer Spitze der harmonischen Struktur, die durch die Energiespektren gebildet wird (nachfolgend bezeichnet als ”eine Spektralspitze”). Genauer gesagt, um kleine Spitzenkomponenten zu entfernen, die nicht die harmonische Struktur betreffen, werden beispielsweise 20% des maximalen Wertes der Energiespektren von jeder Energiespektralkomponente subtrahiert. Danach wird der maximale Wert der Spektrenumhüllung der Energiespektren gefunden durch Nachverfolgung in der Reihenfolge von dem Niedrigfrequenzbereich aus. Zur Vereinfachung der Erläuterung werden in dem Beispiel der Energiespektren nach 2 die Sprachspektren und die Störungsspektren als separate Komponenten beschrieben. Da jedoch ein tatsächliches Eingangssignal Sprachspektren hat, denen Störungsspektren überlagert (oder hinzugefügt) sind, ist es unmöglich, eine Spitze der Sprachspektren zu beobachten, deren Energie kleiner als die der Störungsspektren ist.
  • Durch Suchen der Spektralspitzen werden periodische Informationen p(λ, k) für jede Spektrumnummer k gesetzt. Die periodische Information ”p(λ, k) = 1” wird auf den maximalen Wert der Energiespektren (der die Spektralspitze ist) gesetzt, während ”p(λ, k) = 0” für die anderen gesetzt wird. Obgleich alle Spektralspitzen in dem Beispiel nach 2 herausgezogen sind, können Spektralspitzen nur in einem bestimmten Frequenzband herausgezogen werden, beispielsweise nur in einem Frequenzband mit einem höheren Störabstand.
  • Nachfolgend werden auf der Grundlage einer Periode von Harmonischen der beobachteten Spektralspitzen die Spitzen der in den Störungsspektren vergrabenen Sprachspektren geschätzt. Genauer gesagt, wird, wie in 3 gezeigt ist, mit Bezug auf Abschnitte, in denen keine Spektralspitzen beobachtet werden (d. h., Abschnitten des Niedrigfrequenzbereichs und/oder des Hochfrequenzbereichs, die in den Störungen vergraben sind) angenommen, dass Spektralspitzen mit der Periode der Harmonischen der beobachteten Spektralspitzen (das heißt, Spitzenintervall) existieren. Die periodischen Informationen p(λ, k) der Spektrumnummer für jede der angenommenen Spektralspitzen werden als ”1” gesetzt. Da die Sprachkomponente in einem extrem niedrigen Frequenzband (zum Beispiel 120 Hz oder weniger) kaum existiert, kann keine Notwendigkeit bestehen, die periodischen Informationen p(λ, k) für ein derartig niedriges Frequenzband als ”1” zu setzen. Dies kann auch für ein extrem hohes Frequenzband angewendet werden.
  • Eine normierte Autokorrelationsfunktion ρN(λ, τ) wird aus den Energiespektren Y(λ, k) durch die nachfolgende Formel (3) erhalten.
  • Figure DE112010005895B4_0003
  • In dieser Formel bezeichnet ”τ” eine Verzögerungszeit, und ”FT[...]” bezeichnet einen Fourier-Transformationsprozess. Eine schnelle Fourier-Transformation kann mit derselben Punktzahl ”256” wie der der Formel (1) durchgeführt werden. Da die Formel (3) das Wiener-Khintchine-Theorem ist, werden Einzelheiten hiervon weggelassen. Nachfolgend wird der maximale Wert ρmax(λ) der normierten Autokorrelationsfunktion durch eine Formel (4) erhalten. Die Formel (4) stellt eine Suche nach dem maximalen Wert mit Bezug auf ρ(λ, τ) innerhalb des Bereichs 16 ≦ τ ≦ 96 dar. ρmax(λ) = max[ρ(λ, τ)], 16 ≤ τ ≤ 96 (4)
  • Die erhaltenen periodischen Informationen ρ(λ, τ) und der maximale Wert der Autokorrelationsfunktion ρmax(λ) werden jeweils ausgegeben. Die Periodizität kann nicht nur durch Spitzenanalyse der Energiespektren und die vorbeschriebene Autokorrelationsfunktion analysiert werden, sondern auch durch jedes bekannte Verfahren wie der Cepstrum-Analyse.
  • Die Sprach-/Störungsabschnitt-Bestimmungseinheit 5 nimmt die von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k), den von der Periodenkomponenten-Schätzeinheit 4 ausgegebenen maximalen Wert der Autokorrelationsfunktion ρmax(λ) und von der Störungsspektrum-Schätzeinheit 6 ausgegebene Störungsspektren N(λ, k) auf, wie später erläutert wird. Die Sprach-/Störungsabschnitt-Bestimmungseinheit 5 bestimmt, ob das Eingangssignal des gegenwärtigen Rahmens Sprache oder Störungen anzeigt, und gibt ein Ergebnis der Bestimmung als ein Bestimmungskennzeichen aus. Ein Beispiel für das Bestimmungsverfahren für den Sprach-/Störungsabschnitt kann wie folgt gegeben werden. Wenn einer oder beiden der nachfolgenden Formel (5) und Formel (6) genügt ist, wird das Eingangssignal als Sprache bestimmt, und ein V-Kennzeichen, das ”1 (Sprache)” anzeigt, wird als das Bestimmungskennzeichen gesetzt und ausgegeben. In den anderen Fällen wird das Eingangssignal als Störungen bestimmt, und ein V-Kennzeichen, das ”0 (Störungen)” anzeigt, wird als das Bestimmungskennzeichen gesetzt und ausgegeben.
  • Figure DE112010005895B4_0004
  • In der Formel (5) bezeichnet ”N(λ, k)” geschätzte Störungsspektren, und ”Spow” und ”Npow” bezeichnen eine Summierung von Energiespektren des Eingangssignals bzw. eine Summierung von geschätzten Störungsspektren. ”THFR_SN” und ”THACF” bezeichnen vorbestimmte konstante Schwellenwerte für die Bestimmung. Bei einem bevorzugten Beispiel können ”THFR_SN = 3,0” und ”THACF = 0,3” gegeben sein, jedoch können sie in Abhängigkeit von einem Zustand des Eingangssignals und eines Störungspegels geändert werden.
  • Die Störungsspektrum-Schätzeinheit 6 nimmt die von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k) und das von der Sprach-/Störungsabschnitt-Bestimmungseinheit 5 ausgegebene Bestimmungskennzeichen Vflag auf. Die Störungsspektrum-Schätzeinheit 6 schätzt und aktualisiert die Störungsspektren durch das Bestimmungskennzeichen Vflag und die nachfolgende Formel (7), und gibt die geschätzten Störungsspektren N(λ, k) aus.
  • Figure DE112010005895B4_0005
  • In dieser Formel bezeichnet ”N(λ – 1, k)” geschätzte Störungsspektren eines vorhergehenden Rahmens, die in einer Speichereinheit wie einem RAM (Speicher mit wahlfreiem Zugriff) in der Störungsspektrum-Schätzeinheit 6 gespeichert wurden. Wenn das Bestimmungskennzeichen ”Vflag = 0” in der Formel (7) anzeigt, wird das Eingangssignal des gegenwärtigen Rahmens durch die Störungen bestimmt. In diesem Fall werden die geschätzten Störungsspektren N(λ – 1, k) des vorhergehenden Rahmens aktualisiert durch Verwendung eines Aktualisierungskoeffizienten ”α” und der Energiespektren Y(λ, k) des Eingangssignals. Es ist zu beachten, dass der Aktualisierungskoeffizient α eine vorbestimmte Konstante innerhalb eines Bereichs von 0 < α < 1 ist. In einem bevorzugten Beispiel ist α gleich 0,95, kann aber in Abhängigkeit von einem Zustand des Eingangssignals und einem Störungspegel geändert werden.
  • Wenn andererseits das Bestimmungskennzeichen ”Vflag = 1” in der Formel (7) anzeigt, wird das Eingangssignal des gegenwärtigen Rahmens als Sprache bestimmt. In diesem Fall werden die geschätzten Störungsspektren N(λ – 1, k) des vorhergehenden Rahmens als die geschätzten Störungsspektren N(λ, k des gegenwärtigen Rahmens ausgegeben.
  • Die Wichtungskoeffizienten-Berechnungsvorrichtung 7 nimmt die von der Periodenkomponenten-Schätzeinheit 4 ausgegebenen periodischen Informationen p(λ, k), das von der Sprach-/Störungsabschnitt-Bestimmungseinheit 5 ausgegebene Bestimmungskennzeichen Vflag und einen Störabstand (Signal/Störungs-Verhältnis) für jede Spektralkomponente, der von der später erläuterten Störabstands-Berechnungsvorrichtung 8 ausgegeben wird, auf. Die Wichtungskoeffizienten-Berechnungsvorrichtung 7 berechnet einen Wichtungskoeffizienten W(λ, k) für die Wichtung des Störabstands für jede Spektralkomponente.
  • Figure DE112010005895B4_0006
  • In dieser Formel bezeichnet ”W(λ – 1, k)” einen Wichtungskoeffizienten für einen vorhergehenden Rahmen, und ”β” bezeichnet eine vorbestimmte Konstante für die Glättung. Vorzugsweise ist β gleich 0,8. ”wp(k)” bezeichnet eine Wichtungskonstante, die beispielsweise durch die nachfolgende Formel (9) berechnet wird. Das heißt, ”wp(k)” wird durch den Störabstand für jede Spektralkomponente und das Bestimmungskennzeichen bestimmt und wird mit einem Wert wp(k) bei der Spektrumnummer k und Werten bei benachbarten Spektrumnummern geglättet. Nach dem Glätten mit den benachbarten Spektralkomponenten gibt es Vorteile der Unterdrückung der Steilheit des Wichtungskoeffizienten und der Fehlerabsorption bei der Spektralspitzenanalyse.
  • Es ist zu beachten, dass unter normalen Umständen eine Wichtungskonstante wZ(k) für ”p(λ, k) = 0” gleich 1,0 ohne Wichtung sein kann. Jedoch kann es möglich sein, wZ(k) in derselben Weise wie wp(k) zu steuern, das heißt, es in Abhängigkeit von dem Störabstand für jede Spektralkomponente und dem Bestimmungskennzeichen zu steuern.
  • Figure DE112010005895B4_0007
  • Wenn die periodischen Informationen ”p(λ, k) = 1” anzeigen und das Bestimmungskennzeichen ”Vflag = 1 (Sprache)” anzeigt, wird das Folgende auf die Wichtungskonstante angewendet.
  • Figure DE112010005895B4_0008
  • Und wenn die periodischen Informationen ”p(λ, k) = 1” anzeigen und das Bestimmungskennzeichen ”Vflag = 0 (Störungen)” anzeigt, wird das Folgende auf die Wichtungskonstante angewendet.
  • Figure DE112010005895B4_0009
  • Es ist zu beachten, dass ”snr(k)” einen von der Störabstands-Berechnungsvorrichtung 8 ausgegebenen Störabstand für jede Spektralkomponente bezeichnet und ”THSB_SNR” einen vorbestimmten konstanten Schwellenwert bezeichnet. Wenn bestimmt wird, dass das Eingangssignal Sprache ist, durch Steuern der Wichtungskonstanten mit dem Störabstand für jede Spektralkomponente und des Bestimmungskennzeichens durch die Formel (9), wird die Wichtung wie folgt durchgeführt. Eine große Wichtung wird bei einer Spektralspitze (das heißt, einem Spitzenbereich der harmonischen Struktur der Spektren) in einem Frequenzband, in welchem die Sprache in Störungen vergraben ist, durchgeführt, während eine übermäßige Wichtung für eine Spektralkomponente in einem Frequenzband, in welchem der Störabstand ursprünglich hoch ist, nicht gegeben ist. Wenn andererseits bestimmt wird, dass das Eingangssignal Rauschen ist, wird eine gesperrte Wichtung (das heißt, die Wichtungskonstante ist auf ”1,0” gesetzt) bei einer Spektralkomponente durchgeführt, deren Störabstand als hoch geschätzt ist. Durch eine derartige Wichtungssteuerung kann, selbst wenn das Bestimmungskennzeichen derart inkorrekt ist, dass der gegenwärtige Rahmen, der Sprache ist, als Störung bestimmt ist, die Wichtung bei dem gegenwärtigen Rahmen, der das inkorrekte Kennzeichen erhalten hat, durchgeführt werden. Der Schwellenwert THSB_SNR kann in Abhängigkeit von dem Zustand des Eingangssignals und einem Störungspegel geändert werden.
  • Die Störabstands-Berechnungsvorrichtung 8 berechnet einen a postariori-Störabstand und einen a priori-Störabstand für jede Spektralkomponente durch Verwendung der von der Energiespektrum-Berechnungsvorrichtung 3 ausgegebenen Energiespektren Y(λ, k), der von der Störungsspektrum-Schätzeinheit ausgegebenen geschätzten Störungsspektren (N(λ, k), des von der Wichtungskoeffizienten-Berechnungsvorrichtung 7 ausgegebenen Wichtungskoeffizienten W(λ, k) und einer Spektrumunterdrückungsgröße G(λ – 1, k) des vorhergehenden Rahmens, die von der später erläuterten Unterdrückungsgrößen-Berechnungsvorrichtung 9 ausgegeben wurde.
  • Der a posteriori-Störabstand γ(λ, k) kann durch die nachfolgende Formel (10) berechnet werden, die die Energiespektren Y(λ, k) und die geschätzten Störungsspektren N(λ, k) verwendet. Indem eine Wichtung auf der Grundlage der vorstehenden Formel (9) gegeben wird, kann eine Korrektur so erfolgen, dass der a posteriori-Störabstand so geschätzt wird, dass er höher als die Spektralspitze ist.
  • Figure DE112010005895B4_0010
  • Der a priori-Störabstand ξ(λ, k) wird durch die nachfolgende Formel (11) berechnet, die die Spektrumunterdrückungsgröße G(λ – 1, k) des vorhergehenden Rahmens und den a posteriori-Störabstand γ(λ – 1, k) des vorhergehenden Rahmens verwendet. (λ, k) = δ·γ(λ – 1, k)·G2(λ – 1, k) + (1 – δ)·F[γ(λ, k) – 1] (11) worin
    Figure DE112010005895B4_0011
  • In dieser Formel bezeichnet ”δ” eine vorbestimmte Konstante innerhalb eines Bereichs 0 < δ < 1. Bei dem vorliegenden Ausführungsbeispiel ist δ bevorzugt gleich 0,98. Weiterhin bezeichnet ”F[...]” einen Halbwellen-Gleichrichter und führt eine Festlegung auf null durch, wenn der a posteriori-Störabstand einen negativen Wert in Dezibel anzeigt.
  • 4 illustriert schematisch einen Modus des a priori-Störabstands, wenn der a posteriori-Störabstand, der auf der Grundlage des Wichtungskoeffizienten W(λ, k) gewichtet ist, verwendet wird. 4(a) zeigt dieselbe Wellenform wie 3 und zeigt eine Beziehung zwischen Sprachspektren und Störungsspektren. 4(b) zeigt einen Modus des a priori-Störabstands, wenn keine Wichtung durchgeführt ist. 4(c) zeigt einen Modus des a priori-Störabstands, wenn die Wichtung durchgeführt ist. Der Schwellenwert THSB_SNR ist in 4(b) gezeigt für die Erläuterung des Verfahrens. Durch den Vergleich von 4(b) und 4(c) wird verständlich, dass der Störabstand in 4(b) nicht gut herausgezogen werden kann in Spitzenbereichen von in Störungen vergrabenen Sprachspektren. Demgegenüber kann der Störabstand in 4(c) in Spitzenbereichen gut herausgezogen werden, und der Störabstand in den Spitzenbereichen über den Schwellenwert THSB_SNR hinaus ist nicht übermäßig hoch, so dass die Operation bevorzugt durchgeführt wird.
  • Bei dem Ausführungsbeispiel 1 wird die Wichtung nur bei dem a posteriori-Störabstand durchgeführt. Alternativ kann Wichtung bei dem a prior-Störabstand oder sowohl bei dem a posteriori-Störabstand als auch dem a priori-Störabstand durchgeführt werden. In diesen Fällen kann die Konstante in der vorstehenden Formel (9) geändert werden, um der Wichtung bei dem a priori-Störabstand angepasst zu sein.
  • Der vorgenannte a posteriori-Störabstand γ(λ, k) und der vorgenannte a priori-Störabstand ξ(λ, k) werden zu der Unterdrückungsgrößen-Berechnungsvorrichtung 9 ausgegeben und der a priori-Störabstand ξ(λ, k) wird auch zu der Wichtungskoeffizienten-Berechnungsvorrichtung 7 als der Störabstand für jede Spektralkomponente ausgegeben.
  • Die Unterdrückungsgrößen-Berechnungsvorrichtung 9 berechnet die Spektrumunterdrückungsgröße G(λ, k), die die Störungsunterdrückungsgröße für jedes Spektrum ist, durch Verwendung des a priori-Störabstands und des a posteriori-Störabstands γ(λ, k), die von der Störabstands-Berechnungsvorrichtung 8 ausgegeben wurden, und gibt die berechnete Spektrumunterdrückungsgröße G(λ, k) zu der Spektrumunterdrückungseinheit 10 aus.
  • Als ein Verfahren zum Berechnen der Spektrumunterdrückungsgröße G(λ, k) kann beispielsweise das Joint-MAP-Verfahren verwendet werden. Das Joint-MAP-Verfahren ist ein Verfahren zum Schätzen der Spektrumunterdrückungsgröße G(λ, k) unter der Annahme, dass das Störungssignal und das Sprachsignal eine Gauß'sche Verteilung haben. Gemäß dem Joint-MAP-Verfahren werden die Amplitudenspektren und die Phasenspektren, die eine Bedingungsfunktion der Wahrscheinlichkeitsdichte maximieren, durch Verwendung des a priori-Störabstands ξ(λ, k) und des a posteriori-Störabstands γ(λ, k) berechnet, und die berechneten Werte werden für die geschätzten Werte G(λ, k) verwendet. Die Spektrumunterdrückungsgröße kann als die nachfolgende Formel (12) ausgedrückt werden, in der ”ν” und ”μ” als Parameter zum Bestimmen der Form der Funktion der Wahrscheinlichkeitsdichte verwendet werden. Es ist zu beachten, dass die folgende ”Bezugsliteratur 1” die Einzelheiten eines Spektrumunterdrückungsgrößen-Ableitungsverfahrens gemäß dem Joint-MAP-Verfahren beschreibt, und eine Erläuterung von diesem wird hier weggelassen.
  • Figure DE112010005895B4_0012
    [Bezugsliteratur 1]
  • T. Lotter, P. Vary, ”Speech Enhancement by MAP spectral Amplitude Estimation Using a Super-Gaussian Speech Model”, EURASIP Journal an Applied Signal Processing, Seiten 1110–1126, Nr. 7, 2005.
  • Gemäß der nachfolgenden Formel (13) unterdrückt die Spektrumunterdrückungseinheit 10 das Eingangssignal für jedes Spektrum und erhält Sprachsignalspektren S(λ, k), deren Störungen unterdrückt wurden, und gibt sie zu der inversen Fourier-Transformationsvorrichtung aus. S(λ, k) = G(λ, k)·Y(λ, k) (13)
  • Die inverse Fourier-Transformationsvorrichtung 11 führt eine inverse Fourier-Transformation bei den erhaltenen Sprachsignalspektren S(λ, k) durch, um sie mit einem Ausgangssignal des vorhergehenden Rahmens zu überlagern. Danach gibt der Ausgangsanschluss 12 das Sprachsignal s(t), dessen Störungen unterdrückt wurden, aus.
  • 5 illustriert schematisch Spektren eines Ausgangssignals eines Sprachabschnitts, das als ein Beispiel für ein Ausgangsergebnis der Störungsunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 angenommen wird. 5(a) zeigt ein Ausgangsergebnis gemäß einem herkömmlichen Verfahren, bei dem der Störabstand nicht gemäß der Formel (10) gewichtet ist, wenn die Spektren wie in 2 gezeigt als ein Eingangssignal verwendet werden. 5(b) zeigt ein Ausgangsergebnis, wenn das Verhältnis gemäß der Formel (10) gewichtet ist. In 5(a) ist die harmonische Struktur der Sprache bei Frequenzbändern, in denen die Sprache in Störungen vergraben ist, verloren. Demgegenüber ist die harmonische Struktur der Sprache in 5(b) in den Frequenzbändern, in denen die Sprache in Störungen vergraben ist, wiedergewonnen. Es ist dargestellt, dass die Störungsunterdrückung bevorzugt durchgeführt ist.
  • Wie vorstehend beschrieben ist, wird gemäß dem Ausführungsbeispiel 1, selbst in einem Frequenzband, in welchem die Sprache in Störungen vergraben ist und der Störabstand einen negativen Wert anzeigt, der Störabstand geschätzt mit einer Korrektur der harmonischen Struktur der Sprache derart, dass sie aufrechterhalten wird. Daher kann eine übermäßige Unterdrückung der Sprache vermieden werden, und eine Störungsunterdrückung hoher Qualität kann erzielt werden.
  • Gemäß dem Ausführungsbeispiel 1 ist es, da die harmonische Struktur von den Störungen vergrabener Sprache korrigiert werden kann durch Wichten des Störabstands, nicht erforderlich, ein Quasiniedrigfrequenzbereichssignal und dergleichen zu erzeugen. Daher kann eine Störungsunterdrückung hoher Qualität mit einem geringen Verarbeitungsaufwand und einer geringen Speichergröße erzielt werden.
  • Weiterhin werden gemäß dem Ausführungsbeispiel 1, da die Wichtung durch Verwendung des Störabstands für jede Spektralkomponente des vorhergehenden Rahmens und des Sprach-/Störungsabschnitt-Bestimmungskennzeichens gesteuert wird, Vorteile dahingehend erhalten, dass eine unnötige Wichtung in einem Frequenzband mit einem hohen Störabstand oder das ein Störungsabschnitt ist, vermieden wird und eine Störungsunterdrückung hoher Qualität erhalten wird.
  • Bei dem Ausführungsbeispiel 1 wird, obgleich die harmonische Struktur sowohl des Niedrigfrequenzbereichs als auch des Hochfrequenzbereichs korrigiert wird, ein Ausführungsbeispiel der vorliegenden Erfindung nicht auf dieses beschränkt. Erforderlichenfalls kann nur der Niedrigfrequenzbereich oder nur der Hochfrequenzbereich korrigiert werden. Alternativ kann beispielsweise ein bestimmtes Frequenzband wie nur ein Band von 500 Hz bis 800 Hz korrigiert werden. Diese Art der Korrektur des Frequenzbands ist wirksam für die Korrektur von in Schmalbandstörungen wie Windgeräuschen und Fahrzeugmaschinengeräuschen vergrabener Sprache.
  • (Ausführungsbeispiel 2)
  • In dem vorstehend erläuterten Ausführungsbeispiel 1 wird der Wert der Wichtung entlang einer Frequenzrichtung konstant gehalten, wie in der Formel (9) gezeigt ist. Das Ausführungsbeispiel 2 stellt eine Konfiguration dar, bei der der Wert der Wichtung in der Frequenzrichtung unterschiedlich gemacht ist.
  • Beispielsweise ist als ein allgemeines Merkmal von Sprache die harmonische Struktur in dem Niedrigfrequenzbereich klar. Daher kann die Wichtung in dem Niedrigfrequenzbereich erhöht werden, während die Wichtung abnehmen kann, wenn die Frequenz ansteigt. Die Elemente der Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 2 sind dieselben wie diejenigen des Ausführungsbeispiels 1, und deren Erläuterung wird weggelassen.
  • Wie vorstehend beschrieben ist, ist das Ausführungsbeispiel 2 so ausgebildet, dass eine unterschiedliche Wichtung für jede Frequenz bei der Schätzung des Störabstands verwendet wird. Daher kann eine geeignete Wichtung für jede Frequenz der Sprache erreicht werden, und eine Störungsunterdrückung mit noch höherer Qualität kann erzielt werden.
  • (Ausführungsbeispiel 3)
  • Das vorstehend erläuterte Ausführungsbeispiel 1 zeigt eine Konfiguration, bei der der Wert der Wichtung eine vorbestimmte Konstante ist, wie in der Formel (9) gezeigt ist. Das Ausführungsbeispiel 3 stellt eine Konfiguration dar, bei der mehrere Wichtungskonstanten umgeschaltet werden gemäß einem Index von Sprachwahrscheinlichkeit bei einem Eingangssignal, oder durch eine vorbestimmte Funktion gesteuert werden.
  • Der Index der Sprachwahrscheinlichkeit bei dem Eingangssignal, das heißt, ein Steuerfaktor für den Modus des Eingangssignals, kann so ausgebildet sein, dass, wenn der maximale Wert des Autokorrelationskoeffizienten in der Formel (4) hoch ist, das heißt, wenn die Periodenstruktur des Eingangssignals klar ist (d. h., es ist sehr wahrscheinlich, dass das Eingangssignal Sprache ist), die Wichtung erhöht werden kann, während die Wichtung herabgesetzt werden kann, wenn die Periodenstruktur der Wahrscheinlichkeit niedrig ist. Alternativ können die Autokorrelationsfunktion und das Sprach-/Störungsabschnitt-Bestimmungskennzeichen zusammen verwendet werden. Die Elemente der Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 3 sind dieselben wie diejenigen des Ausführungsbeispiels 1 und ihre Erläuterung wird weggelassen.
  • Wie vorstehend beschrieben ist, ist das Ausführungsbeispiel 3 so ausgebildet, dass der Wert der Wichtungskonstanten gemäß dem Modus des Eingangssignals gesteuert wird. Daher kann, wenn es sehr wahrscheinlich ist, dass das Eingangssignal Sprache ist, die Wichtung so durchgeführt werden, dass die Periodizitätsstruktur der Sprache betont wird. Dies kann eine Verschlechterung der Sprache vermeiden, während eine Störungsunterdrückung von hoher Qualität erzielt werden kann.
  • (Ausführungsbeispiel 4)
  • 6 ist ein Blockschaltbild, das eine Konfiguration einer Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 4 der vorliegenden Erfindung illustriert.
  • Das vorstehend erläuterte Ausführungsbeispiel 1 ist so ausgebildet, dass alle Spektralspitzen für die Schätzung von Periodenkomponenten erfasst werden. Bei dem Ausführungsbeispiel 4 wird der durch die Störabstand-Berechnungsvorrichtung 8 berechnete Störabstand eines vorhergehenden Rahmens zu der Periodenkomponenten-Schätzeinheit 4 ausgegeben, und die Periodenkomponenten-Schätzeinheit 4 erfasst Spektralspitzen nur in einem Frequenzband, in welchem der Störabstand hoch ist, durch Verwendung des Störabstands des vorhergehenden Rahmens. In gleicher Weise kann bei der Berechnung der normierten Autokorrelationsfunktion ρN(λ, τ) diese nur in einem Frequenzband durchgeführt werden, in welchem der Störabstand hoch ist. Die andere Konfiguration ist dieselbe wie die Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1, und deren Erläuterung wird weggelassen.
  • Wie vorstehend beschrieben ist, ist gemäß dem Ausführungsbeispiel 4 die Periodenkomponenten-Schätzeinheit 4 so ausgebildet, dass eine Spektralspitze nur in einem Frequenzband erfasst wird, in welchem der Störabstand hoch ist, durch Verwendung des von der Störabstand-Berechnungsvorrichtung 8 empfangenen Störabstands des vorhergehenden Rahmens, oder die normierte Autokorrelationsfunktion nur in einem Frequenzband berechnet wird, in welchem der Störabstand hoch ist. Daher kann die Erfassungsgenauigkeit der Spektralspitzen und die Genauigkeit der Sprach-/Störungsabschnitts-Bestimmung erhöht werden, und hierdurch kann eine Störungsunterdrückung von höherer Qualität erhalten werden.
  • (Ausführungsbeispiel 5)
  • Die vorstehend erläuterten Ausführungsbeispiele 1 bis 4 sind so ausgebildet, dass sie eine Wichtung des Störabstands so anwenden, dass die Wichtungskoeffizienten-Berechnungsvorrichtung 7 die Spektralspitzen betont. Demgegenüber stellt das Ausführungsbeispiel 5 eine Konfiguration dar, bei der die Wichtung durchgeführt wird, um Talbereiche der Spektren zu betonen, das heißt, den Störabstand in den Tälern der Spektren zu verringern.
  • Die Täler der Spektren können erfasst werden durch Betrachten eines mittleren Wertes von Spektrumnummern zwischen Spektralspitzen als einen Talbereich der Spektren. Die andere Konfiguration ist dieselbe wie die Störunterdrückungsvorrichtung gemäß dem Ausführungsbeispiel 1 und ihre Erläuterung wird weggelassen.
  • Wie vorstehend beschrieben ist, kann gemäß dem Ausführungsbeispiel 5, da die Wichtungskoeffizienten-Berechnungsvorrichtung 7 die Wichtung durchführt, um den Störabstand in den Tälern der Spektren zu verringern, die Frequenzstruktur der Sprache betont werden, und daher kann eine Störungsunterdrückung höherer Qualität erreicht werden.
  • In den vorstehend erläuterten Ausführungsbeispielen 1 bis 5 wird das Verfahren der maximalen a posteriori-Wahrscheinlichkeit (Joint-MAP-Verfahren) für die Störungsunterdrückung verwendet, jedoch können andere Verfahren verwendet werden. Beispielsweise gibt es ein Kurzzeit-Spektralamplitudenverfahren mit minimalen statistischem Gesamtfehler, das in dem Nichtpatentdokument 1 beschrieben ist, oder ein spektrales Subtraktionsverfahren, das in dem nachfolgend gezeigten Bezugsdokument 2 beschrieben ist.
  • [Bezugsdokument 2]
  • S. F. Boll, ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. an ASSP, Band ASSP-27, Nr. 2, Seiten 113–120, April 1979.
  • In den Ausführungsbeispielen 1 bis 5 wird jedes auf ein Schmalband-Telefon (0 bis 4000 Hz) angewendet, jedoch ist ein Ausführungsbeispiel der vorliegenden Erfindung nicht auf das Schmalband-Telefon beschränkt. Beispielsweise kann sie auch auf Sprach- und akustische Signale eines Breitband-Telefons, das 0 bis 8000 Hz stützt, angewendet werden.
  • In jedem der vorstehenden Ausführungsbeispiele wird das Ausgangssignal, dessen Störungen unterdrückt wurden, in einem digitalen Datenformat zu verschiedenen Arten von akustischen Sprachverarbeitungsgeräten wie einem Sprachcodiergerät, einem Spracherkennungsgerät, einem Sprachakkumulierungsgerät und einem Freisprech-Kommunikationsgerät übertragen. Die Störunterdrückungsvorrichtung 100 gemäß jedem Ausführungsbeispiel kann unabhängig oder zusammen mit anderen vorstehend erläuterten Geräten durch einen DSP (Digitalsignal-Verarbeitungsprozessor) erhalten werden, oder kann durch Ausführung von Softwareprogrammen erhalten werden. Die Programme können in einer Speichervorrichtung eines Computers, der die Softwareprogramme ausführt, gespeichert sein, oder sie können als ein Speichermedium wie einem CD-ROM verteilt sein. Alternativ können die Programme über ein Netzwerk erhalten werden. Das Ausgangssignal wird zu verschiedenen Arten von akustischen Sprachverarbeitungsgeräten übertragen, oder es kann durch eine Verstärkungsvorrichtung nach der D/A(Digital/Analog)-Umwandlung verstärkt und direkt von einem Lautsprecher als ein Sprachsignal ausgegeben werden.
  • Die vorstehend erläuterten Ausführungsbeispiele 1 bis 5 stellen Konfigurationen dar, in denen der Störabstand als ein Verhältnis der Energiespektren der Sprache zu den Energiespektren der geschätzten Störungen als Signalinformationen der Energiespektren verwendet wird. Neben dem Störabstand können beispielsweise nur die Energiespektren der Sprache verwendet werden, oder ein Verhältnis zwischen Energiespektren der geschätzten Störungen und Spektren, die durch Subtrahieren der Energiespektren der geschätzten Störungen von den Energiespektren der Sprache (d. h., Energiespektren der Sprache unter der Annahme, dass keine Störungen vorhanden sind) erhalten wurden, können verwendet werden.
  • Es ist zu beachten, dass innerhalb des Bereichs der Erfindung der vorliegenden Anmeldung jedes Ausführungsbeispiel frei kombiniert werden kann, jedes Element jedes Ausführungsbeispiels modifiziert werden kann oder jedes Element jedes Ausführungsbeispiels weggelassen werden kann.
  • GEWERBLICHE ANWENDBARKEIT
  • Die Störunterdrückungsvorrichtung nach der vorliegenden Erfindung kann verwendet werden, um eine Erkennungsrate eines Spracherkennungssystems zu verbessern und eine Tonqualität eines Sprachkommunikationssystems wie eines Mobiltelefons und eines Interkom, eines TV-Konferenzsystems, eine Überwachungssystems und einer Fahrzeugnavigation, bei der eine Sprachkommunikation, eine Sprachspeicherung und ein Spracherkennungssystem eingeführt sind, zu verbessern, und das Hintergrundstörungen, die mit einem Eingangssignal gemischt sind, unterdrückt.

Claims (5)

  1. Störunterdrückungsvorrichtung, welche aufweist: eine Fourier-Transformationsvorrichtung (2), die ausgebildet ist, ein Eingangssignal in der Zeitdomäne in Spektralkomponenten zu transformieren; eine Energiespektrum-Berechnungsvorrichtung (3) die ausgebildet ist zum Berechnen von Energiespektren aus den Spektralkomponenten; eine Sprach-/Störungs-Bestimmungseinheit, die ausgebildet ist zum Bestimmen, ob die Energiespektren eine Sprache oder Störungen anzeigen; eine Störungsspektrum-Schätzeinheit (6), die ausgebildet ist zum Schätzen von Störungsspektren der Energiespektren durch Verwendung eines Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit; eine Periodenkomponenten-Schätzeinheit (4), die ausgebildet ist zum Analysieren einer Oberwellenstruktur, die die Energiespektren bildet, und zum Schätzen periodischer Informationen über die Energiespektren; eine Wichtungskoeffizienten-Berechnungsvorrichtung (7), die ausgebildet ist zum Berechnen eines Wichtungskoeffizienten zum Wichten der Energiespektren durch Verwendung der periodischen Informationen, des Bestimmungsergebnisses der Sprach-/Störungs-Bestimmungseinheit und von Signalinformationen über die Energiespektren; eine Unterdrückungskoeffizienten-Berechnungsvorrichtung (8), die ausgebildet ist zum Berechnen eines a posteriori-Störabstands und eines a priori-Störabstands für jede Spektralkomponente durch Verwendung der Energiespektren, der durch die Störungsspektren-Schätzeinheit geschätzten Störungsspektren, des Wichtungskoeffizienten, und einer Spektrumunterdrückungsgröße eines vorhergehenden Rahmens, die von einer Unterdrückungsgrößen-Berechnungsvorrichtung (9) ausgegeben wurde, wobei die Unterdrückungsgrößen-Berechnungsvorrichtung (9) eine Spektrumsunterdrückungsgröße durch Verwendung des a priori-Störabstands und des a posteriori-Störabstandes, die von der Unterdrückungskoeffizienten-Berechnungsvorrichtung (8) ausgegeben wurden, berechnet; eine Spektrumunterdrückungseinheit (10), die ausgebildet ist zum Unterdrücken der Amplitude der Energiespektren gemäß der Spektrumsunterdrückungsgröße; und eine Transformationsvorrichtung (11), die ausgebildet ist zum Umwandeln der Energiespektren, deren Amplitude durch die Spektrumunterdrückungseinheit unterdrückt wurde, in ein Signal in der Zeitdomäne, um ein störungsunterdrücktes Signal zu erzeugen.
  2. Störungsunterdrückungsvorrichtung nach Anspruch 1, bei der die Unterdrückungskoeffizienten-Berechnungsvorrichtung (8) ausgebildet ist zum Berechnen eines Störabstands für jedes Energiespektrum als die Signalinformationen über die Energiespektren, und die Wichtungskoeffizienten-Berechnungsvorrichtung (7) ausgebildet ist zum Berechnen des Wichtungskoeffizienten entsprechend dem Störabstand.
  3. Störungsunterdrückungsvorrichtung nach Anspruch 1, bei der die Wichtungskoeffizienten-Berechnungsvorrichtung (7) ausgebildet ist zum Berechnen eines Wichtungskoeffizienten, dessen Wichtungsintensität gemäß dem Bestimmungsergebnis der Sprach-/Störungs-Bestimmungseinheit (5) gesteuert wird.
  4. Störungsunterdrückungsvorrichtung nach Anspruch 2, bei der die Unterdrückungskoeffizienten-Berechnungsvorrichtung (8) ausgebildet ist zum Berechnen eines Störabstands jedes Energiespektrums eines einem gegenwärtigen Rahmen vorhergehenden Rahmens, und die Wichtungskoeffizienten-Berechnungsvorrichtung (7) ausgebildet ist zum Berechnen eines Wichtungskoeffizienten, dessen Wichtungsintensität gemäß dem Störabstand des vorhergehenden Rahmens gesteuert ist.
  5. Störungsunterdrückungsvorrichtung nach Anspruch 1, bei der die Wichtungskoeffizienten-Berechnungsvorrichtung (7) ausgebildet ist zum Berechnen eines Wichtungskoeffizienten, dessen Wichtungsintensität gemäß einer Komponente des Frequenzbands der Energiespektren gesteuert ist.
DE112010005895.4T 2010-09-21 2010-09-21 Störungsunterdrückungsvorrichtung Active DE112010005895B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/005711 WO2012038998A1 (ja) 2010-09-21 2010-09-21 雑音抑圧装置

Publications (2)

Publication Number Publication Date
DE112010005895T5 DE112010005895T5 (de) 2013-07-18
DE112010005895B4 true DE112010005895B4 (de) 2016-12-15

Family

ID=45873521

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112010005895.4T Active DE112010005895B4 (de) 2010-09-21 2010-09-21 Störungsunterdrückungsvorrichtung

Country Status (5)

Country Link
US (1) US8762139B2 (de)
JP (1) JP5183828B2 (de)
CN (1) CN103109320B (de)
DE (1) DE112010005895B4 (de)
WO (1) WO2012038998A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155144A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 復号装置、符号化装置及びこれらの方法
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
JP6051701B2 (ja) * 2012-09-05 2016-12-27 ヤマハ株式会社 エンジン音加工装置
US9304010B2 (en) * 2013-02-28 2016-04-05 Nokia Technologies Oy Methods, apparatuses, and computer program products for providing broadband audio signals associated with navigation instructions
US9865277B2 (en) * 2013-07-10 2018-01-09 Nuance Communications, Inc. Methods and apparatus for dynamic low frequency noise suppression
JP6339896B2 (ja) * 2013-12-27 2018-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置および雑音抑圧方法
JP6696424B2 (ja) * 2014-07-16 2020-05-20 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラム
JP6279181B2 (ja) * 2016-02-15 2018-02-14 三菱電機株式会社 音響信号強調装置
CN106452627B (zh) * 2016-10-18 2019-02-15 中国电子科技集团公司第三十六研究所 一种用于宽带频谱感知的噪声功率估计方法和装置
IL250253B (en) * 2017-01-24 2021-10-31 Arbe Robotics Ltd A method for separating targets and echoes from noise, in radar signals
US10587983B1 (en) * 2017-10-04 2020-03-10 Ronald L. Meyer Methods and systems for adjusting clarity of digitized audio signals
CN108600917B (zh) * 2018-05-30 2020-11-10 扬州航盛科技有限公司 一种嵌入式多路音频管理系统及管理方法
CN108899042A (zh) * 2018-06-25 2018-11-27 天津科技大学 一种基于移动平台的语音降噪方法
IL260695A (en) 2018-07-19 2019-01-31 Arbe Robotics Ltd Method and device for eliminating waiting times in a radar system
IL260694A (en) 2018-07-19 2019-01-31 Arbe Robotics Ltd Method and device for two-stage signal processing in a radar system
IL260696A (en) 2018-07-19 2019-01-31 Arbe Robotics Ltd Method and device for structured self-testing of radio frequencies in a radar system
IL261636A (en) 2018-09-05 2018-10-31 Arbe Robotics Ltd Deflected MIMO antenna array for vehicle imaging radars
US10587439B1 (en) 2019-04-12 2020-03-10 Rovi Guides, Inc. Systems and methods for modifying modulated signals for transmission
US11342895B2 (en) * 2019-10-07 2022-05-24 Bose Corporation Systems and methods for modifying an audio playback
JP6854967B1 (ja) * 2019-10-09 2021-04-07 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
CN113744754B (zh) * 2021-03-23 2024-04-05 京东科技控股股份有限公司 语音信号的增强处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023430A1 (en) * 2000-08-31 2003-01-30 Youhua Wang Speech processing device and speech processing method
EP1768108A1 (de) * 2004-06-18 2007-03-28 Matsushita Electric Industrial Co., Ltd. Rauschunterdrückungseinrichtung und rauschunterdrückungsverfahren
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4580508B2 (ja) 2000-05-31 2010-11-17 株式会社東芝 信号処理装置及び通信装置
US7337107B2 (en) * 2000-10-02 2008-02-26 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3574123B2 (ja) 2001-03-28 2004-10-06 三菱電機株式会社 雑音抑圧装置
US7027591B2 (en) * 2002-10-16 2006-04-11 Ericsson Inc. Integrated noise cancellation and residual echo suppression
JP2004341339A (ja) 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
KR101168002B1 (ko) * 2004-09-16 2012-07-26 프랑스 텔레콤 잡음 신호 처리 방법 및 상기 방법을 구현하기 위한 장치
JP2006113515A (ja) 2004-09-16 2006-04-27 Toshiba Corp ノイズサプレス装置、ノイズサプレス方法及び移動通信端末装置
JP2006201622A (ja) * 2005-01-21 2006-08-03 Matsushita Electric Ind Co Ltd 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
JP4827675B2 (ja) 2006-09-25 2011-11-30 三洋電機株式会社 低周波帯域音声復元装置、音声信号処理装置および録音機器
JP2008129077A (ja) * 2006-11-16 2008-06-05 Matsushita Electric Ind Co Ltd ノイズ除去装置
JP5275612B2 (ja) * 2007-07-18 2013-08-28 国立大学法人 和歌山大学 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
CN102150206B (zh) 2008-10-24 2013-06-05 三菱电机株式会社 噪音抑制装置以及声音解码装置
US20110286605A1 (en) * 2009-04-02 2011-11-24 Mitsubishi Electric Corporation Noise suppressor
WO2011111091A1 (ja) 2010-03-09 2011-09-15 三菱電機株式会社 雑音抑圧装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023430A1 (en) * 2000-08-31 2003-01-30 Youhua Wang Speech processing device and speech processing method
EP1768108A1 (de) * 2004-06-18 2007-03-28 Matsushita Electric Industrial Co., Ltd. Rauschunterdrückungseinrichtung und rauschunterdrückungsverfahren
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method

Also Published As

Publication number Publication date
JPWO2012038998A1 (ja) 2014-02-03
CN103109320B (zh) 2015-08-05
US20130138434A1 (en) 2013-05-30
WO2012038998A1 (ja) 2012-03-29
JP5183828B2 (ja) 2013-04-17
DE112010005895T5 (de) 2013-07-18
US8762139B2 (en) 2014-06-24
CN103109320A (zh) 2013-05-15

Similar Documents

Publication Publication Date Title
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE112009000805B4 (de) Rauschreduktion
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE102017116528B4 (de) Verfahren und Vorrichtung zur Audiosignal-Qualitätsverbesserung basierend auf quantitativer SNR-Analyse und adaptiver Wiener-Filterung
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
DE112010005020B4 (de) Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69810754T2 (de) Hochauflösendes nachbearbeitungsverfahren für einen sprachdekoder
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE69131739T2 (de) Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
DE102013111784B4 (de) Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
DE102014221528B4 (de) Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE3230391C2 (de)

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final