DE112013000942T5 - Rauschminderungsverfahren, Programmprodukt und Vorrichtung - Google Patents

Rauschminderungsverfahren, Programmprodukt und Vorrichtung Download PDF

Info

Publication number
DE112013000942T5
DE112013000942T5 DE112013000942.0T DE112013000942T DE112013000942T5 DE 112013000942 T5 DE112013000942 T5 DE 112013000942T5 DE 112013000942 T DE112013000942 T DE 112013000942T DE 112013000942 T5 DE112013000942 T5 DE 112013000942T5
Authority
DE
Germany
Prior art keywords
normal distribution
speech
confidence index
observed
estimate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112013000942.0T
Other languages
English (en)
Inventor
c/o IBM Tokyo Laboratory IBM Jap Ichikawa Osamu
c/o IBM Corporation Rennie Steven J.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112013000942T5 publication Critical patent/DE112013000942T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

Problem Eine Aufgabe der vorliegenden Erfindung besteht darin, eine neuartige Technik zur Rauschminderung auf der Grundlage von Modellen für die Spracherkennung bereitzustellen. Problemlösungsmittel Die vorliegende Erfindung erzeugt in einer Rauschkompensation auf der Grundlage von Modellen ein Wahrscheinlichkeitsmodell, das als Produkt der Wahrscheinlichkeitsverteilung eines Diskrepanzvektors g (bzw. der reinen Sprache x) dargestellt ist, wobei der beobachtete Wert y als Faktor und die Wahrscheinlichkeitsverteilung des Diskrepanzvektors g (bzw. der reinen Sprache x) mit dem Konfidenzindex β für jedes Band als Faktor auftreten, führt eine MMSE-Schätzung am Wahrscheinlichkeitsmodell durch und schätzt einen Schätzwert reiner Sprache x^. Demzufolge beeinflusst jedes Band das Ergebnis der MMSE-Schätzung, wobei das Ausmaß des Beitrags mit seinem Konfidenzniveau übereinstimmt. Ferner gilt, dass der Ausgabewert umso mehr zum beobachteten Wert hin verschoben wird, je höher das Signal/Rausch-Verhältnis der beobachteten Sprache ist. Demzufolge wird die Front-End-Ausgabe optimiert.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft Spracherkennungstechniken und insbesondere Rauschminderungstechniken.
  • Stand der Technik
  • Bei Spracherkennungstechniken spielt das Problem, die Auswirkungen von Hintergrundrauschen zu beseitigen, beim Verbessern der Genauigkeit des Erkennens von Sprachäußerungen eine wichtige Rolle. Filtertechniken nach dem Stand der Technik (z. B. ein Verfahren der spektralen Subtraktion und Anwenden des Wiener-Filters) sind bei relativ schwachem Hintergrundrauschen in gewissem Maße erfolgreich, erzielen aber nicht die gewünschten Ergebnisse bei starkem Hintergrundrauschen, da die zu erkennende Sprache im Rauschen versinkt.
  • Zu diesem Zweck wurden in den letzten Jahren Ansätze aufmerksam verfolgt, die ein Wahrscheinlichkeitsmodell reiner Sprache (Sprachäußerungen, die nicht von Rauschen jeglicher Art überlagert sind) verwenden. Über diese Rauschminderungsverfahren auf der Grundlage von Modellen wurde berichtet, dass sie eine hohe Wirkung auch bei starker Hintergrundrauschen aufweisen. In Bezug darauf offenbart die japanische Patentanmeldung Nr. 2008-298844 (Patentliteratur 1) ein Spracherkennungssystem, das eine Rauschminderung auf der Grundlage eines Modells anwendet.
  • Liste der Entgegenhaltungen
  • Patentschriften
    • Patentschrift 1 japanische Patentanmeldung Nr. 2008-298844
  • Offenbarung der Erfindung
  • Technisches Problem
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, ein neuartiges Rauschminderungsverfahren bereitzustellen, das auf ein Front-End zur Spracherkennung angewandt wird.
  • Lösung für das Problem
  • Die Erfinder haben sorgfältig ein neuartiges Rauschminderungsverfahren untersucht, das auf ein Front-End zur Spracherkennung angewandt wird, und als Ergebnis eine Konfiguration konzipiert, die ein Faktorenmodell mit einem Konfidenzindex für jedes Band der beobachteten Sprache verwendet, und somit die vorliegende Erfindung realisiert.
  • Das heißt, gemäß der vorliegenden Erfindung wird ein Rauschminderungsverfahren bereitgestellt, das beinhaltet: den Schritt eines Erzeugens eines Konfidenzindexes für jedes Band auf der Grundlage eines Spektrums beobachteter Sprache; den Schritt eines Erzeugens eines Wahrscheinlichkeitsmodells, das als gemischte mehrdimensionale Normalverteilung mit einer Dimension für jedes Band dargestellt ist, wobei jede Normalverteilung als Produkt einer ersten Normalverteilung und einer zweiten Normalverteilung dargestellt ist; und den Schritt eines Schätzens eines Schätzwertes eines Diskrepanzvektors durch Ausführen einer MMSE-Schätzung (Schätzung mit kleinster mittlerer quad ratischer Abweichung) am Wahrscheinlichkeitsmodell und des Ableitens eines Schätzwertes reiner Sprache auf der Grundlage des Schätzwertes des Diskrepanzvektors. Die erste Normalverteilung ist eine Wahrscheinlichkeitsverteilung eines Diskrepanzvektors, die auf der Grundlage der beobachteten Sprache erzeugt wird. Die zweite Normalverteilung ist als eine Funktion definiert, die einen Mittelwert Null aufweist und eine Varianz ausgibt, die einen desto kleineren Wert annimmt, je größer der Konfidenzindex wird.
  • Außerdem wird gemäß der vorliegenden Erfindung ein Rauschminderungsverfahren bereitgestellt, das beinhaltet: den Schritt eines Erzeugens eines Konfidenzindexes für jedes Band auf der Grundlage eines Spektrums beobachteter Sprache; den Schritt eines Erzeugens eines Wahrscheinlichkeitsmodells, das als gemischte mehrdimensionaler Normalverteilung mit einer Dimension für jedes Band dargestellt ist, wobei jede Normalverteilung als Produkt einer ersten Normalverteilung und einer zweiten Normalverteilung dargestellt ist; und den Schritt eines Ableitens eines Schätzwertes reiner Sprache durch Ausführen einer MMSE-Schätzung am Wahrscheinlichkeitsmodell. Die erste Normalverteilung ist eine Wahrscheinlichkeitsverteilung reiner Sprache, die auf der Grundlage der beobachteten Sprache erzeugt wird. Die zweite Normalverteilung ist als eine Funktion definiert, die einen beobachteten Wert als Mittelwert aufweist und eine Varianz ausgibt, die einen desto kleineren Wert annimmt, je größer der Konfidenzindex wird.
  • Ferner werden gemäß der vorliegenden Erfindung ein Computerprogrammprodukt, das einen Computer veranlasst, jedes der Verfahren auszuführen, und eine Rauschminderungsvorrichtung bereitgestellt, die Funktionen zum Realisieren jedes der Verfahren implementiert.
  • Vorteilhafte Wirkungen der Erfindung
  • Wie oben beschrieben wird gemäß der vorliegenden Erfindung die Ausgabe des Front-End optimiert, indem ein Faktorenmodell mit einem Konfidenzindex für jedes Band der Beobachtungssprache verwendet wird.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein konzeptionelles Schaubild, das die Konfiguration eines Front-End in einem Spracherkennungssystem nach dem Stand der Technik veranschaulicht.
  • 2 enthält konzeptionelle Schaubilder, die die Schritte des Erzeugens einer Mel-LPW(Mel-Lokal-Spitzenwert-Gewichtung) aus dem Frequenzspektrum der beobachteten Sprache veranschaulichen.
  • 3 enthält konzeptionelle Schaubilder, die den Schritt des Erzeugens eines Konfidenzindexes β aus einer Mel-LPW veranschaulichen.
  • 4 ist ein konzeptionelle Schaubild, das die Konfiguration eines Front-End in einem Spracherkennungssystem einer Ausführungsform veranschaulicht.
  • 5 ist ein Ablaufplan, der einen durch das Front-End der Ausführungsform ausgeführten Prozess veranschaulicht.
  • Art und Weise zum Ausführen der Erfindung
  • Im Folgenden wird die vorliegende Erfindung unter Bezugnahme auf eine Ausführungsform beschrieben, die in den Zeichnungen veranschaulicht ist. Die vorliegende Erfindung ist jedoch nicht auf die in den Zeichnungen veranschaulichte Ausführungsform beschränkt. Es ist zu beachten, dass in den Zeichnungen, auf die weiter unten Bezug genommen werden soll, gemeinsame Elemente dieselben Bezugszahlen erhalten und deren Beschreibungen entsprechend weggelassen werden.
  • Im Allgemeinen beinhaltet ein Spracherkennungssystem ein Front-End, bei dem ein Akustiksignal einer Sprachäußerung in bestimmter Weise umgewandelt wird, um einen Merkmalsbetrag zu extrahieren, und ein Back-End, das eine Datenbank auf der Grundlage des im Front-End extrahierten Merkmalsbetrags durchsucht, um den Inhalt der Äußerung zu spezifizieren. Die vorliegende Erfindung stellt eine neuartige Technik bereit, die ein Faktorenmodell mit einem Konfidenzindex des Spektrums beobachteter Sprache zur Rauschkompensation auf der Grundlage von Modellen verwendet, die am Front-End angewandt wird.
  • <Rauschkompensation auf der Grundlage von Modellen>
  • Vor dem Beginn der Beschreibung der Ausführungsform der vorliegenden Erfindung wird die auf der Grundlage von Modellen erfolgende Rauschkompensation, die auf das Front-End angewandt wird, anhand von 1 beschrieben. Es ist zu beachten, dass sich in der folgenden Beschreibung „beobachtete Sprache” auf den tatsächlich beobachteten Klang bezieht, bei dem Hintergrundrauschen die Sprachäußerung überlagert; „reine Sprache” sich auf Sprachäußerungen bezieht, die nicht von Rauschen jedweder Art überlagert sind; und ein „Schätzwert reiner Sprache” sich auf einen Schätzwert reiner Sprache bezieht, der aus der beobachteten Sprache geschätzt wird. Außerdem bezieht sich „Frequenzspektrum” auf ein Leistungsspektrum oder ein Amplitudenspektrum.
  • Bei der Rauschkompensation auf der Grundlage von Modellen handelt es sich kurz gesagt um eine Technik eines Modellierens einer reinen Sprache x als Wahrscheinlichkeitsverteilung p(x|y) von x, wenn ein beobachteter Wert y gegeben ist, und eines Schätzens eines Schätzwertes reiner Sprache x aus dem Wahrscheinlichkeitsmodell p(x|y). Bei der MMSE-Schätzung handelt es sich um eine elementare Technik, die bei der Schätzung in einem nachfolgenden Stadium angewandt wird.
  • 1 veranschaulicht konzeptionell die Konfiguration eines Front-End 500 in einem Spracherkennungssystem nach dem Stand Technik, auf das eine Rauschkompensation auf der Grundlage von Modellen angewandt wird.
  • Die mit einem Mikrofon erfasste und aufgezeichnete beobachtete Sprache wird von einem A/D-Wandler in ein digitales Signal (Akustiksignal) umgewandelt. Danach wird das digitale Signal mittels einer geeigneten Fensterfunktion einer Einteilung in Segmente (framing) und einer diskreten Fourier-Transformation (DFT) unterzogen und dann für jedes Segment (frame) in ein Frequenzspektrum umgewandelt. Als Nächstes durchläuft das Frequenzspektrum eine Mel-Filterbank (eine Filterbank, bei der die Bandpassfilter in gleichen Intervallen auf der Mel-Skala angeordnet sind), davon werden die Logarithmen übernommen und anschließend in ein logarithmisches Mel-Spektrum umgewandelt und einer Rauschminderungseinheit 502 zugeführt.
  • Die Rauschminderungseinheit 502 enthält einen auf der Grundlage von Modellen funktionierenden Rauschkompensationsteil 512, einen MMSE-Schätzteil 514 und eine Datenbank 516, in der ein Gauß'sches Mischmodell (im Folgenden als GMM bezeichnet) reiner Sprache gespeichert ist. Auf der Grundlage des logarithmischen Mel-Eingangsspektrums erzeugt die Rauschminderungseinheit 502 für jedes Segment einen Schätzwert reiner Sprache und gibt den Schätzwert reiner Sprache an eine Extraktionseinheit für den Merkmalsbetrag 504 aus.
  • Bei dem auf der Grundlage von Modellen funktionierenden Rauschkompensationsteil 512 handelt es sich um einen Funktionsteil, der reine Sprache darstellt, die als eine Wahrscheinlichkeitsverteilung in beobachteter Sprache enthalten ist, und durch einen vorhandenen Modellieralgorithmus wie VTS, SPLICE, DNA oder Segura implementiert wird. Der auf der Grundlage von Modellen funktionierende Rauschkompensationsteil 512 führt anhand des logarithmischen Mel-Spektrums für jedes Segment, das der Rauschminderungseinheit 502 zugeführt wird, und des in der Datenbank 516 gespeicherten Modells reiner Sprache (GMM) eine bestimmte arithmetische Operation durch und gibt die reine Sprache, die in der beobachteten Sprache als gemischte mehrdimensionale Normalverteilung enthalten ist, mit einer Dimension für jedes Band aus.
  • Der MMSE-Schätzteil 514 führt eine MMSE-Schätzung auf der Grundlage der Wahrscheinlichkeitsverteilung aus, die von dem auf der Grundlage von Modellen funktionierenden Rauschkompensationsteil 512 ausgegeben wird, und erzeugt einen Schätzwert reiner Sprache. Es ist zu beachten, dass es sich beim in der Datenbank 516 gespeicherten Modell reiner Sprache um ein GMM in der logarithmischen Mel-Spektrumdomäne handelt, das für jedes Phonem auf der Grundlage vorherigen Lernens erzeugt wird. Der auf der Grundlage von Modellen funktionierende Rauschkompensationsteil 512 gibt reine Sprache als GMM in der logarithmischen Mel-Spektrumdomäne aus. Der MMSE-Schätzteil 514 erzeugt einen Schätzwert reiner Sprache als Vektor in der logarithmischen Mel-Spektrumdomäne.
  • Die Extraktionseinheit für den Merkmalsbetrag 504 extrahiert einen bestimmten Merkmalsbetrag, z. B. einen Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) aus dem Schätzwert reiner Sprache, der von dem MMSE-Schätzteil 514 ausgegeben wird, und sendet den Merkmalsbetrag an das Back-End. Im Back-End werden die Inhalte der Äußerung auf der Grundlage des vom Front-End erhaltenen Merkmalsbetrags spezifiziert, indem eine vorhandene Konfiguration, z. B. ein HMM, ein Akustikmodell oder ein N-Gram-Sprachmodell verwendet wird.
  • Die Konfiguration des Front-End im Spracherkennungssystem nach dem Stand der Technik wurde oben kurz beschrieben. Als Nächstes wird die MMSE-Schätzung im Einzelnen beschrieben. Auf der Grundlage von Modellen funktionierende Rauschkompensationsalgorithmen nach dem Stand der Technik beinhalten ein erstes Verfahren des direkten Schätzens eines Schätzwertes reiner Sprache aus beobachteter Sprache, das oben beschrieben wurde, und ein zweites Verfahren des Schätzens eines Kompensationsbetrags aus beobachteter Sprache und des Ableitens eines Schätzwertes reiner Sprache aus der Differenz zwischen der beobachteten Sprache und einem Schätzwert des Kompensationsbetrags. Beim zweiten Verfahren wird eine MMSE-Schätzung beim Schätzen eines Kompensationsbetrags (Diskrepanzvektor) angewandt. Die folgende Beschreibung beruht auf dem von Segura übernommenen zweiten Verfahren, um die Beschreibung zu vereinfachen.
  • <Vorhandene MMSE-Schätzung>
  • Ein beobachteter Wert yd(t) in der logarithmischen Mel-Spektrumdomäne eines Bandes d (Frequenzband auf der Mel-Skala) in einem Segment t der beobachteten Sprache y kann in der Gleichung (1) unten als Funktion eines Wertes xd(t) reiner Sprache und eines Rauschwertes nd(t) ausgedrückt werden:
  • Gl. 1
    • yd(t) = xd(t) + log(1 + exp(nd(t) – xd(t))) (1)
  • Wenn t aus der Gleichung (1) oben weggelassen und die Gleichung (1) als Vektor dargestellt wird, wird die nachfolgende Gleichung (2) gewonnen:
  • Gl. 2
    • y = x + g (2)
  • Ein Diskrepanzvektor g für jedes Band d ist durch eine in der nachstehenden Gleichung (3) angegebene Diskrepanzfunktion G gegeben.
  • Gl. 3
    • gd = Gd(x, n) = log(1 + exp(nd – xd)) (3)
  • Hier wird die reine Sprache x als eine in der nachstehenden Gleichung (4) angegebene GMM mit K-Mischung modelliert:
    Figure DE112013000942T5_0002
  • In der obigen Gleichung (4) geben γk, μx,k und Σx,k eine A-priori-Wahrscheinlichkeit, einen Mittelvektor bzw. eine Kovarianzmatrix einer k-ten Normalverteilung an.
  • Durch Anwenden der linearen Taylor-Erweiterung auf der Grundlage der obigen Gleichungen (1) bis (4) wird der Diskrepanzvektor g als GMM mit K-Mischung modelliert, was in der Gleichung (5) angegeben ist.
  • Figure DE112013000942T5_0003
  • Es ist zu beachten, dass der Mittelvektor μg,k in der obigen Gleichung (5) als die nachstehende Gleichung (6) und die Kovarianzmatrix Σg,k als die nachstehende Gleichung (7) dargestellt ist:
  • Gl.6
    • μg,k ≅ log(1 + exp(μn – μx,k)) = G(μx,k, μn) (6)
    • Σg,k ≅ F(μx,k, μn)2·(Σx,k + Σn) (7)
  • Eine Hilfsfunktion F in der Gleichung (7) ist als die nachstehende Gleichung (8) definiert:
  • Gl. 7
    • Fd(x, n) = (1 + exp(xd – nd))–1 (8)
  • Als Ergebnis wird ein Schätzwert reiner Sprache x^ durch die nachstehende Gleichung (9-1) angegeben:
    Figure DE112013000942T5_0004
  • Dagegen wird beim ersten Verfahren des direkten Schätzens des Schätzwertes reiner Sprache x^ aus der beobachteten Sprache y der Schätzwert reiner Sprache x^ durch die nachstehende Gleichung (9-2) anstelle der obigen Gleichung (9-1) angegeben:
    Figure DE112013000942T5_0005
  • Hier sind beide A-posteriori-Wahrscheinlichkeiten pk in den obigen Gleichungen (9-1) und (9-2) durch die nachstehende Gleichung (10) gegeben:
    Figure DE112013000942T5_0006
  • Der Mittelvektor μy,k in der obigen Gleichung (10) wird durch die nachstehende Gleichung (11) und die Kovarianzmatrix Σy,k durch die nachstehende Gleichung (12) dargestellt:
  • Gl. 11
    • μy,k ≅ μx,k + G(μx,k, μn) (11)
    • Σy,k ≅ {1 – F(μx,k, μn)2}·Σx,k + F(μx,k, μn)2·Σn (12)
  • Es ist zu beachten, dass in den obigen Gleichungen (11) und (12) Sprachmodellparameter [μx,k, Σx,k] durch vorherige Lerndaten gegeben sind und Rauschmodellparameter [μn, Σn] durch den auf Grundlage von Modellen funktionierenden Rauschkompensationsteil 512 auf der Grundlage eines beobachteten Wertes in einem sprachlosen Abschnitt eingestellt und an den MMSE-Schätzteil 514 ausgegeben werden.
  • Die vorhandene MMSE-Schätzung wurde oben beschrieben. Als Nächstes wird eine neue Technik der vorliegenden Erfindung beschrieben, die ein Faktorenmodell mit einem Konfidenzindex des Spektrums der beobachteten Sprache verwendet. In der folgenden Beschreibung wird diese Technik als PCW-MMSE (probabilistische konfidenzgewichtete MMSE beschrieben).
  • <PCW-MMSE>
  • Die folgende Beschreibung beruht auf dem von Segura übernommenen zweiten Verfahren, um die Beschreibung zu vereinfachen. Bei der Rauschkompensation auf der Grundlage von Modellen des oben beschriebenen zweiten Verfahrens wird der Schätzwert reiner Sprache x^ mittels der nachstehenden Gleichung (13) abgeleitet. Wie in der nachstehenden Gleichung (13) angegeben, wird die Wahrscheinlichkeitsverteilung eines Diskrepanzvektors g als ein Einfaktorenmodell p(g|y) eines beobachteten Vektors y erzeugt und eine MMSE-Schätzung am erzeugten Modell p(g|y) ausgeführt. Danach wird das Schätzergebnis vom beobachteten Wert y subtrahiert, wodurch der Schätzwert reiner Sprache x^ abgeleitet wird.
  • Gl. 12
    • x ^ = y – ∫g·p(g|y)dg (13)
  • Betrachtet man diesen Punkt, wird bei der vorliegenden Erfindung der Schätzwert reiner Sprache x^ mittels der Gleichung (14) abgeleitet. Das heißt, bei der vorliegenden Erfindung wird eine Wahrscheinlichkeitsverteilung, die als Ziel einer MMSE-Schätzung dient, als Zweifaktorenmodell p(g|y, β) definiert, das zwei Faktoren enthält. Einer der beiden Faktoren ist hier der beobachtete Vektor y und der andere ist der Konfidenzindex β.
  • Gl. 13
    • x ^ = y – ∫g·p(g|y, β)dg (14)
  • Hier ist der Konfidenzindex ein Index, der die Konfidenz eines Bandes darstellt. Im Allgemeinen wird die Konfidenz eines Bandes aus dem Blickwinkel einer von Hintergrundrauschen verursachten Signalverschlechterung bewertet. Es muss nicht erwähnt werden, dass verschiedene Konstruktionen für den Konfidenzindex β möglich sind. Die Technik der vorliegenden Erfindung ist nicht auf die Art des übernommenen Konfidenzindexes beschränkt, und ein auf dem Gebiet der Spracherkennung verwendeter vorhandener Konfidenzindex kann verwendet werden. Als ein vorhandener Konfidenzindex kann ein Konfidenzindex, der die relative Leistungsstärke in einer Zeit- oder Frequenzrichtung nutzt, beispielhaft veranschaulicht werden.
  • <Bevorzugte Ausführungsform eines Konfidenzindexes>
  • Hier wird ein neuartiger Konfidenzindex beschrieben, der von den Erfindern konzipiert wurde. Bekanntlich weist das Frequenzspektrum von Vokalen, die in menschlichen Äußerungen enthalten sind, eine harmonische Struktur auf. In einer Umgebung ohne Hintergrundrauschen wird die harmonische Struktur der Vokale in gesamten Band des Frequenzspektrums beobachteter Sprache aufrechterhalten. Dagegen geht die harmonische Struktur der Vokale über Breitbandrauschen, z. B. bei Fahrgeräusche eines Fahrzeugs oder bei Geräuschen einer Klimaanlage, in vielen Bändern verloren, und die harmonische Struktur wird nur in einem Band aufrechterhalten, z. B. einem Formanten, in dem die Sprachleistung konzentriert ist.
  • Ausgehend davon nehmen die Erfinder an, dass die vom Hintergrundrauschen verursachte Verschlechterung in einem Band mit einer auffälligen harmonischen Struktur selten auftritt, und entwickelten eine Technik, um die Auffälligkeit der harmonischen Struktur als Konfidenzindex für dieses Band auszunutzen. Gemäß dieser Technik kann die Konfidenz eines Bandes in geeigneter Weise bewertet werden, auch wenn Rauschen nicht konstant ist oder der Rauschpegel in einem bestimmten Band immer hoch ist. Im Nachfolgenden wird ein Verfahren zum Erzeugen eines neuartigen Konfidenzindexes beschrieben, das von den Erfindern entwickelt wurde.
  • Ein neuartiger Konfidenzindex wird mit einer LPW (lokale Spitzengewichtung) erzeugt. Hier erfolgt eine LPW so, dass eine große Änderung, z. B. diejenige, die Formanteninformationen enthält, von der spektralen Energieverteilung der beobachteten Sprache entfernt wird, und nur regelmäßige Spitzen und Senken, die der harmonischen Struktur entsprechen, extrahiert und ihre Werte normalisiert werden. Für jedes Segment wird eine LPW erzeugt, indem das folgende Verfahren durchgeführt wird.
  • Zuerst wird der Logarithmus des Frequenzspektrums eines Segments t beobachteter Sprache übernommen, und sein logarithmisches Spektrum wird einer diskreten Cosinus-Transformation unterzogen, um ein Cepstrum zu erhalten. Als Nächstes werden von den Termen des erhaltenen Cepstrums nur die Terme in einer Domäne/in Domänen, die der harmonischen Struktur von LPW-Vokalen entspricht/entsprechen, übrig gelassen, und die anderen Terme werden abgeschnitten. Danach wird das verarbeitete Cepstrum einer inversen diskreten Cosinus-Transformation unterzogen, um das Cepstrum in die logarithmische Spektrumdomäne zurückzuwandeln, die weiterhin in die Frequenzspektrumdomäne umgewandelt wird. Schließlich wird das umgewandelte Frequenzspektrum normalisiert, so dass der Mittelwert des Frequenzspektrums 1 wird, wodurch eine LPW gewonnen wird. 2(a) veranschaulicht das Frequenzspektrum eines Segments t beobachteter Sprache. 2(b) veranschaulicht eine LPW, die auf der Grundlage des in 2(a) veranschaulichten Frequenzspektrums erzeugt wird.
  • Als Nächstes wird eine in 2(c) veranschaulichte Mel-LPW gewonnen, indem die in 2(b) veranschaulichte LPW auf der Mel-Skala geglättet wird. Insbesondere werden Werte geglättet, indem die LPW eine Mel-Filterdatenbank durchläuft (eine Filterdatenbank, bei der die Bandpassfilter in gleichen Intervallen auf der Mel-Skala angeordnet sind) und für jedes Mel-Band ein Wert gewonnen wird. Wie in 2(c) veranschaulicht, wird der Mel-LPW-Wert in jedem Mel-Band gegeben. Die Größe des Mel-LPW-Wertes entspricht der Auffälligkeit der harmonischen Struktur eines Bandes des Frequenzspektrums mit hoher Auflösung, das jedem Mel-Band entspricht.
  • Bei der vorliegenden Ausführungsform wird der Mel-LPW-Wert, der durch das oben beschriebene Verfahren gewonnen wird, normalisiert, indem ein geeignetes Verfahren angewandt wird, und ein Konfidenzindex βd für jedes Band gewonnen. Beispielsweise kann der Konfidenzindex βd erzeugt werden, indem das folgende Verfahren durchgeführt wird.
  • 3(a) veranschaulicht eine Mel-LPW, die für ein Segment t gewonnen wurde. Ein Mel-LPW-Wert wd wird mittels einer geeigneten Skalierungsfunktion normalisiert, so dass der Wert wd einen Wert von 0 bis 1 annimmt, wobei 1 den Höchstwert darstellt. Eine Skalierungsfunktion ist unter anderem beispielsweise eine Sigmoidfunktion. Die nachstehende Gleichung (15) gibt eine Gleichung zum Ableiten des Konfidenzindexes βd mittels einer Sigmoid-Funktion an:
  • Gl. 14
    • βd = 1.0/(1.0 + exp(–α·(wd – 1.0 – b))) (15)
  • Es ist zu beachten, dass in der vorstehenden Gleichung (15) a und b Einstellparameter sind und geeignete konstante Werte eingestellt werden.
  • 3(b) gibt den Konfidenzindex β an, der durch das oben beschriebene Verfahren erzeugt wird. Wie in 3(b) veranschaulicht, wird der Konfidenzindex β in jedem Mel-Band angegeben. Unter der Annahme des oben beschriebenen Konfidenzindexes β wird die Beschreibung unter erneuter Bezugnahme auf die obige Gleichung (14) fortgesetzt.
  • Das Wahrscheinlichkeitsmodell p(g|y, β) in der obigen Gleichung (14) kann als Produkt der beiden Wahrscheinlichkeitsverteilungen dargestellt werden, wie in der nachstehenden Gleichung (16) angegeben:
  • Gl. 15
    • p(g|y, β) = p(g|y)·p(g|β) (16)
  • In der obigen Gleichung (16) kann p(g|y) als Wahrscheinlichkeitsmodell des Diskrepanzvektors g bezeichnet werden, das von Segura übernommen wurde, das den beobachteten Vektor y als Faktor aufweist.
  • Dagegen ist in der obigen Gleichung (16) p(g|β) das Wahrscheinlichkeitsmodell des Diskrepanzvektors g, das den Konfidenzindex β als Faktor aufweist. Bei der vorliegenden Erfindung ist das Faktorenmodell p(g|β) so konzipiert, dass die Wahrscheinlichkeit, dass der Diskrepanzvektor g = 0 wird, umso höher wird, je größer der Wert des Konfidenzindexes β wird.
  • Das heißt, die vorliegende Erfindung modelliert das Faktorenmodell p(g|β) als eine durch die nachstehende Gleichung (17) dargestellte Normalverteilung, d. h. eine Normalverteilung, bei der der Mittelwert 0 beträgt und die Varianz eine Ausgabewert der Funktion ψ(β) ist:
  • Gl. 15
    • p(g|β) = N(g; 0, ψ(β)) (17)
  • Die vorliegende Erfindung übernimmt als Funktion ψ(β) in der vorstehenden Gleichung (17) eine geeignete Funktion, die einen desto kleineren Wert ausgibt, je größer der Konfidenzindex β wird. Beispielsweise gilt die Funktion ψ(β) in der vorstehenden Gleichung (17) als k-abhängig und wird durch Skalieren der Varianz der k-ten Normalverteilung des GMM reiner Sprache ausgeführt. In diesem Fall kann die Funktion ψ(β), die die Varianz der k-ten Normalverteilung des Bandes d darstellt, als die nachstehende Gleichung (18) definiert werden:
  • Gl. 17
    • ψk,d = Σx,k,dd –1 – c) (18)
  • In der vorstehenden Gleichung (18) gibt βd den Konfidenzindex für jedes Band an. Außerdem ist c ein Einstellparameter und ein geeigneter konstanter Wert im Bereich von 0,0 bis 1,0 wird eingestellt.
  • Hier wird die Beschreibung wieder unter Bezugnahme auf die vorstehende Gleichung (16) beschrieben.
  • Wenn beispielsweise die beobachtete Sprache kaum verschlechtert ist und die harmonische Struktur der Vokale in ihrem Frequenzspektrum auffällig ist, wird der Konfidenzindex β größer. In diesem Fall wird die in der vorstehenden Gleichung (17) angegebene Varianz ψ(β) kleiner, und die Normalverteilung p(g|β) weist eine steile Verteilung auf. Infolgedessen sind in der Wahrscheinlichkeitsverteilung p(g|y, β), die durch das Produkt von p(g|y) und p(g|β) dargestellt wird, die Normalverteilung p(g|β), bei der der Mittelwert = 0 dominant wirkt, und der Mittelwert von p(g|y, β) in Richtung von g = 0 verschoben. Als Folge wird der Schätzwert reiner Sprache x^, der durch die obige Gleichung (14) gewonnen wird, zu einem Wert, der näher am beobachteten Wert y liegt als am Ausgabewert des Schätzwertes des reinen Sprache x^ nach dem Stand der Technik, der durch die obige Gleichung (13) gewonnen wird.
  • Kurz gesagt, die vorliegende Erfindung hat die folgenden vorteilhaften Wirkungen, indem sie das Zweifaktorenmodell p(g|y, β) als Wahrscheinlichkeitsmodell übernimmt, das als Ziel der MMSE-Schätzung dient. Das heißt, bei einer Technik des Übernehmens des Einfaktorenmodells p(g|y) nach dem Stand der Technik wird der Schätzwert des Diskrepanzvektors g immer subtrahiert, unabhängig davon, wie hoch das Signal/Rausch-Verhältnis der beobachteten Sprache ist, wodurch sich die Unannehmlichkeit ergibt, dass stattdessen die Sprache verschlechtert wird. Dagegen nähert sich bei einem sehr hohen Signal/Rausch-Verhältnis der beobachteten Sprache der Schätzwert des Diskrepanzvektors g dem Wert 0 an, und sein Ausgangswert wird im Wesentlichen dem beobachteten Wert y gleich. Dieses Ergebnis entspricht dem Zweck der Rauschminderung.
  • Ferner hat ein Übernehmen des Zweifaktorenmodells p(g|y, β) als Wahrscheinlichkeitsmodell, das als Ziel der MMSE-Schätzung dient, die vorteilhafte Wirkung, dass die MMSE-Schätzung, die auf der letzten Stufe der Schätzung eines Sprachmodells verwendet wird, verbessert wird. Im Folgenden wird dieser Punkt beschrieben.
  • Eine MMSE-Schätzung reiner Sprache, die das Zweifaktorenmodell p(g|y, β) der vorliegenden Erfindung übernimmt, kann ausgeführt werden, indem die obige Gleichung (16) auf eine gemischte Normalverteilung angewandt wird. Da das Produkt aus einer Normalverteilung und einer Normalverteilung eine Normalverteilung wird, heißt dies, dass die Wahrscheinlichkeitsverteilung p(g|y, β) als die nachstehende Gleichung (19) erweitert werden kann:
    Figure DE112013000942T5_0007
  • Die Varianz Σ''g,k und der Mittelwert μg , k in der obigen Gleichung (19) sind durch die nachstehenden Gleichungen (20) bzw. (21) gegeben:
  • Gl. 19
    • Σ '' / g,k = (Σg,k –1 + ψk –1)–1 (20)
    • μ '' / g,k = (Σg,k –1·μg,k + ψk –1·0)·Σ '' / g,k (21)
  • Außerdem sind die A-posteriori-Wahrscheinlichkeit p''k(y) in der obigen Gleichung (19) durch die nachstehende Gleichung (22) gegeben:
    Figure DE112013000942T5_0008
  • Die Varianz Σ''g,k und der Mittelwert μ''y,k in der obigen Gleichung (22) sind durch die nachstehenden Gleichungen (23) bzw. (24) gegeben:
  • Gl. 21
    • Σ '' / g,k = (Σy,k –1 + ψk –1)–1 (23)
    • μ '' / y,k = (Σy,k –1·μg,k + ψk –1·μx,k)·Σ '' / y,k (24)
  • Schließlich ist der Schätzwert der MMSE-Schätzung durch die nachstehende Gleichung (25) gegeben, wenn das Zweifaktorenmodell p(g|y, β) als Ziel dient:
    Figure DE112013000942T5_0009
  • Wenn ein spektrales Band vorliegt, in dem die harmonische Struktur der Vokale in einem Segment t eines Sprechabschnitts auffällig ist, nimmt der Konfidenzindex βd eines entsprechenden Bandes d einen größeren Wert an. In diesem Fall wird ψk in der obigen Gleichung (20) kleiner, und die Varianz Σ''y,k des Bandes d, die beim Berechnen der A-posteriori-Wahrscheinlichkeit p''k(y) verwendet wird, wird kleiner als der ursprüngliche Wert von Σy,k. Je kleiner die Varianz ist, desto steiler wird die Normalverteilung. Infolgedessen hat das Band d einen größeren Einfluss auf die Wahrscheinlichkeit der gesamten A-posteriori-Wahrscheinlichkeit. Dies bedeutet, dass bei der MMSE-Schätzung der Beitrag eines Mel-Bandes, das dem spektralen Band entspricht, in dem die harmonische Struktur der Vokale auffällig ist, groß wird.
  • Wenn dagegen ein spektrales Band vorliegt, in dem die harmonische Struktur der Vokale in einem Segment t eines Sprechabschnitts verloren gegangen ist, wird der Konfidenzindex βd eines entsprechenden Bandes d kleiner. In diesem Fall wird ' k in der obigen Gleichung (20) größer, und die Varianz Σ''y,k des Bandes d, die beim Berechnen der A-posteriori-Wahrscheinlichkeit p''k(y) verwendet, wird größer als der ursprüngliche Wert von Σy,k. Je größer die Varianz ist, desto breiter wird die Normalverteilung. Infolgedessen hat das Band d einen kleineren Einfluss auf die Wahrscheinlichkeit der gesamten A-posteriori-Wahrscheinlichkeit. Dies bedeutet, dass bei der MMSE-Schätzung der Beitrag eines Mel-Bandes, das dem spektralen Band entspricht, in dem die harmonische Struktur der Vokale verloren gegangen ist, klein wird.
  • Kurz gesagt, die vorliegende Erfindung hat die folgenden vorteilhaften Wirkungen, indem sie das Zweifaktorenmodell p(g|y, β) als Wahrscheinlichkeitsmodell übernimmt, das als Ziel der MMSE-Schätzung dient. Das heißt, gemäß der vorliegenden Erfindung beeinflusst jedes Band das Ergebnis der MMSE-Schätzung, wobei das Ausmaß des Beitrags mit seinem Konfidenzniveau übereinstimmt. Infolgedessen wird die Front-End-Ausgabe optimiert.
  • Die vorliegende Erfindung wurde auf der Grundlage des von Segura übernommenen zweiten Verfahrens beschrieben. Es muss nicht erwähnt werden, dass die vorliegende Erfindung auf das erste Verfahren anwendbar ist, das einen Schätzwert reiner Sprache direkt aus beobachteter Sprache schätzt.
  • Wenn die vorliegende Erfindung auf das erste Verfahren angewandt wird, ist die Wahrscheinlichkeitsverteilung, die als Ziel der MMSE-Schätzung dient, als das Zweifaktorenmodell p(x|y, β) definiert, und p(x|y, β) wird als Produkt der beiden Wahrscheinlichkeitsverteilungen p(x|y) und p(x|β) dargestellt, wie es in der nachstehenden Gleichung (26) angegeben ist. In der nachstehenden Gleichung (26) ist p(x|y) ein Wahrscheinlichkeitsmodell reiner Sprache x, das gemäß einem geeigneten Algorithmus erzeugt wurde, und p(x|β) ist ein Wahrscheinlichkeitsmodell reiner Sprache x mit dem Konfidenzindex β als Faktor.
  • Wenn die vorliegende Erfindung auf das erste Verfahren angewandt wird, ist das Wahrscheinlichkeitsmodell p(x|β) so konzipiert, dass die Wahrscheinlichkeit der reinen Sprache x = y umso höher wird, je größer der Wert des Konfidenzindexes β wird. Das heißt, das Wahrscheinlichkeitsmodell p(x|β) wird als eine durch die nachstehende Gleichung (27) dargestellte Normalverteilung modelliert, d. h. eine Normalverteilung, bei der der Mittelwert der beobachtete Wert y und die Varianz eine Ausgabe der Funktion ψ(β) ist, und eine geeignete Funktion, die einen desto kleineren Wert ausgibt, je größer der Wert des Konfidenzindexes β ist, wird als Funktion ψ(β) übernommen. Der Schätzwert der MMSE-Schätzung wird durch die nachstehende Gleichung (28) gegeben:
    Figure DE112013000942T5_0010
    Figure DE112013000942T5_0011
  • Für den Rest siehe die Beschreibung des zweiten Verfahrens. Fachleute werden problemlos verstehen, dass dieselben oder ähnliche vorteilhafte Wirkungen wie die im Falle des zweiten Verfahrens erzielt werden, wenn die vorliegende Erfindung auf das erste Verfahren angewandt wird.
  • 4 veranschaulicht konzeptionell die Konfiguration eines Front-End 1000 in einem Spracherkennungssystem gemäß einer Ausführungsform der vorliegenden Erfindung. Bei einer Rauschminderungseinheit 100 des Front-End 1000 ist PCW-MMSE implementiert. Das Front-End 1000 enthält ferner eine Erzeugungseinheit für den Konfidenzindex 104. Die Erzeugungseinheit für den Konfidenzindex 104 enthält einen LPW-Erzeugungsteil 105, einen Mel-LPW-Erzeugungsteil 106 und einen Normalierungsteil 107. Im Folgenden wird ein Prozess beschrieben, der durch das Front-End 1000 auf der Grundlage eines Ablaufplans in 5 ausgeführt wird. Es ist zu beachten, dass in der folgenden Beschreibung in geeigneter Weise Bezug auf 4 genommen wird.
  • Wenn das Frequenzspektrum Y, das einem Segment der beobachteten Sprache entspricht, gewonnen wurde (Schritt S101), extrahiert der LPW-Erzeugungsteil 105 erstens die harmonische Struktur des Frequenzspektrums Y und erzeugt eine LPW (Schritt S102). Als Nächstes erzeugt der Mel-LPW-Erzeugungsteil 106 eine Mel-LPW aus der LPW (Schritt S103). Der Normalisierungsteil 107 normalisiert die Mel-LPW mit einem geeigneten Verfahren und erzeugt einen Konfidenzindex β für jedes Band (Schritt S104). Die Erzeugungseinheit für den Konfidenzindex 104 stellt den erzeugten Konfidenzindex β für die Rauschminderungseinheit 100 bereit.
  • Danach wird das Frequenzspektrum Y, das einem Segment entspricht, in ein logarithmisches Mel-Spektrum y umgewandelt (Schritt S105) und der Rauschminderungseinheit 100 zugeführt. Die Rauschminderungseinheit 100 schätzt die reine Sprache anhand des zugeführten logarithmischen Mel-Spektrums y und des Konfidenzindexes β, der von der Erzeugungseinheit für den Konfidenzindex 104 bereitgestellt wurde (Schritt S106). Zu diesem Zeitpunkt erzeugt ein auf der Grundlage von Modellen funktionierender Rauschkompensationsteil 102 ein Wahrscheinlichkeitsmodell, das als Produkt der Wahrscheinlichkeitsverteilung des Diskrepanzvektors g (bzw. der reinen Sprache x) dargestellt ist, wobei der beobachtete Wert y als Faktor und die Wahrscheinlichkeitsverteilung des Diskrepanzvektors g (bzw. der reinen Sprache x) mit dem Konfidenzindex β als Faktor auftreten. Der MMSE-Schätzteil 514 führt eine MMSE-Schätzung auf der Grundlage des Wahrscheinlichkeitsmodells aus, das vom auf der Grundlage von Modellen funktionierenden Rauschkompensationsteil 102 erzeugt wurde, und erzeugt einen Schätzwert reiner Sprache x^.
  • Die Rauschminderungseinheit 100 gibt den geschätzten Schätzwert reiner Sprache x^ an die Extraktionseinheit für den Merkmalsbetrag 504 aus (Schritt S107). Die Extraktionseinheit für den Merkmalsbetrag 504 extrahiert einen bestimmten Merkmalsbetrag aus dem Schätzwert reiner Sprache x^ und sendet den Merkmalsbetrag an das Back-End. Die oben beschriebene Reihe von Verfahren wird wiederholt für jedes Segment der beobachteten Sprache ausgeführt (Nr. in Schritt 108). Der Prozess endet, wenn das letzte Frame erreicht ist (Ja in Schritt 108).
  • Wie oben beschrieben, beeinflusst gemäß der vorliegenden Erfindung jedes Band das Ergebnis der MMSE-Schätzung, wobei das Ausmaß des Beitrags mit seinem Konfidenzniveau übereinstimmt. Ferner gilt, dass der Ausgabewert umso stärker zum beobachteten Wert hin verschoben wird, je höher das Signal/Rausch-Verhältnis der beobachteten Sprache ist. Infolgedessen wird die Front-End-Ausgabe optimiert.
  • Die vorliegende Erfindung wurde unter Bezugnahme auf Ausführungsform beschrieben. Jedoch ist die vorliegende Erfindung nicht auf die oben beschriebene Ausführungsform beschränkt, und Änderungen sind im Umfang der vorliegenden Erfindung eingeschlossen, solange sie Operationen und vorteilhafte Wirkungen der vorliegenden Erfindung innerhalb des Umfangs einer Ausführungsform aufweisen, die durch Fachleute vorstellbar ist.
  • Die Funktionen der oben beschriebenen Ausführungsform können mit einem Programmprodukt realisiert werden, das in einer objektorientierten Programmiersprache wie C, C++, C# oder Java (eingetragene Marke) geschrieben und auf einer Vorrichtung ausführbar ist. Das Programmprodukt der Ausführungsform kann zur Verbreitung auf einem von einer Vorrichtung lesbaren Aufzeichnungsmedium gespeichert sein, z. B. einer Festplatte, einer CD-ROM, einem MO, einer DVD, einer flexiblen Speicherplatte, einem EEPROM oder einem EPROM. Alternativ kann das Programmprodukt über ein Netzwerk in einem von der Vorrichtung lesbaren Format übertragen werden.
  • Beispiel
  • Im Folgenden wird die vorliegende Erfindung anhand eines Beispiels genauer beschrieben werden. Die vorliegende Erfindung ist jedoch nicht auf das nachstehend beschriebene Beispiel beschränkt.
  • Ein Computerprogrammprodukt (PCW-MMSE) wurde erzeugt, um einen Computer zu veranlassen, ein Verfahren der oben offenbarten vorliegenden Erfindung auszuführen, und die Leistungsfähigkeit des Computerprogrammprodukts wurde anhand einer Bewertungsstruktur für Fahrzeug-Spracherkennungssysteme bewertet, der von der Information Processing Society of Japan (IPSJ) bereitgestellt wurde.
  • <Versuchsbedingungen>
  • Dieser Versuch wurde mit Hilfe der Bewertungsdatenbank für Fahrzeug-Spracherkennungssysteme CENSREC-3 durchgeführt. Eine Bewertungsbedingung war Bedingung 3, bei der ein entfernt angeordnetes Mikrofon sowohl zum Lernen von Daten als auch zum Testen von Daten verwendet wird. Es wurde ein Front-End vorbereitet, das für den Versuch notwendige verschiedene Merkmalsbeträge ausgibt, und auf die Lerndaten als auch die Testdaten angewandt. Die Merkmalsbeträge lagen in 39 Dimensionen vor, darunter MFCC 12 Dimensionen + ΔMFCC 12 Dimensionen + AAMFCC 12 Dimensionen + CO + ACO + AACO, und eine CMN wurde in Äußerungseinheiten angewandt. Die Konfiguration eines Back-End, z. B. das Verfahren des Erzeugens eines Akustikmodells, wurde nicht verändert (Kategorie 0).
  • Ein GMM reiner Sprache wurde im Leerlauf des Fahrzeugs anhand von Daten gelernt, die mit einem Nahbesprechungsmikrofon erfasst und aufgezeichnet wurden. Verwendet wurden Merkmalsbeträge des logarithmischen Mel-Spektrums in 24 Dimensionen, und die Anzahl der Mischungen betrug 256.
  • <Versuchsergebnisse>
  • Die nachstehende Tabelle 1 gibt kollektiv die wortrichtige Genauigkeit (%) des beispielhaften Programmprodukts (PCW-MMSE) und eines beispielhaften Vergleichsprogrammprodukts an (Standard-MMSE: MMSE von Segra). Es ist zu beachten, dass eine „CENSREC-3-Basislinie” eine Basislinie darstellt, bei der keine Sprachverbesserung oder Rauschminderung durchgeführt wird. Tabelle 1
    Aufzeichnungsumgebung der Bewertungsdaten Wortrichtige Genauigkeit (%)
    Fahrgeschwindigkeit Fahrzeuginterne Umgebung CENSREC-3-Basislinie Standard-MMSE PCW-MMSE
    Leerlauf Normal 100,0 100,0 100,0
    Warnblinker ein 99,4 97,9 98,2
    Klimaanlage (niedrig) 98,0 98,8 99,1
    Klimaanlage (hoch) 63,1 81,2 90,2
    offenes Fenster 93,1 96,6 97,3
    Mittelwert 90,7 94,9 97,0
    Langsames Fahren Normal 99,8 98,7 99,2
    Klimaanlage (niedrig) 96,8 97,8 97,9
    Klimaanlage (hoch) 69,3 84,5 90,8
    offenes Fenster 80,8 82,5 88,4
    Mittelwert 87,5 91,7 94,7
    Schnelles Fahren Normal 98,1 97,3 98,9
    Klimaanlage (niedrig) 94,8 96,2 98,1
    Klimaanlage (hoch) 64,8 83,8 89,8
    offenes Fenster 49,0 61,5 70,4
    Mittelwert 78,8 86,1 90,4
    Mittelwert für alle Umgebungsbedingungen 85,2 90,5 93,7
  • Auf der Grundlage des Mittelwertes der wortrichtigen Genauigkeit (%) unter allen Umgebungsbedingungen, der in der obigen Tabelle 1 angegeben ist, wurde die Fehlerminderungsrate (%) in Bezug auf die Standard-MMSE, die ein Vergleichsbeispiel darstellt, anhand des nachstehenden Ausdrucks (26) berechnet:
    Figure DE112013000942T5_0012
  • Demzufolge betrug die Fehlerminderungsrate (%) der PCW-MMSE (Beispiel) 33,8%. Dieses Ergebnis gibt an, dass das Verfahren der vorliegenden Erfindung die Genauigkeit der Spracherkennung verbessert.
  • Bezugszeichenliste
  • 100
    Rauschminderungseinheit
    102
    auf der Grundlage von Modellen funktionierender Rauschkompensationsteil
    104
    Erzeugungseinheit für den Konfidenzindex
    105
    LPW-Erzeugungsteil
    106
    Mel-LPW-Erzeugungsteil
    107
    Normalisierungsteil
    502
    Rauschminderungseinheit
    504
    Extraktionseinheit für den Merkmalsbetrag
    512
    auf der Grundlage von Modellen funktionierender Rauschkompensationsteil
    514
    MMSE-Schätzteil
    516
    Datenbank
    500, 1000
    Front-Ends

Claims (9)

  1. Rauschminderungsverfahren, das aufweist: den Schritt eines Erzeugens eines Konfidenzindexes für jedes Band auf der Grundlage eines Spektrums beobachteter Sprache; den Schritt eines Erzeugens eines Wahrscheinlichkeitsmodells, das als gemischte mehrdimensionale Normalverteilung mit einer Dimension für jedes Band dargestellt ist, wobei jede Normalverteilung als Produkt einer ersten Normalverteilung und einer zweiten Normalverteilung dargestellt ist; und und den Schritt eines Schätzens eines Schätzwertes eines Diskrepanzvektors durch Ausführen einer MMSE-Schätzung am Wahrscheinlichkeitsmodell und Ableiten eines Schätzwertes reiner Sprache auf der Grundlage des Schätzwertes des Diskrepanzvektors, wobei es sich bei der ersten Normalverteilung um eine Wahrscheinlichkeitsverteilung eines Diskrepanzvektors handelt, der auf der Grundlage der beobachteten Sprache erzeugt wird, und wobei die zweite Normalverteilung einen Mittelwert Null aufweist und eine Varianz als eine Funktion definiert ist, die einen desto kleineren Wert ausgibt, je größer der Konfidenzindex wird.
  2. Rauschminderungsverfahren, das aufweist: den Schritt eines Erzeugens eines Konfidenzindexes für jedes Band auf der Grundlage eines Spektrums beobachteter Sprache; den Schritt eines Erzeugens eines Wahrscheinlichkeitsmodells, das als gemischte mehrdimensionale Normalverteilung mit einer Dimension für jedes Band dargestellt ist, wobei jede Normalverteilung als Produkt einer ersten Normalverteilung und einer zweiten Normalverteilung dargestellt ist; und den Schritt eines Ableitens eines Schätzwertes reiner Sprache durch Ausführen einer MMSE-Schätzung am Wahrscheinlichkeitsmodell, wobei es sich bei der ersten Normalverteilung um eine Wahrscheinlichkeitsverteilung reiner Sprache handelt, die auf der Grundlage der beobachteten Sprache erzeugt wird, und wobei die zweite Normalverteilung einen beobachteten Wert als Mittelwert aufweist und eine Varianz als eine Funktion definiert ist, die einen desto kleineren Wert ausgibt, je größer der Konfidenzindex wird.
  3. Verfahren nach Anspruch 1 oder 2, wobei es sich beim Konfidenzindex um einen Index handelt, der die Auffälligkeit einer harmonischen Struktur der beobachteten Sprache darstellt.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Schritt des Erzeugens eines Konfidenzindex beinhaltet: den Schritt eines Extrahierens einer harmonischen Struktur aus dem Spektrum der beobachteten Sprache und des Normalisierens der harmonischen Struktur; den Schritt eines Glättens der normalisierten Werte auf einer Mel-Skala; und den Schritt eines Normalisierens der geglätteten Werte von 0 bis 1.
  5. Computergestütztes Programmprodukt, um einen Computer zu veranlassen, die Schritte des Verfahrens gemäß einem der Ansprüche 1 bis 4 auszuführen.
  6. Rauschminderungsvorrichtung, die aufweist: eine Erzeugungseinheit für den Konfidenzindex, die zum Erzeugen eines Konfidenzindexes für jedes Band auf der Grundlage eines Spektrums der beobachteten Sprache konfiguriert ist; und eine Rauschminderungseinheit, die zum Erzeugen eines Wahrscheinlichkeitsmodells, das als gemischte mehrdimensionale Normalverteilung mit einer Dimension für jedes Band dargestellt ist, wobei jede Normalverteilung als Produkt einer ersten Normalverteilung und einer zweiten Normalverteilung dargestellt ist, zum Schätzen eines Schätzwertes eines Diskrepanzvektors durch Ausführen einer MMSE-Schätzung am Wahrscheinlichkeitsmodell und zum Ableiten eines Schätzwertes reiner Sprache auf der Grundlage des Schätzwertes des Diskrepanzvektors konfiguriert ist, wobei es sich bei der ersten Normalverteilung um eine Wahrscheinlichkeitsverteilung eines Diskrepanzvektors handelt, der auf der Grundlage der beobachteten Sprache erzeugt wird, und wobei die zweite Normalverteilung einen Mittelwert Null aufweist und eine Varianz als eine Funktion definiert ist, die einen desto kleineren Wert ausgibt, je größer der Konfidenzindex wird.
  7. Rauschminderungsvorrichtung, die aufweist: eine Erzeugungseinheit für den Konfidenzindex, die zum Erzeugen eines Konfidenzindexes für jedes Band auf der Grundlage eines Spektrums der beobachteten Sprache konfiguriert ist; und eine Rauschminderungseinheit, die zum Erzeugen eines Wahrscheinlichkeitsmodells, das als gemischte mehrdimensionale Normalverteilung mit einer Dimension für jedes Band dargestellt ist, wobei jede Normalverteilung als Produkt einer ersten Normalverteilung und einer zweiten Normalverteilung dargestellt ist, und zum Ableiten eines Schätzwertes reiner Sprache durch Ausführen einer MMSE-Schätzung am Wahrscheinlichkeitsmodell konfiguriert ist, wobei es sich bei der ersten Normalverteilung um eine Wahrscheinlichkeitsverteilung reiner Sprache handelt, die auf der Grundlage der beobachteten Sprache erzeugt wird, und wobei die zweite Normalverteilung einen beobachteten Wert als Mittelwert aufweist und eine Varianz als eine Funktion definiert ist, die einen desto kleineren Wert ausgibt, je größer der Konfidenzindex wird.
  8. Rauschminderungsvorrichtung nach Anspruch 6 oder 7, wobei es sich beim Konfidenzindex um einen Index handelt, der die Auffälligkeit einer harmonischen Struktur der beobachteten Sprache darstellt.
  9. Vorrichtung nach einem der Ansprüche 6 bis 8, wobei die Erzeugungseinheit für den Konfidenzindex enthält: ein Mittel zum Extrahieren einer harmonischen Struktur aus dem Spektrum der beobachteten Sprache und zum Normalisieren der harmonischen Struktur; ein Mittel zum Glätten der normalisierten Werte auf einer Mel-Skala; und ein Mittel zum Normalisieren der geglätteten Werte von 0 bis 1.
DE112013000942.0T 2012-03-09 2013-02-08 Rauschminderungsverfahren, Programmprodukt und Vorrichtung Withdrawn DE112013000942T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012052565 2012-03-09
JP2012-052565 2012-03-09
PCT/JP2013/053098 WO2013132959A1 (ja) 2012-03-09 2013-02-08 雑音抑制方法、プログラム及び装置

Publications (1)

Publication Number Publication Date
DE112013000942T5 true DE112013000942T5 (de) 2014-12-24

Family

ID=49116443

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112013000942.0T Withdrawn DE112013000942T5 (de) 2012-03-09 2013-02-08 Rauschminderungsverfahren, Programmprodukt und Vorrichtung

Country Status (5)

Country Link
JP (1) JPWO2013132959A1 (de)
CN (1) CN104205214B (de)
DE (1) DE112013000942T5 (de)
GB (1) GB2513812B (de)
WO (1) WO2013132959A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6468519B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
CN107818780B (zh) * 2017-11-13 2020-09-18 河海大学 一种基于非线性特征补偿的鲁棒语音识别方法
CN118370556B (zh) * 2024-06-21 2024-08-16 长春理工大学 一种肠鸣音智能监测腰腹带及其数据处理系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
CN101452701B (zh) * 2007-12-05 2011-09-07 株式会社东芝 基于反模型的置信度估计方法及装置
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method

Also Published As

Publication number Publication date
GB201415522D0 (en) 2014-10-15
CN104205214B (zh) 2016-11-23
CN104205214A (zh) 2014-12-10
JPWO2013132959A1 (ja) 2015-07-30
WO2013132959A1 (ja) 2013-09-12
GB2513812A (en) 2014-11-05
GB2513812B (en) 2015-07-29

Similar Documents

Publication Publication Date Title
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE69806557T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE112009000805B4 (de) Rauschreduktion
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69606978T2 (de) Verfahren zur rauschunterdrückung mittels spektraler subtraktion
DE60023517T2 (de) Klassifizierung von schallquellen
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE102019110272A1 (de) Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
DE60000403T2 (de) Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung
DE112010003461B4 (de) Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen

Legal Events

Date Code Title Description
R409 Internal rectification of the legal status completed
R012 Request for examination validly filed
R409 Internal rectification of the legal status completed
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee