DE602004000382T2 - Rauschadaptierung zur Spracherkennung - Google Patents

Rauschadaptierung zur Spracherkennung Download PDF

Info

Publication number
DE602004000382T2
DE602004000382T2 DE602004000382T DE602004000382T DE602004000382T2 DE 602004000382 T2 DE602004000382 T2 DE 602004000382T2 DE 602004000382 T DE602004000382 T DE 602004000382T DE 602004000382 T DE602004000382 T DE 602004000382T DE 602004000382 T2 DE602004000382 T2 DE 602004000382T2
Authority
DE
Germany
Prior art keywords
noise
model
speech
language
noisy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004000382T
Other languages
English (en)
Other versions
DE602004000382D1 (de
Inventor
Sadaoki Furui
Zhipengłc/o Intellectual Property De Zhang
Tsutomułc/o Intellectual Property De Horikoshi
Toshiakiłc/o Intellectual Property D Sugimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of DE602004000382D1 publication Critical patent/DE602004000382D1/de
Application granted granted Critical
Publication of DE602004000382T2 publication Critical patent/DE602004000382T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Description

  • Die Erfindung bezieht sich auf ein Rauschanpassungssystem für ein Sprachmodell, ein Rauschanpassungsverfahren und ein Rauschanpassungsprogramm, die zu erkennende verrauschte Sprache verwenden, um ein reines Sprachmodell, das durch Modellieren von Sprachmerkmalen mit Hilfe eines Nidden-Markov-Modells (HMM) erzeugt worden ist, so anzupassen, dass die Erkennungsrate für die verrauschte Umgebung erhöht wird.
  • Ein Lösungsweg durch stückweise lineare Transformation einer Baumstruktur ist in einem Artikel mit dem Titel "Effects of tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (Protokoll des Herbsttreffens 2002 der Acoustical Society of Japan, S. 29-30) beschrieben. Gemäß dem in diesem Artikel beschriebenen Lösungsweg wird Rauschen gesammelt, anhand des Ergebnisses des Sammelns (clustering) ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur erzeugt, ein Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache extrahiert, aus dem Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell ausgewählt und auf das ausgewählte Modell eine lineare Transformation angewandt, um so die Wahrscheinlichkeit des ausgewählten Modells zu erhöhen und dadurch die Genauigkeit von eingegebener Sprache zu verbessern.
  • Ein weiterer Lösungsweg ist in einem Artikel mit dem Titel "Study on tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (Frühjahrstreffen 2003 der Acoustical Society of Japan, S. 37-38) beschrieben, bei dem Rauscheigenschaften sequentiell und hierarchisch unterteilt werden, um eine Baumstruktur eines Modells für rauschangereicherte Sprache zu erzeugen. Bei diesem Lösungsweg wird rauschangereicherte Sprache zuerst nach dem Signal-Rausch-Verhältnis (im Folgenden mit SNR abgekürzt) gesammelt und danach für jede SNR-Bedingung ein Baumstrukturmodell geschaffen, um einen Raum für ein verrauschtes Sprachmodell mit Baumstruktur zu erzeugen.
  • 6 zeigt ein Beispiel des verrauschten Sprachmodells mit Baumstruktur. In 6 ist für jede von drei SNR-Bedingungen ein verrauschtes Sprachmodell mit Baumstruktur geschaffen. In 6 ist ein Baumstrukturmodell für SNR = 5 dB durch K1 angegeben, ein Baumstrukturmodell für SNR = 10 dB durch K2 angegeben und ein Baumstrukturmodell für SNR = 15 dB durch K3 angegeben der obere knoten (die Wurzel) jedes Baumstrukturmodells K1 – K3 repräsentiert ein reines Sprachmodell. Höhere Ebenen jeder Baumstruktur repräsentieren globale Merkmale von Rauscheigenschaften, während niedrigere Ebenen lokale Merkmale repräsentieren.
  • In der japanischen Patentoffenlegungsschrift Nr. 2002-14692 (vor allem 2 und 3 und Zusammenfassung) ist eine Technik beschrieben, nach der eine große Anzahl von Rauschabtastwerten im Voraus gesammelt wird, anhand der Abtastwerte akustische Modelle erzeugt werden und durch Sammeln ausgewähltes Rauschen hinzugefügt wird, um Daten zu lernen und dabei ein effizientes Lernen mit einer kleinen Anzahl von Rauschabtastwerten zu ermöglichen, um eine hohe Erkennungsleistung zu erzielen.
  • Die japanische Patentoffenlegungsschrift Nr.2002-91484 (vor allem Zusammenfassung) beschreibt eine Technik, nach der ein Sprachmodell für jede Baumstruktursammlung erzeugt wird, das für die Spracherkennung verwendet wird.
  • Die japanische Patentoffenlegungsschrift Nr.2000-298495 (vor allem Zusammenfassung und Anspruch 2) beschreibt das Kombinieren einer Anzahl von Baumstrukturen, um eine neue Baumstruktur zu bilden.
  • Nach dem Lösungsweg in der oben zitierten "Study on tree-structure clustering in noise adaptation using piecewise linear transformation" wird zu erkennende eingegebene verrauschte Sprache analysiert, um eine Merkmalsparameter-Zeichenfolge zu extrahierten, wobei ein optimales Modell aus einem Raum für ein verrauschtes Sprachmodell mit Baumstruktur ausgewählt wird. Auf das ausgewählte optimale Modell wird eine lineare Transformation angewandt, um die Wahrscheinlichkeit zu maximieren. Dementsprechend besitzt dieser Lösungsweg den Nachteil, dass die Erkennung eine Zweischritt-Suche betrifft: zuerst wird ein optimales Modell unter jeder SNR-Bedingung ausgewählt und danach das beste Modell unter allen SNR-Modellen ausgewählt. Die Probleme sind hier die Schwierigkeit, verrauschte Sprache mit veränderlichem SNR zu behandeln, und die hohen Kosten des Berechnens der Bedingungen.
  • Keine der in den oben zitierten Dokumenten beschriebenen Techniken kann diese Probleme lösen.
  • Eine Aufgabe der vorliegenden Erfindung, die in den beigefügten unabhängigen Ansprüchen definiert ist, ist es, ein Rauschanpassungssystem, ein Rauschanpassungsverfahren und ein Rauschanpassungsprogramm für Sprach erkennung zu schaffen, die verrauschte Sprache mit veränderlichem SNR ohne weiteres behandeln und die Rechenkosten minimieren können, indem ein Sprachmodell mit einer Einzelbaumstruktur, in die Rauschen und SNR integriert sind, erzeugt wird.
  • Gemäß einem Aspekt der Erfindung ist ein Rauschanpassungssystem für ein Sprachmodell geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und reinen Sprachdaten gelernt wird, wobei das System umfasst: ein Sammelmittel, das alle in der Rausch-Datenbank gespeicherten Rauschdaten sammelt, ein Sprachmodellraum-Erzeugungsmittel, das anhand des Ergebnisses des durch das Sammelmittel ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur erzeugt, ein Parameterextraktionsmittel, das einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache extrahiert, ein Auswahlmittel, das aus dem durch die Sprachmodellraum-Erzeugungsmittel erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell auswählt, und ein Lineartransformationsmittel, das auf das durch die Auswahlmittel ausgewählte Modell eine lineare Transformation anwendet, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt. Der wie oben beschrieben erzeugte Raum für ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache mit veränderlichem SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
  • Gemäß einem weiteren Aspekt der Erfindung ist das Rauschanpassungssystem für ein Sprachmodell gemäß dem ersten Aspekt geschaffen, wobei das Sammelmittel die rauschangereicherte Sprache durch Hinzufügen des Rauschens zu der Sprache in Übereinstimmung mit einer Rauschabstandsbedingung erzeugt, den Sprach-Cepstral-Mittelwert der erzeugten rauschangereicherten Sprache subtrahiert, ein Gaußsches Sprachmodell jedes Teils der erzeugten rauschangereicherten Sprache erzeugt und die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten Sprache berechnet, um eine Wahrscheinlichkeitsmatrix zu erzeugen, um ein Sammelergebnis zu schalten. Dies ermöglicht das Sammeln von rauschangereicherter Sprache.
  • Gemäß einem zusätzlichen Aspekt der Erfindung ist das Rauschanpassungssystem gemäß dem ersten oder zweiten Aspekt geschaffen, wobei das Auswahlmittel ein Modell auswählt, das die höchste Wahrscheinlichkeit für den durch die Parameterextraktionsmittel extrahierten Sprachmerkmalsparameter schafft. Durch Auswählen desjenigen Modells, das die höchste Wahrscheinlichkeit schafft, kann die Genauigkeit der Spracherkennung erhöht werden. Das Auswahlmittel kann ein Modell auswählen, indem es den Raum für ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene abwärts zur niedrigsten Ebene durchsucht. Durch Durchsuchen der Baumstruktur von der höchsten Ebene bis zur niedrigsten Ebene kann ein optimales Modell ausgewählt werden.
  • Das Lineartransformationsmittel des Rauschanpassungssystems kann die lineare Transformation anhand des durch das Auswahlmittel ausgewählten Modells ausführen, um die Wahrscheinlichkeit zu erhöhen. Durch Ausführen der linearen Transformation kann die Wahrscheinlichkeit maximiert werden.
  • Gemäß einem nochmals weiteren Aspekt der Erfindung ist ein Rauschanpassungsverfahren geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und von reinen Sprachdaten gelernt wird, wobei das Verfahren umfasst: einen Sammelschritt zum Sammeln von allen rauschangereicherten Sprachdaten, die in der Rausch-Datenbank gespeichert sind, einen Sprachmodellraum-Erzeugungsschritt zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des in dem Sammelschritt ausgeführten Sammelns, einen Parameterextraktionsschritt zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache, einen Auswahlschritt zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt. Der Raum für ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache mit veränderlichem SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
  • Gemäß einem weiteren Aspekt der Erfindung ist ein Rauschanpassungsprogramm geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und von reinen Sprachdaten gelernt wird, wobei das Programm umfasst: einen Sammelschritt, um alle in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten zu sammeln, einen Sprachmodellraum-Erzeugungsschritt, um anhand des Ergebnisses des im Sammelschritt ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen, einen Parameterextraktionsschritt, um einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache zu extrahieren, einen Auswahlschritt, um ein optimales Modell aus dem im Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur auszuwählen, und einen Lineartransformationsschritt, um eine lineare Transformation auf das im Auswahlschritt ausgewählte Modell anzuwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt. Der Raum für ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache mit veränderlichem SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
  • Tatsächlich werden gemäß der Erfindung alle Teile von Rauschdaten in einer Rausch-Datenbank (im Folgenden mit DB abgekürzt) verwendet, um rauschangereicherte Sprache auf der Grundlage jeder SNR-Bedingung in einer Einzelbaumstruktur zu sammeln. Ein Raum für eine rauschangereicherte Sprache wird entsprechend den SNR und Rauscheigenschaften in eine Baumstruktur unterteilt, wobei Klangmerkmalsparameter-Zeichenfolgen von zu erkennender eingegebener verrauschter Sprache extrahiert werden. Danach wird aus dem Einzelbaumstruktur-Modellraum anhand der Merkmalsparameter-Zeichenfolge ein optimales Modell ausgewählt und auf dieses Modell eine lineare Transformation angewandt.
  • Die Einzelbaumstruktur, in die Rauschen und SNR integriert sind, wird erzeugt, um das Lernen des wahrscheinlichsten rauschangereicherten Sprachmodells zu ermöglichen. In dieser Weise kann eine hohe Erkennungsgenauigkeit erzielt werden. Ferner erfordert der Lösungsweg der vorliegenden Erfindung nicht das Auswählen eines optimalen Modells unter jeder einzelnen SNR-Bedingung. Stattdessen betrifft der Lösungsweg der vorliegenden Erfindung nur eine Einschritt-Suche, durch die das beste Modell unter allen SNR-Modellen ausgewählt wird. Daher kann verrauschte Sprache mit veränderlichem SNR ohne weiteres behandelt werden, wobei Rechenkosten gespart werden.
  • Gemäß der Erfindung kann verrauschte Sprache mit veränderlichem SNR ohne weiteres behandelt werden und können Rechenkosten gespart werden, indem ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur verwendet wird.
  • Rauschangereicherte Sprache kann gesammelt werden, indem der Sprache den Rauschabstandsbedingungen entsprechend Rauschen hinzugefügt wird, der Sprach-Cepstral-Mittelwert von jedem Teil der erzeugten rauschangereicherten Sprache subtrahiert wird, ein Gaußsches Sprachmodell jedes Teils der rauschangereicherten Sprache erzeugt wird und die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten Sprache berechnet wird, um eine Wahrscheinlichkeitsmatrix zu erzeugen.
  • Eine verbesserte Genauigkeit der Spracherkennung kann erzielt werden, indem ein Modell ausgewählt wird, das die höchste Wahrscheinlichkeit für einen extrahierten Sprachmerkmalsparameter ergibt.
  • Ein optimales Modell kann ausgewählt werden, indem der Raum für ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene bis zur niedrigsten Ebene nach einem optimalen Modell durchsucht wird.
  • Die Wahrscheinlichkeit kann maximiert werden, indem eine lineare Transformation auf der Grundlage des ausgewählten Modells ausgeführt wird, um so die Wahrscheinlichkeit zu erhöhen.
  • Die Erfindung wird nun in Verbindung mit bevorzugten Ausführungsformen, die in den Zeichnungen gezeigt sind, beschrieben.
  • 1 ist ein Ablaufplan eines durch ein Sprachmodell-Rauschanpassungssystem gemäß der Erfindung ausgeführten Prozesses.
  • 2 ist ein Blockschaltplan, der eine Konfiguration eines Sprachmodell-Rauschanpassungssystems gemäß einer Ausführungsform der Erfindung zeigt.
  • 3 ist ein funktionaler Blockschaltplan, in dem in 2 gezeigte Komponenten in Übereinstimmung mit dem Operationsfluss in dem System neu geordnet sind.
  • 4 ist ein konzeptionelles Diagramm, das einen Prozess zum Auswählen eines optimalen Modells aus einem Raum für ein verrauschtes Sprachmodell mit Baumstruktur in dem System zeigt.
  • 5 zeigt eine mittels eines durch das System angepassten Sprach-HMM erzielte Wortgenauigkeit.
  • 6 ist ein konzeptionelles Diagramm, das einen in einem herkömmlichen Sprachmodell-Rauschanpassungssystem verwendeten Prozess zum Auswählen eines optimalen Modells aus einem Raum für ein verrauschtes Sprachmodell mit Baumstruktur zeigt.
  • Gemäß der Erfindung wird ein verrauschter Sprachmodellraum unter Verwendung von SNR und Tonqualität als Baumstruktur erzeugt. Um den Raum für ein verrauschtes Sprachmodell zu erzeugen, wird reiner Sprache jeder SNR-Bedingung entsprechend Rauschen hinzugefügt, um rauschangereicherte Sprache zu erzeugen. Danach werden die Rauscheigenschaften als Einzelbaumstruktur dargestellt, um ein Modell zu schaffen, bei dem höhere Ebenen der Baumstruktur globale Merkmale repräsentieren und niedrigere Ebenen lokale Merkmale repräsentieren. Ein optimaler stückweiser Rauschraum kann ausgewählt werden, indem der Baumstruktur von der Wurzel abwärts von oben nach unten gefolgt wird, um ein optimales Modell auszuwählen.
  • Da sowohl in den Sammel- als auch in den Modell-Lernprozessen durchweg rauschangereicherte Sprache verwendet wird, kann dasjenige rauschangereicherte Sprachmodell, das die höchste Wahrscheinlichkeit ergibt, gelernt werden und eine verbesserte Erkennungsgenauigkeit erzielt werden.
  • Konfiguration des vorliegenden Systems
  • Eine Konfiguration zum Implementieren des oben beschriebenen Prozesses wird mit Bezug auf 2, die ein Blockschaltplan ist, der eine Ausführungsform des erfindungsgemäßen Rauschanpassungssystems zeigt, beschrieben. Wie in 2 gezeigt ist, umfasst das Rauschanpassungssystem gemäß der Ausführungsform einen Baumstrukturmodellspeicher 1, eine Merkmalsextraktionseinheit 2, eine Spracherkennungseinheit 3, eine Modellauswahl- und Modellbestimmungseinheit 4, eine Modell-Lineartransformations-Anpassungseinheit 5 und einen Erkennungsergebnisspeicher 6. Das vorliegende System ist als Datenendgerät, mobiles Datenendgerät, Servercomputer, Personalcomputer oder andere Einrichtung, die die oben genannten Einheiten und Speicher enthält, verwirklicht.
  • Der Baumstrukturmodellspeicher 1 speichert ein rauschangereichertes Sprach-HMM, das anhand eines Ergebnisses des Sammelns von rauschangereicherter Sprache als Einzelbaumstruktur aufgebaut worden ist.
  • Die Merkmalsextraktionseinheit 2 analysiert in sie eingegebene Sprachdaten und wandelt sie in Merkmalsvektoren um.
  • Die Spracherkennungseinheit 3 wendet einen Viterbi-Algorithmus auf die Zeitreihen-Merkmalsvektorzeit, die aus den eingegebenen Sprachdaten umgewandelt worden ist, an, um eine Modellfolge zu erhalten, die die höchste Wahrscheinlichkeitsfunktion ergibt.
  • Die Modellauswahl- und Modellbestimmungseinheit 4 wählt ein optimales Modell aus, das ein optimales Modell ergibt, das die höchste Wahrscheinlichkeit unter den in dem Baumstrukturmodellspeicher 1 gespeicherten Modellen ergibt.
  • Die Modell-Lineartransformations-Anpassungseinheit 5 wendet eine lineare Transformation auf das durch die Modellauswahl- und Modellbestimmungseinheit 4 ausgewählte Modell an, um so dessen Wahrscheinlichkeit zu maximieren.
  • Der Erkennungsergebnisspeicher 6 speichert Spracherkennungsergebnisse.
  • Funktionsweise des Systems
  • Die Funktionsweise des Systems mit der oben beschriebenen Struktur wird mit Bezug auf die 1 und 3 beschrieben. 3 ist ein funktionaler Blockschaltplan, bei dem die in 2 gezeigten Komponenten 1- 6 entsprechend dem Operationsfluss in dem System umgeordnet sind. 1 ist ein Ablaufplan eines durch das System ausgeführten Prozesses.
  • Der Prozess zum Ausführen der Spracherkennung in dem System folgt den Schritten S1 bis S9, die nachstehend beschrieben werden.
  • Schritt S1 (der Schritt des Erzeugens von rauschangereicherter Sprache): Jeder Teil von in einer Rauschdatenbank gespeicherten Daten wird verwendet, um reiner Sprache jeder SNR-Bedingung entsprechend Rauschen hinzuzufügen, um rauschangereicherte Sprache zu erzeugen.
  • Schritt S2 (der Schritt des Subtrahierens des Mittelwerts der rauschangereicherter Sprache): Die CMS (Cepstral-Mittelwert-Subtraktion) wird auf die im Schritt S1 erzeugte rauschangereicherte Sprache angewandt. Das heißt, dass der Cepstral-Mittelwert aller Sprachdatenrahmen in einem bestimmten Intervall berechnet wird und von dem Vektor jedes Rahmens subtrahiert wird. Das Cepstrum ist die Fourier-Transformierte des Logarithmus eines durch Fourier-Transformation erhaltenen Leistungsspektrums. Die CMS ist in einem Dokument mit dem Titel "Furui: Cepstral Analysis Technique For Automatic Speaker Verification", IEEE Transaction on Acoustical Speech and Signal Processing, Bd. ASSP – 29, S. 254-272, 1981, beschrieben.
  • Schritt S3 (der Schritt des Erzeugens eines rauschangereicherten Sprachmodells): Mit Hilfe des Baum-Welch-Algorithmus wird ein Gaußsches Mischmodell (GMM) jeder rauschangereicherten Sprache erzeugt. Der Baum-Welch-Algorithmus ist eine sich wiederholende Annäherung, um näher an einen optimalen Wert zu gelangen, wobei von einem geeigneten Anfangswert ausgegangen wird. Der Baum-Welch-Algorithmus ist in einem Dokument mit dem Titel "Speech recognition with probabilistic model" von Seiichi Nakagawa (Institute of Electronics, Information an Communication Engineers, 1988) beschrieben.
  • Schritt S4 (der Schritt des Sammelns von rauschangereicherter Sprache): Das GMM wird verwendet, um die Wahrscheinlichkeit zwischen Teilen rauschangereicherter Sprache zu berechen, um eine Wahrscheinlichkeitsmatrix zu erzeugen. Ein auf der Wahrscheinlichkeitsmatrix basierendes SPLIT-Verfahren wird angewandt, um die rauschangereicherte Sprache in regelmäßiger Folge zu sammeln. In dem SPLIT-Verfahren werden Sammlungen (clusters), die die größte Streuung ergeben, sequentiell aufgespaltet. Folglich kann eine beliebige Anzahl von Sammlungen erzeugt werden. Das Ergebnis des Sammelns kann völlig automatisch erhalten werden, indem einfach die Anzahl von Sammlungen angegeben wird. Das SPLIT-Verfahren ist in einem Speech-Committee-Dokument von Sugamura u. a. (S82-64, 1982) beschrieben.
  • Schritt S5 (Anwendung auf die Anpassung durch stückweise lineare Transformation): Durch den Schritt S4 ergibt sich ein Baumstruktur-Sammelergebnis der rauschangereicherten Sprache. Das Sammelergebnis wird in dem Baumstrukturmodellspeicher 1 gespeichert. Das Sammelergebnis ist ein Einzelbaumstrukturmodell, in das Rauschen und SNR integriert sind. Außerdem repräsentiert das Sammelergebnis Merkmale in Baumstrukturform; globale Merkmale der rauschangereicherten Sprache sind auf einer höheren Ebene der Baumstruktur repräsentiert, während lokale Merkmale auf einer niedrigeren Ebene repräsentiert sind.
  • Das in dem Baumstrukturmodellspeicher 1 gespeicherte Sammelergebnis wird auf die stückweise lineare Transformation angewandt. Die stückweise lineare Transformation ist in dem oben zitierten Artikel "Effects of tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. beschrieben. Insbesondere werden die nachstehend beschriebenen Schritte S6 bis S9 ausgeführt.
  • Schritt S6 (der Schritt des Extrahierens von Merkmalsgrößen): Die Merkmalsextraktionseinheit 2 extrahiert Merkmalsgrößen aus den zu erkennenden rauschangereicherten Sprachdaten. Bei der Merkmalsgrößenextraktion wird eine LPC-(Linear Prediction Coding, lineare Vorhersagecodierung)-Analyse auf jeden Rahmen eingegebener Sprachdaten angewandt, um Zeitreihen-Merkmalsparametervektoren wie etwa ein Cepstrum oder _Cepstrum als Merkmalsparameterfolge zu erhalten.
  • Shritt 7 (Auswählen eines optimalen Modells): Der Schritt des Auswählens eines optimalen Modells wird mit Bezug auf 4 beschrieben. Der Knoten (die Wurzel) am oberen Ende von 4 repräsentiert ein reines Sprachmodell. Unter der Wurzel befinden sich N Modelle SNR-1 bis SNR-N. Die N Modelle SNR-1 bis SNR-N repräsentieren Modelle, die von der durch Hinzufügen sämtlicher Rauschtypen unter allen SNR-Bedingungen erzeugten Sprache gelernt worden sind.
  • Kindknoten unterhalb von diesen repräsentieren Modelle, die von den durch Hinzufügen einiger in Abhängigkeit von dem Sammelergebnis ausgewählter Rauschtypen erzeugten Sprachdaten gelernt worden sind. Am Boden der Baumstruktur befinden sich Modelle, die von der durch Hinzufügen nur eines einzigen bestimmten Rauschtyps erzeugten Sprache gelernt worden ist. Somit sind globale Rauscheigenschaften auf der höheren Ebene der Baumstruktur repräsentiert, während lokale Rauscheigenschaften auf der niedrigeren Ebene repräsentiert sind.
  • Anders als der Lösungsweg in dem oben zitierten Artikel "Study on tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (siehe 6) erfordert der Lösungsweg der vorliegenden Erfindung kein Auswählen eines optimalen Modells unter jeder einzelnen SNR-Bedingung. Stattdessen benötigt er nur eine Einschritt-Suche, bei der das beste Modell unter allen SNR-Modellen ausgewählt wird.
  • In 1 wird zum Ausführen der Erkennung zuerst anhand der im Schritt S4 erhaltenen Merkmalsparameterfolge die Wahrscheinlichkeit eines gegebenen reinen Modells an der Wurzel berechnet. Dies wird von der in 1 gezeigten Spracherkennungseinheit 3 ausgeführt.
  • Danach verwendet die Spracherkennungseinheit 3 die Modelle unterhalb der Wurzel, um die Wahrscheinlichkeiten zu berechnen. Die so berechneten Wahrscheinlichkeitswerte werden von der Modellauswahl- und Modellbestimmungseinheit 4 verwendet, um ein optimales Modell auszuwählen. Insbesondere wird dies durch Verfolgen der folgenden Prozedur erreicht. Modelle, die Wahrscheinlichkeiten ergeben, die höher als jene des reinen Modells an der Wurzel sind, werden aufbewahrt. Danach werden die Modelle an den Kindknoten unterhalb von diesen verwendet, um die Wahrscheinlichkeiten unter diesen SNR-Bedingungen zu berechnen. Die Wahrscheinlichkeiten von zwei Kindknotenmodellen werden mit jenen des Elternknotens verglichen. Falls ein Kindknotenmodell die höchste Wahrscheinlichkeit ergibt, werden die Wahrscheinlichkeiten der Kindknotenmodelle unterhalb jenes Knotens berechnet. Falls andererseits die Wahrscheinlichkeit des Elternknotens höher als jene des Kindknotenmodells ist, wird keine weitere Berechnung ausgeführt, sondern der Elternknoten als optimaler Knoten bestimmt.
  • In 4 sind die Suchpfade durch fette Linien dargestellt. Die Berechnung kann wiederholt werden, um einen optimalen Raum zu finden. Ferner wird die Wahrscheinlichkeit der Modelle mit den höchsten Wahrscheinlichkeiten unter verschiedenen SNR-Bedingungen untereinander verglichen, um dasjenige Modell zu ergeben, das die höchste Wahrscheinlichkeit unter ihnen ergibt, zu bestimmen und als optimales Modell in dem gesamten Raum für eine verrauschte Sprache auszuwählen. In dem in 4 gezeigten Beispiel ergibt der vierte Knoten unter der Bedingung SNR-1 die höchste Wahrscheinlichkeit. Unter der SNR-N-Bedingung in 4 ergibt der fünfte Knoten die höchste Wahrscheinlichkeit. Die Wahrscheinlichkeiten der Modelle mit den höchsten Wahrscheinlichkeiten unter verschiedenen SNR-Bedingungen werden untereinander verglichen, um dasjenige Modell, das die höchste Wahrscheinlichkeit unter den Knoten mit den höchsten Wahrscheinlichkeiten ergibt, auszuwählen.
  • Schritt S8 (lineare Regression): Die Modell-Lineartransformations-Anpassungseinheit 5 wendet die Maximum-Likelihood-Linearregression (im Folgenden mit MLLR abgekürzt) auf das ausgewählte Modell an, um eine weiter erhöhte Wahrscheinlichkeit zu ergeben. Die MLLR ist in einem Dokument mit dem Titel "Mean and variance adaptation within the MLLR framework" (M.J.F Gales u. a., Computer Speech and Language, S. 249-264, 1996) beschrieben. Insbesondere wird eine Phänomenfolge, die sich aus der Erkennung ergibt, verwendet, um eine Lineartransformationsmatrix auf der Grundlage eines Maximum-Likelihood-Kriteriums zu schätzen, wobei der Mittelwert und die Varianzen der HMM-Normalverteilung durch lineare Transformation (lineare Regression) angepasst werden.
  • Schritt S9 (Wiedererkennung): Bei der Ausgabe des Ergebnisses der Spracherkennung verwendet die Spracherkennungseinheit 3 das im Schritt S8 erhaltene Modell, um eine Wiedererkennung auszuführen, wobei das Wiedererkennungsergebnis in dem Erkennungsergebnisspeicher 6 gespeichert wird.
  • In einem Rauschanpassungssystem der vorliegenden Erfindung, werden, wie beschrieben worden ist, alle Teile von Rauschdaten in einer Rausch-Datenbank dazu verwendet, der Sprache unter jeder SNR-Bedingung Rauschen hinzuzufügen und ein rauschangereichertes Sprachmodell zu lernen. Der Abstand zwischen allen Rauschmodellen unter den SNR-Bedingungen wird berechnet und die rauschangereicherte Sprache gesammelt. Anhand des Ergebnisses des Sammelns von rauschangereicherter Sprache wird ein Sprachmodell mit einer Baumstruktur erzeugt. Somit kann ein Baumstrukturmodell, in das Rauschen und SNR integriert ist, geschaffen werden, wobei ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur erzeugt wird. In dem Merkmalextraktionsschritt wird eine zu erkennende eingegebene verrauschte Sprache analysiert, um eine Merkmalsparameterfolge zu extrahieren, wobei die Wahrscheinlichkeiten von HMM untereinander verglichen werden, um aus dem Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell auszuwählen. Auf das aus dem Raum für ein verrauschtes Sprachmodell ausgewählte Modell wird eine lineare Transformation angewandt, um eine weiter erhöhte Wahrscheinlichkeit zu ergeben.
  • Zusammenfassend wird gemäß der vorliegenden Erfindung jeder Teil der rauschangereicherten Sprachdaten, die in einer Rausch-Datenbank gespeichert sind, dazu verwendet, reiner Sprache unter jeder SNR-Bedingung Rauschen hinzuzufügen, um rauschangereicherte Sprache zu erzeugen (Schritt S1 in 1). Die rauschangereicherte Sprache wird gesammelt, um einen Raum für ein verrauschtes Sprachmodell mit Baumstruktur zu bilden. In dem Raum für ein verrauschtes Sprachmodell wird jeder Teil des Rauschens, der zu einem Baumstrukturknoten gehört, der reinen Sprache hinzugefügt, um ein rauschangereichertes Sprachmodell zu bilden (Schritt S3 in 1). Die Wahrscheinlichkeiten werden in dem Raum für ein verrauschtes Sprachmodell mit Baumstruktur berechnet (Schritt S4 in 1), und die Baumstruktur wird von oben nach unten verfolgt, um ein optimales Modell auszuwählen (Schritt S7 in 1).
  • Auf der Grundlage der Modellparameter einer so ausgewählten Anpassungs-Sprachmodellfolge wird eine lineare Transformation ausgeführt, um die Wahrscheinlichkeit zu maximieren (Schritt S8 in 1).
  • Tatsächlich wird gemäß der Erfindung anstelle von Räumen für ein verrauschtes Sprachmodell mit Baumstruktur für einzelne SNR ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur erzeugt, in den Rauschen und SNR integriert ist, erzeugt. Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres behandelt werden, wobei Rechenkosten gespart werden.
  • Die rauschangereicherte Sprache wird nicht nur in dem Modell-Lernprozess, sondern auch beim Sammeln verwendet. Da sowohl beim Sammeln als auch beim Modell-Lernen durchweg rauschangereicherte Sprache verwendet wird, kann das wahrscheinlichste rauschangereicherte Sprachmodell gelernt werden. Im Ergebnis kann eine höhere Erkennungsgenauigkeit erzielt werden.
  • Beispiel
  • Die Auswirkungen der durch das vorliegende System ausgeführten Erkennung von verrauschter Dialogsprache sind untersucht worden. Ein Beispiel der Experimente wird nachstehend beschrieben.
  • Ein in den Experimenten verwendetes Sprach-HMM ist ein shared-state (gemeinsam verfügbarer Zustand), sprecherunabhängiges, kontextabhängiges Phänomen-HMM, das mittels baumgestützten Sammelns erzeugt wurde. Insgesamt 25 Dimensionen wurden als Vatergrößen verwendet: 12 MFCC (Mel-Frequenz-Cepstralkoeffizienten) und die erste Ableitung der logarithmischen Leistung. Eine "Mel-Frequenz" ist ein Wert, der auf der Empfindlichkeit des menschlichen Ohrs basiert und häufig zur Darstellung des Ton-Hörbarkeitspegels verwendet wird. Ein MFCC wird wie folgt erzeugt: Auf Schallwellendaten wird die diskrete Fourier-Transformation angewandt und der sich ergebende Wert in seinen logarithmischen Ausdruck umgewandelt. Auf den Logarithmus wird dann die inverse diskrete Fourier-Transformation angewandt, um eine Wellenform zu erzeugen, die in vorgegebenen Intervallen abgetastet wird. Der Abtastwert ist der MFCC.
  • Die Auswirkungen des vorliegenden Systems werden im Folgenden mit Bezug auf 5 beschrieben. 5 zeigt eine Wortgenauigkeit (Basislinie), die mittels eines gegebenen Sprach-NMM erzielt worden ist, und eine Wortgenauigkeit (des erfinderischen Verfahrens), die mittels eines durch das System der vorliegenden Erfindung angepasstes Sprach-HMM erzielt worden ist. Die vertikale Achse in 5 repräsentiert die Wortgenauigkeit (%), während die horizontale Achse das SNR (dB) repräsentiert. Auf der horizontalen Achse sind SNR von 5, 10 und 15 dB angegeben. Die mit Rasterpunkten bedeckten Balken in 5 repräsentieren die Basisliniengenauigkeiten, während die gestreiften Balken Genauigkeiten des vorliegenden Systems repräsentieren.
  • Aus den in 5 gezeigten Ergebnissen geht hervor, dass das Verfahren gemäß der vorliegenden Erfindung effektiver ist als das herkömmliche Verfahren. In diesem Beispiel ist die Wort-Fehlerrate des vorliegenden Systems um 56 niedriger als bei der Basislinie, was bedeutet, dass die vorliegende Erfindung eine höhere Spracherkennungsgenauigkeit ergibt.
  • (Sprachmodell-Rauschanpassungsverfahren)
  • Das folgende Rauschanpassungsverfahren ist in dem oben beschriebenen Rauschanpassungssystem implementiert. Das Verfahren ist ein Rauschanpassungsverfahren zum Anpassen eines Sprachmodells für ein beliebiges Rauschen, das durch Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und reinen Sprachdaten gelernt worden ist, auf Sprache, die in einer verrauschten Umgebung erkannt werden soll. Das Verfahren umfasst einen Sammelschritt (der den Schritten S1 bis S4 in 1 entspricht) zum Sammeln aller Teile von in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten, einen Sprachmodellraum-Erzeugungsschritt (der dem Schritt S5 in 1 entspricht) zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des Sammelns in dem Sammelschritt, einen Parameterextraktionsschritt (der dem Schritt S6 in 1 entspricht) zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache, einen Auswahlschritt (der dem Schritt S7 in 1 entspricht) zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt (der dem Schritt S8 in 1 entspricht) zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
  • Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres behandelt werden, wobei Rechenkosten gespart werden können, indem dieses Verfahren ausgeführt wird und der Raum für ein verrauschtes Sprachmodell mit Baumstruktur für Spracherkennung verwendet wird.
  • Sprachmodell-Rauschanpassungsprogramm
  • Ein Programm zum Ausführen des in 1 gezeigten Prozesses kann bereitgestellt und zum Steuern eines Computers verwendet werden, um dieselben Auswirkungen, wie sie oben beschrieben worden sind, zu ergeben. Das Programm ist ein Rauschanpassungsprogramm für Spracherkennung, das einen Computer so steuert, dass er ein Sprachmodell für ein beliebiges Rauschen, das durch Verwendung aller Teile von in einer Rausch-Datenbank gespeicherten Rauschdaten und reinen Sprachdaten gelernt worden ist, auf Sprache, die in einer verrauschten Umgebung erkannt werden soll, anpasst. Das Programm umfasst einen Sammelschritt (der den Schritten S1 bis S4 in 1 entspricht) zum Sammeln aller Teile von in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten, einen Sprachmodellraum-Erzeugungsschritt (der dem Schritt S5 in 1 entspricht) zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des Sammelns in dem Sammelschritt, einen Parameterextraktionsschritt (der dem Schritt S6 in 1 entspricht) zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache, einen Auswahlschritt (der dem Schritt S7 in 1 entspricht) zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt (der dem Schritt S8 in 1 entspricht) zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
  • Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres behandelt werden, wobei Rechenkosten gespart werden können, indem dieses Verfahren ausgeführt wird und der Raum für ein verrauschtes Sprachmodell mit Baumstruktur für Spracherkennung verwendet wird.
  • Ein Speichermedium zum Speichern des Programms kann ein Halbleiterspeicher, eine Magnetplatte, eine optische Platte oder ein anderes Speichermedium sein, was in 1 nicht gezeigt ist.
  • Automatische Spracherkennungssysteme können im Allgemeinen unter Laborbedingungen gut arbeiten, jedoch fallen ihre Leistungen in realen Anwendungen ab. Ein Problem bei Realwelt-Anwendungen ist die Verringerung der Leistung der Erkennung von Sprache, die Hintergrundrauschen oder Hintergrundmusik enthält. Die vorliegende Erfindung kann diese Problem des Rauschens lösen und die Genauigkeit der Erkennung von rauschangereicherter Sprache verbessern.

Claims (7)

  1. Rauschanpassungssystem für ein Sprachmodell, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von Rauschdaten, die in einer Rausch-Datenbank gespeichert sind, die verwendet wird, um zu reiner Sprache entsprechend jeder SNR-Bedingung Rauschen hinzuzufügen, und unter Verwendung von reinen Sprachdaten gelernt wird, wobei das System umfasst: Sammelmittel, um alle Rauschdaten, die in der Rausch-Datenbank gespeichert sind, zu sammeln; Sprachmodellraum-Erzeugungsmittel, um anhand des Ergebnisses des durch die Sammelmittel ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen; Parameterextraktionsmittel, um einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache zu extrahieren; Auswahlmittel, um aus dem durch die Sprachmodellraum-Erzeugungsmittel erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell auszuwählen; und Lineartransformationsmittel, die auf das durch die Auswahlmittel ausgewählte Modell eine lineare Transformation anwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
  2. System nach Anspruch 1, bei dem die Sammelmittel die rauschangereicherte Sprache durch Hinzufügen. des Rauschens zu der Sprache in Übereinstimmung mit einer Rauschabstandsbedingung erzeugen, den Sprach-Cepstral-Mittelwert der erzeugten rauschangereicherten Sprache subtrahieren, ein Gaußsches Sprachmodell jedes Teils der erzeugten rauschangereicherten Sprache erzeugen und die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten Sprache berechnen, um eine Wahrscheinlichkeitsmatrix zu erzeugen, um ein Sammelergebnis zu schaffen.
  3. System nach Anspruch 1 oder 2, bei dem die Auswahlmittel ein Modell auswählen, das die höchste Wahrscheinlichkeit für den durch die Parameterextraktionsmittel extrahierten Sprachmerkmalsparameter schafft.
  4. System nach Anspruch 3, bei dem die Auswahlmittel ein Modell auswählen, indem sie den Raum für ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene abwärts zur niedrigsten Ebene durchsuchen.
  5. System nach einem der Ansprüche 1 bis 4, bei dem die Lineartransformationsmittel die lineare Transformation anhand des durch die Auswahlmittel ausgewählten Modells ausführen, um die Wahrscheinlichkeit zu erhöhen.
  6. Rauschanpassungsverfahren für ein Sprachmodell, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von Rauschdaten, die in einer Rausch-Datenbank gespeichert sind, die verwendet wird, um zu reiner Sprache entsprechend jeder SNR-Bedingung Rauschen hinzuzufügen, und unter Verwendung von reinen Sprachdaten gelernt wird, wobei das Verfahren umfasst: einen Sammelschritt zum Sammeln von allen rauschangereicherten Sprachdaten, die in der Rausch-Datenbank gespeichert sind; einen Sprachmodellraum-Erzeugungsschritt zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des in dem Sammelschritt ausgeführten Sammelns; einen Parameterextraktionsschritt zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache; einen Auswahlschritt zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur; und einen Lineartransformationsschritt zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
  7. Rauschanpassungsprogramm für die Spracherkennung, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von Rauschdaten, die in einer Rausch-Datenbank gespeichert sind, die verwendet wird, um zu reiner Sprache entsprechend jeder SNR-Bedingung Rauschen hinzuzufügen, und unter Verwendung von reinen Sprachdaten gelernt wird, wobei das Programm umfasst: einen Sammelschritt, um alle in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten zu sammeln; einen Sprachmodellraum-Erzeugungsschritt, um anhand des Ergebnisses des im Sammelschritt ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen; einen Parameterextraktionsschritt, um einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache zu extrahieren; einen Auswahlschritt, um ein optimales Modell aus dem im Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur auszuwählen; und einen Lineartransformationsschritt, um eine lineare Transformation auf das im Auswahlschritt ausgewählte Modell anzuwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
DE602004000382T 2003-09-12 2004-08-13 Rauschadaptierung zur Spracherkennung Active DE602004000382T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003321648 2003-09-12
JP2003321648A JP4548646B2 (ja) 2003-09-12 2003-09-12 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Publications (2)

Publication Number Publication Date
DE602004000382D1 DE602004000382D1 (de) 2006-04-20
DE602004000382T2 true DE602004000382T2 (de) 2006-10-19

Family

ID=34132058

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004000382T Active DE602004000382T2 (de) 2003-09-12 2004-08-13 Rauschadaptierung zur Spracherkennung

Country Status (5)

Country Link
US (1) US7424426B2 (de)
EP (1) EP1515305B1 (de)
JP (1) JP4548646B2 (de)
CN (1) CN1329883C (de)
DE (1) DE602004000382T2 (de)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7797156B2 (en) * 2005-02-15 2010-09-14 Raytheon Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
JP4763387B2 (ja) * 2005-09-01 2011-08-31 旭化成株式会社 パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
US7872574B2 (en) * 2006-02-01 2011-01-18 Innovation Specialists, Llc Sensory enhancement systems and methods in personal electronic devices
JP2007233308A (ja) * 2006-03-03 2007-09-13 Mitsubishi Electric Corp 音声認識装置
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
WO2008126347A1 (ja) * 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (de) 2009-12-23 2023-10-11 Google LLC Multimodale eingabe in eine elektronische vorrichtung
US8145682B2 (en) * 2010-02-25 2012-03-27 Microsoft Corporation Differentially private data release
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
US20130211832A1 (en) * 2012-02-09 2013-08-15 General Motors Llc Speech signal processing responsive to low noise levels
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN102945670B (zh) * 2012-11-26 2015-06-03 河海大学 一种用于语音识别系统的多环境特征补偿方法
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
CN104143329B (zh) * 2013-08-19 2015-10-21 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9530407B2 (en) 2014-06-11 2016-12-27 Honeywell International Inc. Spatial audio database based noise discrimination
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9361899B2 (en) * 2014-07-02 2016-06-07 Nuance Communications, Inc. System and method for compressed domain estimation of the signal to noise ratio of a coded speech signal
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
EP3574499B1 (de) * 2017-01-26 2022-01-05 Cerence Operating Company Verfahren und vorrichtung für asr mit eingebetteter rauschminderung
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
JP2018191234A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 音声取得機器、音声取得方法、および音声取得用プログラム
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN109087659A (zh) * 2018-08-03 2018-12-25 三星电子(中国)研发中心 音频优化方法及设备
US11170131B1 (en) * 2019-05-07 2021-11-09 Microsoft Technology Licensing, Llc Differentially private top-k selection
CN112652304B (zh) * 2020-12-02 2022-02-01 北京百度网讯科技有限公司 智能设备的语音交互方法、装置和电子设备
CN113593597B (zh) * 2021-08-27 2024-03-19 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质
US11968236B2 (en) 2022-03-30 2024-04-23 Microsoft Technology Licensing, Llc Event-level data privacy for streaming post analytics data

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6176529A (ja) * 1984-09-21 1986-04-19 Toyo Soda Mfg Co Ltd 粒状化ポリアリレンスルフイド及びその製造方法
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
JPH10254486A (ja) * 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
AU1067900A (en) * 1998-11-25 2000-06-13 Entropic Limited Network and language models for use in a speech recognition system
US6658385B1 (en) * 1999-03-12 2003-12-02 Texas Instruments Incorporated Method for transforming HMMs for speaker-independent recognition in a noisy environment
DE19912405A1 (de) 1999-03-19 2000-09-21 Philips Corp Intellectual Pty Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner
JP4590692B2 (ja) 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
JP4270732B2 (ja) 2000-09-14 2009-06-03 三菱電機株式会社 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002298495A (ja) * 2001-03-28 2002-10-11 Sanyo Electric Co Ltd 記録媒体再生装置
JP4233831B2 (ja) * 2002-09-25 2009-03-04 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Also Published As

Publication number Publication date
US20050080623A1 (en) 2005-04-14
JP4548646B2 (ja) 2010-09-22
EP1515305B1 (de) 2006-02-08
US7424426B2 (en) 2008-09-09
CN1595497A (zh) 2005-03-16
JP2005091476A (ja) 2005-04-07
EP1515305A1 (de) 2005-03-16
CN1329883C (zh) 2007-08-01
DE602004000382D1 (de) 2006-04-20

Similar Documents

Publication Publication Date Title
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60120323T2 (de) System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
US6224636B1 (en) Speech recognition using nonparametric speech models
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
US7010483B2 (en) Speech processing system
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
WO1996028808A2 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
EP1930879B1 (de) Gemeinsame Schätzung von Formant-Trajektorien mittels Bayesischer Techniken und adaptiver Segmentierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition