DE602004000382T2

DE602004000382T2 - Rauschadaptierung zur Spracherkennung

Info

Publication number: DE602004000382T2
Application number: DE602004000382T
Authority: DE
Inventors: Sadaoki Furui; Zhipengłc/o Intellectual Property De Zhang; Tsutomułc/o Intellectual Property De Horikoshi; Toshiakiłc/o Intellectual Property D Sugimura
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-09-12
Filing date: 2004-08-13
Publication date: 2006-10-19
Anticipated expiration: 2024-08-14
Also published as: US20050080623A1; JP4548646B2; EP1515305B1; US7424426B2; CN1595497A; JP2005091476A; EP1515305A1; CN1329883C; DE602004000382D1

Description

Die Erfindung bezieht sich auf ein Rauschanpassungssystem für ein Sprachmodell, ein Rauschanpassungsverfahren und ein Rauschanpassungsprogramm, die zu erkennende verrauschte Sprache verwenden, um ein reines Sprachmodell, das durch Modellieren von Sprachmerkmalen mit Hilfe eines Nidden-Markov-Modells (HMM) erzeugt worden ist, so anzupassen, dass die Erkennungsrate für die verrauschte Umgebung erhöht wird.
Ein Lösungsweg durch stückweise lineare Transformation einer Baumstruktur ist in einem Artikel mit dem Titel "Effects of tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (Protokoll des Herbsttreffens 2002 der Acoustical Society of Japan, S. 29-30) beschrieben. Gemäß dem in diesem Artikel beschriebenen Lösungsweg wird Rauschen gesammelt, anhand des Ergebnisses des Sammelns (clustering) ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur erzeugt, ein Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache extrahiert, aus dem Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell ausgewählt und auf das ausgewählte Modell eine lineare Transformation angewandt, um so die Wahrscheinlichkeit des ausgewählten Modells zu erhöhen und dadurch die Genauigkeit von eingegebener Sprache zu verbessern.
Ein weiterer Lösungsweg ist in einem Artikel mit dem Titel "Study on tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (Frühjahrstreffen 2003 der Acoustical Society of Japan, S. 37-38) beschrieben, bei dem Rauscheigenschaften sequentiell und hierarchisch unterteilt werden, um eine Baumstruktur eines Modells für rauschangereicherte Sprache zu erzeugen. Bei diesem Lösungsweg wird rauschangereicherte Sprache zuerst nach dem Signal-Rausch-Verhältnis (im Folgenden mit SNR abgekürzt) gesammelt und danach für jede SNR-Bedingung ein Baumstrukturmodell geschaffen, um einen Raum für ein verrauschtes Sprachmodell mit Baumstruktur zu erzeugen.
6 zeigt ein Beispiel des verrauschten Sprachmodells mit Baumstruktur. In 6 ist für jede von drei SNR-Bedingungen ein verrauschtes Sprachmodell mit Baumstruktur geschaffen. In 6 ist ein Baumstrukturmodell für SNR = 5 dB durch K1 angegeben, ein Baumstrukturmodell für SNR = 10 dB durch K2 angegeben und ein Baumstrukturmodell für SNR = 15 dB durch K3 angegeben der obere knoten (die Wurzel) jedes Baumstrukturmodells K1 – K3 repräsentiert ein reines Sprachmodell. Höhere Ebenen jeder Baumstruktur repräsentieren globale Merkmale von Rauscheigenschaften, während niedrigere Ebenen lokale Merkmale repräsentieren.
In der japanischen Patentoffenlegungsschrift Nr. 2002-14692 (vor allem 2 und 3 und Zusammenfassung) ist eine Technik beschrieben, nach der eine große Anzahl von Rauschabtastwerten im Voraus gesammelt wird, anhand der Abtastwerte akustische Modelle erzeugt werden und durch Sammeln ausgewähltes Rauschen hinzugefügt wird, um Daten zu lernen und dabei ein effizientes Lernen mit einer kleinen Anzahl von Rauschabtastwerten zu ermöglichen, um eine hohe Erkennungsleistung zu erzielen.
Die japanische Patentoffenlegungsschrift Nr.2002-91484 (vor allem Zusammenfassung) beschreibt eine Technik, nach der ein Sprachmodell für jede Baumstruktursammlung erzeugt wird, das für die Spracherkennung verwendet wird.
Die japanische Patentoffenlegungsschrift Nr.2000-298495 (vor allem Zusammenfassung und Anspruch 2) beschreibt das Kombinieren einer Anzahl von Baumstrukturen, um eine neue Baumstruktur zu bilden.
Nach dem Lösungsweg in der oben zitierten "Study on tree-structure clustering in noise adaptation using piecewise linear transformation" wird zu erkennende eingegebene verrauschte Sprache analysiert, um eine Merkmalsparameter-Zeichenfolge zu extrahierten, wobei ein optimales Modell aus einem Raum für ein verrauschtes Sprachmodell mit Baumstruktur ausgewählt wird. Auf das ausgewählte optimale Modell wird eine lineare Transformation angewandt, um die Wahrscheinlichkeit zu maximieren. Dementsprechend besitzt dieser Lösungsweg den Nachteil, dass die Erkennung eine Zweischritt-Suche betrifft: zuerst wird ein optimales Modell unter jeder SNR-Bedingung ausgewählt und danach das beste Modell unter allen SNR-Modellen ausgewählt. Die Probleme sind hier die Schwierigkeit, verrauschte Sprache mit veränderlichem SNR zu behandeln, und die hohen Kosten des Berechnens der Bedingungen.
Keine der in den oben zitierten Dokumenten beschriebenen Techniken kann diese Probleme lösen.
Eine Aufgabe der vorliegenden Erfindung, die in den beigefügten unabhängigen Ansprüchen definiert ist, ist es, ein Rauschanpassungssystem, ein Rauschanpassungsverfahren und ein Rauschanpassungsprogramm für Sprach erkennung zu schaffen, die verrauschte Sprache mit veränderlichem SNR ohne weiteres behandeln und die Rechenkosten minimieren können, indem ein Sprachmodell mit einer Einzelbaumstruktur, in die Rauschen und SNR integriert sind, erzeugt wird.
Gemäß einem Aspekt der Erfindung ist ein Rauschanpassungssystem für ein Sprachmodell geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und reinen Sprachdaten gelernt wird, wobei das System umfasst: ein Sammelmittel, das alle in der Rausch-Datenbank gespeicherten Rauschdaten sammelt, ein Sprachmodellraum-Erzeugungsmittel, das anhand des Ergebnisses des durch das Sammelmittel ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur erzeugt, ein Parameterextraktionsmittel, das einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache extrahiert, ein Auswahlmittel, das aus dem durch die Sprachmodellraum-Erzeugungsmittel erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell auswählt, und ein Lineartransformationsmittel, das auf das durch die Auswahlmittel ausgewählte Modell eine lineare Transformation anwendet, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt. Der wie oben beschrieben erzeugte Raum für ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache mit veränderlichem SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
Gemäß einem weiteren Aspekt der Erfindung ist das Rauschanpassungssystem für ein Sprachmodell gemäß dem ersten Aspekt geschaffen, wobei das Sammelmittel die rauschangereicherte Sprache durch Hinzufügen des Rauschens zu der Sprache in Übereinstimmung mit einer Rauschabstandsbedingung erzeugt, den Sprach-Cepstral-Mittelwert der erzeugten rauschangereicherten Sprache subtrahiert, ein Gaußsches Sprachmodell jedes Teils der erzeugten rauschangereicherten Sprache erzeugt und die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten Sprache berechnet, um eine Wahrscheinlichkeitsmatrix zu erzeugen, um ein Sammelergebnis zu schalten. Dies ermöglicht das Sammeln von rauschangereicherter Sprache.
Gemäß einem zusätzlichen Aspekt der Erfindung ist das Rauschanpassungssystem gemäß dem ersten oder zweiten Aspekt geschaffen, wobei das Auswahlmittel ein Modell auswählt, das die höchste Wahrscheinlichkeit für den durch die Parameterextraktionsmittel extrahierten Sprachmerkmalsparameter schafft. Durch Auswählen desjenigen Modells, das die höchste Wahrscheinlichkeit schafft, kann die Genauigkeit der Spracherkennung erhöht werden. Das Auswahlmittel kann ein Modell auswählen, indem es den Raum für ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene abwärts zur niedrigsten Ebene durchsucht. Durch Durchsuchen der Baumstruktur von der höchsten Ebene bis zur niedrigsten Ebene kann ein optimales Modell ausgewählt werden.
Das Lineartransformationsmittel des Rauschanpassungssystems kann die lineare Transformation anhand des durch das Auswahlmittel ausgewählten Modells ausführen, um die Wahrscheinlichkeit zu erhöhen. Durch Ausführen der linearen Transformation kann die Wahrscheinlichkeit maximiert werden.
Gemäß einem nochmals weiteren Aspekt der Erfindung ist ein Rauschanpassungsverfahren geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und von reinen Sprachdaten gelernt wird, wobei das Verfahren umfasst: einen Sammelschritt zum Sammeln von allen rauschangereicherten Sprachdaten, die in der Rausch-Datenbank gespeichert sind, einen Sprachmodellraum-Erzeugungsschritt zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des in dem Sammelschritt ausgeführten Sammelns, einen Parameterextraktionsschritt zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache, einen Auswahlschritt zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt. Der Raum für ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache mit veränderlichem SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
Gemäß einem weiteren Aspekt der Erfindung ist ein Rauschanpassungsprogramm geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und von reinen Sprachdaten gelernt wird, wobei das Programm umfasst: einen Sammelschritt, um alle in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten zu sammeln, einen Sprachmodellraum-Erzeugungsschritt, um anhand des Ergebnisses des im Sammelschritt ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen, einen Parameterextraktionsschritt, um einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache zu extrahieren, einen Auswahlschritt, um ein optimales Modell aus dem im Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur auszuwählen, und einen Lineartransformationsschritt, um eine lineare Transformation auf das im Auswahlschritt ausgewählte Modell anzuwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt. Der Raum für ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache mit veränderlichem SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
Tatsächlich werden gemäß der Erfindung alle Teile von Rauschdaten in einer Rausch-Datenbank (im Folgenden mit DB abgekürzt) verwendet, um rauschangereicherte Sprache auf der Grundlage jeder SNR-Bedingung in einer Einzelbaumstruktur zu sammeln. Ein Raum für eine rauschangereicherte Sprache wird entsprechend den SNR und Rauscheigenschaften in eine Baumstruktur unterteilt, wobei Klangmerkmalsparameter-Zeichenfolgen von zu erkennender eingegebener verrauschter Sprache extrahiert werden. Danach wird aus dem Einzelbaumstruktur-Modellraum anhand der Merkmalsparameter-Zeichenfolge ein optimales Modell ausgewählt und auf dieses Modell eine lineare Transformation angewandt.
Die Einzelbaumstruktur, in die Rauschen und SNR integriert sind, wird erzeugt, um das Lernen des wahrscheinlichsten rauschangereicherten Sprachmodells zu ermöglichen. In dieser Weise kann eine hohe Erkennungsgenauigkeit erzielt werden. Ferner erfordert der Lösungsweg der vorliegenden Erfindung nicht das Auswählen eines optimalen Modells unter jeder einzelnen SNR-Bedingung. Stattdessen betrifft der Lösungsweg der vorliegenden Erfindung nur eine Einschritt-Suche, durch die das beste Modell unter allen SNR-Modellen ausgewählt wird. Daher kann verrauschte Sprache mit veränderlichem SNR ohne weiteres behandelt werden, wobei Rechenkosten gespart werden.
Gemäß der Erfindung kann verrauschte Sprache mit veränderlichem SNR ohne weiteres behandelt werden und können Rechenkosten gespart werden, indem ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur verwendet wird.
Rauschangereicherte Sprache kann gesammelt werden, indem der Sprache den Rauschabstandsbedingungen entsprechend Rauschen hinzugefügt wird, der Sprach-Cepstral-Mittelwert von jedem Teil der erzeugten rauschangereicherten Sprache subtrahiert wird, ein Gaußsches Sprachmodell jedes Teils der rauschangereicherten Sprache erzeugt wird und die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten Sprache berechnet wird, um eine Wahrscheinlichkeitsmatrix zu erzeugen.
Eine verbesserte Genauigkeit der Spracherkennung kann erzielt werden, indem ein Modell ausgewählt wird, das die höchste Wahrscheinlichkeit für einen extrahierten Sprachmerkmalsparameter ergibt.
Ein optimales Modell kann ausgewählt werden, indem der Raum für ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene bis zur niedrigsten Ebene nach einem optimalen Modell durchsucht wird.
Die Wahrscheinlichkeit kann maximiert werden, indem eine lineare Transformation auf der Grundlage des ausgewählten Modells ausgeführt wird, um so die Wahrscheinlichkeit zu erhöhen.
Die Erfindung wird nun in Verbindung mit bevorzugten Ausführungsformen, die in den Zeichnungen gezeigt sind, beschrieben.
1 ist ein Ablaufplan eines durch ein Sprachmodell-Rauschanpassungssystem gemäß der Erfindung ausgeführten Prozesses.
2 ist ein Blockschaltplan, der eine Konfiguration eines Sprachmodell-Rauschanpassungssystems gemäß einer Ausführungsform der Erfindung zeigt.
3 ist ein funktionaler Blockschaltplan, in dem in 2 gezeigte Komponenten in Übereinstimmung mit dem Operationsfluss in dem System neu geordnet sind.
4 ist ein konzeptionelles Diagramm, das einen Prozess zum Auswählen eines optimalen Modells aus einem Raum für ein verrauschtes Sprachmodell mit Baumstruktur in dem System zeigt.
5 zeigt eine mittels eines durch das System angepassten Sprach-HMM erzielte Wortgenauigkeit.
6 ist ein konzeptionelles Diagramm, das einen in einem herkömmlichen Sprachmodell-Rauschanpassungssystem verwendeten Prozess zum Auswählen eines optimalen Modells aus einem Raum für ein verrauschtes Sprachmodell mit Baumstruktur zeigt.
Gemäß der Erfindung wird ein verrauschter Sprachmodellraum unter Verwendung von SNR und Tonqualität als Baumstruktur erzeugt. Um den Raum für ein verrauschtes Sprachmodell zu erzeugen, wird reiner Sprache jeder SNR-Bedingung entsprechend Rauschen hinzugefügt, um rauschangereicherte Sprache zu erzeugen. Danach werden die Rauscheigenschaften als Einzelbaumstruktur dargestellt, um ein Modell zu schaffen, bei dem höhere Ebenen der Baumstruktur globale Merkmale repräsentieren und niedrigere Ebenen lokale Merkmale repräsentieren. Ein optimaler stückweiser Rauschraum kann ausgewählt werden, indem der Baumstruktur von der Wurzel abwärts von oben nach unten gefolgt wird, um ein optimales Modell auszuwählen.
Da sowohl in den Sammel- als auch in den Modell-Lernprozessen durchweg rauschangereicherte Sprache verwendet wird, kann dasjenige rauschangereicherte Sprachmodell, das die höchste Wahrscheinlichkeit ergibt, gelernt werden und eine verbesserte Erkennungsgenauigkeit erzielt werden.
Konfiguration des vorliegenden Systems
Eine Konfiguration zum Implementieren des oben beschriebenen Prozesses wird mit Bezug auf 2, die ein Blockschaltplan ist, der eine Ausführungsform des erfindungsgemäßen Rauschanpassungssystems zeigt, beschrieben. Wie in 2 gezeigt ist, umfasst das Rauschanpassungssystem gemäß der Ausführungsform einen Baumstrukturmodellspeicher 1, eine Merkmalsextraktionseinheit 2, eine Spracherkennungseinheit 3, eine Modellauswahl- und Modellbestimmungseinheit 4, eine Modell-Lineartransformations-Anpassungseinheit 5 und einen Erkennungsergebnisspeicher 6. Das vorliegende System ist als Datenendgerät, mobiles Datenendgerät, Servercomputer, Personalcomputer oder andere Einrichtung, die die oben genannten Einheiten und Speicher enthält, verwirklicht.
Der Baumstrukturmodellspeicher 1 speichert ein rauschangereichertes Sprach-HMM, das anhand eines Ergebnisses des Sammelns von rauschangereicherter Sprache als Einzelbaumstruktur aufgebaut worden ist.
Die Merkmalsextraktionseinheit 2 analysiert in sie eingegebene Sprachdaten und wandelt sie in Merkmalsvektoren um.
Die Spracherkennungseinheit 3 wendet einen Viterbi-Algorithmus auf die Zeitreihen-Merkmalsvektorzeit, die aus den eingegebenen Sprachdaten umgewandelt worden ist, an, um eine Modellfolge zu erhalten, die die höchste Wahrscheinlichkeitsfunktion ergibt.
Die Modellauswahl- und Modellbestimmungseinheit 4 wählt ein optimales Modell aus, das ein optimales Modell ergibt, das die höchste Wahrscheinlichkeit unter den in dem Baumstrukturmodellspeicher 1 gespeicherten Modellen ergibt.
Die Modell-Lineartransformations-Anpassungseinheit 5 wendet eine lineare Transformation auf das durch die Modellauswahl- und Modellbestimmungseinheit 4 ausgewählte Modell an, um so dessen Wahrscheinlichkeit zu maximieren.
Der Erkennungsergebnisspeicher 6 speichert Spracherkennungsergebnisse.
Funktionsweise des Systems
Die Funktionsweise des Systems mit der oben beschriebenen Struktur wird mit Bezug auf die 1 und 3 beschrieben. 3 ist ein funktionaler Blockschaltplan, bei dem die in 2 gezeigten Komponenten 1- 6 entsprechend dem Operationsfluss in dem System umgeordnet sind. 1 ist ein Ablaufplan eines durch das System ausgeführten Prozesses.
Der Prozess zum Ausführen der Spracherkennung in dem System folgt den Schritten S1 bis S9, die nachstehend beschrieben werden.
Schritt S1 (der Schritt des Erzeugens von rauschangereicherter Sprache): Jeder Teil von in einer Rauschdatenbank gespeicherten Daten wird verwendet, um reiner Sprache jeder SNR-Bedingung entsprechend Rauschen hinzuzufügen, um rauschangereicherte Sprache zu erzeugen.
Schritt S2 (der Schritt des Subtrahierens des Mittelwerts der rauschangereicherter Sprache): Die CMS (Cepstral-Mittelwert-Subtraktion) wird auf die im Schritt S1 erzeugte rauschangereicherte Sprache angewandt. Das heißt, dass der Cepstral-Mittelwert aller Sprachdatenrahmen in einem bestimmten Intervall berechnet wird und von dem Vektor jedes Rahmens subtrahiert wird. Das Cepstrum ist die Fourier-Transformierte des Logarithmus eines durch Fourier-Transformation erhaltenen Leistungsspektrums. Die CMS ist in einem Dokument mit dem Titel "Furui: Cepstral Analysis Technique For Automatic Speaker Verification", IEEE Transaction on Acoustical Speech and Signal Processing, Bd. ASSP – 29, S. 254-272, 1981, beschrieben.
Schritt S3 (der Schritt des Erzeugens eines rauschangereicherten Sprachmodells): Mit Hilfe des Baum-Welch-Algorithmus wird ein Gaußsches Mischmodell (GMM) jeder rauschangereicherten Sprache erzeugt. Der Baum-Welch-Algorithmus ist eine sich wiederholende Annäherung, um näher an einen optimalen Wert zu gelangen, wobei von einem geeigneten Anfangswert ausgegangen wird. Der Baum-Welch-Algorithmus ist in einem Dokument mit dem Titel "Speech recognition with probabilistic model" von Seiichi Nakagawa (Institute of Electronics, Information an Communication Engineers, 1988) beschrieben.
Schritt S4 (der Schritt des Sammelns von rauschangereicherter Sprache): Das GMM wird verwendet, um die Wahrscheinlichkeit zwischen Teilen rauschangereicherter Sprache zu berechen, um eine Wahrscheinlichkeitsmatrix zu erzeugen. Ein auf der Wahrscheinlichkeitsmatrix basierendes SPLIT-Verfahren wird angewandt, um die rauschangereicherte Sprache in regelmäßiger Folge zu sammeln. In dem SPLIT-Verfahren werden Sammlungen (clusters), die die größte Streuung ergeben, sequentiell aufgespaltet. Folglich kann eine beliebige Anzahl von Sammlungen erzeugt werden. Das Ergebnis des Sammelns kann völlig automatisch erhalten werden, indem einfach die Anzahl von Sammlungen angegeben wird. Das SPLIT-Verfahren ist in einem Speech-Committee-Dokument von Sugamura u. a. (S82-64, 1982) beschrieben.
Schritt S5 (Anwendung auf die Anpassung durch stückweise lineare Transformation): Durch den Schritt S4 ergibt sich ein Baumstruktur-Sammelergebnis der rauschangereicherten Sprache. Das Sammelergebnis wird in dem Baumstrukturmodellspeicher 1 gespeichert. Das Sammelergebnis ist ein Einzelbaumstrukturmodell, in das Rauschen und SNR integriert sind. Außerdem repräsentiert das Sammelergebnis Merkmale in Baumstrukturform; globale Merkmale der rauschangereicherten Sprache sind auf einer höheren Ebene der Baumstruktur repräsentiert, während lokale Merkmale auf einer niedrigeren Ebene repräsentiert sind.
Das in dem Baumstrukturmodellspeicher 1 gespeicherte Sammelergebnis wird auf die stückweise lineare Transformation angewandt. Die stückweise lineare Transformation ist in dem oben zitierten Artikel "Effects of tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. beschrieben. Insbesondere werden die nachstehend beschriebenen Schritte S6 bis S9 ausgeführt.
Schritt S6 (der Schritt des Extrahierens von Merkmalsgrößen): Die Merkmalsextraktionseinheit 2 extrahiert Merkmalsgrößen aus den zu erkennenden rauschangereicherten Sprachdaten. Bei der Merkmalsgrößenextraktion wird eine LPC-(Linear Prediction Coding, lineare Vorhersagecodierung)-Analyse auf jeden Rahmen eingegebener Sprachdaten angewandt, um Zeitreihen-Merkmalsparametervektoren wie etwa ein Cepstrum oder _Cepstrum als Merkmalsparameterfolge zu erhalten.
Shritt 7 (Auswählen eines optimalen Modells): Der Schritt des Auswählens eines optimalen Modells wird mit Bezug auf 4 beschrieben. Der Knoten (die Wurzel) am oberen Ende von 4 repräsentiert ein reines Sprachmodell. Unter der Wurzel befinden sich N Modelle SNR-1 bis SNR-N. Die N Modelle SNR-1 bis SNR-N repräsentieren Modelle, die von der durch Hinzufügen sämtlicher Rauschtypen unter allen SNR-Bedingungen erzeugten Sprache gelernt worden sind.
Kindknoten unterhalb von diesen repräsentieren Modelle, die von den durch Hinzufügen einiger in Abhängigkeit von dem Sammelergebnis ausgewählter Rauschtypen erzeugten Sprachdaten gelernt worden sind. Am Boden der Baumstruktur befinden sich Modelle, die von der durch Hinzufügen nur eines einzigen bestimmten Rauschtyps erzeugten Sprache gelernt worden ist. Somit sind globale Rauscheigenschaften auf der höheren Ebene der Baumstruktur repräsentiert, während lokale Rauscheigenschaften auf der niedrigeren Ebene repräsentiert sind.
Anders als der Lösungsweg in dem oben zitierten Artikel "Study on tree-structure clustering in noise adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (siehe 6) erfordert der Lösungsweg der vorliegenden Erfindung kein Auswählen eines optimalen Modells unter jeder einzelnen SNR-Bedingung. Stattdessen benötigt er nur eine Einschritt-Suche, bei der das beste Modell unter allen SNR-Modellen ausgewählt wird.
In 1 wird zum Ausführen der Erkennung zuerst anhand der im Schritt S4 erhaltenen Merkmalsparameterfolge die Wahrscheinlichkeit eines gegebenen reinen Modells an der Wurzel berechnet. Dies wird von der in 1 gezeigten Spracherkennungseinheit 3 ausgeführt.
Danach verwendet die Spracherkennungseinheit 3 die Modelle unterhalb der Wurzel, um die Wahrscheinlichkeiten zu berechnen. Die so berechneten Wahrscheinlichkeitswerte werden von der Modellauswahl- und Modellbestimmungseinheit 4 verwendet, um ein optimales Modell auszuwählen. Insbesondere wird dies durch Verfolgen der folgenden Prozedur erreicht. Modelle, die Wahrscheinlichkeiten ergeben, die höher als jene des reinen Modells an der Wurzel sind, werden aufbewahrt. Danach werden die Modelle an den Kindknoten unterhalb von diesen verwendet, um die Wahrscheinlichkeiten unter diesen SNR-Bedingungen zu berechnen. Die Wahrscheinlichkeiten von zwei Kindknotenmodellen werden mit jenen des Elternknotens verglichen. Falls ein Kindknotenmodell die höchste Wahrscheinlichkeit ergibt, werden die Wahrscheinlichkeiten der Kindknotenmodelle unterhalb jenes Knotens berechnet. Falls andererseits die Wahrscheinlichkeit des Elternknotens höher als jene des Kindknotenmodells ist, wird keine weitere Berechnung ausgeführt, sondern der Elternknoten als optimaler Knoten bestimmt.
In 4 sind die Suchpfade durch fette Linien dargestellt. Die Berechnung kann wiederholt werden, um einen optimalen Raum zu finden. Ferner wird die Wahrscheinlichkeit der Modelle mit den höchsten Wahrscheinlichkeiten unter verschiedenen SNR-Bedingungen untereinander verglichen, um dasjenige Modell zu ergeben, das die höchste Wahrscheinlichkeit unter ihnen ergibt, zu bestimmen und als optimales Modell in dem gesamten Raum für eine verrauschte Sprache auszuwählen. In dem in 4 gezeigten Beispiel ergibt der vierte Knoten unter der Bedingung SNR-1 die höchste Wahrscheinlichkeit. Unter der SNR-N-Bedingung in 4 ergibt der fünfte Knoten die höchste Wahrscheinlichkeit. Die Wahrscheinlichkeiten der Modelle mit den höchsten Wahrscheinlichkeiten unter verschiedenen SNR-Bedingungen werden untereinander verglichen, um dasjenige Modell, das die höchste Wahrscheinlichkeit unter den Knoten mit den höchsten Wahrscheinlichkeiten ergibt, auszuwählen.
Schritt S8 (lineare Regression): Die Modell-Lineartransformations-Anpassungseinheit 5 wendet die Maximum-Likelihood-Linearregression (im Folgenden mit MLLR abgekürzt) auf das ausgewählte Modell an, um eine weiter erhöhte Wahrscheinlichkeit zu ergeben. Die MLLR ist in einem Dokument mit dem Titel "Mean and variance adaptation within the MLLR framework" (M.J.F Gales u. a., Computer Speech and Language, S. 249-264, 1996) beschrieben. Insbesondere wird eine Phänomenfolge, die sich aus der Erkennung ergibt, verwendet, um eine Lineartransformationsmatrix auf der Grundlage eines Maximum-Likelihood-Kriteriums zu schätzen, wobei der Mittelwert und die Varianzen der HMM-Normalverteilung durch lineare Transformation (lineare Regression) angepasst werden.
Schritt S9 (Wiedererkennung): Bei der Ausgabe des Ergebnisses der Spracherkennung verwendet die Spracherkennungseinheit 3 das im Schritt S8 erhaltene Modell, um eine Wiedererkennung auszuführen, wobei das Wiedererkennungsergebnis in dem Erkennungsergebnisspeicher 6 gespeichert wird.
In einem Rauschanpassungssystem der vorliegenden Erfindung, werden, wie beschrieben worden ist, alle Teile von Rauschdaten in einer Rausch-Datenbank dazu verwendet, der Sprache unter jeder SNR-Bedingung Rauschen hinzuzufügen und ein rauschangereichertes Sprachmodell zu lernen. Der Abstand zwischen allen Rauschmodellen unter den SNR-Bedingungen wird berechnet und die rauschangereicherte Sprache gesammelt. Anhand des Ergebnisses des Sammelns von rauschangereicherter Sprache wird ein Sprachmodell mit einer Baumstruktur erzeugt. Somit kann ein Baumstrukturmodell, in das Rauschen und SNR integriert ist, geschaffen werden, wobei ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur erzeugt wird. In dem Merkmalextraktionsschritt wird eine zu erkennende eingegebene verrauschte Sprache analysiert, um eine Merkmalsparameterfolge zu extrahieren, wobei die Wahrscheinlichkeiten von HMM untereinander verglichen werden, um aus dem Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell auszuwählen. Auf das aus dem Raum für ein verrauschtes Sprachmodell ausgewählte Modell wird eine lineare Transformation angewandt, um eine weiter erhöhte Wahrscheinlichkeit zu ergeben.
Zusammenfassend wird gemäß der vorliegenden Erfindung jeder Teil der rauschangereicherten Sprachdaten, die in einer Rausch-Datenbank gespeichert sind, dazu verwendet, reiner Sprache unter jeder SNR-Bedingung Rauschen hinzuzufügen, um rauschangereicherte Sprache zu erzeugen (Schritt S1 in 1). Die rauschangereicherte Sprache wird gesammelt, um einen Raum für ein verrauschtes Sprachmodell mit Baumstruktur zu bilden. In dem Raum für ein verrauschtes Sprachmodell wird jeder Teil des Rauschens, der zu einem Baumstrukturknoten gehört, der reinen Sprache hinzugefügt, um ein rauschangereichertes Sprachmodell zu bilden (Schritt S3 in 1). Die Wahrscheinlichkeiten werden in dem Raum für ein verrauschtes Sprachmodell mit Baumstruktur berechnet (Schritt S4 in 1), und die Baumstruktur wird von oben nach unten verfolgt, um ein optimales Modell auszuwählen (Schritt S7 in 1).
Auf der Grundlage der Modellparameter einer so ausgewählten Anpassungs-Sprachmodellfolge wird eine lineare Transformation ausgeführt, um die Wahrscheinlichkeit zu maximieren (Schritt S8 in 1).
Tatsächlich wird gemäß der Erfindung anstelle von Räumen für ein verrauschtes Sprachmodell mit Baumstruktur für einzelne SNR ein Raum für ein verrauschtes Sprachmodell mit Baumstruktur erzeugt, in den Rauschen und SNR integriert ist, erzeugt. Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres behandelt werden, wobei Rechenkosten gespart werden.
Die rauschangereicherte Sprache wird nicht nur in dem Modell-Lernprozess, sondern auch beim Sammeln verwendet. Da sowohl beim Sammeln als auch beim Modell-Lernen durchweg rauschangereicherte Sprache verwendet wird, kann das wahrscheinlichste rauschangereicherte Sprachmodell gelernt werden. Im Ergebnis kann eine höhere Erkennungsgenauigkeit erzielt werden.
Beispiel
Die Auswirkungen der durch das vorliegende System ausgeführten Erkennung von verrauschter Dialogsprache sind untersucht worden. Ein Beispiel der Experimente wird nachstehend beschrieben.
Ein in den Experimenten verwendetes Sprach-HMM ist ein shared-state (gemeinsam verfügbarer Zustand), sprecherunabhängiges, kontextabhängiges Phänomen-HMM, das mittels baumgestützten Sammelns erzeugt wurde. Insgesamt 25 Dimensionen wurden als Vatergrößen verwendet: 12 MFCC (Mel-Frequenz-Cepstralkoeffizienten) und die erste Ableitung der logarithmischen Leistung. Eine "Mel-Frequenz" ist ein Wert, der auf der Empfindlichkeit des menschlichen Ohrs basiert und häufig zur Darstellung des Ton-Hörbarkeitspegels verwendet wird. Ein MFCC wird wie folgt erzeugt: Auf Schallwellendaten wird die diskrete Fourier-Transformation angewandt und der sich ergebende Wert in seinen logarithmischen Ausdruck umgewandelt. Auf den Logarithmus wird dann die inverse diskrete Fourier-Transformation angewandt, um eine Wellenform zu erzeugen, die in vorgegebenen Intervallen abgetastet wird. Der Abtastwert ist der MFCC.
Die Auswirkungen des vorliegenden Systems werden im Folgenden mit Bezug auf 5 beschrieben. 5 zeigt eine Wortgenauigkeit (Basislinie), die mittels eines gegebenen Sprach-NMM erzielt worden ist, und eine Wortgenauigkeit (des erfinderischen Verfahrens), die mittels eines durch das System der vorliegenden Erfindung angepasstes Sprach-HMM erzielt worden ist. Die vertikale Achse in 5 repräsentiert die Wortgenauigkeit (%), während die horizontale Achse das SNR (dB) repräsentiert. Auf der horizontalen Achse sind SNR von 5, 10 und 15 dB angegeben. Die mit Rasterpunkten bedeckten Balken in 5 repräsentieren die Basisliniengenauigkeiten, während die gestreiften Balken Genauigkeiten des vorliegenden Systems repräsentieren.
Aus den in 5 gezeigten Ergebnissen geht hervor, dass das Verfahren gemäß der vorliegenden Erfindung effektiver ist als das herkömmliche Verfahren. In diesem Beispiel ist die Wort-Fehlerrate des vorliegenden Systems um 56 niedriger als bei der Basislinie, was bedeutet, dass die vorliegende Erfindung eine höhere Spracherkennungsgenauigkeit ergibt.
(Sprachmodell-Rauschanpassungsverfahren)
Das folgende Rauschanpassungsverfahren ist in dem oben beschriebenen Rauschanpassungssystem implementiert. Das Verfahren ist ein Rauschanpassungsverfahren zum Anpassen eines Sprachmodells für ein beliebiges Rauschen, das durch Verwendung von in einer Rausch-Datenbank gespeicherten Rauschdaten und reinen Sprachdaten gelernt worden ist, auf Sprache, die in einer verrauschten Umgebung erkannt werden soll. Das Verfahren umfasst einen Sammelschritt (der den Schritten S1 bis S4 in 1 entspricht) zum Sammeln aller Teile von in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten, einen Sprachmodellraum-Erzeugungsschritt (der dem Schritt S5 in 1 entspricht) zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des Sammelns in dem Sammelschritt, einen Parameterextraktionsschritt (der dem Schritt S6 in 1 entspricht) zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache, einen Auswahlschritt (der dem Schritt S7 in 1 entspricht) zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt (der dem Schritt S8 in 1 entspricht) zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres behandelt werden, wobei Rechenkosten gespart werden können, indem dieses Verfahren ausgeführt wird und der Raum für ein verrauschtes Sprachmodell mit Baumstruktur für Spracherkennung verwendet wird.
Sprachmodell-Rauschanpassungsprogramm
Ein Programm zum Ausführen des in 1 gezeigten Prozesses kann bereitgestellt und zum Steuern eines Computers verwendet werden, um dieselben Auswirkungen, wie sie oben beschrieben worden sind, zu ergeben. Das Programm ist ein Rauschanpassungsprogramm für Spracherkennung, das einen Computer so steuert, dass er ein Sprachmodell für ein beliebiges Rauschen, das durch Verwendung aller Teile von in einer Rausch-Datenbank gespeicherten Rauschdaten und reinen Sprachdaten gelernt worden ist, auf Sprache, die in einer verrauschten Umgebung erkannt werden soll, anpasst. Das Programm umfasst einen Sammelschritt (der den Schritten S1 bis S4 in 1 entspricht) zum Sammeln aller Teile von in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten, einen Sprachmodellraum-Erzeugungsschritt (der dem Schritt S5 in 1 entspricht) zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des Sammelns in dem Sammelschritt, einen Parameterextraktionsschritt (der dem Schritt S6 in 1 entspricht) zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache, einen Auswahlschritt (der dem Schritt S7 in 1 entspricht) zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt (der dem Schritt S8 in 1 entspricht) zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres behandelt werden, wobei Rechenkosten gespart werden können, indem dieses Verfahren ausgeführt wird und der Raum für ein verrauschtes Sprachmodell mit Baumstruktur für Spracherkennung verwendet wird.
Ein Speichermedium zum Speichern des Programms kann ein Halbleiterspeicher, eine Magnetplatte, eine optische Platte oder ein anderes Speichermedium sein, was in 1 nicht gezeigt ist.
Automatische Spracherkennungssysteme können im Allgemeinen unter Laborbedingungen gut arbeiten, jedoch fallen ihre Leistungen in realen Anwendungen ab. Ein Problem bei Realwelt-Anwendungen ist die Verringerung der Leistung der Erkennung von Sprache, die Hintergrundrauschen oder Hintergrundmusik enthält. Die vorliegende Erfindung kann diese Problem des Rauschens lösen und die Genauigkeit der Erkennung von rauschangereicherter Sprache verbessern.

Claims

Rauschanpassungssystem für ein Sprachmodell, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von Rauschdaten, die in einer Rausch-Datenbank gespeichert sind, die verwendet wird, um zu reiner Sprache entsprechend jeder SNR-Bedingung Rauschen hinzuzufügen, und unter Verwendung von reinen Sprachdaten gelernt wird, wobei das System umfasst: Sammelmittel, um alle Rauschdaten, die in der Rausch-Datenbank gespeichert sind, zu sammeln; Sprachmodellraum-Erzeugungsmittel, um anhand des Ergebnisses des durch die Sammelmittel ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen; Parameterextraktionsmittel, um einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache zu extrahieren; Auswahlmittel, um aus dem durch die Sprachmodellraum-Erzeugungsmittel erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell auszuwählen; und Lineartransformationsmittel, die auf das durch die Auswahlmittel ausgewählte Modell eine lineare Transformation anwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
System nach Anspruch 1, bei dem die Sammelmittel die rauschangereicherte Sprache durch Hinzufügen. des Rauschens zu der Sprache in Übereinstimmung mit einer Rauschabstandsbedingung erzeugen, den Sprach-Cepstral-Mittelwert der erzeugten rauschangereicherten Sprache subtrahieren, ein Gaußsches Sprachmodell jedes Teils der erzeugten rauschangereicherten Sprache erzeugen und die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten Sprache berechnen, um eine Wahrscheinlichkeitsmatrix zu erzeugen, um ein Sammelergebnis zu schaffen.
System nach Anspruch 1 oder 2, bei dem die Auswahlmittel ein Modell auswählen, das die höchste Wahrscheinlichkeit für den durch die Parameterextraktionsmittel extrahierten Sprachmerkmalsparameter schafft.
System nach Anspruch 3, bei dem die Auswahlmittel ein Modell auswählen, indem sie den Raum für ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene abwärts zur niedrigsten Ebene durchsuchen.
System nach einem der Ansprüche 1 bis 4, bei dem die Lineartransformationsmittel die lineare Transformation anhand des durch die Auswahlmittel ausgewählten Modells ausführen, um die Wahrscheinlichkeit zu erhöhen.
Rauschanpassungsverfahren für ein Sprachmodell, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von Rauschdaten, die in einer Rausch-Datenbank gespeichert sind, die verwendet wird, um zu reiner Sprache entsprechend jeder SNR-Bedingung Rauschen hinzuzufügen, und unter Verwendung von reinen Sprachdaten gelernt wird, wobei das Verfahren umfasst: einen Sammelschritt zum Sammeln von allen rauschangereicherten Sprachdaten, die in der Rausch-Datenbank gespeichert sind; einen Sprachmodellraum-Erzeugungsschritt zum Erzeugen eines Raums für ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des in dem Sammelschritt ausgeführten Sammelns; einen Parameterextraktionsschritt zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache; einen Auswahlschritt zum Auswählen eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur; und einen Lineartransformationsschritt zum Anwenden einer linearen Transformation auf das im Auswahlschritt ausgewählte Modell, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.
Rauschanpassungsprogramm für die Spracherkennung, um ein Sprachmodell für beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung von Rauschdaten, die in einer Rausch-Datenbank gespeichert sind, die verwendet wird, um zu reiner Sprache entsprechend jeder SNR-Bedingung Rauschen hinzuzufügen, und unter Verwendung von reinen Sprachdaten gelernt wird, wobei das Programm umfasst: einen Sammelschritt, um alle in der Rausch-Datenbank gespeicherten rauschangereicherten Sprachdaten zu sammeln; einen Sprachmodellraum-Erzeugungsschritt, um anhand des Ergebnisses des im Sammelschritt ausgeführten Sammelns einen Raum für ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen; einen Parameterextraktionsschritt, um einen Sprachmerkmalsparameter von zu erkennender eingegebener verrauschter Sprache zu extrahieren; einen Auswahlschritt, um ein optimales Modell aus dem im Sprachmodellraum-Erzeugungsschritt erzeugten Raum für ein verrauschtes Sprachmodell mit Baumstruktur auszuwählen; und einen Lineartransformationsschritt, um eine lineare Transformation auf das im Auswahlschritt ausgewählte Modell anzuwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit ergibt.