-
Die
Erfindung bezieht sich auf ein Rauschanpassungssystem für ein Sprachmodell,
ein Rauschanpassungsverfahren und ein Rauschanpassungsprogramm,
die zu erkennende verrauschte Sprache verwenden, um ein reines Sprachmodell, das
durch Modellieren von Sprachmerkmalen mit Hilfe eines Nidden-Markov-Modells
(HMM) erzeugt worden ist, so anzupassen, dass die Erkennungsrate
für die
verrauschte Umgebung erhöht
wird.
-
Ein
Lösungsweg
durch stückweise
lineare Transformation einer Baumstruktur ist in einem Artikel mit
dem Titel "Effects
of tree-structure clustering in noise adaptation using piecewise
linear transformation" von
Zhipeng Zhang u. a. (Protokoll des Herbsttreffens 2002 der Acoustical
Society of Japan, S. 29-30) beschrieben. Gemäß dem in diesem Artikel beschriebenen
Lösungsweg
wird Rauschen gesammelt, anhand des Ergebnisses des Sammelns (clustering)
ein Raum für
ein verrauschtes Sprachmodell mit Baumstruktur erzeugt, ein Sprachmerkmalsparameter
von zu erkennender eingegebener verrauschter Sprache extrahiert,
aus dem Raum für
ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell
ausgewählt
und auf das ausgewählte Modell
eine lineare Transformation angewandt, um so die Wahrscheinlichkeit
des ausgewählten
Modells zu erhöhen
und dadurch die Genauigkeit von eingegebener Sprache zu verbessern.
-
Ein
weiterer Lösungsweg
ist in einem Artikel mit dem Titel "Study on tree-structure clustering in noise
adaptation using piecewise linear transformation" von Zhipeng Zhang u. a. (Frühjahrstreffen
2003 der Acoustical Society of Japan, S. 37-38) beschrieben, bei
dem Rauscheigenschaften sequentiell und hierarchisch unterteilt
werden, um eine Baumstruktur eines Modells für rauschangereicherte Sprache
zu erzeugen. Bei diesem Lösungsweg
wird rauschangereicherte Sprache zuerst nach dem Signal-Rausch-Verhältnis (im
Folgenden mit SNR abgekürzt)
gesammelt und danach für
jede SNR-Bedingung ein Baumstrukturmodell geschaffen, um einen Raum
für ein
verrauschtes Sprachmodell mit Baumstruktur zu erzeugen.
-
6 zeigt
ein Beispiel des verrauschten Sprachmodells mit Baumstruktur. In 6 ist
für jede von
drei SNR-Bedingungen ein verrauschtes Sprachmodell mit Baumstruktur
geschaffen. In 6 ist ein Baumstrukturmodell
für SNR
= 5 dB durch K1 angegeben, ein Baumstrukturmodell für SNR =
10 dB durch K2 angegeben und ein Baumstrukturmodell für SNR =
15 dB durch K3 angegeben der obere knoten (die Wurzel) jedes Baumstrukturmodells
K1 – K3
repräsentiert
ein reines Sprachmodell. Höhere
Ebenen jeder Baumstruktur repräsentieren
globale Merkmale von Rauscheigenschaften, während niedrigere Ebenen lokale
Merkmale repräsentieren.
-
In
der japanischen Patentoffenlegungsschrift Nr. 2002-14692 (vor allem 2 und 3 und
Zusammenfassung) ist eine Technik beschrieben, nach der eine große Anzahl
von Rauschabtastwerten im Voraus gesammelt wird, anhand der Abtastwerte akustische
Modelle erzeugt werden und durch Sammeln ausgewähltes Rauschen hinzugefügt wird,
um Daten zu lernen und dabei ein effizientes Lernen mit einer kleinen
Anzahl von Rauschabtastwerten zu ermöglichen, um eine hohe Erkennungsleistung
zu erzielen.
-
Die
japanische Patentoffenlegungsschrift Nr.2002-91484 (vor allem Zusammenfassung)
beschreibt eine Technik, nach der ein Sprachmodell für jede Baumstruktursammlung
erzeugt wird, das für die
Spracherkennung verwendet wird.
-
Die
japanische Patentoffenlegungsschrift Nr.2000-298495 (vor allem Zusammenfassung
und Anspruch 2) beschreibt das Kombinieren einer Anzahl von Baumstrukturen,
um eine neue Baumstruktur zu bilden.
-
Nach
dem Lösungsweg
in der oben zitierten "Study
on tree-structure clustering in noise adaptation using piecewise
linear transformation" wird
zu erkennende eingegebene verrauschte Sprache analysiert, um eine
Merkmalsparameter-Zeichenfolge zu extrahierten, wobei ein optimales
Modell aus einem Raum für
ein verrauschtes Sprachmodell mit Baumstruktur ausgewählt wird.
Auf das ausgewählte
optimale Modell wird eine lineare Transformation angewandt, um die
Wahrscheinlichkeit zu maximieren. Dementsprechend besitzt dieser
Lösungsweg
den Nachteil, dass die Erkennung eine Zweischritt-Suche betrifft:
zuerst wird ein optimales Modell unter jeder SNR-Bedingung ausgewählt und
danach das beste Modell unter allen SNR-Modellen ausgewählt. Die Probleme
sind hier die Schwierigkeit, verrauschte Sprache mit veränderlichem
SNR zu behandeln, und die hohen Kosten des Berechnens der Bedingungen.
-
Keine
der in den oben zitierten Dokumenten beschriebenen Techniken kann
diese Probleme lösen.
-
Eine
Aufgabe der vorliegenden Erfindung, die in den beigefügten unabhängigen Ansprüchen definiert
ist, ist es, ein Rauschanpassungssystem, ein Rauschanpassungsverfahren
und ein Rauschanpassungsprogramm für Sprach erkennung zu schaffen,
die verrauschte Sprache mit veränderlichem SNR
ohne weiteres behandeln und die Rechenkosten minimieren können, indem
ein Sprachmodell mit einer Einzelbaumstruktur, in die Rauschen und
SNR integriert sind, erzeugt wird.
-
Gemäß einem
Aspekt der Erfindung ist ein Rauschanpassungssystem für ein Sprachmodell
geschaffen, um ein Sprachmodell für beliebiges Rauschen an Sprache
anzupassen, die in einer verrauschten Umgebung erkannt werden soll,
wobei das Sprachmodell unter Verwendung von in einer Rausch-Datenbank
gespeicherten Rauschdaten und reinen Sprachdaten gelernt wird, wobei
das System umfasst: ein Sammelmittel, das alle in der Rausch-Datenbank
gespeicherten Rauschdaten sammelt, ein Sprachmodellraum-Erzeugungsmittel, das
anhand des Ergebnisses des durch das Sammelmittel ausgeführten Sammelns
einen Raum für
ein verrauschtes Sprachmodell mit Einzelbaumstruktur erzeugt, ein
Parameterextraktionsmittel, das einen Sprachmerkmalsparameter von
zu erkennender eingegebener verrauschter Sprache extrahiert, ein
Auswahlmittel, das aus dem durch die Sprachmodellraum-Erzeugungsmittel
erzeugten Raum für
ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell
auswählt,
und ein Lineartransformationsmittel, das auf das durch die Auswahlmittel
ausgewählte
Modell eine lineare Transformation anwendet, damit das Modell eine
weiter erhöhte
Wahrscheinlichkeit ergibt. Der wie oben beschrieben erzeugte Raum
für ein
verrauschtes Sprachmodell mit Baumstruktur ermöglicht, verrauschte Sprache
mit veränderlichem
SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
-
Gemäß einem
weiteren Aspekt der Erfindung ist das Rauschanpassungssystem für ein Sprachmodell
gemäß dem ersten
Aspekt geschaffen, wobei das Sammelmittel die rauschangereicherte Sprache
durch Hinzufügen
des Rauschens zu der Sprache in Übereinstimmung
mit einer Rauschabstandsbedingung erzeugt, den Sprach-Cepstral-Mittelwert
der erzeugten rauschangereicherten Sprache subtrahiert, ein Gaußsches Sprachmodell
jedes Teils der erzeugten rauschangereicherten Sprache erzeugt und
die Wahrscheinlichkeit zwischen den Teilen der rauschangereicherten
Sprache berechnet, um eine Wahrscheinlichkeitsmatrix zu erzeugen,
um ein Sammelergebnis zu schalten. Dies ermöglicht das Sammeln von rauschangereicherter
Sprache.
-
Gemäß einem
zusätzlichen
Aspekt der Erfindung ist das Rauschanpassungssystem gemäß dem ersten
oder zweiten Aspekt geschaffen, wobei das Auswahlmittel ein Modell
auswählt,
das die höchste Wahrscheinlichkeit
für den
durch die Parameterextraktionsmittel extrahierten Sprachmerkmalsparameter
schafft. Durch Auswählen
desjenigen Modells, das die höchste
Wahrscheinlichkeit schafft, kann die Genauigkeit der Spracherkennung
erhöht
werden. Das Auswahlmittel kann ein Modell auswählen, indem es den Raum für ein verrauschtes
Sprachmodell mit Baumstruktur von der höchsten Ebene abwärts zur
niedrigsten Ebene durchsucht. Durch Durchsuchen der Baumstruktur
von der höchsten
Ebene bis zur niedrigsten Ebene kann ein optimales Modell ausgewählt werden.
-
Das
Lineartransformationsmittel des Rauschanpassungssystems kann die
lineare Transformation anhand des durch das Auswahlmittel ausgewählten Modells
ausführen,
um die Wahrscheinlichkeit zu erhöhen.
Durch Ausführen
der linearen Transformation kann die Wahrscheinlichkeit maximiert werden.
-
Gemäß einem
nochmals weiteren Aspekt der Erfindung ist ein Rauschanpassungsverfahren geschaffen,
um ein Sprachmodell für
beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten
Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung
von in einer Rausch-Datenbank gespeicherten Rauschdaten und von
reinen Sprachdaten gelernt wird, wobei das Verfahren umfasst: einen
Sammelschritt zum Sammeln von allen rauschangereicherten Sprachdaten,
die in der Rausch-Datenbank gespeichert sind, einen Sprachmodellraum-Erzeugungsschritt
zum Erzeugen eines Raums für
ein verrauschtes Sprachmodell mit Einzelbaumstruktur anhand des
Ergebnisses des in dem Sammelschritt ausgeführten Sammelns, einen Parameterextraktionsschritt
zum Extrahieren eines Sprachmerkmalsparameters von zu erkennender
eingegebener verrauschter Sprache, einen Auswahlschritt zum Auswählen eines
optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt
erzeugten Raum für
ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt
zum Anwenden einer linearen Transformation auf das im Auswahlschritt
ausgewählte Modell,
damit das Modell eine weiter erhöhte
Wahrscheinlichkeit ergibt. Der Raum für ein verrauschtes Sprachmodell
mit Baumstruktur ermöglicht,
verrauschte Sprache mit veränderlichem
SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
-
Gemäß einem
weiteren Aspekt der Erfindung ist ein Rauschanpassungsprogramm geschaffen,
um ein Sprachmodell für
beliebiges Rauschen an Sprache anzupassen, die in einer verrauschten
Umgebung erkannt werden soll, wobei das Sprachmodell unter Verwendung
von in einer Rausch-Datenbank gespeicherten Rauschdaten und von
reinen Sprachdaten gelernt wird, wobei das Programm umfasst: einen
Sammelschritt, um alle in der Rausch-Datenbank gespeicherten rauschangereicherten
Sprachdaten zu sammeln, einen Sprachmodellraum-Erzeugungsschritt, um anhand des Ergebnisses
des im Sammelschritt ausgeführten
Sammelns einen Raum für
ein verrauschtes Sprachmodell mit Einzelbaumstruktur zu erzeugen,
einen Parameterextraktionsschritt, um einen Sprachmerkmalsparameter
von zu erkennender eingegebener verrauschter Sprache zu extrahieren,
einen Auswahlschritt, um ein optimales Modell aus dem im Sprachmodellraum-Erzeugungsschritt
erzeugten Raum für ein
verrauschtes Sprachmodell mit Baumstruktur auszuwählen, und
einen Lineartransformationsschritt, um eine lineare Transformation
auf das im Auswahlschritt ausgewählte
Modell anzuwenden, damit das Modell eine weiter erhöhte Wahrscheinlichkeit
ergibt. Der Raum für
ein verrauschtes Sprachmodell mit Baumstruktur ermöglicht,
verrauschte Sprache mit veränderlichem
SNR ohne weiteres zu behandeln und Rechenkosten zu sparen.
-
Tatsächlich werden
gemäß der Erfindung alle
Teile von Rauschdaten in einer Rausch-Datenbank (im Folgenden mit
DB abgekürzt)
verwendet, um rauschangereicherte Sprache auf der Grundlage jeder
SNR-Bedingung in einer Einzelbaumstruktur zu sammeln. Ein Raum für eine rauschangereicherte Sprache
wird entsprechend den SNR und Rauscheigenschaften in eine Baumstruktur
unterteilt, wobei Klangmerkmalsparameter-Zeichenfolgen von zu erkennender
eingegebener verrauschter Sprache extrahiert werden. Danach wird
aus dem Einzelbaumstruktur-Modellraum anhand der Merkmalsparameter-Zeichenfolge
ein optimales Modell ausgewählt und
auf dieses Modell eine lineare Transformation angewandt.
-
Die
Einzelbaumstruktur, in die Rauschen und SNR integriert sind, wird
erzeugt, um das Lernen des wahrscheinlichsten rauschangereicherten
Sprachmodells zu ermöglichen.
In dieser Weise kann eine hohe Erkennungsgenauigkeit erzielt werden.
Ferner erfordert der Lösungsweg
der vorliegenden Erfindung nicht das Auswählen eines optimalen Modells unter
jeder einzelnen SNR-Bedingung. Stattdessen betrifft der Lösungsweg
der vorliegenden Erfindung nur eine Einschritt-Suche, durch die
das beste Modell unter allen SNR-Modellen ausgewählt wird. Daher kann verrauschte
Sprache mit veränderlichem
SNR ohne weiteres behandelt werden, wobei Rechenkosten gespart werden.
-
Gemäß der Erfindung
kann verrauschte Sprache mit veränderlichem
SNR ohne weiteres behandelt werden und können Rechenkosten gespart werden,
indem ein Raum für
ein verrauschtes Sprachmodell mit Baumstruktur verwendet wird.
-
Rauschangereicherte
Sprache kann gesammelt werden, indem der Sprache den Rauschabstandsbedingungen
entsprechend Rauschen hinzugefügt
wird, der Sprach-Cepstral-Mittelwert von jedem Teil der erzeugten
rauschangereicherten Sprache subtrahiert wird, ein Gaußsches Sprachmodell jedes
Teils der rauschangereicherten Sprache erzeugt wird und die Wahrscheinlichkeit
zwischen den Teilen der rauschangereicherten Sprache berechnet wird,
um eine Wahrscheinlichkeitsmatrix zu erzeugen.
-
Eine
verbesserte Genauigkeit der Spracherkennung kann erzielt werden,
indem ein Modell ausgewählt
wird, das die höchste
Wahrscheinlichkeit für einen
extrahierten Sprachmerkmalsparameter ergibt.
-
Ein
optimales Modell kann ausgewählt
werden, indem der Raum für
ein verrauschtes Sprachmodell mit Baumstruktur von der höchsten Ebene
bis zur niedrigsten Ebene nach einem optimalen Modell durchsucht
wird.
-
Die
Wahrscheinlichkeit kann maximiert werden, indem eine lineare Transformation
auf der Grundlage des ausgewählten
Modells ausgeführt wird,
um so die Wahrscheinlichkeit zu erhöhen.
-
Die
Erfindung wird nun in Verbindung mit bevorzugten Ausführungsformen,
die in den Zeichnungen gezeigt sind, beschrieben.
-
1 ist
ein Ablaufplan eines durch ein Sprachmodell-Rauschanpassungssystem
gemäß der Erfindung
ausgeführten
Prozesses.
-
2 ist
ein Blockschaltplan, der eine Konfiguration eines Sprachmodell-Rauschanpassungssystems
gemäß einer
Ausführungsform
der Erfindung zeigt.
-
3 ist
ein funktionaler Blockschaltplan, in dem in 2 gezeigte
Komponenten in Übereinstimmung
mit dem Operationsfluss in dem System neu geordnet sind.
-
4 ist
ein konzeptionelles Diagramm, das einen Prozess zum Auswählen eines
optimalen Modells aus einem Raum für ein verrauschtes Sprachmodell
mit Baumstruktur in dem System zeigt.
-
5 zeigt
eine mittels eines durch das System angepassten Sprach-HMM erzielte Wortgenauigkeit.
-
6 ist
ein konzeptionelles Diagramm, das einen in einem herkömmlichen
Sprachmodell-Rauschanpassungssystem verwendeten Prozess zum Auswählen eines
optimalen Modells aus einem Raum für ein verrauschtes Sprachmodell
mit Baumstruktur zeigt.
-
Gemäß der Erfindung
wird ein verrauschter Sprachmodellraum unter Verwendung von SNR
und Tonqualität
als Baumstruktur erzeugt. Um den Raum für ein verrauschtes Sprachmodell
zu erzeugen, wird reiner Sprache jeder SNR-Bedingung entsprechend Rauschen hinzugefügt, um rauschangereicherte Sprache
zu erzeugen. Danach werden die Rauscheigenschaften als Einzelbaumstruktur
dargestellt, um ein Modell zu schaffen, bei dem höhere Ebenen
der Baumstruktur globale Merkmale repräsentieren und niedrigere Ebenen
lokale Merkmale repräsentieren. Ein
optimaler stückweiser
Rauschraum kann ausgewählt
werden, indem der Baumstruktur von der Wurzel abwärts von
oben nach unten gefolgt wird, um ein optimales Modell auszuwählen.
-
Da
sowohl in den Sammel- als auch in den Modell-Lernprozessen durchweg
rauschangereicherte Sprache verwendet wird, kann dasjenige rauschangereicherte
Sprachmodell, das die höchste Wahrscheinlichkeit
ergibt, gelernt werden und eine verbesserte Erkennungsgenauigkeit
erzielt werden.
-
Konfiguration
des vorliegenden Systems
-
Eine
Konfiguration zum Implementieren des oben beschriebenen Prozesses
wird mit Bezug auf 2, die ein Blockschaltplan ist,
der eine Ausführungsform
des erfindungsgemäßen Rauschanpassungssystems
zeigt, beschrieben. Wie in 2 gezeigt
ist, umfasst das Rauschanpassungssystem gemäß der Ausführungsform einen Baumstrukturmodellspeicher 1,
eine Merkmalsextraktionseinheit 2, eine Spracherkennungseinheit 3,
eine Modellauswahl- und Modellbestimmungseinheit 4, eine
Modell-Lineartransformations-Anpassungseinheit 5 und einen
Erkennungsergebnisspeicher 6. Das vorliegende System ist
als Datenendgerät,
mobiles Datenendgerät,
Servercomputer, Personalcomputer oder andere Einrichtung, die die
oben genannten Einheiten und Speicher enthält, verwirklicht.
-
Der
Baumstrukturmodellspeicher 1 speichert ein rauschangereichertes
Sprach-HMM, das anhand eines Ergebnisses des Sammelns von rauschangereicherter
Sprache als Einzelbaumstruktur aufgebaut worden ist.
-
Die
Merkmalsextraktionseinheit 2 analysiert in sie eingegebene
Sprachdaten und wandelt sie in Merkmalsvektoren um.
-
Die
Spracherkennungseinheit 3 wendet einen Viterbi-Algorithmus
auf die Zeitreihen-Merkmalsvektorzeit, die aus den eingegebenen
Sprachdaten umgewandelt worden ist, an, um eine Modellfolge zu erhalten,
die die höchste
Wahrscheinlichkeitsfunktion ergibt.
-
Die
Modellauswahl- und Modellbestimmungseinheit 4 wählt ein
optimales Modell aus, das ein optimales Modell ergibt, das die höchste Wahrscheinlichkeit
unter den in dem Baumstrukturmodellspeicher 1 gespeicherten
Modellen ergibt.
-
Die
Modell-Lineartransformations-Anpassungseinheit 5 wendet
eine lineare Transformation auf das durch die Modellauswahl- und
Modellbestimmungseinheit 4 ausgewählte Modell an, um so dessen
Wahrscheinlichkeit zu maximieren.
-
Der
Erkennungsergebnisspeicher 6 speichert Spracherkennungsergebnisse.
-
Funktionsweise
des Systems
-
Die
Funktionsweise des Systems mit der oben beschriebenen Struktur wird
mit Bezug auf die 1 und 3 beschrieben. 3 ist
ein funktionaler Blockschaltplan, bei dem die in 2 gezeigten Komponenten
1- 6 entsprechend dem Operationsfluss in dem System umgeordnet sind. 1 ist
ein Ablaufplan eines durch das System ausgeführten Prozesses.
-
Der
Prozess zum Ausführen
der Spracherkennung in dem System folgt den Schritten S1 bis S9,
die nachstehend beschrieben werden.
-
Schritt
S1 (der Schritt des Erzeugens von rauschangereicherter Sprache):
Jeder Teil von in einer Rauschdatenbank gespeicherten Daten wird
verwendet, um reiner Sprache jeder SNR-Bedingung entsprechend Rauschen
hinzuzufügen,
um rauschangereicherte Sprache zu erzeugen.
-
Schritt
S2 (der Schritt des Subtrahierens des Mittelwerts der rauschangereicherter
Sprache): Die CMS (Cepstral-Mittelwert-Subtraktion) wird auf die im
Schritt S1 erzeugte rauschangereicherte Sprache angewandt. Das heißt, dass
der Cepstral-Mittelwert aller Sprachdatenrahmen in einem bestimmten
Intervall berechnet wird und von dem Vektor jedes Rahmens subtrahiert
wird. Das Cepstrum ist die Fourier-Transformierte des Logarithmus
eines durch Fourier-Transformation
erhaltenen Leistungsspektrums. Die CMS ist in einem Dokument mit
dem Titel "Furui:
Cepstral Analysis Technique For Automatic Speaker Verification", IEEE Transaction
on Acoustical Speech and Signal Processing, Bd. ASSP – 29, S. 254-272,
1981, beschrieben.
-
Schritt
S3 (der Schritt des Erzeugens eines rauschangereicherten Sprachmodells):
Mit Hilfe des Baum-Welch-Algorithmus wird ein Gaußsches Mischmodell
(GMM) jeder rauschangereicherten Sprache erzeugt. Der Baum-Welch-Algorithmus
ist eine sich wiederholende Annäherung,
um näher
an einen optimalen Wert zu gelangen, wobei von einem geeigneten
Anfangswert ausgegangen wird. Der Baum-Welch-Algorithmus ist in
einem Dokument mit dem Titel "Speech
recognition with probabilistic model" von Seiichi Nakagawa (Institute of
Electronics, Information an Communication Engineers, 1988) beschrieben.
-
Schritt
S4 (der Schritt des Sammelns von rauschangereicherter Sprache):
Das GMM wird verwendet, um die Wahrscheinlichkeit zwischen Teilen rauschangereicherter
Sprache zu berechen, um eine Wahrscheinlichkeitsmatrix zu erzeugen.
Ein auf der Wahrscheinlichkeitsmatrix basierendes SPLIT-Verfahren
wird angewandt, um die rauschangereicherte Sprache in regelmäßiger Folge
zu sammeln. In dem SPLIT-Verfahren werden Sammlungen (clusters),
die die größte Streuung
ergeben, sequentiell aufgespaltet. Folglich kann eine beliebige
Anzahl von Sammlungen erzeugt werden. Das Ergebnis des Sammelns kann
völlig
automatisch erhalten werden, indem einfach die Anzahl von Sammlungen
angegeben wird. Das SPLIT-Verfahren ist in einem Speech-Committee-Dokument
von Sugamura u. a. (S82-64, 1982) beschrieben.
-
Schritt
S5 (Anwendung auf die Anpassung durch stückweise lineare Transformation):
Durch den Schritt S4 ergibt sich ein Baumstruktur-Sammelergebnis
der rauschangereicherten Sprache. Das Sammelergebnis wird in dem
Baumstrukturmodellspeicher 1 gespeichert. Das Sammelergebnis
ist ein Einzelbaumstrukturmodell, in das Rauschen und SNR integriert
sind. Außerdem
repräsentiert
das Sammelergebnis Merkmale in Baumstrukturform; globale Merkmale
der rauschangereicherten Sprache sind auf einer höheren Ebene
der Baumstruktur repräsentiert,
während
lokale Merkmale auf einer niedrigeren Ebene repräsentiert sind.
-
Das
in dem Baumstrukturmodellspeicher 1 gespeicherte Sammelergebnis
wird auf die stückweise
lineare Transformation angewandt. Die stückweise lineare Transformation
ist in dem oben zitierten Artikel "Effects of tree-structure clustering
in noise adaptation using piecewise linear transformation" von Zhipeng Zhang
u. a. beschrieben. Insbesondere werden die nachstehend beschriebenen
Schritte S6 bis S9 ausgeführt.
-
Schritt
S6 (der Schritt des Extrahierens von Merkmalsgrößen): Die Merkmalsextraktionseinheit 2 extrahiert
Merkmalsgrößen aus
den zu erkennenden rauschangereicherten Sprachdaten. Bei der Merkmalsgrößenextraktion
wird eine LPC-(Linear Prediction Coding, lineare Vorhersagecodierung)-Analyse auf
jeden Rahmen eingegebener Sprachdaten angewandt, um Zeitreihen-Merkmalsparametervektoren wie
etwa ein Cepstrum oder _Cepstrum als Merkmalsparameterfolge zu erhalten.
-
Shritt
7 (Auswählen
eines optimalen Modells): Der Schritt des Auswählens eines optimalen Modells
wird mit Bezug auf 4 beschrieben. Der Knoten (die
Wurzel) am oberen Ende von 4 repräsentiert
ein reines Sprachmodell. Unter der Wurzel befinden sich N Modelle
SNR-1 bis SNR-N. Die N Modelle SNR-1 bis SNR-N repräsentieren
Modelle, die von der durch Hinzufügen sämtlicher Rauschtypen unter
allen SNR-Bedingungen erzeugten Sprache gelernt worden sind.
-
Kindknoten
unterhalb von diesen repräsentieren
Modelle, die von den durch Hinzufügen einiger in Abhängigkeit
von dem Sammelergebnis ausgewählter
Rauschtypen erzeugten Sprachdaten gelernt worden sind. Am Boden
der Baumstruktur befinden sich Modelle, die von der durch Hinzufügen nur
eines einzigen bestimmten Rauschtyps erzeugten Sprache gelernt worden
ist. Somit sind globale Rauscheigenschaften auf der höheren Ebene
der Baumstruktur repräsentiert,
während
lokale Rauscheigenschaften auf der niedrigeren Ebene repräsentiert
sind.
-
Anders
als der Lösungsweg
in dem oben zitierten Artikel "Study
on tree-structure clustering in noise adaptation using piecewise
linear transformation" von
Zhipeng Zhang u. a. (siehe 6) erfordert der
Lösungsweg
der vorliegenden Erfindung kein Auswählen eines optimalen Modells
unter jeder einzelnen SNR-Bedingung.
Stattdessen benötigt
er nur eine Einschritt-Suche, bei der das beste Modell unter allen
SNR-Modellen ausgewählt
wird.
-
In 1 wird
zum Ausführen
der Erkennung zuerst anhand der im Schritt S4 erhaltenen Merkmalsparameterfolge
die Wahrscheinlichkeit eines gegebenen reinen Modells an der Wurzel
berechnet. Dies wird von der in 1 gezeigten
Spracherkennungseinheit 3 ausgeführt.
-
Danach
verwendet die Spracherkennungseinheit 3 die Modelle unterhalb
der Wurzel, um die Wahrscheinlichkeiten zu berechnen. Die so berechneten Wahrscheinlichkeitswerte
werden von der Modellauswahl- und Modellbestimmungseinheit 4 verwendet,
um ein optimales Modell auszuwählen.
Insbesondere wird dies durch Verfolgen der folgenden Prozedur erreicht.
Modelle, die Wahrscheinlichkeiten ergeben, die höher als jene des reinen Modells
an der Wurzel sind, werden aufbewahrt. Danach werden die Modelle
an den Kindknoten unterhalb von diesen verwendet, um die Wahrscheinlichkeiten
unter diesen SNR-Bedingungen zu berechnen. Die Wahrscheinlichkeiten
von zwei Kindknotenmodellen werden mit jenen des Elternknotens verglichen.
Falls ein Kindknotenmodell die höchste
Wahrscheinlichkeit ergibt, werden die Wahrscheinlichkeiten der Kindknotenmodelle
unterhalb jenes Knotens berechnet. Falls andererseits die Wahrscheinlichkeit
des Elternknotens höher
als jene des Kindknotenmodells ist, wird keine weitere Berechnung
ausgeführt,
sondern der Elternknoten als optimaler Knoten bestimmt.
-
In 4 sind
die Suchpfade durch fette Linien dargestellt. Die Berechnung kann
wiederholt werden, um einen optimalen Raum zu finden. Ferner wird
die Wahrscheinlichkeit der Modelle mit den höchsten Wahrscheinlichkeiten
unter verschiedenen SNR-Bedingungen untereinander verglichen, um dasjenige
Modell zu ergeben, das die höchste
Wahrscheinlichkeit unter ihnen ergibt, zu bestimmen und als optimales
Modell in dem gesamten Raum für
eine verrauschte Sprache auszuwählen.
In dem in 4 gezeigten Beispiel ergibt
der vierte Knoten unter der Bedingung SNR-1 die höchste Wahrscheinlichkeit. Unter
der SNR-N-Bedingung
in 4 ergibt der fünfte
Knoten die höchste
Wahrscheinlichkeit. Die Wahrscheinlichkeiten der Modelle mit den
höchsten
Wahrscheinlichkeiten unter verschiedenen SNR-Bedingungen werden
untereinander verglichen, um dasjenige Modell, das die höchste Wahrscheinlichkeit
unter den Knoten mit den höchsten
Wahrscheinlichkeiten ergibt, auszuwählen.
-
Schritt
S8 (lineare Regression): Die Modell-Lineartransformations-Anpassungseinheit 5 wendet
die Maximum-Likelihood-Linearregression (im Folgenden mit MLLR abgekürzt) auf
das ausgewählte
Modell an, um eine weiter erhöhte
Wahrscheinlichkeit zu ergeben. Die MLLR ist in einem Dokument mit
dem Titel "Mean
and variance adaptation within the MLLR framework" (M.J.F Gales u.
a., Computer Speech and Language, S. 249-264, 1996) beschrieben.
Insbesondere wird eine Phänomenfolge, die
sich aus der Erkennung ergibt, verwendet, um eine Lineartransformationsmatrix
auf der Grundlage eines Maximum-Likelihood-Kriteriums zu schätzen, wobei
der Mittelwert und die Varianzen der HMM-Normalverteilung durch
lineare Transformation (lineare Regression) angepasst werden.
-
Schritt
S9 (Wiedererkennung): Bei der Ausgabe des Ergebnisses der Spracherkennung
verwendet die Spracherkennungseinheit 3 das im Schritt S8
erhaltene Modell, um eine Wiedererkennung auszuführen, wobei das Wiedererkennungsergebnis
in dem Erkennungsergebnisspeicher 6 gespeichert wird.
-
In
einem Rauschanpassungssystem der vorliegenden Erfindung, werden,
wie beschrieben worden ist, alle Teile von Rauschdaten in einer Rausch-Datenbank dazu verwendet,
der Sprache unter jeder SNR-Bedingung Rauschen hinzuzufügen und
ein rauschangereichertes Sprachmodell zu lernen. Der Abstand zwischen
allen Rauschmodellen unter den SNR-Bedingungen wird berechnet und
die rauschangereicherte Sprache gesammelt. Anhand des Ergebnisses
des Sammelns von rauschangereicherter Sprache wird ein Sprachmodell
mit einer Baumstruktur erzeugt. Somit kann ein Baumstrukturmodell,
in das Rauschen und SNR integriert ist, geschaffen werden, wobei
ein Raum für
ein verrauschtes Sprachmodell mit Baumstruktur erzeugt wird. In dem
Merkmalextraktionsschritt wird eine zu erkennende eingegebene verrauschte
Sprache analysiert, um eine Merkmalsparameterfolge zu extrahieren, wobei
die Wahrscheinlichkeiten von HMM untereinander verglichen werden,
um aus dem Raum für
ein verrauschtes Sprachmodell mit Baumstruktur ein optimales Modell
auszuwählen.
Auf das aus dem Raum für
ein verrauschtes Sprachmodell ausgewählte Modell wird eine lineare
Transformation angewandt, um eine weiter erhöhte Wahrscheinlichkeit zu ergeben.
-
Zusammenfassend
wird gemäß der vorliegenden
Erfindung jeder Teil der rauschangereicherten Sprachdaten, die in
einer Rausch-Datenbank gespeichert sind, dazu verwendet, reiner
Sprache unter jeder SNR-Bedingung Rauschen hinzuzufügen, um rauschangereicherte
Sprache zu erzeugen (Schritt S1 in 1). Die
rauschangereicherte Sprache wird gesammelt, um einen Raum für ein verrauschtes Sprachmodell
mit Baumstruktur zu bilden. In dem Raum für ein verrauschtes Sprachmodell
wird jeder Teil des Rauschens, der zu einem Baumstrukturknoten gehört, der
reinen Sprache hinzugefügt,
um ein rauschangereichertes Sprachmodell zu bilden (Schritt S3 in 1).
Die Wahrscheinlichkeiten werden in dem Raum für ein verrauschtes Sprachmodell mit
Baumstruktur berechnet (Schritt S4 in 1), und die
Baumstruktur wird von oben nach unten verfolgt, um ein optimales
Modell auszuwählen
(Schritt S7 in 1).
-
Auf
der Grundlage der Modellparameter einer so ausgewählten Anpassungs-Sprachmodellfolge
wird eine lineare Transformation ausgeführt, um die Wahrscheinlichkeit
zu maximieren (Schritt S8 in 1).
-
Tatsächlich wird
gemäß der Erfindung
anstelle von Räumen
für ein
verrauschtes Sprachmodell mit Baumstruktur für einzelne SNR ein Raum für ein verrauschtes
Sprachmodell mit Baumstruktur erzeugt, in den Rauschen und SNR integriert
ist, erzeugt. Verrauschte Sprache mit veränderlichem SNR kann ohne weiteres
behandelt werden, wobei Rechenkosten gespart werden.
-
Die
rauschangereicherte Sprache wird nicht nur in dem Modell-Lernprozess, sondern
auch beim Sammeln verwendet. Da sowohl beim Sammeln als auch beim
Modell-Lernen durchweg rauschangereicherte Sprache verwendet wird,
kann das wahrscheinlichste rauschangereicherte Sprachmodell gelernt
werden. Im Ergebnis kann eine höhere
Erkennungsgenauigkeit erzielt werden.
-
Beispiel
-
Die
Auswirkungen der durch das vorliegende System ausgeführten Erkennung
von verrauschter Dialogsprache sind untersucht worden. Ein Beispiel der
Experimente wird nachstehend beschrieben.
-
Ein
in den Experimenten verwendetes Sprach-HMM ist ein shared-state
(gemeinsam verfügbarer
Zustand), sprecherunabhängiges,
kontextabhängiges
Phänomen-HMM,
das mittels baumgestützten
Sammelns erzeugt wurde. Insgesamt 25 Dimensionen wurden
als Vatergrößen verwendet:
12 MFCC (Mel-Frequenz-Cepstralkoeffizienten) und die erste Ableitung
der logarithmischen Leistung. Eine "Mel-Frequenz" ist ein Wert, der auf der Empfindlichkeit
des menschlichen Ohrs basiert und häufig zur Darstellung des Ton-Hörbarkeitspegels
verwendet wird. Ein MFCC wird wie folgt erzeugt: Auf Schallwellendaten
wird die diskrete Fourier-Transformation angewandt und der sich
ergebende Wert in seinen logarithmischen Ausdruck umgewandelt. Auf
den Logarithmus wird dann die inverse diskrete Fourier-Transformation
angewandt, um eine Wellenform zu erzeugen, die in vorgegebenen Intervallen
abgetastet wird. Der Abtastwert ist der MFCC.
-
Die
Auswirkungen des vorliegenden Systems werden im Folgenden mit Bezug
auf 5 beschrieben. 5 zeigt
eine Wortgenauigkeit (Basislinie), die mittels eines gegebenen Sprach-NMM
erzielt worden ist, und eine Wortgenauigkeit (des erfinderischen
Verfahrens), die mittels eines durch das System der vorliegenden
Erfindung angepasstes Sprach-HMM erzielt worden ist. Die vertikale
Achse in 5 repräsentiert die Wortgenauigkeit
(%), während
die horizontale Achse das SNR (dB) repräsentiert. Auf der horizontalen
Achse sind SNR von 5, 10 und 15 dB angegeben. Die mit Rasterpunkten
bedeckten Balken in 5 repräsentieren die Basisliniengenauigkeiten,
während
die gestreiften Balken Genauigkeiten des vorliegenden Systems repräsentieren.
-
Aus
den in 5 gezeigten Ergebnissen geht hervor, dass das
Verfahren gemäß der vorliegenden
Erfindung effektiver ist als das herkömmliche Verfahren. In diesem
Beispiel ist die Wort-Fehlerrate des vorliegenden Systems um 56
niedriger als bei der Basislinie, was bedeutet, dass die vorliegende Erfindung
eine höhere
Spracherkennungsgenauigkeit ergibt.
-
(Sprachmodell-Rauschanpassungsverfahren)
-
Das
folgende Rauschanpassungsverfahren ist in dem oben beschriebenen
Rauschanpassungssystem implementiert. Das Verfahren ist ein Rauschanpassungsverfahren
zum Anpassen eines Sprachmodells für ein beliebiges Rauschen,
das durch Verwendung von in einer Rausch-Datenbank gespeicherten
Rauschdaten und reinen Sprachdaten gelernt worden ist, auf Sprache,
die in einer verrauschten Umgebung erkannt werden soll. Das Verfahren
umfasst einen Sammelschritt (der den Schritten S1 bis S4 in 1 entspricht)
zum Sammeln aller Teile von in der Rausch-Datenbank gespeicherten rauschangereicherten
Sprachdaten, einen Sprachmodellraum-Erzeugungsschritt (der dem Schritt
S5 in 1 entspricht) zum Erzeugen eines Raums für ein verrauschtes
Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des Sammelns
in dem Sammelschritt, einen Parameterextraktionsschritt (der dem
Schritt S6 in 1 entspricht) zum Extrahieren
eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter
Sprache, einen Auswahlschritt (der dem Schritt S7 in 1 entspricht)
zum Auswählen
eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt erzeugten
Raum für
ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt
(der dem Schritt S8 in 1 entspricht) zum Anwenden einer
linearen Transformation auf das im Auswahlschritt ausgewählte Modell,
damit das Modell eine weiter erhöhte
Wahrscheinlichkeit ergibt.
-
Verrauschte
Sprache mit veränderlichem SNR
kann ohne weiteres behandelt werden, wobei Rechenkosten gespart
werden können,
indem dieses Verfahren ausgeführt
wird und der Raum für
ein verrauschtes Sprachmodell mit Baumstruktur für Spracherkennung verwendet
wird.
-
Sprachmodell-Rauschanpassungsprogramm
-
Ein
Programm zum Ausführen
des in 1 gezeigten Prozesses kann bereitgestellt und
zum Steuern eines Computers verwendet werden, um dieselben Auswirkungen,
wie sie oben beschrieben worden sind, zu ergeben. Das Programm ist
ein Rauschanpassungsprogramm für
Spracherkennung, das einen Computer so steuert, dass er ein Sprachmodell für ein beliebiges
Rauschen, das durch Verwendung aller Teile von in einer Rausch-Datenbank
gespeicherten Rauschdaten und reinen Sprachdaten gelernt worden
ist, auf Sprache, die in einer verrauschten Umgebung erkannt werden
soll, anpasst. Das Programm umfasst einen Sammelschritt (der den Schritten
S1 bis S4 in 1 entspricht) zum Sammeln aller
Teile von in der Rausch-Datenbank gespeicherten rauschangereicherten
Sprachdaten, einen Sprachmodellraum-Erzeugungsschritt (der dem Schritt
S5 in 1 entspricht) zum Erzeugen eines Raums für ein verrauschtes
Sprachmodell mit Einzelbaumstruktur anhand des Ergebnisses des Sammelns
in dem Sammelschritt, einen Parameterextraktionsschritt (der dem
Schritt S6 in 1 entspricht) zum Extrahieren
eines Sprachmerkmalsparameters von zu erkennender eingegebener verrauschter Sprache,
einen Auswahlschritt (der dem Schritt S7 in 1 entspricht)
zum Auswählen
eines optimalen Modells aus dem in dem Sprachmodellraum-Erzeugungsschritt
erzeugten Raum für
ein verrauschtes Sprachmodell mit Baumstruktur und einen Lineartransformationsschritt
(der dem Schritt S8 in 1 entspricht) zum Anwenden einer
linearen Transformation auf das im Auswahlschritt ausgewählte Modell,
damit das Modell eine weiter erhöhte
Wahrscheinlichkeit ergibt.
-
Verrauschte
Sprache mit veränderlichem SNR
kann ohne weiteres behandelt werden, wobei Rechenkosten gespart
werden können,
indem dieses Verfahren ausgeführt
wird und der Raum für
ein verrauschtes Sprachmodell mit Baumstruktur für Spracherkennung verwendet
wird.
-
Ein
Speichermedium zum Speichern des Programms kann ein Halbleiterspeicher,
eine Magnetplatte, eine optische Platte oder ein anderes Speichermedium
sein, was in 1 nicht gezeigt ist.
-
Automatische
Spracherkennungssysteme können
im Allgemeinen unter Laborbedingungen gut arbeiten, jedoch fallen
ihre Leistungen in realen Anwendungen ab. Ein Problem bei Realwelt-Anwendungen
ist die Verringerung der Leistung der Erkennung von Sprache, die
Hintergrundrauschen oder Hintergrundmusik enthält. Die vorliegende Erfindung kann
diese Problem des Rauschens lösen
und die Genauigkeit der Erkennung von rauschangereicherter Sprache
verbessern.