DE69915449T2

DE69915449T2 - Verfahren zur bestimmunng von parametern eines statistischen sprachmodells

Info

Publication number: DE69915449T2
Application number: DE69915449T
Authority: DE
Inventors: Reinhard Blasig
Original assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips Electronics NV
Current assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips NV
Priority date: 1998-10-21
Filing date: 1999-10-11
Publication date: 2005-03-03
Anticipated expiration: 2019-10-12
Also published as: US6691088B1; EP1046157A1; JP2002528752A; EP1046157B1; DE69915449D1; WO2000023983A1

Description

Die Erfindung betrifft ein Verfahren zur Bestimmung von Parametern eines statistischen Sprachmodells für automatische Spracherkennungssysteme mittels eines Trainingskorpus.
In automatischen Spracherkennungssystemen, die auf großen Vokabularien basieren und beispielsweise im Rahmen von Diktiersystemen eingesetzt werden, werden einerseits akustische Modelle und andererseits Sprachmodelle eingesetzt, die über die Bayes-Formel miteinander verknüpft sind. Der akustischen Modellierung liegen sogenannte HMM ("Hidden Markov Models") zugrunde. Bei der Sprachmodellierung werden einzelnen Vokabularelementen wie Wörtern oder Folgen von Vokabularelementen (sogenannten n-Grammen), wie beispielsweise Bigrammen (n = 2) und Trigrammen (n = 3), Wahrscheinlichkeitwerte darstellende Parameterwerte des Sprachmodells zugeordnet, die aus den Auftrittshäufigkeiten (sogenannte "counts") im Trainingskorpus bestimmt werden.
Aus T. R. Niesler und P. C. Woodland, "Combination of word-based and category-based language models", Proc. ICSLP, Vol. 1, Seiten 220–223, Oktober 1996 ist es bekannt, einem Sprachmodell n-Gramme unterschiedlicher Länge n mit entsprechenden bedingten Wahrscheinlichkeiten zugrundezulegen, bei denen jeweils als Historie für ein Wort des Vokabulars entweder eine Folge von Wörtern oder eine Folge von Klassen verwendet wird, wobei eine Klasse jeweils eine Menge verschiedener Wörter des Vokabulars zusammenfaßt. Für die Fälle mit klassenbasierten Historien wird die durch Auswertung der zugehörigen Auftrittshäufigkeit abgeleitete bedingte Wahrscheinlichkeit für die vorhergesagte Klasse mit einem Wichtungsfaktor multipliziert, der der Wahrscheinlichkeit des Wortes innerhalb dieser Klasse entspricht.
Der Erfindung liegt die Aufgabe zugrunde, die Sprachmodellierung so zu modifizieren, daß die Perplexität und die Fehlerrate bei der Spracherkennung verbessert werden.
Die Aufgabe wird dadurch gelöst, daß mindestens ein Teil der Elemente eines verwendeten Vokabulars zu kontextunabhängigen Vokabularelementklassen zusammengefaßt wird, daß bei der Sprachmodellierung die Auftrittshäufigkeiten von Vokabular elementfolgen und gegebenenfalls die Auftrittshäufigkeiten von aus diesen Vokabularelementfolgen durch Ersetzen mindestens eines Vokabularelements durch die zugehörige Vokabularelementklasse gebildeten abgeleiteten Folgen ausgewertet werden und daß die Parameter des Sprachmodells aus den so bestimmten Auftrittshäufigkeiten abgeleitet werden.
Bei einem solchen Verfahren zur Schätzung von Sprachmodellen können die verwendeten Folgen von Vokabularelementen und/oder Vokabularelementklassen optimal an das jeweils verwendete Vokabular und Trainingsmaterial angepaßt werden. Ein Vokabularelement stellt insbesondere jeweils ein Wort dar. Die Verwendung von Vokabularelementklassen führt dazu, daß Wahrscheinlichkeitswerte besser zu schätzen sind und gegenüber einer Sprachmodellierung ohne Rückgriff auf Vokabularelementklassen zur Erzielung gleich guter Perplexitätswerte und Fehlerraten ein kleinerer Trainingskorpus ausreicht. Ein beliebiges Vokabularelement einer Vokabularelementfolge kann gegebenenfalls durch die zugehörige Vokabularelementklasse ersetzt werden. Auch der erforderliche Speicherplatz ist reduziert. Für die Vokabularelemente, bei denen eine Beschreibung mittels Klassenzuordnung weniger geeignet ist, steht bei dem erfindungsgemäßen Verfahren jedenfalls immer eine Alternative oder ein Korrektiv basierend auf reinen Vokabularelementfolgen zur Verfügung.
In einer Ausgestaltung der Erfindung werden zur Bildung eines Sprachmodellparameters aus einer Vokabularelementfolge und zugehörigen abgeleiteten Folgen, die jeweils mindestens eine Vokabularelementklasse umfassen, sowohl die Auftrittshäufigkeit der Vokabularelementfolge als auch die Auftrittshäufigkeiten der abgeleiteten Folgen verwendet. Alle für die Bestimmung eines Sprachmodellparameters gebildeten Folgen von Vokabularelementen/Vokabularelementklassen haben bei dieser Ausgestaltung einen Anteil an der Bildung dieses Sprachmodellparameters. Vorzugsweise erfolgt eine Mittelwertbildung der Sprachmodellparameter der jeweiligen Folgen von Vokabularelementen/Vokabularelementklassen.
Eine weitere Ausgestaltung kann dadurch gekennzeichnet sein, daß zur Bildung eines Sprachmodellparameters aus einer Vokabularelementfolge und zugehörigen abgeleiteten Folgen, die jeweils mindestens eine Vokabularelementklasse umfassen, lediglich die Auftrittshäufigkeit einer dieser Folgen verwendet wird. Ein mögliches Auswahlkriterium ist ein an der Maximierung der Perplexität orientiertes Kriterium.
Die Erfindung betrifft auch ein automatisches Spracherkennungssystem mit einem nach dem erfindungsgemäßen Verfahren gebildeten statistischen Sprachmodell.
Nachstehend werden Ausführungsbeispiele der Erfindung beschrieben.
Zunächst wird im folgenden eine wortbasierte Sprachmodellierung mit n-Grammen variabler Länge n (im folgenden als Varigramme bezeichnet) erläutert. Das so gebildete Sprachmodell, das auf Varigrammen bei vorgegebenem Vokabular und Trainingskorpus beruht, wird mit L bezeichnet. Bei einer gegebenen Worthistorie h_k = (w_i-k, ..., w_i-1) der Länge k wird die Wahrscheinlichkeit eines Nachfolgerworts w = w_i berechnet durch
Das Sprachmodell wird hier mittels eines Satzes von Wortsequenzen (h_k, w) und zugehörigen Auftrittshäufigkeiten N(h_k, w) im Trainingskorpus bestimmt. γ(h_k) ist ein Normalisierungsfaktor und wird so bestimmt, daß die Summe aller Wahrscheinlichkeitswerte p(w|h_k) des Sprachmodells über alle w ∊ V sich zu 1 ergibt. Der Term N₊(h_k) gibt die Anzahl unterschiedlicher Wörter w an, die als mögliche Nachfolger der Historie h_k im Trainingskorpus gesehen wurden. Die Funktion d(.) implementiert eine sogenannte "absolute discounting"-Funktion, mittels der berücksichtigt wird, daß bestimmte Wortfolgen im Trainingskorpus nicht auftreten. Auch solchen Wortfolgen wird eine gewisse Wahrscheinlichkeitmasse zugeordnet. Die Funktion d(.) wird gegeben durch:
mit d_k als einer heuristisch zu bestimmenden Konstanten vorzugsweise aus dem Intervall [0, 1] und vorzugsweise abhängig vom Wert von N(h_k, w) und der Länge k der Historie h_k.
Das erfindungsgemäße Sprachmodell beschreibt nun Worthistorien durch Folgen von Wörtern und/oder kontextunabhängige Wortklassen (auch Wortkategorien genannt) unterschiedlicher Länge, die somit auch als Varigramme bezeichnet werden können. Mindestens ein Teil der Wörter w_j des Vokabulars wird dabei durch jeweils eine Wortklasse c(w_j) zusammengefaßt, wobei hier ein Wort nur zu genau einer Klasse und nicht mehreren Klassen gehören kann. Eine Möglichkeit der Optimierung solcher Wortklassen ist bei spielsweise in R. Kneser, H. Ney, "Improved Clustering Techniques for Class-Based Statistical Language Modelling", Proc. EUROSPEECH, Seiten 973–976, September 1993 beschrieben.
Statt rein wortbasierten Historien h_k werden nun Historienbeschreibungen b_k ∊ B_L(h_k) mit B_L(h_k) ⊆ L angewendet, die aus Folgen von Wörtern und/oder Wortklassen c(.) bestehen.
Die Wortklassen sollten dabei einerseits so groß als möglich sein, damit Wörter der Wortklassen möglichst oft im Trainingskorpus gesehen werden können und die ermittelten Varigrammwahrscheinlichkeitswerte möglichst zuverlässig sind, aber andererseits sollten die Mitglieder einer Wortklasse auch so gewählt sein, daß eine möglichst große Homogenität bezüglich der Wahrscheinlichkeitwerte für ein Wort w erreicht wird, wobei Wortklassen enthaltende Historienbeschreibungen b_k gegeben sind, d. h. p(w|b_k) soll, unabhängig davon, ob ein Wort als Wort selbst oder als Element einer Wortklasse betrachtet wird, möglichst ähnliche Werte annehmen. Hier liefert der erfindungsgemäße Ansatz einen guten Kompromiß. Zu jeder Historienbeschreibung b_k werden alle Kombinationsmöglichkeiten aus Wörtern und – soweit für die Wörter vorhanden – Wortklassen für das Sprachmodell beim Zählen der Auftrittshäufigkeiten N(h_k, w) berücksichtigt. Bei einer Historienbeschreibung der Länge k ergeben sich dann jeweils 2^k Kombinationsmöglichkeiten, d. h. 2^k verschiedene zugehörige Historienbeschreibungen b_k. Beispielsweise erhält man bei einer Historienbeschreibung b_k der Länge k = 2, bei der für jedes enthaltene Wort auch eine Wortklasse existiert, die folgenden Historienbeschreibungen für ein Wort w = w_i (bzw. für bedingte Wahrscheinlichkeiten p(w|b_k)):
w_i-2w_i-1,
c(w_i-2)w_i-1,
w_i-2c(w_i-1),
c(w_i-2)c(w_i-1).
Die Verwendung von Wortklassen hat den Vorteil, daß weniger Sprachmodellparameter zu schätzen sind, wofür wiederum kleinere Trainingskorpora ausreichen, so daß weniger Speicherplatz im verwendeten Datenverarbeitungssystem und/oder weniger Trainingsmaterial erforderlich ist. Die hier verwendeten Wortklassen sind kontextunabhängig, d. h. sie sind unabhängig von den Nachbarwörtern eines Wortes innerhalb bestimmter Varigramme. Als Wortklassen kommen beispielsweise Artikel oder Zahlwörter oder ähnlich klingende Wörter in Betracht.
Bei diesem Ansatz sind anstelle von α(w|h_k) und γ(w|h_k) modifizierte Werte α'(w|h_k) und γ'(w|h_k) gemäß
zu berechnen. Die Bestimmung von α(w|b_k) und γ(w|b_k) ergibt sich aus den bereits weiter oben angeführten Formeln für wortbasierte Varigramme, wobei lediglich anstelle der Historien h_k die Historienbeschreibungen b_k zugrundezulegen sind. In die Berechnung von α'(w|h_k) und γ'(w|h_k) gehen somit sowohl die Auftrittshäufigkeit der durch b_k repräsentierten Wortfolge als auch die Auftrittshäufigkeiten der durch b_k repräsentierten Folgen, die aus Wörtern und Wortklassen oder nur aus Wortklassen bestehen, ein. Dabei ist |B_L(h_k)| die Kardinalität der Menge B_L(h_k), d. h. gleich der Anzahl der Elemente der Menge B_L (h_k). Diese Berechnungsvariante entspricht einer Mittelwertbildung für α(w|b_k) und γ(w|b_k).
Eine weitere Variante der Erfindung nutzt ein Perplexitätskriterium zur Bestimmung von Werten α''(w|b_k) und γ''(w|b_k) anstelle der für wortbasierte Varigramme definierten Werte α(w|b_k) und γ(w|b_k). Dieses Kriterium wird definiert zu:
p_LOO(.) bezeichnet dabei eine Wahrscheinlichkeit, die mit einer sogenannten "Leaving-one-out"-Methode berechnet wird. Hierzu wird auf R. Kneser, H. Ney, "Improved Clustering Techniques for Class-Based Statistical Language Modelling", Proc. EUROSPEECH, Seiten 973–976, September 1993 verwiesen.
Nunmehr wird durch Maximumbildung
die bestgeeignete Historienbeschreibung b* ermittelt.
Dabei ist N(b) die Auftrittshäufigkeit der Historienbeschreibung b im Trainingskorpus. Die α- und γ-Werte ergeben sich dann zu
Der Ausdruck p*(b'|b*) gibt einen Wahrscheinlichkeitswert für eine Verkürzung der Historienbeschreibung b' auf die Historienbeschreibung b* mit geringerer Länge an. Dabei können Wörter in Wortklassen übergehen und umgekehrt, je nachdem, welche Wortklassen überhaupt hier in Frage kommen. Alle Varianten einer Verkürzung werden grundsätzlich in Betracht gezogen. Die genaue Wahl der Verkürzung hängt schließlich von den jeweiligen oben spezifizierten Werten Δ_LL(.)/N(.) ab.

Claims

Verfahren zur Bestimmung von Parametern eines statistischen Sprachmo- dells für automatische Spracherkennungssysteme mittels eines Trainingskorpus, wobei – mindestens ein Teil der Elemente eines verwendeten Vokabulars zu kontextunabhängigen Vokabularelementklassen zusammengefaßt wird, – bei der Sprachmodellierung die Auftrittshäufigkeiten von Vokabularelementfolgen und gegebenenfalls die Auftrittshäufigkeiten von aus diesen Vokabularelementfolgen durch Ersetzen mindestens eines Vokabularelements durch die zugehörige Vokabularelementklasse gebildeten abgeleiteten Folgen ausgewertet werden und – die Parameter des Sprachmodells aus den so bestimmten Auftrittshäufigkeiten abgeleitet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Bildung eines Sprachmodellparameters aus einer Vokabularelementfolge und zugehörigen abgeleiteten Folgen, die jeweils mindestens eine Vokabularelementklasse umfassen, sowohl die Auftrittshäufigkeit der Vokabularelementfolge als auch die Auftrittshäufigkeiten der abgeleiteten Folgen verwendet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Bildung eines Sprachmodellparameters aus einer Vokabularelementfolge und zugehörigen abgeleiteten Folgen, die jeweils mindestens eine Vokabularelementklasse umfassen, lediglich die Auftrittshäufigkeit einer dieser Folgen verwendet wird.
Automatisches Spracherkennungssystem mit einem nach einem der Ansprüche 1 bis 3 gebildeten statistischen Sprachmodell.