DE19516099C2

DE19516099C2 - Verfahren zum Bestimmen von Sprachmodellwerten

Info

Publication number: DE19516099C2
Application number: DE19516099A
Authority: DE
Inventors: Reinhard Kneser; Hermann Ney
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1995-05-05
Filing date: 1995-05-05
Publication date: 2003-07-03
Anticipated expiration: 2015-05-06
Also published as: DE19516099A1; US5745876A

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen von Sprachmodellwerten, die bei der Ermittlung von Wortfolgen aus einem Sprachsignal verwendet werden. Dabei werden aus dem Sprachsignal Testsignale abgeleitet, die mit Folgen von Referenzsigna len entsprechend Wörtern eines vorgegebenen Vokabulars verglichen werden. Aus dem Vergleich werden Bewertungswerte abgeleitet, die an Wortübergängen um einen Sprachmodellwert erhöht werden. Die um die Sprachmodellwerte erhöhten Bewertungs werte werden aufsummiert, und spätestens am Ende des Sprachsignals werden auf der Basis der günstigsten Bewertungswerte ermittelte Wortfolgen ausgegeben. Ein Verfah ren zur Anwendung von Sprachmodellwerten ist beispielsweise in der DE 41 30 632 A1 offenbart.

Die Sprachmodellwerte sollen die Wahrscheinlichkeit berücksichtigen, mit der Wort folgen einer vorgegebenen Anzahl bestimmter aufeinanderfolgender Wörter normaler weise auftreten. Bei einer Anzahl von M aufeinanderfolgenden Wörtern wird die Menge der Sprachmodellwerte als M-Gramm-Modell bezeichnet. Häufig werden die Bigramm- oder Trigramm-Modelle mit M = 2 bzw. M = 3 verwendet, jedoch sind auch Modelle M < 3 möglich, erfordern jedoch bei der Anwendung einen höheren Aufwand. Die Zuverläs sigkeit bei der Ermittlung von Wortfolgen, d. h. daß die ermittelte Wortfolge der tatsäch lich gesprochenen Wortfolge im Sprachsignal entspricht, wird durch die Verwendung von Sprachmodellen verbessert, wobei üblicherweise mit einem Trigramm-Modell bereits gute Ergebnisse erzielt werden.

Die Sprachmodellwerte werden vor der Ermittlung von Wortfolgen aus einem unbe kannten Sprachsignal in einer Testphase aus einem vorgegebenen Test-Sprachsignal ermittelt. Dafür wird die Häufigkeit gezählt, mit der die einzelnen Wortfolgen auftreten, woraus ein Wahrscheinlichkeitswert für solche Wortfolgen bestimmt wird, der im wesentlichen den Sprachmodellwert angibt. Da ein Test- Sprachsignal aus praktischen Gründen nicht allzu lang sein kann, tritt insbesondere bei einem größeren Vokabular der Fall auf, daß einige Wortfolgen in dem Test- Sprachsignal nicht vorhanden sind. Damit solche Wortfolgen jedoch nicht die Wahrscheinlichkeit Null erhalten und somit von der Erkennung ausgeschlossen werden, müssen auch solchen Wortfolgen endliche Sprachmodellwerte zugeordnet werden. Dafür werden sogenannte Rückfallstrategien verwendet, die aus den tatsächlich aufgetretenen Wortfolgen auf die Wahrscheinlichkeit der nicht aufge tretenen Wortfolgen schließen. Für solche Rückfallstrategien sind verschiedene Interpolationsmethoden bekannt.

Üblicherweise werden die Wahrscheinlichkeitswerte einzelner Wortfolgen derart gewählt, daß die Summe der Wahrscheinlichkeitswerte aller möglichen Wortfolgen den Wert 1 ergibt. Für tatsächlich aufgetretene vollständige Wortfolgen wird ein Schätzwert angenommen, der kleiner ist als die relative Häufigkeit, nämlich die Anzahl Male, daß eine bestimmte vollständige Wortfolge aufgetreten ist, zu der Anzahl Male, daß die um das letzte Wort verkürzte Wortfolge aufgetreten ist. Es wird somit also etwas von der Anzahl N abgezogen, was mit Discounting bezeichnet werden kann. Die so gewonnene Wahrscheinlichkeitsmenge wird dann gemäß einer gröberen Verteilung, nämlich einer um das erste Wort verkürzten Wortfolge, auf die nicht aufgetretenen Wortfolgen verteilt. Die jeweilige Interpolationsmethode legt hierbei die Art des Discounting fest.

Allgemein können die Interpolationsmethoden in folgendem Schema dargestellt werden:

Darin bedeuten h eine Wortfolge von Wörtern, w₁ . . . w_M-1 und b eine um das erste Wort verkürzte Wortfolge von Wörtern w₂ . . . w_M-1, ferner ist p(w_M|h) die bedingte Wahr scheinlichkeit, daß der Wortfolge h das Wort w_M folgt, α(w_M|h) die durch das Discounting entsprechend der verwendeten Interpolationsmethode bestimmte Schätz wert für die aufgetretene Wortfolge, β(w_M|b) die gröbere Verteilung für die um das erste Wort verkürzte Wortfolge und γ(h) eine Funktion aus der Forderung, daß alle Schätzwerte p in der Summe den Wert 1 ergeben. Ferner ist N(h, w_M) die Anzahl Male, daß in dem Test-Sprachsignal die Wortfolge mit den Wörtern w₁ . . . w_M aufgetreten ist.

Normalerweise wird β(w_M|b) = p(w_M|b) angenommen, d. h. also aus der Zählung der um das erste Wort verkürzten Wortfolge abgeleitet. Dies kann jedoch zumindest in einigen Fällen zu einem Sprachmodellwert für die vollständige Wortfolge, die im Test- Sprachsignal nicht aufgetreten ist, führen, die von der tatsächlichen Wahrscheinlichkeit in der natürlichen Sprache erheblich abweichen kann. Ein auf einer Rückfallstrategie beruhendes Verfahren zur Bestimmung von Sprachmodellwerten ist beispielsweise auch in der US 4 831 550 offenbart.

Aufgabe der Erfindung ist es, ein Verfahren zum Bestimmen von Sprachmodellwerten unter Verwendung von Interpolationsmethoden anzugeben, bei dem die Sprachmodellwerte für in der Testphase nicht aufgetretene Wortfolgen besser an ihre tatsächliche Wahrscheinlichkeit des Auftretens in natürlicher Sprache angepaßt werden.

Zur Lösung dieser Aufgabe wird bei Interpolationsmethoden, bei denen die Sprachmodellwerte für nicht aufgetretene Wortfolgen aus der Häufigkeit verkürzter aufgetretener Wortfolgen bestimmt wird, für die Ermittlung der Häufigkeit einer bestimmten um das erste Wort verkürzten Wortfolge jede unterschiedliche vollständige Wortfolge, in der diese verkürzte Wortfolge enthalten ist und die wenigstens einmal im Test-Sprachsignal aufgetreten ist, unabhängig von der tatsächlich aufgetretenen Häufigkeit nur höchstens einmal berücksichtigt.

Dadurch wird vermieden, daß eine vollständige im Test-Sprachsignal nicht aufgetretene Wortfolge, in der zufällig besonders häufig aufgetretene verkürzte Wortfolgen enthalten sind, einer hohen Wahrscheinlichkeit zugeordnet wird und einen entsprechenden Sprachmodellwert erhält.

Eine einfache Art, vollständige Wortfolgen nur einmal zu berücksichtigen, besteht darin, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht aufgetretene Wortfolgen berücksichtigt werden. Dadurch wird automatisch vermieden, daß einzelne häufig aufgetretene verkürzte Wortfolgen zur Annahme einer hohen Wahrscheinlichkeit auch der zugehörigen vollständigen Wortfolgen führen.

Eine andere Ausführung des erfindungsgemäßen Verfahrens besteht darin, daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufge tretenen vollständigen Wortfolgen genau einmal berücksichtigt werden. Auch dabei wird vermieden, daß häufige verkürzte Wortfolgen zu einer nicht zutreffenden Wahrscheinlichkeit für vollständige Wortfolgen führen.

Das erstgenannte Verfahren kann wie folgt ausgedrückt werden:

Darin bedeuten h' um die ersten beiden Wörter und das letzte Wort verkürzte Wortfolgen w₃ . . . w_M-1, d bezeichnet die Discounting-Wert und

ist die Anzahl der verschiedenen vollständigen Wortfolgen mit M Worten, die genau einmal vorkommen und außer im ersten Wort mit der Wortfolge, für die die Wahrscheinlichkeit bzw. der Sprachmodellwert bestimmt werden soll, übereinstimmen. Für den Fall, daß keine solche Wortfolge in dem Test-Sprachsignal aufgetreten ist, wird

aus um ein weiteres Wort verkürzten Wortfolgen nach dem gleichen Schema ermittelt. Der Discounting-Wert d kann ein konstanter Wert sein oder auch von der betreffenden Wortfolge abhängen.

Im anderen Falle sieht das Schema nahezu gleich aus, lediglich im Zähler werden nicht die nur einmal aufgetretenen verkürzten Wortfolgen gezählt, sondern alle entsprechenden Wortfolgen, die überhaupt aufgetreten sind, jedoch wird für jede aufgetretene Wortfolge nur ein Wert 1 aufakkumuliert, unabhängig davon, wie oft die betreffende Wortfolge tatsächlich aufgetreten ist.

Auf diese Weise wird ein Sprachmodell, d. h. die Sprachmodellwerte für die einzelnen Wortfolgen gebildet, bei dem die Sprachmodellwerte den tatsächlichen Wahrscheinlichkeiten der Wortfolgen in der natürlichen Sprache zumindest nahekommen.

Claims

1. Verfahren zum Bestimmen der Sprachmodellwerte für die Ermittlung von Wortfolgen aus einem Sprachsignal, aus dem Testsignale abgeleitet werden, die mit Folgen von Referenzsignalen entsprechend jeweils einem Wort eines vorgegebenen Vokabulars verglichen werden, um Bewertungswerte abzuleiten, die für jeden Übergang von einem Wort zu einem anderen Wort um einen Sprachmodellwert erhöht werden, der die relative Wahrscheinlichkeit von Wortfolgen einer vor gegebenen Anzahl definierter aufeinanderfolgender Wörter angibt, wobei die Sprachmodellwerte wenigstens eines Teils aller möglichen Wortfolgen in einer Testphase aus einem vorgegebenen Test-Sprachsignal aus der Zählung der Häufigkeit des Auftretens der einzelnen Wortfolgen ermittelt wird und die Sprachmodellwerte für solche vollständigen Wortfolgen, die in dem Test-Sprach signal nicht enthalten sind, aus den Häufigkeiten von um das erste Wort verkürzten Wortfolgen, die in solchen vollständigen Wortfolgen enthalten sind, die wenigstens einmal im Test-Sprachsignal aufgetreten sind, derart abgeleitet sind, daß jede unterschiedliche vollständige Wortfolge unabhängig von deren tatsächlich aufgetrete nen Häufigkeit nur höchstens einmal für die Ermittlung der Häufigkeit der darin enthaltenen verkürzten Wortfolgen berücksichtigt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß verkürzte Wortfolgen nur aus solchen vollständigen Wortfolgen, die genau einmal im Test-Sprachsignal aufgetreten sind, für die Sprachmodellwerte für nicht aufgetretene Wortfolgen berücksichtigt werden.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die verkürzten Wortfolgen aus jeder unterschiedlichen im Test-Sprachsignal aufgetretenen vollständigen Wortfolge genau einmal berücksichtigt werden.