EP0240679B1

EP0240679B1 - Ausbildung von in einem Spracherkennungssystem verwandten Markov-Modellen

Info

Publication number: EP0240679B1
Application number: EP87102423A
Authority: EP
Inventors: Lalit Rai Bahl; Peter Fitzhugh Brown; Peter Vincent Desouza; Robert Leroy Mercer
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-27
Filing date: 1987-02-20
Publication date: 1992-04-29
Also published as: US4827521A; DE3778579D1; JPS62231995A; CA1262188A; EP0240679A1; JPH0372998B2

Claims

Verfahren zur Darstellung von Wörtern oder Teilen davon durch Markov Modelle, in dem Kennzeichnungen aus einem Alphabet von Kennzeichnungen als Folge einer Spracheingabe zu aufeinanderfolgenden Kennzeichnungszeiten erzeugt, und in dem Wörter oder Teile davon in Wahrscheinlichkeitsform durch Markov Modelle dargestellt werden, worin jedes Markov Model gekennzeichnet ist durch (i) Zustände, (ii) Zuständen-Übergänge zwischen Zuständen, und (iii) Wahrscheinlichkeitsposten, worin einige Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben, die der Wahrscheinlichkeit eines vollzogenen Überganges in einem gegebenen herangezogenen Model, und worin andere Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben, die der Wahrscheinlichkeit dafür daß eine spezielle Kennzeichnung an einem Übergang von einem oder mehreren vorbestimmten Übergängen in einem gegebenen Model erzeugt wird, entsprechen,

und wobei das Verfahren ein Verfahren einschließt zur Bewertung von Zählständen von denen die Wahrscheinlichkeitsposten abgeleitet werden und das die folgenden Schritte enthält:
a) Definierung eines Satzes von Zählständen, wobei jeder Zählstand einen gespeicherten Wert hat, welcher der Wahrscheinlichkeit eines speziellen vollzogenen Überganges τ_i von einem speziellen Zustand S_j zu einer speziellen Kennzeichnungsintervallzeit t für eine spezielle Folge von erzeugten Kennzeichnungen entspricht und worin die Wahrscheinlichkeitsposten vorab definierte Werte ϑ' haben;

b) Ableiten eines berechneten Wertes für jeden Wahrscheinlichkeitsposten aus den gespeicherten entsprechenden Zählstandswerten;

c) Äußerung eines bekannten Gegenstandswortes und Erzeugung einer Ausgabeinformation als Antwort auf die Äußerung;

d) Auswahl eines inkorrekten vom bekannten Wort verschiedenen Wortes und Bestimmung für jeden Zählstand, der bei der Ableitung des Wertes eines Wahrscheinlichkeitspostens in dem Model des genannten inkorrekten Wortes verwendet wurde, eines Minuszählstandswertes aus der erzeugten Ausgabeinformation des geäußerten bekannten Wortes;

e) Definition eines angepaßten Zählstandswertes worin der gespeicherte Wert für jeden Zählstand als Addend und der Minuswert von jedem Zählstand als Subtrahend dient;

f) Bestimmung für jeden Zählstand, der bei der Ableitung eines Wahrscheinlichkeitspostens im Model des bekannten Wortes verwendet wurde, eines Pluszählstandswertes aus der erzeugten Ausgabeinformation des geäußerten bekannten Wortes;

g) Verwendung des Pluszählstandswertes eines Gegenstandszählstandes als Addend bei der Definition des angepaßten Zählstandswertes für den Gegenstandszählstand; wobei der angepaßte Wert für den Gegenstandszählstand bestimmt wird durch Addition des gespeicherten Wertes und des Pluszählstandswertes und Subtraktion des Minuszählstandswertes;

h) Wiederholung der Schritte (c bis g) für jedes Wort in einem vorbestimmten Skriptum;

j) Wiederberechnung der Werte der Wahrscheinlichkeitsposten basierend auf den jüngsten angepaßten Werten der Zählstände nach dem Schritt (h);

k) Bildung einer geordneten Liste von Kandidatenwörtern aus den Wörtern im Vokabular zur Auswahl eines inkorrekten Wortes; und

l) Auswahl als inkorrektes Wort des Wortes, das die höchste Wahrscheinlichkeit dafür aufweist, daß es fälschlich als geäußertes bekanntes Gegenstandswort ausgewählt wurde.
Verfahren nach Anspruch 1 worin jeder Übergangs-Wahrscheinlichkeitsposten Pr(τ_i|S_j) wie folgt definiert wird:
worin Y eine Folge von Kennzeichnungen darstellt;

und worin jeder Ausgabe-Wahrscheinlichkeitsposten Pr( f_h|τ_i,S_j) einer Kennzeichnung definiert wird als:
worin f_h einer bestimmten Kennzeichnung entspricht, die aus dem Kennzeichnungsalphabet ausgewählt wurde, und y_t einer Kennzeichnung entspricht, die zum Zeitintervall t erzeugt wurde.
Verfahren nach Anspruch 1 worin der genannte Schritt zur Bildung der Liste folgende Schritte einschließt:

Charakterisierung jedes Wortes als eine Folge von Lautelementen, worin jedes Lautelement (i) eine Beginnzeit-Verteilung von Wahrscheinlichkeiten q_n entsprechend den bezüglichen aufeinanderfolgenden Beginnzeiten t_n hat,

(ii) eine Vielzahl von Zuständen zwischen denen Übergänge auftreten hat,

(iii) eine Vielzahl von Übergangs-Wahrscheinlichkeiten hat, die jede die Wahrscheinlichkeit dafür angibt, daß ein gegebener Übergang in einem gegebenen Lautelement auftrifft,

(iv) eine Vielzahl von aktuellen Kennzeichnungswahrscheinlichkeiten hat, wobei jede aktuelle Ausgabewahrscheinlichkeit die Wahrscheinlichkeit angibt, daß ein bestimmtes Lautelement eine bestimmte Kennzeichnung bei einem bestimmten Übergang in einem bestimmten Lautelement erzeugt;
und

Bildung einer annähernden Übereinstimmung für ein Gegenstandswort, einschließlich der folgenden Schritte:

Ersatz aller aktuellen Kennzeichnungswahrscheinlichkeiten, die zu einer bestimmten Kennzeichnung gehören, die von einem bestimmten Lautelement bei einem Übergang im Lautelement erzeugt wird, durch einen entsprechenden speziellen Ersatzwert;

Bestimmung für die im Gegenstandswort aufeinanderfolgenden Lautelemente der Wahrscheinlichkeit Φ_n dafür, daß ein Lautelement zu einer zugehörigen aus einer Vielzahl von aufeinanderfolgenden Schlußzeiten t_n endet als Funktion von: Beginnzeitverteilung, der Wahrscheinlichkeit des Lautelementes dafür, daß eine Folge von Kennzeichnungen jeweils von bestimmten Längen erzeugt wird, und davon des Ersatzwertes p'(y_k) für jede zugehörige Kennzeichnung y_k die vom Lautelement zur Erzeugung der ankommenden Folge von Kennzeichnungen erzeugt werden soll;

Kennzeichnung der Kennzeichnungslängen-Verteilung als uniform zwischen einer minimalen Länge und einer maximalen Länge, wobei die Wahrscheinlichkeit an anderen Stellen auf Null gesetzt wird;

wobei jedes Φ_n hierbei eine Funktion ist von: Beginnzeitverteilung, uniformer Wahrscheinlichkeit für jede Länge zwischen der minimalen Länge und der maximalen Länge, und des Ersatzwertes p'(y_k) für jede zugehörige Kennzeichnung y_k die vom Lautelement erzeugt wird um die eingehende Folge von Kennzeichnungen zu produzieren;

Kombination der Werte für die aufeinanderfolgenden Werte Φ_n zur Ableitung eines Übereinstimmungswertes für die hierzu entsprechenden Lautelemente; und Kombination der Übereinstimmungswerte für aufeinanderfolgende Lautelemente in einem Gegenstandswort zur Erzeugung eines Wort-Übereinstimmungsergebnisses;

Bildung einer Liste von Kandidatenwörtern in der Reihenfolge der Wort-Übereinstimmungsergebnisse, wobei zumindest die meisten der Wörter im Vokabular von der gebildeten Liste ausgeschlossen werden.
Verfahren nach Anspruch 1 mit den weiteren folgenden Schritten:
m) Bestimmung der Wahrscheinlichkeit mit der das Model des korrekten Wortes die erzeugte Ausgabeinformation produziert;

n) Bestimmung der Wahrscheinlichkeit mit der das Model des ausgewählten inkorrekten Wortes die erzeugte Ausgabeinformation produziert;

p) Vergleich der in den Schritten m) und n) bestimmten Wahrscheinlichkeiten;

q) Abhängigmachen der Definition eines angepassten Zählstandswertes von der Bedingung ob die Wahrscheinlichkeit des korrekten Wortes die Wahrscheinlichkeit des inkorrekten Wortes nicht mit einer vorgeschriebenen Erhöhung überschreitet.
Verfahren nach Anspruch 4 worin die Bestimmung des Minuszählstandswertes für einen Gegenstandszählstand die folgenden Schritte einschließt:
r) Bestimmung eines minus-kumulativen Zählstandswertes für jeden Wahrscheinlichkeitsposten in der Grundform des inkorrekten Wortes, wobei der minus-kumulative Zählstandswert auf der Ausgabeinformation basiert, die als Antwort auf die Äußerung des bekannten Gegenstandswortes erzeugt wird und einem speziellen Übergang Φ_i entspricht, der von einem speziellen Zustand S_j zu allen Kennzeichnungsintervallzeiten t in dem Wortmodel des auswählten inkorrekten Wortes stattfindet, wobei die Wahrscheinlichkeitsposten vorher definierte Werte haben.
Verfahren nach Anspruch 5 worin der Schritt (r) den folgenden Schritt einschließt:
s) Anwendung des vorwärts-rückwärts Algorithmus auf das Wortmodel für das ausgewählte inkorrekte Wort, basierend auf der Ausgangsinformation die in Beantwortung der Äußerung des bekannten Gegenstandswortes erzeugt wird, um die minus-kumulativen Zählstandswerte zu bestimmen.
Verfahren nach Anspruch 5 worin die Bestimmung des Plus Zählstandswertes für einen Gegenstandszählstand den folgenden Schritt einschließt:
t) Bestimmung eines plus-kumulativen Zählstandwertes für jeden Wahrscheinlichkeitsposten in der Grundform des korrekten Wortes, wobei der plus-kumulative Zählstandswert basiert auf der Ausgangsinformation, die in Beantwortung auf die Äußerung des bekannten Gegenstandswortes erzeugt wird und einem speziellen Übergang _i entspricht, der von einem speziellen Zustand S_j zu allen Kennzeichnungsintervallzeiten im Wortmodel des korrekten Wortes stattfindet, worin die Wahrscheinlichkeitsposten vorher definierte Werte haben.
Verfahren nach Anspruch 7 worin der Schritt (t) den folgenden Schritt einschließt:
u) Anwendung des vorwärts-rückwärts Algorithmus auf das Wortmodel für das ausgewählte inkorrekte Wort basierend auf der Ausgabeinformation, die in Beantwortung auf die Äußerung des bekannten Gegenstandswortes erzeugt wird, zur Bestimmung der plus-kumulativen Zählstandwerte.
Verfahren nach Anspruch 8 worin die Schritte a) bis u) einen Zyklus enthalten, der aufeinanderfolgend für eine vorbestimmte Anzahl von Wiederholungen wiederholt wird,

wobei jeder Zyklus mit gespeicherten Werten durchgeführt wird, die im jüngsten vorhergehenden Zyklus fortgeschrieben wurden.
Verfahren nach Anspruch 1 worin die Bestimmung der Minuszählstandswerte die folgenden Schritte einschließt:
v) Bestimmung eines ersten Wertes für einen Gegenstands-Zählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im inkorrekten Wort verwendet wurde, wobei dieser erste Wert den erwarteten Eintritt eines Ereignisses anzeigt, das dem Gegenstandszählstand im Model des inkorrekten Wortes entspricht, basierend auf der Ausgabeinformation die in Beantwortung auf die Äußerung des bekannten Wortes erzeugt wurde;

w) Skalierung des ersten Wertes mit einem vorbestimmten Betrag;

x) wobei der skalierte Wert den Minuszählstandswert für den Gegenstandszählstand darstellt; und

y) Wiederholung der Schritte v) bis x) bis jeder Zählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im Model des inkorrekten Wortes verwendet wurde, der Gegenstandszählstand in zumindest einer Wiederholung gewesen ist.
Verfahren nach Anspruch 10 worin die Bestimmung der Pluszählstandswerte die folgenden Schritte einschließt:
aa) Bestimmung für einen Gegenstandszählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im inkorrekten Wort verwendet wurde, eines ersten Wertes für das Ereignis, das dem Gegenstandszählstand im Model des inkorrekten Wortes entspricht, basierend auf der Ausgabeinformation die in Beantwortung auf die Äußerung des bekannten Wortes erzeugt wurde;

bb) Skalierung des ersten Wertes mit einem vorbestimmten Betrag;

cc) wobei der skalierte Wert den Pluszählstandswert für den Gegenstandszählstand darstellt;

dd) Wiederholung der Schritte aa) bis cc) bis jeder Zählstand, der bei der Ableitung eines Wahrscheinlichkeitswertes für einen Wahrscheinlichkeitsposten im Model des inkorrekten Wortes verwendet wurde, der Gegenstandszählstand in zumindest einer Wiederholung gewesen ist.
Verfahren nach Anspruch 1 mit dem folgenden weiteren Schritt:
ee) Bestimmung der Maximum-Wahrscheinlichkeits-Trainingswerte für Zählstände die den Ausdruck Pr(Y|M) maximieren, worin Y eine Folge von Kennzeichnungen darstellt, die während des anfänglichen Trainings erzeugt wurden und M ein definiertes Markov Model darstellt, das Maximum Wahrscheinlichkeitswerte für seine Wahrscheinlichkeitsposten einschließt;

ff) wobei die Anpassung der Zählstandwerte mit den Maximum-Wahrscheinlichkeits-Trainingswerten als aktuelle Werte beginnt.
Verfahren nach Anspruch 1 mit den folgenden weiteren Schritten:
gg) Bestimmung der Maximum-Wahrscheinlichkeits-Trainingswerte für Wahrscheinlichkeitsposten welche den Ausdruck Pr(Y|M) maximieren, worin Y eine Folge von Kennzeichnungen darstellt die während eines anfänglichen Trainings erzeugt wurden und M ein definiertes Markov Model darstellt, das Maximum-Wahrscheinlichkeitswerte für seine Wahrscheinlichkeitsposten einschließt;

hh) wobei die Anpassung der Wahrscheinlichkeitsposten mit den Maximum-Wahrscheinlichkeits-Trainingswerten als berechnete Werte im Schritt b) beginnt.
Verfahren nach Anspruch 13 worin der genannte Schritt zur Bildung einer Liste die folgenden Schritte einschließt:

Kennzeichnung eines jeden Wortes als eine Folge von Lautelementen, worin jedes Lautelement
(i) eine Beginnzeitverteilung von Wahrscheinlichkeiten q_n hat, die entsprechenden aufeinanderfolgende Beginnzeiten t_n entsprechen,

(ii) eine Vielzahl von Zuständen aufweist zwischen denen Übergänge auftreten,

(iii) eine Vielzahl von Übergangswahrscheinlichkeiten hat, wobei jede davon die Wahrscheinlichkeit angibt, daß ein gegebener Übergang in einem gegebenen Lautelement auftritt,

(iv) eine Vielzahl von aktuellen Kennzeichnungswahrscheinlichkeiten hat, wobei jede aktuelle Ausgabewahrscheinlichkeit die Wahrscheinlichkeit angibt, daß ein bestimmtes Lautelement eine bestimmte Kennzeichnung bei einem bestimmten Übergang im bestimmten Lautelement erzeugt;
Bildung einer angenäherten Übereinstimmung für ein Gegenstandswort mit Einschluß der folgenden Schritte:

Ersetzen aller aktuellen Kennzeichnungswahrscheinlichkeiten die zu einer gegebenen Kennzeichnung gehören die von einem gegebenen Lautelement bei einem Übergang darin erzeugt wurden durch einen entsprechenden speziellen Ersatzwert;

Bestimmung für die Lautelemente im Gegenstandswort nacheinander der Wahrscheinlichkeit Φ_n dafür, daß ein Lautelement zu einer bezüglichen einer Vielzahl von aufeinanderfolgenden Endzeiten t_n endet, als Funktion einer Beginnzeitverteilung, der Wahrscheinlichkeit dafür, daß das Lautelement eine Kennzeichnungsfolge von jeder von verschiedenen Längen erzeugt, und dafür, daß der Ersatzwert p'(y_k) für jede bezügliche Kennzeichnung y_k die vom Lautelement erzeugt wird die eingehende Folge von Kennzeichnungen erzeugt;

Kennzeichnung der Kennzeichnungslängenverteilung als uniform zwischen einer minimalen Länge und einer maximalen Länge, wobei die Wahrscheinlichkeit an anderen Werten auf Null gesetzt wird;

wobei jedes Φ_n dabei eine Funktion der Beginnzeitverteilung, der uniformen Wahrscheinlichkeit für jede Länge zwischen der minimalen Länge und der maximalen Länge, und des Ersatzwertes p'(y_k) für jede bezügliche Kennzeichnung y_k ist, die vom Lautelement zur Erzeugung der eingehenden Folge von Kennzeichnungen erzeugt wird;

Kombination der Werte für die aufeinanderfolgenden Wahrscheinlichkeiten Φ_n zur Ableitung eines Übereinstimmungswertes für das entsprechende Lautelement;

Kombination der Übereinstimmungswerte für aufeinanderfolgende Lautelemente in einem Gegenstandswort zur Verfügungstellung eines Wort-Übereinstimmungsergebnisses; und

Bildung einer Liste von Kandidatenwörter in der Reihenfolge der Wort-Übereinstimmungsergebnisse, wobei zumindest die meisten der Wörter im Vokabular in der gebildeten Liste ausgeschlossen werden.
Spracherkennungssystem, in dem Kennzeichnungen aus einem Alphabet von Kennzeichnungen zu aufeinanderfolgenden Kennzeichnungszeiten in Antwort auf eine Spracheingabe erzeugt werden und in dem Wörter oder Teile davon in Wahrscheinlichkeitsform durch Markov Modelle dargestellt werden, worin jedes Markov Model gekennzeichnet ist durch (i) Zustände (ii) Übergänge zwischen den Zuständen und (iii) Wahrscheinlichkeitsposten, worin einige Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben die der Wahrscheinlichkeit entsprechen mit der ein Übergang in einem gegebenen Model stattfindet und worin andere Wahrscheinlichkeitsposten Wahrscheinlichkeitswerte haben die der Wahrscheinlichkeit entsprechen, mit der eine spezielle Kennzeichnung bei einem Übergang von einem oder mehreren vorbestimmten Übergängen in einem gegebenen Model erzeugt wird, wobei das System Mittel einschließt zur Bewertung von Zählständen von denen die Wahrscheinlichkeitswerte abgeleitet werden, welches System enthält:
a) Mittel zur Bestimmung eines Satzes von Zählständen, wobei jeder Zählstand einen gespeicherten Wert hat, der der Wahrscheinlichkeit entspricht, mit der ein spezieller Übergänge τ_i von einem speziellen Zustand S_j zu einer speziellen Kennzeichnungsintervallzeit t für eine spezielle Folge von erzeugten Kennzeichnungen stattfindet und worin die Wahrscheinlichkeitsposten vorher definierte Werte ϑ' haben;

b) Mittel zur Ableitung eines berechneten Wertes für jeden Wahrscheinlichkeitsposten aus den gespeicherten entsprechenden Zählstandswerten;

c) Mittel zur Erzeugung von Ausgangsinformationen in Antwort auf die Äußerung eines bekannten Gegenstandswortes;

d) Mittel zur Auswahl eines inkorrekten Wortes welches verschieden ist vom bekannten und Bestimmung für jeden Zählstand, der in der Ableitung des Wertes eines Wahrscheinlichkeitspostens in dem Model des genannten inkorrekten Wortes verwendet wurde, eines Minuszählstandswertes aus der erzeugten Ausgabeinformation für das geäußerte bekannte Wort;

e) Mittel zur Definition eines angepaßten Zählstandswertes, worin der gespeicherte Wert für jeden Zählstand als Addend und der Minuswert für jeden Zählstand als Subtrahend dient;

f) Mittel zur Bestimmung für jeden Zählstand, der zur Ableitung eines Wahrscheinlichkeitspostens im bekannten Wortmodel verwendet wurde, eines Pluszählstandswertes aus der erzeugten Ausgabeinformation für das geäußerte bekannte Wort;

g) wobei der Pluszählstandswert eines Gegenstandszählstandes als Addend dient zur Definition des angepaßten Zählstandswertes für den Gegenstandszählstand;

wobei der angepaßte Wert eines Gegenstandszählstandes bestimmt wird durch Addition des gespeicherten Wertes und des Pluszählstandswertes und durch Subtraktion des Minuszählstandswertes;

h) Mittel zur Wiederholung der Schritte c) bis g) für jedes Wort in einem vorbestimmten Skriptum;

j) Mittel zur Wiederberechnung der Werte der Wahrscheinlichkeitsposten basierend auf den jüngsten angepaßten Werten der Zählstände nach Schritt h);

k) Mittel zur Bildung einer geordneten Liste von Kandidatenwörtern aus den Wörtern im Vokabular zur Auswahl eines inkorrekten Wortes;

l) Mittel zum Auswählen als ausgewähltes inkorrektes Wort des Wortes, das die höchste Wahrscheinlichkeit dafür aufweist, fälschlich als geäußertes bekanntes Gegenstandwort ausgewählt zu werden.