DE3876207T2

DE3876207T2 - Spracherkennungssystem unter verwendung von markov-modellen.

Info

Publication number: DE3876207T2
Application number: DE8888308585T
Authority: DE
Inventors: Masafumi Denendomiir Nishimura
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-10-12
Filing date: 1988-09-16
Publication date: 1993-06-03
Anticipated expiration: 2008-09-17
Also published as: DE3876207D1; US5050215A; EP0312209A3; JPH01102599A; EP0312209B1; EP0312209A2; JPH0355838B2

Description

Die vorliegende Erfindung betrifft ein Spracherkennungssystem unter Verwendung von Markov-Modellen und insbesondere ein Spracherkennungsverfahren, bei dem eine Sprecheradaptierung und Hintergrundgeräuschadaptierung auf einfache Weise erfolgen kann.
In Spracherkennungssystemen, in denen Markov-Modelle zum Einsatz kommen, wird Sprache nach Wahrscheinlichkeitsgesichtspunkten erkannt. In einem System wird beispielsweise ein Markov-Modell für jedes Wort festgelegt. Gewöhnlich werden eine Reihe von Zuständen und Übergängen zwischen den Zuständen für jedes Markov-Modell definiert, und für jeden Zustandsübergang werden Vorkommenswahrscheinlichkeiten festgelegt. Weitere Ausgabewahrscheinlichkeiten von Marken oder Symbolen werden für jeden Zustand oder Zustandsübergang festgelegt. Dem System unbekannte Sprache wird in eine Markenkette konvertiert, und danach wird die Wahrscheinlichkeit jedes Markov-Wortmodells, das die Markenkette ausgibt, auf der Basis der Übergangsvorkommenswahrscheinlichkeiten und der Markenausgabewahrscheinlichkeiten, die nachstehend als Parameter bezeichnet werden, ermittelt. Dann wird das Markov-Wortmodell, bei dem die Erzeugung der Markenkette am wahrscheinlichsten ist, ermittelt. Die Erkennung wird entsprechend diesem Ergebnis durchgeführt. In Spracherkennungssystemen, in denen Markov-Modelle zum Einsatz kommen, können die Parameter statistisch geschätzt werden, wodurch die Erkennungsquote verbessert wird.
Die Einzelheiten der oben genannten Erkennungsmethode werden in den folgenden Artikeln beschrieben:
(1): "A Maximum Likelihood Approach to Continuous Speech Recognition" (IEEE-Abhandlung zum Thema Musteranalyse und Künstliche Intelligenz , PAMI-Vol. 5, Nr. 2, S. 179-190, 1983, Lalit R. Bahl, Frederick Jelinek und Robert L. Mercer).
(2) "Continuous Speech Recognition by Statistical Methods" (IEEE-Protokolle, Vol. 64, 1976, S. 532-556, Frederick Jelinek).
(3) "An Introduction to the Application of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recognition" (The Bell System Technical Journal Vol. 64, Nr. 4, April 1983, S.E. Levinson, L.R. Rabiner und M.M. Sondhi).
Für ein Spracherkennungssystem mit Markov-Modellen sind jedoch beträchtliche Mengen an Sprechdaten erforderlich, und das Übungssprechen ist sehr zeitaufwendig. Außerdem ist bei einem System, das von einem bestimmten Sprecher trainiert wurde, die Erkennungsquote bei anderen Sprechern häufig nicht ausreichend. Wenn der zeitliche Abstand zwischen der Übung und der Erkennung beträchtlich ist (d.h. wenn ein Unterschied zwischen den beiden Stadien entsteht) ist selbst bei ein und demselben Sprecher nur eine mangelhafte Spracherkennung zu erzielen. Darüber hinaus ist eine Minderung der Erkennungsgenauigkeit aufgrund von Hintergrundgeräuschen ein weiterer Punkt, der berücksichtigt werden muß.
Seit kurzem wird verstärkt eine Adaptierung von geübten Markov-Modellen für einen Sprecher oder eine Einsatzumgebung vorgeschlagen. Diese Vorschläge lassen sich den folgenden beiden Typen zuordnen:
In Vorschlägen des ersten Typs werden Ereignishäufigkeiten, die zur Schätzung von Parametern von Markov-Modellen während der Anfangsübungen verwendet werden, reserviert, und weitere Ereignishäufigkeiten werden für Adaptierungsdaten ermittelt. Danach werden diese Ereignishäufigkeiten zwecks Schätzung von neuen Parametern interpoliert. Vorschläge dieses Typs werden beschrieben in:
(4) "Speaker Adaptation for A Hidden Markov Model", Protokolle der ICASSP '86, April 1986, 49-11, S. 2667-2670, Kazuhide Sugawara, Masafumi Nishimura, Akihiro Kuroda.
(5) Japanische Patentanmeldung Nr. 61-65030 [Europäische Patentanmeldung 87302603.3 (EP-A-243009)].
Diese Vorschläge setzen jedoch ein Übungssprechen aller zu adaptierenden Wörter voraus, und stellen folglich eine Belastung für Benutzer dar, die in Spracherkennungssystemen auf ein umfassendes Vokabular angewiesen sind. Weiterhin ist der Rechenaufwand bei diesen Vorschlägen relativ hoch.
In Vorschlägen des zweiten Typs werden die mittels der Anfangsübungen erzeugten Markov-Modelle abhängig von der Beziehung zwischen den verschiedenen Parametern modifiziert. Vorschläge dieses Typs sind niedergelegt in:
(6) "Isolated Word Recognition Using Hidden Markov Models", Protokolle der ICASSP '85, März 1985, 1-1, S. 1-4, Kazuhide Sugawara, Masafumi Nishimura, Kouichi Toshioka, Masaaki Okochi, Toyohisa Kaneko.
(7) "Rapid Speaker Adaptation Using A Probabilistic Spectral Mapping", Protokolle der TCASSP '87, März 1987, 15-3, S. 633- 638, Richard Schwartz, Yen-Lu Chow, Francis Kubala.
In der in Artikel (6) beschriebenen Methode wird die DP-Zuordnung unter mit Marken versehenen Wörtern durchgeführt, und eine Mischmatrix von Marken wird entsprechend der Beziehung zwischen den Marken im Hinblick auf einen optimalen Pfad erzeugt. Anschließend werden die Parameter der Markov-Modelle unter Verwendung dieser Mischmatrix modifiziert. Bei diesem Ansatz ist neben der Verwendung von Markov-Modellen eine DP- Zuordnung erforderlich, und dieser Ansatz zeichnet sich daher nicht durch eine gute Speichereffizienz aus. Darüber hinaus sind große Mengen an Sprechdaten für die Erzeugung einer Mischmatrix mit einer ausreichenden Genauigkeit erforderlich. Mit der in dem Artikel (7) beschriebenen Methode werden Beziehungswahrscheinlichkeiten zwischen Marken direkt in Ausgabewahrscheinlichkeiten konventioneller Markov-Modelle umgewandelt. Dieser Ansatz erfordert eine vorwärts- und rückwärtsgerichtete Berechnung und führt somit aufgrund des äußerst hohen Rechenaufwands und des benötigten Speichers zu sehr hohen Kosten.
Der folgende Artikel ist ein weiterer relevanter Beitrag zu diesem Themengebiet und behandelt die Adaptierung von Kennzeichen zur Vektorquantisierung.
(8) "Speaker Adaptation by Vector Quantization", Berichte des japanischen Instituts für Elektronik- und Kommunikationsingenieure, Dezember 1986, SP86-65, S. 33-40, Kiyohiro Shikano.
In der vorhandenen, nicht vorveröffentlichten Patentschrift EP-A-0303022 wird ein Spracherkennungssystem unter Verwendung von Markov-Modellen offenbart, das auf neue Sprecher abgestimmt werden kann. Sprecherabhängige Marken werden zur Markierung von Adaptierungssprechen verwendet, und eine Wahrscheinlichkeitsmischmatrix wird berechnet. Diese Matrix dient als Grundlage für die Berechnung neuer Markov-Modellparameter für den neuen Sprecher.
Gegenstand der vorliegenden Erfindung ist es, ein verbessertes Spracherkennungssystem zu offenbaren, in dem ein geübtes System unterschiedlichen Einsatzbedingungen angepaßt und die Adaptierung auf einfachere Weise durchgeführt werden kann.
Die vorliegende Erfindung betrifft ein Spracherkennungssystem unter Verwendung von Markov-Modellen, bei welchem Sprache mittels Marken aus einem Markensatz markiert ist, wobei die Markov-Modelle von einem Anfangsmarkensatz geübt werden, der aus Anfangsübungssprechen abgeleitet ist und unter Verwendung von Adaptierungssprechen adaptiert wird.
Gemäß der Erfindung umfaßt das Erkennungssystem Mittel zum Adaptieren des Anfangsmarkensatzes zu einem Adapatierungsmarkensatz unter Verwendung von Adaptierungssprechen durch Ändern eines Prototyps jeder Marke in dem Anfangsmarkensatz, um einen Prototyp jeder Marke in dem Adaptierungsmarkensatz zu erzeugen, wobei die Änderung aus folgendem besteht: Klassifizieren von Kennzeichenvektoren, die aus dem Adaptierungssprechen extrahiert sind, in Klassen entsprechend Markenprototypen des Anfangsmarkensatzes und Verwenden eines Durchschnitts jeder der Klassen als einen entsprechenden Prototyp des Adaptierungsmarkensatzes, Mittel zum Markieren von Adaptierungssprechen zu einer Adaptierungsmarkenkette, Mittel zum Verbinden jeder Marke in jeder der Adaptierungsmarkenketten mit jedem Zustand oder jedem Zustandsübergang eines Markov- Modells, welches der betroffenen Adaptierungsmarkenkette entspricht, wobei die Verbindung durch einen Pfad festgelegt ist, entlang dessen jede der Adaptierungsmarkenketten entweder linear oder entsprechend dem Viterbi-Algorithmus mit dem Markov-Modell ausgerichtet ist, Mittel zum Bestimmen von Tabelleneintragungen, welche folgendes kennzeichnen: die Wahrscheinlichkeit einer von dem nachfolgenden Sprecher gesprochenen Marke, die einer Marke entspricht, die von dem Referenzsprecher gesprochen ist, auf der Grundlage der Verbindung zwischen jeder Marke in der Adapierungsmarkenkette und jedem der Zustände oder Zustandsübergänge und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen, und Mittel zum Bestimmen der Wahrscheinlichkeitswerte jedes der Markov-Modelle, welche der Adaptierungsmarkenkette entsprechen, auf der Grundlage der Tabelleneintragungen und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen.
Gemäß einem Ausführungsbeispiel der Erfindung werden die Adaptierungssprechdaten zuerst markiert. Als nächstes wird jede Markenkette mit dem entsprechenden Markov-Modell hinsichtlich der Zeitabfolge verbunden. Für jedes der Markov-Modelle wurde im voraus ausgehend von einer großen Menge an Sprechdaten eine Schätzung vorgenommen. Ausgehend von den vorhandenen Verbindungen wird die Verbindungshäufigkeit zwischen jeder Marke und jedem Zustandsübergang gezählt, und aus den daraus resultierenden Zählungen werden bedingte Wahrscheinlichkeiten zwischen Marken und Zustandsübergängen veranschlagt. Unter Verwendung dieser bedingten Wahrscheinlichkeiten werden aus Parametern von Markov-Modellen, die vorher ermittelt wurden, neue Parameter gefolgert. Vor diesem Hintergrund können vor der Markierung der Adaptierungssprechdaten Markenprototypen unter Verwendung der Adaptierungssprechdaten zwecks Minimierung von Quantisierungsfehlern geändert werden.
Um den Gegenstand der Erfindung besser verständlich zu machen, wird im folgenden ein Ausführungsbeispiel dieser Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, in denen:
Fig. 1 ein Schaltbild darstellt, aus dem das Funktionsprinzip eines Spracherkennungssystems hervorgeht,
Fig. 2 ein Blockschaltbild mit einem Ausführungsbeispiel der Erfindung darstellt,
Fig. 3 ein Flußdiagramm darstellt, das die Funktionsweise des Blocks 8 (Markierung) des in Fig. 2 gezeigten Ausführungsbeispiels verdeutlicht,
Fig. 4 ein Flußdiagramm darstellt, das die Markenprototypadaptierung aus Block 7 des in Fig. 2 gezeigten Ausführungsbeispiels verdeutlicht,
Fig. 5 ein Flußdiagramm darstellt, in dem der Funktionsablauf der Anfangsübung für das Markov-Modell aus Block 11 des in Fig. 2 gezeigten Ausführungsbeispiels beschrieben wird,
Fig. 6 und Fig. 7 Schaltbilder für den in Fig. 5 veranschaulichten Funktionsablauf zeigen,
Fig. 8 ein Schaltbild zur Verdeutlichung des Funktionsablaufs der Markov-Modell-Adaptierung aus Block 12 des Ausführungsbeispiels in Fig. 2 darstellt,
Fig. 9 ein Flußdiagramm darstellt, das den in Fig. 8 gezeigten Funktionsablauf verdeutlicht, und
Fig. 10 ein Schaltbild mit den Ergebnissen des im Rahmen der vorliegenden Erfindung durchgeführten Experiments zeigt.
Die Beziehung zwischen einem Markov-Modell und einer Markenkette des Adaptierungssprechens ist in Fig. 1 dargestellt. In Fig. 1 stellt die Abszisse (x-Achse) eine Markenkette dar, die der zur Adaptierung eines Spracherkennungssystems verwendeten Sprache entspricht, und auf der Ordinaten (y-Achse) sind die Zustände eines Markov-Modells dargestellt. Eine Eingabemarke ist durch L(t) gekennzeichnet. "t" (time) steht für Zeit. Wenn V die Beziehung zwischen der Markenkette und den Zuständen des Modells darstellt, ergibt sich der Zustand Sk des Markov-Modells aus der folgenden Gleichung (siehe Fig. 1) :
Sk = V(L(t))
Die Häufigkeit der Verbindung C jeder Marke L(t) ergibt sich durch Zählen der Ausgabewahrscheinlichkeiten dieser Marke in dem Zustand Sk,P(Li Sk). Hier ist Li eine Markenkennung für Anfangsübungen und Lj (siehe unten) eine für Adaptierungen verwendete Markenkennung.
Die Wahrscheinlichkeit, mit der die Marke Lj mit der Marke Li verbunden wird, erhält man durch Standardisieren der Häufigkeit C für jede Marke Li, wie durch nachstehende Gleichung ausgedrückt wird:
Die Ausgabewahrscheinlichkeit P (Li Sk) eines zuvor definierten Markov-Modells wird durch den folgenden Ausdruck mit der obigen Wahrscheinlichkeit P(Lj, Li) interpretiert, um Parameter zu erzeugen, in denen sich die Adaptierungsdaten genau widerspiegeln.
Analog dazu werden zur Ermittlung der Übergangswahrscheinlichkeiten die Verbindungshäufigkeiten zwischen den Zustandsübergängen unter Verwendung der Übergangshäufigkeit in jedem Zustand P(Ti Sk) entlang des Zustandsübergangspfads gezählt, welcher durch die Beziehung zwischen der Markenkette des Adaptierungssprechens und den Zuständen des Markov-Modells definiert ist. Die Wahrscheinlichkeit P(Tj Ti) ergibt sich aus der Standardisierung der Häufigkeit. Die zuvor festgelegten Übergangswahrscheinlichkeiten werden durch den folgenden Ausdruck mit den obigen Wahrscheinlichkeiten P(Tj Ti) umgewandelt und anschließend für die Spracherkennung verwendet.
In der obigen Diskussion wird eine Erklärung für den Fall gegeben, in dem ein Markov-Modell Markenausgabewahrscheinlichkeiten und Zustandsübergangswahrscheinlichkeiten als getrennte Wahrscheinlichkeitsparameter besitzt. Die vorliegende Erfindung kann auf den Fall angewandt werden, in dem jeder Zustand Markenausgabewahrscheinlichkeiten aufweist.
Eine weitere Adaptierung nur im Hinblick auf Markenprototypen oder nur im Hinblick auf Parameter von Markov-Modellen ist möglich.
Wie durch Fig. 1 belegt wird, sind in dem obigen Beispiel die Marken L(t) mit den Zuständen Sk unter Verwendung des Pfads verbunden, entlang dessen Verlauf die Markenkette am günstigsten auf das Markov-Modell ausgerichtet ist. Zu diesem Zweck kann ein Viterbi-Algorithmus für Spracherkennung ohne Änderungen verwendet werden. Die Verbindung ist jedoch nicht auf die obige Situation beschränkt und kann auch geändert werden. Beispielsweise kann eine Markenkette mit den einzelnen Zuständen linear verbunden werden.
Im folgenden wird die vorliegende Erfindung unter Bezugnahme auf die beigefügten Zeichnungen anhand eines Ausführungsbeispiels beschrieben, das auf ein Worterkennungssystem angewandt wird.
In Fig. 2, in dem das Ausführungsbeispiel insgesamt veranschaulicht wird, werden die Sprechdaten einem A/D-Wandler 3 über ein Mikrofon 1 und einen Verstärker 2 zur Umwandlung in Digitaldaten zugeführt; diese Digitaldaten werden wiederum in einen Block 4 zur Kennzeichenextraktion eingespeist. In dem Block 4 zur Kennzeichenextraktion werden die Sprechdaten zuerst nach dem Fourier-Verfahren umgewandelt und anschließend an jedem Kanal eines 20-kanaligen kritischen Bandpaßfilters ausgegeben, auf dem akustische Richtungskennzeichen reflektiert werden. Die Ausgabe wird alle 8 Millisekunden über ein Fenster von 25,6 Millisekunden in die nächste Stufe eingespeist, einem Schaltblock 5, und nachfolgend entweder an einen Markenprototyp-Anfangsübungsblock 6, an einen Markenprototyp-Adaptierungsblock 7 oder an einen Markierungsblock 8 weitergeleitet. Bei dem anfänglichen Training der Markenprototypen wird von Schaltblock 5 zum Markenprototyp- Übungsblock 6 umgeschaltet und die Ausgabe des kritischen Bandpaßfilters zu dem oben erwähnten Übungsblock 6 weitergeleitet. Der Übungsblock 6 erzeugt mittels Clustering ein Wörterbuch aus 128 Markenprototypen. Während des Adaptierens von Markenprototypen schaltet der Schaltblock 5 zum Adaptierungsblock 7 um, wodurch das durch die Anfangsübungsmarkenprototypen erzeugte Prototyp-Wörterbuch 9 adaptiert wird. Einzelheiten zu dem Adaptierungsblock werden an späterer Stelle unter Bezugnahme auf Fig. 3 beschrieben. Während der Spracherkennung, des anfänglichen Übens von Markov-Modellen oder deren Anpassung schaltet der Schaltblock 5 zum Markierungsblock 8 um, der anschließend Markierungen unter Bezugnahme auf das Markenprototypwörterbuch 9 durchführt. Die im Rahmen von Anfangsübungen erzeugten Markenprototypen werden ohne jede Änderung für Anfangsübungen für die Markov-Modelle verwendet.
Die Markierung kann wie in Fig. 3 dargestellt durchgeführt werden, in der X das Eingabekennzeichen, Yi das Kennzeichen des i-ten Prototyps, N die Gesamtzahl der Prototypen (=128), dist (X, Yi) die euklidische Distanz zwischen X und Yi und m den Mindestwert unter den vorherigen Distanzen (X, Yi) darstellt. m wird mit einem sehr hohen Wert initialisiert. Wie aus der Abbildung hervorgeht, werden die X-Werte der Eingabekennzeichen ihrerseits mit jedem Kennzeichenprototyp verglichen, und für jedes Eingabekennzeichen wird der ähnlichste Prototyp (d.h. der Prototyp mit der kürzesten Distanz) als ermittelte Marke oder Markennummer L ausgewählt.
Wie oben beschrieben, erzeugt der Markierungsblock 8 eine Ausgabemarkenkette in einem Zeitraum von acht Millisekunden zwischen aufeinanderfolgenden Marken.
Wie aus Fig. 2 hervorgeht, werden Markenketten aus dem Markierungsblock 8 entweder in einen Anfangsübungsblock 11 eines Markov-Modells, einen Adaptierungsblock 12 eines Markov-Modells oder in einen Erkennungsblock 13 über einen Schaltblock 10 eingespeist. Eine ausführliche Beschreibung der Funktionsweise des Anfangsübungsblocks 11 und des Adaptierungsblocks 12 wird später unter Bezugnahme auf Fig. 5 und nachfolgende Abbildungen gegeben. Beim anfänglichen Üben des Markov-Modells schaltet der Schaltblock 10 auf den Übungsblock 11 zur Bereitstellung der entsprechenden Markenkette um. Der Übungsblock 11 legt Parameterwerte einer Parametertabelle 14 durch Üben von Markov-Modellen unter Verwendung der Markenketten fest. Beim Adaptieren schaltet der Schaltblock 10 zum Adaptierungsblock 12 um, wodurch die Parameterwerte der Parametertabelle 14 entsprechend der Beziehung zwischen den Eingabe-Markenketten und den Zuständen der Markov-Modelle adaptiert werden. Während der Erkennung schaltet der Umschaltblock 10 zum Erkennungsblock 13 um, wodurch Sprechdaten auf Basis der Markenketten und der Parametertabelle erkannt werden. Bei der Auslegung des Erkennungsblocks 13 kann zwischen der Methode der Vorwärtsberechnung oder den Vitervi-Algorithmen gewählt werden.
Die Ausgabe des Erkennungsblocks 13 wird an einen Arbeitsplatzrechner 15 weitergeleitet und kann z.B. an dessen Bildschirm angezeigt werden.
Im folgenden werden Einzelheiten zu dem Markenprototyp-Adaptierungsblock 7 beschrieben. Fig. 4 veranschaulicht den Funktionsablauf dieser Adaptierung, in der ein Markenprototyp- Wörterbuch, das während der Anfangsübungen erzeugt wurde, in Schritt 16 ausgelesen wird. In Schritt 17 werden die Sprechdaten für die Adaptierung eingespeist. Diese Sprechdaten stammen von einem Sprecher, der das Spracherkennungssystem nutzen will, und können beliebiger Art sein, z.B. Moren, Sätze, Wörter o.ä. Wenn ein Teil eines Erkennungszielvokabulars zu diesem Zweck gesprochen wird, können die Sprechdaten auch für den Adaptierungsblock 12 des Markov-Modells verwendet werden. Die Adaptierungssprechdaten werden unter Verwendung der Markenprototypen in Schritt 18 markiert. Nachdem alle Teile der Adaptierungssprechdaten markiert sind, wird für jede Markennummer der Durchschnitt von Kennzeichenvektoren der Adaptierungssprechdaten mit dieser Markennummer ermittelt, und der Markenprototyp dieser Nummer wird durch einen durchschnittlichen Kennzeichenvektor in Schritt 19 ersetzt. Die vorstehend genannten Prozeduren in den Schritten 17 bis 19 werden über eine vorbestimmte Anzahl von Durchläufen, z.B. zweimal, wiederholt, und dann ist die Adaptierung der Prototypen abgeschlossen.
In Fig. 2 können die von der gestrichelten Linie umrahmten Blöcke in der Software auf einem Host-Rechner implementiert werden. Ein Prozessorsystem IBM 3083 kann als Host-Rechner eingesetzt und CMS bzw. PL/I als Betriebssystem bzw. als Programmiersprache verwendet werden. Als Alternative können die oben aufgeführten Blöcke hardwareseitig implementiert werden.
Der Funktionsablauf für den Anfangsübungsblock 11 des Markov- Modells wird im folgenden unter Bezugnahme auf Fig. 5 und die nachfolgenden Abbildungen beschrieben. Bei den Verfahren der in Fig. 5 gezeigten Anfangsübungen wird jedes Markov-Wortmodell zuerst in Schritt 21 definiert. Fig. 6 zeigt ein Beispiel für ein Markov-Wortmodell, in dem Zustände durch kleine runde Kreise und Übergangszustände durch Pfeile gekennzeichnet sind. Die Anzahl von Zuständen einschließlich des Anfangszustands Si und des Endzustands SF beträgt 8. Es gibt drei Arten von Übergängen: Übergänge in andere Übergänge T1, Übergänge in die nächsten Zustände T2 und Null-Übergänge in die nächsten Zustände ohne Ausgabe irgendwelcher Marken T3.
Die Definition der Markov-Modelle bedeutet, daß die Parametertabelle 11 in Fig. 2 vorläufig festgelegt wird. Insbesondere wird für jedes Wort ein Tabellenformat wie in Fig. 7 gezeigt zugeordnet, und die Parameter P(Li Sk) und P(Ti Sk) werden initialisiert. Der Parameter P(Li Sk) stellt die Wahrscheinlichkeit der Ausgabe einer Marke Li in einem Zustand Sk dar, und P(Ti Sk) stellt die Wahrscheinlichkeit für das Auftreten eines Übergangs in einem Zustand Sk dar. Darüber hinaus werden in dieser Initialisierung die Parameter so gesetzt, daß Übergänge T1, T2 und T3 mit Wahrscheinlichkeiten von 0.9, 0.05 und 0.05 auftreten, und daß bei jedem Übergang alle Marken mit gleicher Wahrscheinlichkeit erzeugt werden, d.h. 1/128. In Fig. 7 sind die geübten Wahrscheinlichkeiten dargestellt.
Nach der Definition von Markov-Wortmodellen werden Anfangsübungsdaten in Schritt 22 eingespeist, die aus Markenketten bestehen, die durch Sprechen von Wörtern erhalten wurden und zehnmal erkannt werden müssen. Als Markenprototypen werden solche für Anfangsübungen verwendet. Nach Eingabe der Anfangsübungsdaten werden in Schritt 23 vorwärts- und rückwärtsgerichtete Berechnungen durchgeführt. Diese Berechnung wird für alle Anfangsübungsdaten für jedes Wort, das erkannt werden soll, durchgeführt, und die Parameter des Markov-Modells jedes Worts werden in Schritt 24 geschätzt. Die in den Schritten 22 bis 24 genannten Prozeduren werden über eine vorbestimmte Anzahl von Durchläufen, z.B. fünfmal mit neu festgelegten Parametern für jeden erneuten Durchlauf wiederholt, und nach dieser Phase ist die anfängliche Übung abgeschlossen.
Als nächsten wird der Funktionsablauf im Adaptierungsblock 12 des Markov-Modells unter Bezugnahme auf Fig. 8 und Fig. 9 beschrieben. Ein Beispiel wird untersucht, in dem einige der Zielwörter für die Adaptierung der Ausgabewahrscheinlichkeiten von Markov-Modellen verwendet werden. In Fig. 8 werden die Parameter des Markov-Modells für eines der zur Adaptierung verwendeten Wörter in Schritt 26 gelesen. Dies sind die Parameter aus den oben beschriebenen Anfangsübungen. Als nächstes werden die Sprechdaten des Adaptierungsworts in Schritt 27 eingespeist. Diese für die Adaptierung bestimmten Sprechdaten werden von dem Sprecher gesprochen, der das System benutzen will, und werden unter Verwendung der vom Adaptierungsblock 7 adaptierten Markenprototypen markiert. Dann werden die Markenketten der Adaptierungssprechdaten und die Zustände des Markov-Wortmodells miteinander entlang des bevorzugten Pfades durch einen Vitervi-Algorithmus in Schritt 28 verbunden. Wenn V die Beziehung zwischen den Marken und den Zuständen des Markov-Modells entlang des mit dem Vitervi- Algorithmus ermittelten bevorzugten Pfades angibt, kann dies durch die folgende Gleichung ausgedrückt werden:
Sk = V (L(w,t))
wobei Sk eine Zustandsnummer
L(w,t) eine Markennummer für eine Wortnummer w
und t die Zeit angibt
Entlang des Pfades werden die Wahrscheinlichkeiten, daß eine Marke Li mit Lj verbunden wird, gezählt und in Schritt 29 aufsummiert.
In Fig. 9 ist der oben beschriebene Funktionsablauf veranschaulicht.
Die obigen Prozeduren in den Schritten 26 bis 29 werden für jeden Teil der für den Adaptierungsprozeß verwendeten Sprache durchgeführt. C(Lj, Li) wird für jedes Li standardisiert, und anschließend wird P(Lj Li) in Schritt 31 bestimmt.
Schließlich werden alle Ausgabewahrscheinlichkeiten der Markov-Modelle, die während der anfänglichen Übungen erhalten wurden, unter Verwendung von P (Lj Li) in Schritt 32 umgewandelt.
Das Verfahren zur Bestimmung der Ausgabewahrscheinlichkeiten wird weiter oben erklärt. Die Übergangswahrscheinlichkeiten werden in ähnlicher Weise festgelegt.
Nach Durchführung der o.g. Schritte ist die Adaptierung abgeschlossen. Danach kann die Sprache des Sprechers, für den die Adaptierung durchgeführt wurde, mit hoher Genauigkeit erkannt werden.
Das beschriebene System kann schnell unterschiedlichen Einsatzbedingungen mit nur einer begrenzten Menge an Adaptierungsdaten angepaßt werden, z.B. mit einigen der Erkennungszielwörter. Im Vergleich mit früheren Systemen, bei denen der Sprecher jedes Sprachelement mehrmals in jeder der unterschiedlichen Einsatzbedingungen und für jedes Wort aussprechen mußte, was einen erheblichen Aufwand für den Sprecher darstellte und aufgrund des hohen Rechenaufwands beträchtliche Kosten verursachte, ermöglicht das beschriebene System beim Einsatz in Situationen, in denen die Eingabesprechdaten ein umfangsreiches Vokabular von mehr als 1000 Erkennungszielwörtern beinhalten, eine beträchtliche Reduzierung des Aufwands für den Sprecher und eine bedeutsame Erhöhung der Effizienz. Beim Einsatz des beschriebenen Systems können die für einen Sprecher zusammengetragenen anfänglichen Übungsdaten für andere Sprecher verwendet werden. Da nur P(Lj Li) und P(Tj Ti) als Tabellen für Adaptierungen für Sprecher oder Einsatzbedingungen erforderlich sind, ist nur eine geringe Speicherkapazität und Rechenleistung für das neue System erforderlich.
Ein Experiment wurde zur Bewertung eines Ausführungsbeispiels durchgeführt, in dem einhundertfünfzig einander ähnliche Wörter wie z.B. "keiho" (japanisch für Alarm) und "heiho" (japanisch für rechteckig), tyokusen (gerade Linie) und tyokuzen (unmittelbar vor) als Erkennungszielwörter verwendet wurden. In diesem Experiment sollte ein männlicher Sprecher jedes der 150 Wörter zehnmal sprechen, die als anfängliche Übungsdaten für Markenprotoypen und Markov-Modellen vorgesehen waren, und die Adaptierung für sieben Sprecher (fünf männliche, zwei weibliche Sprecher) wurde anschließend ausgewertet. Die Adaptierung wurde unter Verwendung eines Teilvokabulars (10, 25, 50, 100 und 150 Wörter, jedes Wort wurde nur einmal gesprochen) durchgeführt, und jeder Sprecher sprach jedes der 150 Wörter dreimal zur Erkennung aus. Fig. 10 zeigt das Ergebnis dieses Experiments. In dieser Abbildung sind auf der Abszisse die Anzahl von Adaptierungswörtern und auf der Ordinate die mittlere Fehlerhäufigkeit aufgetragen. Die Kreise kennzeichnen Sprechdaten von männlichen Sprechern, und die Rechtecke Sprechdaten von weiblichen Sprechern. Die durchgehenden Linien geben eine Adaptierung nur von Prototypen und die gestrichelten Linien eine Adaptierung auch von Parametern der Markov-Modelle an. Im weiteren Verlauf der durchgehenden 4%-Linie ist das Experimentergebnis der Erkennung für den Sprecher erkennbar, der das System anfänglich trainiert hat. Aus diesem Ergebnis ist erkennbar, daß die Erkennungsquoten für männliche Sprecher äquivalent zu dem Sprecher, der das System zu Beginn trainiert hat, durch Adaptierung mit 25 Wörtern an Sprechdaten verbessert werden können. Darüber hinaus kann die Adaptierung für weibliche Sprecher, die in der Vergangenheit als schwierig erachtet wurde, zufriedenstellend verwirklicht werden.
Der Geltungsbereich der vorliegenden Erfindung ist nicht auf das oben genannte Ausführungsbeispiel beschränkt, und verschiedene Änderungen können vorgenommen werden, ohne grundsätzlich vom Geltungsbereich der Erfindung abzuweichen. Beispielsweise kann diese Erfindung auf die Adaptierung von HMM- Spracherkennung des Typs Feneme angewandt werden, die in der japanischen Patentanmeldung Nr. 61-16993 (EP-A-238693) beschrieben wird. In dieser Adaptierung werden die Markenketten des Adaptierungssprechens und die Ketten von Feneme-Markov- Modellen (jede Kette, die ein Markov-Wortmodell bildet) so ausgerichtet, daß die Marken des Adaptierungssprechens den Zuständen der Markov-Wortmodelle zugeordnet werden.

Claims

1. Spracherkennungssystem mit Markov-Modellen bei welchem Sprache mittels Marken aus einem Markensatz markiert ist, wobei die Markov-Modelle von einem Anfangsmarkensatz geübt werden, der aus Anfangsübungssprechen abgeleitet ist und unter Verwendung von Adaptierungssprechen adaptiert ist, dadurch gekennzeichnet, daß das System folgendes aufweist:

Mittel (5, 7) zum Adaptieren des Anfangsmarkensatzes zu einem Adaptierungsmarkensatz unter Verwendung von Adaptierungssprechen durch Ändern eines Prototyps jeder Marke in dem Anfangsmarkensatz, um einen Prototyp jeder Marke in dem Adaptierungsmarkensatz zu erzeugen, wobei die Änderung aus folgendem besteht: Klassifizieren von Kennzeichenvektoren, die aus dem Adaptierungssprechen extrahiert sind, in Klassen entsprechend Markenprototypen des Anfangsmarkensatzes und Verwenden eines Durchschnitts jeder der Klassen wie einen entsprechenden Prototyp des Adaptierungsmarkensatzes,

Mittel (5, 8) zum Markieren von Adaptierungssprechen zu einer Adaptierungsmarkenkette,

Mittel zum Verbinden jeder Marke in jeder der Adaptierungsmarkenketten mit jedem Zustand oder jedem Zustandsübergang eines Markov-Modells, welches der betroffenen Adaptierungsmarkenkette entspricht, wobei die Verbindung durch einen Pfad festgelegt ist, entlang dessen jede der Adpatierungsmarkenketten entweder linear oder entsprechend dem Viterbi- Algorithmus mit dem Markov-Modell ausgerichtet ist,

Mittel zum Bestimmen von Tabelleneintragungen, welche folgendes kennzeichnen: die Wahrscheinlichkeit einer von dem nachfolgenden Sprecher gesprochenen Marke Lj, die einer Marke Li entspricht, die von dem Referenzsprecher gesprochen ist, auf der Grundlage der Verbindung zwischen jeder Marke in der Adaptierungsmarkenkette und jedem der Zustände oder Zustandsübergänge und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen und

Mittel zum Bestimmen der Wahrscheinlichkeitswerte jedes der Markov-Modelle, welche der Adaptierungsmarkenkette entsprechen, auf der Grundlage der Tabelleneintragungen und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen.