DE4241688C2

DE4241688C2 - Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung

Info

Publication number: DE4241688C2
Application number: DE4241688A
Authority: DE
Inventors: Jun-Ichi Takami; Shigeki Sagayama
Original assignee: ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR Interpreting Telecommunications Research Laboratories
Priority date: 1992-03-21
Filing date: 1992-12-10
Publication date: 1996-09-19
Anticipated expiration: 2012-12-11
Also published as: DE4241688A1; US5677988A; JPH0782348B2; JPH06202687A

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung nach dem Oberbegriff des Patentanspruches 1. Insbesondere sollen die Einheit, Struktur und verschiedene Parameter der Dichtevertei lung der Ausgabewahrscheinlichkeit von Modellen auf optimale Weise zum Erzeugen eines Modelles hoher Effektivität bestimmt werden, wobei ein verdecktes Markow-Modell (Hidden-Markov-Mo del): HMM benutzt wird.

Damit eine hochgenaue und robuste Spracherkennung unter Benut zung von HMM realisiert wird, ist die simultane Realisierung der Erzeugung eines genauen Modelles und die Schätzung eines robusten Modelles ein wichtiges zu lösendes Problem. Für genaues Modellieren muß eine Allophon-Klasse geeignet bestimmt werden, die den gesamten Sprachparameterraum abdeckt, und damit ein hochrobustes Modell von begrenzten Trainingsstichproben geschätzt werden kann, muß ein Mechanismus eingeführt werden, der effektiv die Information der Trainingsstichproben aufnehmen kann.

Bei der Spracherkennung unter Benutzung von HMM werden eine Modelleinheit, Modellstruktur und Schätzung der Modellparameter unabhängig voneinander unter Benutzung verschiedener Kriterien bestimmt. Zum Beispiel wird das Kriterium der Modelleinheit auf der Grundlage von Wissen (Phonem, Halbsilbe, Phonemkontex) bestimmt, oder sie wird auf der Grundlage von Ver zerrungsminimierung bestimmt (Phonemumgebung in einer Phonem umgebungshäufung). Die Modellstruktur wird auf der Grundlage von Wissen bestimmt (ob die Modelle alle die gleichen sind, oder ob die Modelle durch verschiedene Strukturen dargestellt werden), oder sie wird auf der Grundlage der Teilung des Zu standes bestimmt, wobei Ähnlichkeit als Bezug genommen wird. Die Modellparameter werden nach dem Maximum-Likelihood-Prinzip (Methode der maximalen Stichprobenwahrscheinlichkeit oder Prinzip der größten Verläßlichkeit) gemäß des Vorwärts-Rückwärts-Algorithmus bestimmt. Folglich gibt es keine Konsistenz zwischen den Kriterien, und insgesamt kann eine optimale Lösung nicht erreicht werden.

Aus der DE 33 37 353 A1 ist ein Sprachanalysator auf der Grund lage eines verborgenen Markov-Modelles bekannt. Es weist eine Vielzahl von gespeicherten Bezugsschablonen für ein einge schränktes verborgenes Markov-Modell und eine Vielzahl von gespeicherten Signalen auf, die vorbestimmte Akustikmerkmale darstellen. Eine Eingangssprachäußerung wird unter Bildung einer Folge von akustischen Merkmalssignalen analysiert, aus denen eine Folge der gespeicherten vorbestimmten Merkmalssignale zur Darstellung des Eingangsmusters gewählt wird. Unter gemeinsamen Ansprechen auf die Markov-Modell-Bezugsschablonen und die gewählte Merkmalssignalfolge wird ein Signal erzeugt, das die Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster das jeweilige Bezugsmuster ist. Das Eingangssprachmuster wird als eines der Bezugsmuster unter Ansprechen auf die die Wahrschein lichkeit darstellende Signale identifizieren.

Aus der EP 0 312 209 A2 ist ein Spracherkennungssystem bekannt, das Markov-Modelle benutzt. Diese sind so ausgelegt, daß sie durch eine anfängliche Trainingsmenge und eine anfängliche Trainingssprache trainiert werden, wobei sie zum Erkennen von Eingangssprache benutzt werden.

Aus der US 4,783,804 ist eine Anordnung mit verdeckten Markov- Modellen für Sprachmustererkennung bekannt. Markov-Modell- Sprachmusterbeispiele werden für Sprachanalysesysteme gebildet, indem identifizierte Sprachmuster zum Erzeugen von Abfolgen von akustischen Merkmalssignalen analysiert werden. Das Sprachmusterbeispiel wird erzeugt, indem iterativ aufeinander folgende Markov-Modellsignalmengen erzeugt werden, wobei mit einer anfänglichen Markov-Modellsignalmenge begonnen wird.

Es ist die Aufgabe der Erfindung, ein Verfahren zum Erzeugen eines wirksamen Wortteilmodelles zur Spracherkennung vorzusehen, bei dem das Verfahren des Darstellens von Modellen durch simultanes und automatisches Bestimmen des Verfahrens unter den gleichen Kriterien des Maximum-Likelihood-Prinzipes wie die Schätzung der Modellparameter optimiert wird, wobei das maximale phonetische Phänomen mit minimalen Modellparametern modulliert wird.

Diese Aufgabe wird gelöst durch ein Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung mit den Merkmalen des Patentanspruchs 1.

Bevorzugte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.

Das heißt, bei der vorliegenden Erfindung werden die Phonem- Kontextklasse, die eine jedem Modell zugeordnete Modelleinheit ist, die Zahl der zum Darstellen eines jeden Modelles benutzten Zustände, das Verhältnis des Teilens beziehungsweise gemeinsamen Benutzens der Zustände unter einer Mehrzahl von Modellen und die Dichteverteilung der Ausgabewahrscheinlichkeit eines jeden Modelles alle auf der Basis des gemeinsamen Krite riums bestimmt, indem wiederholt eine kleine Zahl von Zuständen aufgeteilt wird, die in dem anfänglichen verdeckten Markow- Modell vorgesehen sind.

Daher können gemäß der vorliegenden Erfindung die Modelle schrittweise genau gemacht werden, Modelleinheit, Modellstruk tur und Modellparameter können automatisch unter dem gemeinsa men Kriterium optimiert werden, und als Resultat kann ein Wortteilmodell mit einer hohen Effizienz der Darstellung erzeugt werden.

Es folgt die Beschreibung von Ausführungsformen der Erfindung in Zusammenhang mit den Figuren.

Von den Figuren zeigt:

Fig. 1 ein schematisches Diagramm des Prinzips der vor gehenden Erfindung;

Fig. 2 eine Struktur eines verdeckten Markow-Modelles;

Fig. 3 eine Darstellung eines Trainingsverfahrens eines anfänglichen Modelles;

Fig. 4 eine Darstellung der Bestimmung eines aufgespalte nen Zustandes;

Fig. 5 eine Darstellung eines aufgespaltenen Zustandes in der kontextuellen Domäne;

Fig. 6 eine Darstellung des aufgespaltenen Zustandes in der temporalen Domäne;

Fig. 7 eine Darstellung der erneuten Schätzung der Vertei lung;

Fig. 8 eine Darstellung einer Änderung der Verteilung; und

Fig. 9 ein spezielles Beispiel eines letztendlich been digten verdeckten Markow-Netzwerkes.

Fig. 1 ist ein Flußdiagramm, daß das Prinzip der vorliegenden Erfindung zeigt. Die vorliegende Erfindung zielt darauf, suk zessiv die Modelle genauzumachen, in dem jeder Zustand aufge spalten wird auf der Grundlage eines vorgeschriebenen Krite riums (Maximum-Likelihood-Prinzip) eines Wahrscheinlichkeitsmodelles, das eine Darstellung der Form (statisches Merkmal der Sprache) und der Änderung in der Zeit davon (dynamisches Merk mal der Sprache) in einer kurzen Zeiteinheit des Merkmalmu sters der Sprache ist, die als eine Kette einer Mehrzahl von Verteilungsfunktionen (Zustände) der Ausgabewahrscheinlichkeit dargestellt wird. Folglich kann die Bestimmung der Modellein heit, die Bestimmung der Modellstruktur und die Schätzung der Parameter eines jeden Zustandes simultan unter dem gleichen Kriterium realisiert werden.

Die vorliegende Erfindung wird im einzelnen unter Bezugnahme auf Fig. 1 beschrieben. Zuerst wird ein Modell 2, das nur aus einem Zustand und einem Pfad besteht, der den Zustand mit dem Start und dem Ende verbindet, als anfängliches Modell 1 aus allen Sprachstichproben gebildet, und die Tätigkeit beginnt mit dem Aufspalten dieses Zustandes.

Das Aufspalten des Zustandes wird zu diesem Zeitpunkt entweder durch eine Aufspaltung 3 in der kontextuellen Domäne mit einer damit verbundenen Pfadaufspaltung oder durch eine Aufspaltung 4 in der temporalen Domäne ohne Pfadaufspaltung durchgeführt, wie unter Bezugnahme auf Fig. 5 und 6 beschrieben wird. Insbesondere zu dem Zeitpunkt der Aufspaltung 3 in der kontextuellen Domäne werden die Kontextklassen, die ent sprechenden Pfaden zugeordnet sind, die mit dem Pfadaufspalten verknüpft sind, simultan aufgespalten. Als ein tatsächliches Ver fahren des Aufspaltens wird ein Verfahren der Aufspaltung 5 bestimmt, bei dem die gesamte Likelihood (Wahrscheinlichkeit), wenn sie auf die Sprachstichproben ange wendet wird, unter allen Verfahren der Aufspaltung am größten wird, die zu diesem Zeitpunkt verfügbar sind, einschließlich des Verfahrens des Aufspaltens der Kontextklasse. Durch Wie derholen eines derartigen Zustandsaufteilens wird ein hoch effizientes Modell 6 erzeugt, das eine hohe Likelihood errei chen kann mit einer kleinen Zahl von Zustandsindizes.

Das verdeckte Markow-Netzwerk, das automatisch durch das oben erwähnte sukzessive Zustandsaufspalten erzeugt wird, kann als ein Netzwerk einer Mehrzahl von Zuständen dargestellt werden. Jeder Zustand kann als eine probabilistische statistische Si gnalquelle in einem Sprachparameterraum betrachtet werden, von denen jede die folgenden Informationen hält.

1) Zustandsindex,
2) Kontextklasse, die akzeptiert werden kann,
3) Listen der vorhergehenden und folgenden Zustände,
4) Parameter der Wahrscheinlichkeitsverteilung, die in einem Merkmalsparameterraum der Sprache zugeordnet werden,
5) Übergangswahrscheinlichkeit in einer geschlossenen Schleife und Übergangswahrscheinlichkeit zu einem folgenden Zustand.

Bei dem verdeckten Markow-Netzwerk kann, wenn Eingangsdaten und Kontextinformation davon angelegt werden, das Modell für die Eingangsdaten auf eine eindeutige Weise durch Verketten von Zuständen bestimmt werden, die den Kontext in der Beschränkung der Listen der vorangehenden und folgenden Zustände akzep tieren können. Da dieses Modell äquivalent dem verdeckten Mar kow-Modell ist, wie es in Fig. 2 gezeigt ist, können der Vor wärtspfadalgorithmus zum Berechnen der Likelihood und der Vor wärts-Rückwärtsalgorithmus zum Schätzen von Parametern direkt wie bei einem gewöhnlichen verdeckten Markow-Modell benutzt werden.

Ein Algorithmus zum Realisieren aufeinanderfolgender Zustands aufspaltungen wird im einzelnen beschrieben.

Fig. 3 ist eine Darstellung eines Trainingsverfahrens eines anfänglichen Modelles. Als anfängliches Modell wird ein verdecktes Markow-Modell mit einem Zustand (der Index dieses Zustandes wird als Null dargestellt und der Zustand des Zu standsindex Null wird als S(0) dargestellt) mit einer gemisch ten Gaußschen Dichteverteilung (diagonale Kovarianzmatrix), wobei die Zahl der Mischungen 2 beträgt, gemäß des Vor wärts-Rückwärtsalgorithmus unter Benutzung aller Trainingsdaten gelernt. Zur gleichen Zeit werden die Informationen aller Kontextklassen, die in den Trainingsdaten enthalten sind, auf entsprechenden Zuständen gehalten, und Symbole, die den Start und das Ende anzeigen, werden zu der Liste der vorhergehenden Zustände und zu der Liste der folgenden Zustände addiert. Weiterhin wird 1 für eine Variable m eingesetzt, die die Ge samtzahl der Zustände anzeigt.

Fig. 4 ist eine Darstellung, die eine Bestimmung eines Spal tungszustandes zeigt. Für jeden Zustand i, der zu dem Zeitpunkt des Lernens des oben beschriebenen anfänglichen Modelles existiert, wird die Größe d_i der Verteilung, die diesem Zustand zugeordnet ist, gemäß der folgenden Gleichung (1) berechnet. Ein Zustand, in dem der Wert der Größe d_i der Verteilung am größten ist (als S(m) dargestellt), wird als der Spaltungs zustand bestimmt:

σ_ik² = λ_i1σ_i1k² + λ_i2σ_i2k² + λ_i1λ_i2 (µ_i1k - µ_i2k)²
λ_i1, λ_i2: Gewichtskoeffizienten der zwei Verteilungen des Zustandes i.
µ_i1k, µ_i2k: Mittel der zwei Verteilungen des Zustandes i.
σ_i1k ², σ_i2k ²: Varianz der zwei Verteilungen des Zustandes i.
n_i: Zahl der Phonemstichproben, die zur Schätzung des Zustandes i verwendet worden sind.
σ_TK ²: Varianz aller Stichproben (Koeffizient für die Normalisierung).

Das Maß d_i wird zu diesem Zeitpunkt vorgesehen, in dem der Wert σ_ik ² in Betracht gezogen wird, der der berechneten Varianz entspricht, wenn eine einzelne Gaußsche Dichteverteilung auf die Verteilung des Zustandes i als auch auf die Zahl der Pho nemstichproben n_i angewendet wird, die zum Schätzen der Ver teilung benutzt werden. Als Resultat wird das weitere Aufspal ten solcher Stichproben, für die nur eine kleine Zahl von Stichproben zum Schätzen der Verteilung benutzt wurde, schwie rig, was die statistische Robustheit verbessert.

Fig. 5 ist eine Darstellung, die eine Zustandsaufspaltung in der kontextuellen Domäne zeigt, und Fig. 6 ist eine Darstel lung, die eine Zustandsaufspaltung in der temporalen Domäne zeigt. Der in Fig. 4 gezeigte Zustand S(m) wird in zwei Zu stände aufgespalten, das heißt in den Zustand S′(m) und den Zustand S(M), wie in Fig. 5 gezeigt ist. Zu dieser Zeit werden zwei Verteilungen, die dem Zustand S(m) zugeordnet sind, als Wahrscheinlichkeitsverteilungsparameter diesen zwei Zuständen entsprechend zugeordnet, und die Werte der Übergangswahr scheinlichkeit der geschlossenen Schleife (Self Loop) und die Übergangswahrscheinlichkeit zu dem folgenden Zustand, der durch den Zustand S(m) gehalten wird, werden kopiert, wie sie sind. Bezüglich der Domäne der Zustandsaufspaltung ist folgendes zu bemerken, die Maximum Likelihood Pc, die vorgesehen wird, wenn die tatsächliche Phonemstichprobe in der kontextuellen Domäne aufgespalten wird, und die Maximum Likelihood Pt, die vorge sehen ist, wenn die Aufspaltung in der temporalen Domäne durchgeführt wird, werden entsprechend berechnet, und die eine höhere Likelihood erzeugende Domäne wird verwendet. Die Werte der Maximum Likelihood Pc und Pt werden gemäß des folgenden Verfahrens berechnet.

Die Zustandsaufspaltung in der kontextuellen Domäne (Berechnung von Pc) wird ausgeführt, in dem der Zustand S′(m) und der Zu stand S(M), die parallel zueinander sind, wie in Fig. 5 gezeigt ist, miteinander verkettet werden. Zu dieser Zeit wird der Pfad, der ein Pfad ist, der den Start mit dem Ende verbindet, gleichzeitig aufgespalten. Daher muß die Sprachstichprobe Y, die durch den Pfad dargestellt worden ist, der durch den Zustand S(m) geht, auf einen Pfad, der durch den Zustand S′(m) geht, und einen Pfad, der durch den Zustand S(M) geht, auf geteilt werden, welche Zustände neu erzeugt werden. Diese Verteilung wird durchgeführt, in dem Faktoren j (vorhergehendes Phonem, in Frage stehendes Phonem, folgendes Phonem usw.) be rechnet werden, die den maximalen Wert Pc realisieren, der gemäß der folgenden Gleichung (2) berechnet wird, und durch Aufspalten der Elemente die zu den Faktoren j gehören.

j: Faktor, der im Zustand S(m) aufgespalten werden kann
e_jl: l-tes Element, das zum Faktor j gehört
y_jl: Untermenge von Y, die e_jl als Faktor j aufweist
Pm (Y_jl): Gesamte Likelihood, wenn y_jl dem Pfad auf S′(m) zugeordnet wird
P_M(Y_jl): Gesamte Likelihood, wenn y_jl dem Pfad auf S(M) zugeordnet wird.

Zu der Zeit, wenn der Faktor j, der aufgespalten werden soll, bestimmt wird, wird die Verteilung des Elementes e_j des Faktors j, das heißt, auf welchen Durchgang dieses Element zu verteilen ist, gemäß der folgenden Gleichung (3) bestimmt, in dem die Werte P_m (Y_jl) und das gesamte P_M(Y_jl) der Likelihood benutzt wird, die bereits im Wege der Berechnung der Gleichung (2) be rechnet worden sind.

E_mj: Menge aller Elemente, die dem Pfad auf S′ (m) zuge ordnet sind;
E_Mj: Menge aller Elemente, die dem Pfad auf S(M) zugeordnet sind.

Nachdem die Mengen E_mj und E_Mj von Elementen bestimmt sind, werden die Menge E_mj von Elementen und die Menge E_Mj von Ele mentenabschnitten, die sich auf den Faktor j beziehen, und Ab schnitten, die sich nicht auf j beziehen, zugeordnet, in S(m) gehaltene Information wird direkt als Kontextinformation der Zustände S′(m) und S(M) kopiert.

Das Aufspalten in der temporalen Domäne (Berechnen von Pt) wird ausgeführt, in dem die Zustände S′(m) und S(M) in Reihe ver kettet werden, wie in Fig. 6 gezeigt ist, und das Aufspalten in Bezug auf den Pfad nicht durchgeführt wird, da die Zahl der Pfade nicht verändert wird. Es gibt zwei Möglichkeiten des Aufspaltens in Abhängigkeit davon, welcher der Zustände S′(m) und S(M) vorne angeordnet ist. Daher wird in Bezug auf die Phonemstichprobe Y, die auf dem Pfad dargestellt wird, der durch den Zustand S(m) geht, ein Verfahren zum Realisieren des maximalen Wertes Pt, der gemäß der folgenden Gleichung (4) be rechnet wird, verwendet.

Pt = max (P_mM(Y), P_Mm(Y)) (4)

P_mM(Y): Gesamte Likelihood für Y, wenn S′(m) vorn ange ordnet ist;
P_Mm(Y): Gesamte Likelihood für Y, wenn S(M) vorn ange ordnet ist.

Da das Aufspalten des Pfades nicht bei der Aufspaltung in der temporalen Domäne auftritt, wird die in dem Zustand S(m) ent haltene Information kopiert, wie sie ist, als die Kontextin formation der Zustände S′(m) und S(M).

Fig. 7 ist eine Darstellung, die die erneute Bewertung bzw. Wie derschätzung der Verteilung zeigt. Zu dieser Zeit ist noch eine einzelne Gaußsche Dichteverteilung, die bei dem Aufspaltungs vorgang benutzt worden ist, den Verteilungen der Zustände S′(m) und S(M) zugeordnet worden. Daher werden sie wieder so herge stellt, daß sie die Mischungen von Gaußschen Dichten sind, die die Mischungszahl 2 haben, und unter dieser Bedingung werden die Wahrscheinlichkeitsverteilungsparameter und die Übergangs wahrscheinlichkeiten der Zustände neu innerhalb des Bereiches des Einflusses des Aufspaltens des Zustandes S(m) trainiert, wie in Fig. 7 gezeigt ist, damit das verdeckte Markow-Netzwerk optimiert wird. Danach wird der Zustand S′(m) neu als S(m) dargestellt, und 1 wird zu der Variablen M addiert. Der oben erwähnte Vorgang des Bestimmens des Aufspaltungszustandes und die Wiederbewertung der Verteilung wird wiederholt, bis die Variable M eine vorgeschriebene Zahl von Aufspaltungen er reicht.

Fig. 8 ist eine Darstellung, die die Änderung der Verteilung zeigt. Die Bestimmung der Struktur des verdeckten Markow-Mo dells ist durch die Vorgänge soweit beendet. Daher wird als letzter Schritt das Training zum Ändern der Wahrscheinlich keitsverteilung, die jedem Zustand in der letztendlichen Form (die nicht notwendigerweise eine einzelne Gaußsche Dichtever teilung ist) zugeordnet ist, die in dem tatsächlichen verdeck ten Markow-Netzwerk benutzt werden sollte, auf das gesamte verdeckte Markow-Netzwerk ausgeübt. Somit ist die Erzeugung des verdeckten Markow-Netzwerkes beendet.

Fig. 9 zeigt ein spezielles Beispiel des so erzeugten verdeck ten Markow-Netzwerkes. Es sei Bezug genommen auf Fig. 9, die Zahlen mit "#" sind Zustandsindizes, und Zahlen 11, 12 und 13 darunter stellen die Menge der vorhergehenden Phoneme, die Menge der zentralen Phoneme bzw. die Menge der nachfolgenden Phoneme dar. Pfade 14 und 15 stellen den vorhergehenden Zustand und den nachfolgenden Zustand für den Zustand #2 dar. In diesem Bei spiel ist der Zustand, der dem Zustand #2 vorangeht, der #29, und die nachfolgenden Zustände sind #1 und #23.

Wie oben beschrieben wurde, kann gemäß der Ausführungsform der vorliegenden Erfindung das Modell sukzessive präziser gemacht werden, in dem Zustandsaufspaltung wiederholt wird; Modellein heit, Struktur und Modellparameter können automatisch unter dem gemeinsamen Kriterium optimiert werden; und als ein Resultat kann ein Wortteilmodell mit hoher Effizienz der Darstellung erzeugt werden.

Claims

1. Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung in Abhängigkeit vom Phonemkontext zum Verarbeiten von Sprachinformation unter Benutzung eines verdeckten Markov- Modelles,
bei dem statische Merkmale von Sprache, die eine Form eines Merkmalmusters der Sprache während einer kurzen Zeitdauer darstellen, und dynamische Merkmale von Sprache, die eine temporale Änderung des Merkmalsmusters darstellen, als eine Kette einer Mehrzahl von Ausgabewahrscheinlicheitsdichteverteilungen modelliert werden,
gekennzeichnet durch den Schritt:
wiederholte Aufspaltung (3, 4) einer kleinen Zahl von Zuständen, die in einem anfänglichen verdeckten Markov-Modell (1) vorgesehen sind, zum Bestimmen von

- einer Phonemkontextklasse, die eine einem jeden Modell zugeordnete Modelleinheit ist,
- einer Art des Aufteilens der Zustände zwischen einer Mehrzahl von Modellen,
- der Zahl von Zuständen, die zum Darstellen eines jeden Modelles benutzt werden, und
- der Form der Ausgabewahrscheinlichkeitsdichteverteilung eines jeden Modelles,

wobei jeweils das gleiche Kriterium verwendet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Aufspalten aufweist:
den Schritt des Aufspaltens in paralleler Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemkontextklassen entsprechen, so daß eine Änderung in den statischen Merkmalen der Sprache absorbiert wird, die aus der Differenz des Phonem kontextes abgeleitet wird, und
den Schritt des Aufspaltens in serieller Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemsegmenten ent sprechen, so daß eine Änderung in den dynamischen Merkmalen der Sprache absorbiert wird, die in einer gegebenen Phonemkontextklasse erzeugt ist,
wobei die Modellstruktur sukzessiv genauer gemacht wird durch Wiederholen der Zustandsaufspaltung in der jeweiligen Domäne, die einen höheren Wahrscheinlichkeitswert der Auswertung in Bezug auf einen tatsächliche Sprachstichprobe ermöglicht.

3. Verfahren nach Anspruch 2, gekennzeichnet durch den Schritt:
Bewirken der Aufspaltung in Bezug auf eine tatsächliche Phonem kontextklasse bei der Zustandsaufspaltung in der kontextuellen Domäne,
Zuordnen zweier phonetischer Kontextklassen, die zum Erzielen des höchsten Wahrscheinlichkeitswertes der Auswertung in bezug auf die tatsächliche Sprachstichprobe aufgespalten sind, zu einem der zwei entsprechenden Zustände, die durch die Zustands aufspaltung erzeugt sind,
so daß sukzessiv die Modelleinheit kleiner gemacht wird.

4. Verfahren nach einem der Ansprüche 1 bis 3, gekennzeichnet durch den Schritt:
Zuordnen einer überlagerten Gaußschen Dichteverteilung mit der Mischzahl von 2 als jede Ausgabewahrscheinlichkeitsdichteverteilung und Zuordnen einer einzelnen Gaußschen Verteilung der entsprechenden der zwei Verteilungen, die die gemischte Gaußsche Dichteverteilung darstellen, zu den durch die Zustandsaufspaltung neu erzeugten zwei Zustände,
so daß eine deutliche Reduktion in dem Aufwand der Rechnung realisiert wird, die zum Neubewerten der Ausgabewahrscheinlich keitsdichteverteilungsparameter nach der Zustandsaufspaltung notwendig ist.

5. Verfahren nach einem der Ansprüche 1 bis 4, gekennzeichnet durch den Schritt:
Berechnen der Größe aller zu der Zeit in dem Sprachparameterraum bestehenden Zuständen und Bestimmen des Zustandes mit dem größten Wert als den Spaltungszustand vor der tatsächlichen Zustandsaufspaltung, wodurch eine Rundum(round-robin-)-Rechnung, die zum Bestimmen des optimalen Spaltungszustandes nötig ist, vermieden wird, wodurch deutlich der Aufwand der Berechnung reduziert wird.

6. Verfahren nach Anspruch 4 oder 5, mit dem Schritt:
Wiedergewinnen der einzelnen Gaußchen Verteilung, die durch das Zustandsaufspalten der ursprünglichen überlagerten Gaußchen Dichteverteilung der Mischungszahl 2 erzeugt wurde, jedesmal wenn die Zustandsaufspaltung durchgeführt wird, und Durchführen eines erneuten Trainings zum Optimieren der gesamten Modellparameter unter dieser Bedingung.

7. Verfahren nach einem der Ansprüche 1 bis 6, mit dem Schritt:
Bewirken eines erneuten Trainings zum Ersetzen der gemischten Gaußchen Dichteverteilung der Mischungszahl von 2, die jedem Zustand zugeordnet ist, durch die Form der Ausgabewahrscheinlich keitsdichteverteilung, die zu benutzen ist, nachdem die Zu standsaufspaltung beendet ist und die letztendliche Modelleinheit und -struktur bestimmt sind.