DE4241688C2 - Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung - Google Patents
Verfahren zum Erzeugen eines Wortteilmodelles für SpracherkennungInfo
- Publication number
- DE4241688C2 DE4241688C2 DE4241688A DE4241688A DE4241688C2 DE 4241688 C2 DE4241688 C2 DE 4241688C2 DE 4241688 A DE4241688 A DE 4241688A DE 4241688 A DE4241688 A DE 4241688A DE 4241688 C2 DE4241688 C2 DE 4241688C2
- Authority
- DE
- Germany
- Prior art keywords
- state
- splitting
- model
- states
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000009826 distribution Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims 2
- 238000013507 mapping Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 claims 1
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
- G10L15/146—Training of HMMs with insufficient amount of training data, e.g. state sharing, tying, deleted interpolation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die vorliegende Erfindung bezieht sich auf ein Verfahren zum
Erzeugen eines Wortteilmodelles für Spracherkennung nach dem
Oberbegriff des Patentanspruches 1. Insbesondere sollen die
Einheit, Struktur und verschiedene Parameter der Dichtevertei
lung der Ausgabewahrscheinlichkeit von Modellen auf optimale
Weise zum Erzeugen eines Modelles hoher Effektivität bestimmt
werden,
wobei ein verdecktes Markow-Modell (Hidden-Markov-Mo
del): HMM benutzt wird.
Damit eine hochgenaue und robuste Spracherkennung unter Benut
zung von HMM realisiert wird, ist die simultane Realisierung
der Erzeugung eines genauen Modelles und die Schätzung eines
robusten Modelles ein wichtiges zu lösendes Problem. Für
genaues Modellieren muß eine Allophon-Klasse geeignet bestimmt
werden, die den gesamten Sprachparameterraum abdeckt, und damit
ein hochrobustes Modell von begrenzten Trainingsstichproben
geschätzt werden kann, muß ein Mechanismus eingeführt werden,
der effektiv die Information der Trainingsstichproben aufnehmen
kann.
Bei der Spracherkennung unter Benutzung von HMM werden eine
Modelleinheit, Modellstruktur und Schätzung der Modellparameter
unabhängig voneinander unter Benutzung verschiedener Kriterien
bestimmt. Zum Beispiel wird das Kriterium der Modelleinheit auf
der Grundlage von Wissen (Phonem, Halbsilbe, Phonemkontex)
bestimmt, oder sie wird auf der Grundlage von Ver
zerrungsminimierung bestimmt (Phonemumgebung in einer Phonem
umgebungshäufung). Die Modellstruktur wird auf der Grundlage
von Wissen bestimmt (ob die Modelle alle die gleichen sind,
oder ob die Modelle durch verschiedene Strukturen dargestellt
werden), oder sie wird auf der Grundlage der Teilung des Zu
standes bestimmt, wobei Ähnlichkeit als Bezug genommen wird.
Die Modellparameter werden nach dem Maximum-Likelihood-Prinzip
(Methode der maximalen Stichprobenwahrscheinlichkeit oder Prinzip
der größten Verläßlichkeit)
gemäß des Vorwärts-Rückwärts-Algorithmus bestimmt.
Folglich gibt es keine Konsistenz zwischen den Kriterien, und
insgesamt kann eine optimale Lösung nicht erreicht werden.
Aus der DE 33 37 353 A1 ist ein Sprachanalysator auf der Grund
lage eines verborgenen Markov-Modelles bekannt. Es weist eine
Vielzahl von gespeicherten Bezugsschablonen für ein einge
schränktes verborgenes Markov-Modell und eine Vielzahl von
gespeicherten Signalen auf, die vorbestimmte Akustikmerkmale
darstellen. Eine Eingangssprachäußerung wird unter Bildung einer
Folge von akustischen Merkmalssignalen analysiert, aus denen
eine Folge der gespeicherten vorbestimmten Merkmalssignale zur
Darstellung des Eingangsmusters gewählt wird. Unter gemeinsamen
Ansprechen auf die Markov-Modell-Bezugsschablonen und die
gewählte Merkmalssignalfolge wird ein Signal erzeugt, das die
Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster das
jeweilige Bezugsmuster ist. Das Eingangssprachmuster wird als
eines der Bezugsmuster unter Ansprechen auf die die Wahrschein
lichkeit darstellende Signale identifizieren.
Aus der EP 0 312 209 A2 ist ein Spracherkennungssystem bekannt,
das Markov-Modelle benutzt. Diese sind so ausgelegt, daß sie
durch eine anfängliche Trainingsmenge und eine anfängliche
Trainingssprache trainiert werden, wobei sie zum Erkennen von
Eingangssprache benutzt werden.
Aus der US 4,783,804 ist eine Anordnung mit verdeckten Markov-
Modellen für Sprachmustererkennung bekannt. Markov-Modell-
Sprachmusterbeispiele werden für Sprachanalysesysteme gebildet,
indem identifizierte Sprachmuster zum Erzeugen von Abfolgen von
akustischen Merkmalssignalen analysiert werden. Das Sprachmusterbeispiel
wird erzeugt, indem iterativ aufeinander folgende
Markov-Modellsignalmengen erzeugt werden, wobei mit einer
anfänglichen Markov-Modellsignalmenge begonnen wird.
Es ist die Aufgabe der Erfindung, ein Verfahren zum Erzeugen
eines wirksamen Wortteilmodelles zur Spracherkennung vorzusehen,
bei dem das Verfahren des Darstellens von Modellen durch simultanes
und automatisches Bestimmen des Verfahrens unter den gleichen
Kriterien des Maximum-Likelihood-Prinzipes wie die Schätzung
der Modellparameter optimiert wird, wobei das maximale
phonetische Phänomen mit minimalen Modellparametern modulliert
wird.
Diese Aufgabe wird gelöst durch ein Verfahren zum Erzeugen eines
Wortteilmodelles für Spracherkennung mit den Merkmalen des Patentanspruchs 1.
Bevorzugte Ausgestaltungen der Erfindung ergeben sich aus den
Unteransprüchen.
Das heißt, bei der vorliegenden Erfindung werden die Phonem-
Kontextklasse, die eine jedem Modell zugeordnete Modelleinheit
ist, die Zahl der zum Darstellen eines jeden Modelles benutzten
Zustände, das Verhältnis des Teilens beziehungsweise
gemeinsamen Benutzens der Zustände unter einer Mehrzahl von
Modellen und die Dichteverteilung der Ausgabewahrscheinlichkeit
eines jeden Modelles alle auf der Basis des gemeinsamen Krite
riums bestimmt, indem wiederholt eine kleine Zahl von Zuständen
aufgeteilt wird, die in dem anfänglichen verdeckten Markow-
Modell vorgesehen sind.
Daher können gemäß der vorliegenden Erfindung die Modelle
schrittweise genau gemacht werden, Modelleinheit, Modellstruk
tur und Modellparameter können automatisch unter dem gemeinsa
men Kriterium optimiert werden, und als Resultat kann ein
Wortteilmodell mit einer hohen Effizienz der Darstellung erzeugt
werden.
Es folgt die Beschreibung von Ausführungsformen der Erfindung
in Zusammenhang mit den Figuren.
Von den Figuren zeigt:
Fig. 1 ein schematisches Diagramm des Prinzips der vor
gehenden Erfindung;
Fig. 2 eine Struktur eines verdeckten Markow-Modelles;
Fig. 3 eine Darstellung eines Trainingsverfahrens eines
anfänglichen Modelles;
Fig. 4 eine Darstellung der Bestimmung eines aufgespalte
nen Zustandes;
Fig. 5 eine Darstellung eines aufgespaltenen Zustandes in
der kontextuellen Domäne;
Fig. 6 eine Darstellung des aufgespaltenen Zustandes in
der temporalen Domäne;
Fig. 7 eine Darstellung der erneuten Schätzung der Vertei
lung;
Fig. 8 eine Darstellung einer Änderung der Verteilung;
und
Fig. 9 ein spezielles Beispiel eines letztendlich been
digten verdeckten Markow-Netzwerkes.
Fig. 1 ist ein Flußdiagramm, daß das Prinzip der vorliegenden
Erfindung zeigt. Die vorliegende Erfindung zielt darauf, suk
zessiv die Modelle genauzumachen, in dem jeder Zustand aufge
spalten wird auf der Grundlage eines vorgeschriebenen Krite
riums (Maximum-Likelihood-Prinzip) eines Wahrscheinlichkeitsmodelles,
das eine Darstellung der Form (statisches Merkmal der
Sprache) und der Änderung in der Zeit davon (dynamisches Merk
mal der Sprache) in einer kurzen Zeiteinheit des Merkmalmu
sters der Sprache ist, die als eine Kette einer Mehrzahl von
Verteilungsfunktionen (Zustände) der Ausgabewahrscheinlichkeit
dargestellt wird. Folglich kann die Bestimmung der Modellein
heit, die Bestimmung der Modellstruktur und die Schätzung der
Parameter eines jeden Zustandes simultan unter dem gleichen
Kriterium realisiert werden.
Die vorliegende Erfindung wird im einzelnen unter Bezugnahme
auf Fig. 1 beschrieben. Zuerst wird ein Modell 2, das nur aus
einem Zustand und einem Pfad besteht, der den Zustand mit dem
Start und dem Ende verbindet, als anfängliches Modell 1 aus allen
Sprachstichproben gebildet, und die Tätigkeit beginnt mit dem
Aufspalten dieses Zustandes.
Das Aufspalten des Zustandes wird zu diesem Zeitpunkt entweder
durch eine Aufspaltung 3 in der kontextuellen Domäne
mit einer damit verbundenen Pfadaufspaltung oder durch eine
Aufspaltung 4 in der temporalen Domäne ohne Pfadaufspaltung
durchgeführt, wie unter Bezugnahme auf Fig. 5 und 6 beschrieben
wird. Insbesondere zu dem Zeitpunkt der Aufspaltung 3 in
der kontextuellen Domäne werden die Kontextklassen, die ent
sprechenden Pfaden zugeordnet sind, die mit dem Pfadaufspalten
verknüpft sind, simultan aufgespalten. Als ein tatsächliches Ver
fahren des Aufspaltens wird ein Verfahren der Aufspaltung 5
bestimmt, bei dem die gesamte Likelihood
(Wahrscheinlichkeit), wenn sie auf die Sprachstichproben ange
wendet wird, unter allen Verfahren der Aufspaltung am größten
wird, die zu diesem Zeitpunkt verfügbar sind, einschließlich
des Verfahrens des Aufspaltens der Kontextklasse. Durch Wie
derholen eines derartigen Zustandsaufteilens wird ein hoch
effizientes Modell 6 erzeugt, das eine hohe Likelihood errei
chen kann mit einer kleinen Zahl von Zustandsindizes.
Das verdeckte Markow-Netzwerk, das automatisch durch das oben
erwähnte sukzessive Zustandsaufspalten erzeugt wird, kann als
ein Netzwerk einer Mehrzahl von Zuständen dargestellt werden.
Jeder Zustand kann als eine probabilistische statistische Si
gnalquelle in einem Sprachparameterraum betrachtet werden, von
denen jede die folgenden Informationen hält.
- 1) Zustandsindex,
- 2) Kontextklasse, die akzeptiert werden kann,
- 3) Listen der vorhergehenden und folgenden Zustände,
- 4) Parameter der Wahrscheinlichkeitsverteilung, die in einem Merkmalsparameterraum der Sprache zugeordnet werden,
- 5) Übergangswahrscheinlichkeit in einer geschlossenen Schleife und Übergangswahrscheinlichkeit zu einem folgenden Zustand.
Bei dem verdeckten Markow-Netzwerk kann, wenn Eingangsdaten und
Kontextinformation davon angelegt werden, das Modell für die
Eingangsdaten auf eine eindeutige Weise durch Verketten von
Zuständen bestimmt werden, die den Kontext in der Beschränkung
der Listen der vorangehenden und folgenden Zustände akzep
tieren können. Da dieses Modell äquivalent dem verdeckten Mar
kow-Modell ist, wie es in Fig. 2 gezeigt ist, können der Vor
wärtspfadalgorithmus zum Berechnen der Likelihood und der Vor
wärts-Rückwärtsalgorithmus zum Schätzen von Parametern direkt
wie bei einem gewöhnlichen verdeckten Markow-Modell benutzt
werden.
Ein Algorithmus zum Realisieren aufeinanderfolgender Zustands
aufspaltungen wird im einzelnen beschrieben.
Fig. 3 ist eine Darstellung eines Trainingsverfahrens eines
anfänglichen Modelles. Als anfängliches Modell wird ein
verdecktes Markow-Modell mit einem Zustand (der Index dieses
Zustandes wird als Null dargestellt und der Zustand des Zu
standsindex Null wird als S(0) dargestellt) mit einer gemisch
ten Gaußschen Dichteverteilung (diagonale Kovarianzmatrix),
wobei die Zahl der Mischungen 2 beträgt, gemäß des Vor
wärts-Rückwärtsalgorithmus unter Benutzung aller Trainingsdaten
gelernt. Zur gleichen Zeit werden die Informationen aller
Kontextklassen, die in den Trainingsdaten enthalten sind, auf
entsprechenden Zuständen gehalten, und Symbole, die den Start
und das Ende anzeigen, werden zu der Liste der vorhergehenden
Zustände und zu der Liste der folgenden Zustände addiert.
Weiterhin wird 1 für eine Variable m eingesetzt, die die Ge
samtzahl der Zustände anzeigt.
Fig. 4 ist eine Darstellung, die eine Bestimmung eines Spal
tungszustandes zeigt. Für jeden Zustand i, der zu dem Zeitpunkt
des Lernens des oben beschriebenen anfänglichen Modelles
existiert, wird die Größe di der Verteilung, die diesem Zustand
zugeordnet ist, gemäß der folgenden Gleichung (1) berechnet.
Ein Zustand, in dem der Wert der Größe di der Verteilung
am größten ist (als S(m) dargestellt), wird als der Spaltungs
zustand bestimmt:
σik² = λi1σi1k² + λi2σi2k² + λi1λi2 (µi1k - µi2k)²
λi1, λi2: Gewichtskoeffizienten der zwei Verteilungen des Zustandes i.
µi1k, µi2k: Mittel der zwei Verteilungen des Zustandes i.
σi1k 2, σi2k 2: Varianz der zwei Verteilungen des Zustandes i.
ni: Zahl der Phonemstichproben, die zur Schätzung des Zustandes i verwendet worden sind.
σTK 2: Varianz aller Stichproben (Koeffizient für die Normalisierung).
λi1, λi2: Gewichtskoeffizienten der zwei Verteilungen des Zustandes i.
µi1k, µi2k: Mittel der zwei Verteilungen des Zustandes i.
σi1k 2, σi2k 2: Varianz der zwei Verteilungen des Zustandes i.
ni: Zahl der Phonemstichproben, die zur Schätzung des Zustandes i verwendet worden sind.
σTK 2: Varianz aller Stichproben (Koeffizient für die Normalisierung).
Das Maß di wird zu diesem Zeitpunkt vorgesehen, in dem der Wert
σik 2 in Betracht gezogen wird, der der berechneten Varianz
entspricht, wenn eine einzelne Gaußsche Dichteverteilung auf
die Verteilung des Zustandes i als auch auf die Zahl der Pho
nemstichproben ni angewendet wird, die zum Schätzen der Ver
teilung benutzt werden. Als Resultat wird das weitere Aufspal
ten solcher Stichproben, für die nur eine kleine Zahl von
Stichproben zum Schätzen der Verteilung benutzt wurde, schwie
rig, was die statistische Robustheit verbessert.
Fig. 5 ist eine Darstellung, die eine Zustandsaufspaltung in
der kontextuellen Domäne zeigt, und Fig. 6 ist eine Darstel
lung, die eine Zustandsaufspaltung in der temporalen Domäne
zeigt. Der in Fig. 4 gezeigte Zustand S(m) wird in zwei Zu
stände aufgespalten, das heißt in den Zustand S′(m) und den
Zustand S(M), wie in Fig. 5 gezeigt ist. Zu dieser Zeit werden
zwei Verteilungen, die dem Zustand S(m) zugeordnet sind, als
Wahrscheinlichkeitsverteilungsparameter diesen zwei Zuständen
entsprechend zugeordnet, und die Werte der Übergangswahr
scheinlichkeit der geschlossenen Schleife (Self Loop) und die
Übergangswahrscheinlichkeit zu dem folgenden Zustand, der durch
den Zustand S(m) gehalten wird, werden kopiert, wie sie sind.
Bezüglich der Domäne der Zustandsaufspaltung ist folgendes zu
bemerken, die Maximum Likelihood Pc, die vorgesehen wird, wenn
die tatsächliche Phonemstichprobe in der kontextuellen Domäne
aufgespalten wird, und die Maximum Likelihood Pt, die vorge
sehen ist, wenn die Aufspaltung in der temporalen Domäne
durchgeführt wird, werden entsprechend berechnet, und die eine
höhere Likelihood erzeugende Domäne wird verwendet. Die Werte
der Maximum Likelihood Pc und Pt werden gemäß des folgenden
Verfahrens berechnet.
Die Zustandsaufspaltung in der kontextuellen Domäne (Berechnung
von Pc) wird ausgeführt, in dem der Zustand S′(m) und der Zu
stand S(M), die parallel zueinander sind, wie in Fig. 5 gezeigt
ist, miteinander verkettet werden. Zu dieser Zeit wird der
Pfad, der ein Pfad ist, der den Start mit dem Ende verbindet,
gleichzeitig aufgespalten. Daher muß die Sprachstichprobe Y,
die durch den Pfad dargestellt worden ist, der durch den
Zustand S(m) geht, auf einen Pfad, der durch den Zustand S′(m)
geht, und einen Pfad, der durch den Zustand S(M) geht, auf
geteilt werden, welche Zustände neu erzeugt werden. Diese
Verteilung wird durchgeführt, in dem Faktoren j (vorhergehendes
Phonem, in Frage stehendes Phonem, folgendes Phonem usw.) be
rechnet werden, die den maximalen Wert Pc realisieren, der
gemäß der folgenden Gleichung (2) berechnet wird, und durch
Aufspalten der Elemente die zu den Faktoren j gehören.
j: Faktor, der im Zustand S(m) aufgespalten werden
kann
ejl: l-tes Element, das zum Faktor j gehört
yjl: Untermenge von Y, die ejl als Faktor j aufweist
Pm (Yjl): Gesamte Likelihood, wenn yjl dem Pfad auf S′(m) zugeordnet wird
PM(Yjl): Gesamte Likelihood, wenn yjl dem Pfad auf S(M) zugeordnet wird.
ejl: l-tes Element, das zum Faktor j gehört
yjl: Untermenge von Y, die ejl als Faktor j aufweist
Pm (Yjl): Gesamte Likelihood, wenn yjl dem Pfad auf S′(m) zugeordnet wird
PM(Yjl): Gesamte Likelihood, wenn yjl dem Pfad auf S(M) zugeordnet wird.
Zu der Zeit, wenn der Faktor j, der aufgespalten werden soll,
bestimmt wird, wird die Verteilung des Elementes ej des Faktors
j, das heißt, auf welchen Durchgang dieses Element zu verteilen
ist, gemäß der folgenden Gleichung (3) bestimmt, in dem die
Werte Pm (Yjl) und das gesamte PM(Yjl) der Likelihood benutzt
wird, die bereits im Wege der Berechnung der Gleichung (2) be
rechnet worden sind.
Emj: Menge aller Elemente, die dem Pfad auf S′ (m) zuge
ordnet sind;
EMj: Menge aller Elemente, die dem Pfad auf S(M) zugeordnet sind.
EMj: Menge aller Elemente, die dem Pfad auf S(M) zugeordnet sind.
Nachdem die Mengen Emj und EMj von Elementen bestimmt sind,
werden die Menge Emj von Elementen und die Menge EMj von Ele
mentenabschnitten, die sich auf den Faktor j beziehen, und Ab
schnitten, die sich nicht auf j beziehen, zugeordnet, in S(m)
gehaltene Information wird direkt als Kontextinformation der
Zustände S′(m) und S(M) kopiert.
Das Aufspalten in der temporalen Domäne (Berechnen von Pt) wird
ausgeführt, in dem die Zustände S′(m) und S(M) in Reihe ver
kettet werden, wie in Fig. 6 gezeigt ist, und das Aufspalten in
Bezug auf den Pfad nicht durchgeführt wird, da die Zahl der
Pfade nicht verändert wird. Es gibt zwei Möglichkeiten des
Aufspaltens in Abhängigkeit davon, welcher der Zustände S′(m)
und S(M) vorne angeordnet ist. Daher wird in Bezug auf die
Phonemstichprobe Y, die auf dem Pfad dargestellt wird, der
durch den Zustand S(m) geht, ein Verfahren zum Realisieren des
maximalen Wertes Pt, der gemäß der folgenden Gleichung (4) be
rechnet wird, verwendet.
Pt = max (PmM(Y), PMm(Y)) (4)
PmM(Y): Gesamte Likelihood für Y, wenn S′(m) vorn ange
ordnet ist;
PMm(Y): Gesamte Likelihood für Y, wenn S(M) vorn ange ordnet ist.
PMm(Y): Gesamte Likelihood für Y, wenn S(M) vorn ange ordnet ist.
Da das Aufspalten des Pfades nicht bei der Aufspaltung in der
temporalen Domäne auftritt, wird die in dem Zustand S(m) ent
haltene Information kopiert, wie sie ist, als die Kontextin
formation der Zustände S′(m) und S(M).
Fig. 7 ist eine Darstellung, die die erneute Bewertung bzw. Wie
derschätzung der Verteilung zeigt. Zu dieser Zeit ist noch eine
einzelne Gaußsche Dichteverteilung, die bei dem Aufspaltungs
vorgang benutzt worden ist, den Verteilungen der Zustände S′(m)
und S(M) zugeordnet worden. Daher werden sie wieder so herge
stellt, daß sie die Mischungen von Gaußschen Dichten sind, die
die Mischungszahl 2 haben, und unter dieser Bedingung werden
die Wahrscheinlichkeitsverteilungsparameter und die Übergangs
wahrscheinlichkeiten der Zustände neu innerhalb des Bereiches
des Einflusses des Aufspaltens des Zustandes S(m) trainiert, wie
in Fig. 7 gezeigt ist, damit das verdeckte Markow-Netzwerk
optimiert wird. Danach wird der Zustand S′(m) neu als S(m)
dargestellt, und 1 wird zu der Variablen M addiert. Der oben
erwähnte Vorgang des Bestimmens des Aufspaltungszustandes und
die Wiederbewertung der Verteilung wird wiederholt, bis die
Variable M eine vorgeschriebene Zahl von Aufspaltungen er
reicht.
Fig. 8 ist eine Darstellung, die die Änderung der Verteilung
zeigt. Die Bestimmung der Struktur des verdeckten Markow-Mo
dells ist durch die Vorgänge soweit beendet. Daher wird als
letzter Schritt das Training zum Ändern der Wahrscheinlich
keitsverteilung, die jedem Zustand in der letztendlichen Form
(die nicht notwendigerweise eine einzelne Gaußsche Dichtever
teilung ist) zugeordnet ist, die in dem tatsächlichen verdeck
ten Markow-Netzwerk benutzt werden sollte, auf das gesamte
verdeckte Markow-Netzwerk ausgeübt. Somit ist die Erzeugung des
verdeckten Markow-Netzwerkes beendet.
Fig. 9 zeigt ein spezielles Beispiel des so erzeugten verdeck
ten Markow-Netzwerkes. Es sei Bezug genommen auf Fig. 9, die
Zahlen mit "#" sind Zustandsindizes, und Zahlen 11, 12 und 13
darunter stellen die Menge der vorhergehenden Phoneme, die
Menge der zentralen Phoneme bzw. die Menge der nachfolgenden
Phoneme dar. Pfade 14 und 15 stellen den vorhergehenden Zustand und den
nachfolgenden Zustand für den Zustand #2 dar. In diesem Bei
spiel ist der Zustand, der dem Zustand #2 vorangeht, der #29,
und die nachfolgenden Zustände sind #1 und #23.
Wie oben beschrieben wurde, kann gemäß der Ausführungsform der
vorliegenden Erfindung das Modell sukzessive präziser gemacht
werden, in dem Zustandsaufspaltung wiederholt wird; Modellein
heit, Struktur und Modellparameter können automatisch unter dem
gemeinsamen Kriterium optimiert werden; und als ein Resultat
kann ein Wortteilmodell mit hoher Effizienz der Darstellung
erzeugt werden.
Claims (8)
1. Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung
in Abhängigkeit vom Phonemkontext zum Verarbeiten von
Sprachinformation unter Benutzung eines verdeckten Markov-
Modelles,
bei dem statische Merkmale von Sprache, die eine Form eines Merkmalmusters der Sprache während einer kurzen Zeitdauer darstellen, und dynamische Merkmale von Sprache, die eine temporale Änderung des Merkmalsmusters darstellen, als eine Kette einer Mehrzahl von Ausgabewahrscheinlicheitsdichteverteilungen modelliert werden,
gekennzeichnet durch den Schritt:
wiederholte Aufspaltung (3, 4) einer kleinen Zahl von Zuständen, die in einem anfänglichen verdeckten Markov-Modell (1) vorgesehen sind, zum Bestimmen von
bei dem statische Merkmale von Sprache, die eine Form eines Merkmalmusters der Sprache während einer kurzen Zeitdauer darstellen, und dynamische Merkmale von Sprache, die eine temporale Änderung des Merkmalsmusters darstellen, als eine Kette einer Mehrzahl von Ausgabewahrscheinlicheitsdichteverteilungen modelliert werden,
gekennzeichnet durch den Schritt:
wiederholte Aufspaltung (3, 4) einer kleinen Zahl von Zuständen, die in einem anfänglichen verdeckten Markov-Modell (1) vorgesehen sind, zum Bestimmen von
- - einer Phonemkontextklasse, die eine einem jeden Modell zugeordnete Modelleinheit ist,
- - einer Art des Aufteilens der Zustände zwischen einer Mehrzahl von Modellen,
- - der Zahl von Zuständen, die zum Darstellen eines jeden Modelles benutzt werden, und
- - der Form der Ausgabewahrscheinlichkeitsdichteverteilung eines jeden Modelles,
wobei jeweils das gleiche Kriterium verwendet wird.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß das Aufspalten aufweist:
den Schritt des Aufspaltens in paralleler Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemkontextklassen entsprechen, so daß eine Änderung in den statischen Merkmalen der Sprache absorbiert wird, die aus der Differenz des Phonem kontextes abgeleitet wird, und
den Schritt des Aufspaltens in serieller Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemsegmenten ent sprechen, so daß eine Änderung in den dynamischen Merkmalen der Sprache absorbiert wird, die in einer gegebenen Phonemkontextklasse erzeugt ist,
wobei die Modellstruktur sukzessiv genauer gemacht wird durch Wiederholen der Zustandsaufspaltung in der jeweiligen Domäne, die einen höheren Wahrscheinlichkeitswert der Auswertung in Bezug auf einen tatsächliche Sprachstichprobe ermöglicht.
den Schritt des Aufspaltens in paralleler Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemkontextklassen entsprechen, so daß eine Änderung in den statischen Merkmalen der Sprache absorbiert wird, die aus der Differenz des Phonem kontextes abgeleitet wird, und
den Schritt des Aufspaltens in serieller Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemsegmenten ent sprechen, so daß eine Änderung in den dynamischen Merkmalen der Sprache absorbiert wird, die in einer gegebenen Phonemkontextklasse erzeugt ist,
wobei die Modellstruktur sukzessiv genauer gemacht wird durch Wiederholen der Zustandsaufspaltung in der jeweiligen Domäne, die einen höheren Wahrscheinlichkeitswert der Auswertung in Bezug auf einen tatsächliche Sprachstichprobe ermöglicht.
3. Verfahren nach Anspruch 2,
gekennzeichnet durch den Schritt:
Bewirken der Aufspaltung in Bezug auf eine tatsächliche Phonem kontextklasse bei der Zustandsaufspaltung in der kontextuellen Domäne,
Zuordnen zweier phonetischer Kontextklassen, die zum Erzielen des höchsten Wahrscheinlichkeitswertes der Auswertung in bezug auf die tatsächliche Sprachstichprobe aufgespalten sind, zu einem der zwei entsprechenden Zustände, die durch die Zustands aufspaltung erzeugt sind,
so daß sukzessiv die Modelleinheit kleiner gemacht wird.
Bewirken der Aufspaltung in Bezug auf eine tatsächliche Phonem kontextklasse bei der Zustandsaufspaltung in der kontextuellen Domäne,
Zuordnen zweier phonetischer Kontextklassen, die zum Erzielen des höchsten Wahrscheinlichkeitswertes der Auswertung in bezug auf die tatsächliche Sprachstichprobe aufgespalten sind, zu einem der zwei entsprechenden Zustände, die durch die Zustands aufspaltung erzeugt sind,
so daß sukzessiv die Modelleinheit kleiner gemacht wird.
4. Verfahren nach einem der Ansprüche 1 bis 3,
gekennzeichnet durch den Schritt:
Zuordnen einer überlagerten Gaußschen Dichteverteilung mit der Mischzahl von 2 als jede Ausgabewahrscheinlichkeitsdichteverteilung und Zuordnen einer einzelnen Gaußschen Verteilung der entsprechenden der zwei Verteilungen, die die gemischte Gaußsche Dichteverteilung darstellen, zu den durch die Zustandsaufspaltung neu erzeugten zwei Zustände,
so daß eine deutliche Reduktion in dem Aufwand der Rechnung realisiert wird, die zum Neubewerten der Ausgabewahrscheinlich keitsdichteverteilungsparameter nach der Zustandsaufspaltung notwendig ist.
Zuordnen einer überlagerten Gaußschen Dichteverteilung mit der Mischzahl von 2 als jede Ausgabewahrscheinlichkeitsdichteverteilung und Zuordnen einer einzelnen Gaußschen Verteilung der entsprechenden der zwei Verteilungen, die die gemischte Gaußsche Dichteverteilung darstellen, zu den durch die Zustandsaufspaltung neu erzeugten zwei Zustände,
so daß eine deutliche Reduktion in dem Aufwand der Rechnung realisiert wird, die zum Neubewerten der Ausgabewahrscheinlich keitsdichteverteilungsparameter nach der Zustandsaufspaltung notwendig ist.
5. Verfahren nach einem der Ansprüche 1 bis 4,
gekennzeichnet durch den Schritt:
Berechnen der Größe aller zu der Zeit in dem Sprachparameterraum bestehenden Zuständen und Bestimmen des Zustandes mit dem größten Wert als den Spaltungszustand vor der tatsächlichen Zustandsaufspaltung, wodurch eine Rundum(round-robin-)-Rechnung, die zum Bestimmen des optimalen Spaltungszustandes nötig ist, vermieden wird, wodurch deutlich der Aufwand der Berechnung reduziert wird.
Berechnen der Größe aller zu der Zeit in dem Sprachparameterraum bestehenden Zuständen und Bestimmen des Zustandes mit dem größten Wert als den Spaltungszustand vor der tatsächlichen Zustandsaufspaltung, wodurch eine Rundum(round-robin-)-Rechnung, die zum Bestimmen des optimalen Spaltungszustandes nötig ist, vermieden wird, wodurch deutlich der Aufwand der Berechnung reduziert wird.
6. Verfahren nach Anspruch 4 oder 5,
mit dem Schritt:
Wiedergewinnen der einzelnen Gaußchen Verteilung, die durch das Zustandsaufspalten der ursprünglichen überlagerten Gaußchen Dichteverteilung der Mischungszahl 2 erzeugt wurde, jedesmal wenn die Zustandsaufspaltung durchgeführt wird, und Durchführen eines erneuten Trainings zum Optimieren der gesamten Modellparameter unter dieser Bedingung.
Wiedergewinnen der einzelnen Gaußchen Verteilung, die durch das Zustandsaufspalten der ursprünglichen überlagerten Gaußchen Dichteverteilung der Mischungszahl 2 erzeugt wurde, jedesmal wenn die Zustandsaufspaltung durchgeführt wird, und Durchführen eines erneuten Trainings zum Optimieren der gesamten Modellparameter unter dieser Bedingung.
7. Verfahren nach einem der Ansprüche 1 bis 6,
mit dem Schritt:
Bewirken eines erneuten Trainings zum Ersetzen der gemischten Gaußchen Dichteverteilung der Mischungszahl von 2, die jedem Zustand zugeordnet ist, durch die Form der Ausgabewahrscheinlich keitsdichteverteilung, die zu benutzen ist, nachdem die Zu standsaufspaltung beendet ist und die letztendliche Modelleinheit und -struktur bestimmt sind.
Bewirken eines erneuten Trainings zum Ersetzen der gemischten Gaußchen Dichteverteilung der Mischungszahl von 2, die jedem Zustand zugeordnet ist, durch die Form der Ausgabewahrscheinlich keitsdichteverteilung, die zu benutzen ist, nachdem die Zu standsaufspaltung beendet ist und die letztendliche Modelleinheit und -struktur bestimmt sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4064296A JPH0782348B2 (ja) | 1992-03-21 | 1992-03-21 | 音声認識用サブワードモデル生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4241688A1 DE4241688A1 (en) | 1993-09-23 |
DE4241688C2 true DE4241688C2 (de) | 1996-09-19 |
Family
ID=13254143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4241688A Expired - Fee Related DE4241688C2 (de) | 1992-03-21 | 1992-12-10 | Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5677988A (de) |
JP (1) | JPH0782348B2 (de) |
DE (1) | DE4241688C2 (de) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2980228B2 (ja) * | 1994-10-25 | 1999-11-22 | 日本ビクター株式会社 | 音声認識用音響モデル生成方法 |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
US5950158A (en) * | 1997-07-30 | 1999-09-07 | Nynex Science And Technology, Inc. | Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models |
US5963902A (en) * | 1997-07-30 | 1999-10-05 | Nynex Science & Technology, Inc. | Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition |
US6073098A (en) * | 1997-11-21 | 2000-06-06 | At&T Corporation | Method and apparatus for generating deterministic approximate weighted finite-state automata |
EP1126438B1 (de) * | 1998-09-09 | 2008-07-16 | Asahi Kasei Kabushiki Kaisha | Spracherkenner und spracherkennungsverfahren |
KR100577515B1 (ko) | 1999-11-12 | 2006-05-10 | 주식회사 케이티 | 히든 마르코프 모델 파라미터의 가우시안 믹스츄어 갯수설정방법 |
FR2857528B1 (fr) * | 2003-07-08 | 2006-01-06 | Telisma | Reconnaissance vocale pour les larges vocabulaires dynamiques |
ATE398324T1 (de) * | 2004-04-20 | 2008-07-15 | France Telecom | Spracherkennung durch kontextuelle modellierung der spracheinheiten |
DE602005012596D1 (de) * | 2004-10-19 | 2009-03-19 | France Telecom | Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
JP4298672B2 (ja) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7877256B2 (en) * | 2006-02-17 | 2011-01-25 | Microsoft Corporation | Time synchronous decoding for long-span hidden trajectory model |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8135590B2 (en) | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8044798B2 (en) * | 2007-06-15 | 2011-10-25 | Icove And Associates, Llc | Passive microwave speed and intrusion detection system |
US8493212B2 (en) | 2007-06-15 | 2013-07-23 | Icore and Associates, LLC | Passive microwave system and method for protecting a structure from fire threats |
US7724134B2 (en) * | 2007-06-15 | 2010-05-25 | Icove And Associates, Llc | Passive microwave fire and intrusion detection system |
US8442829B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
JP6274015B2 (ja) * | 2014-05-29 | 2018-02-07 | 富士通株式会社 | 音響モデル調整装置及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5112038B2 (de) * | 1972-03-03 | 1976-04-15 | ||
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
JPH01102599A (ja) * | 1987-10-12 | 1989-04-20 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
US5072452A (en) * | 1987-10-30 | 1991-12-10 | International Business Machines Corporation | Automatic determination of labels and Markov word models in a speech recognition system |
JP2600871B2 (ja) * | 1987-12-16 | 1997-04-16 | 松下電器産業株式会社 | Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置 |
-
1992
- 1992-03-21 JP JP4064296A patent/JPH0782348B2/ja not_active Expired - Lifetime
- 1992-12-10 DE DE4241688A patent/DE4241688C2/de not_active Expired - Fee Related
-
1995
- 1995-09-21 US US08/532,318 patent/US5677988A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE4241688A1 (en) | 1993-09-23 |
US5677988A (en) | 1997-10-14 |
JPH0782348B2 (ja) | 1995-09-06 |
JPH06202687A (ja) | 1994-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4241688C2 (de) | Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE60208223T2 (de) | Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
EP0604476B1 (de) | Verfahren zur erkennung von mustern in zeitvarianten messsignalen | |
DE69815067T2 (de) | Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster | |
DE19708183A1 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
DE69838189T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69726235T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60110315T2 (de) | Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
WO1998011537A2 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE112018006885B4 (de) | Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE602004000716T2 (de) | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung | |
DE60310687T2 (de) | Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
EP1214703A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE60036522T2 (de) | Verziehung der Frequenzen für Spracherkennung | |
DE3711342A1 (de) | Verfahren zum erkennen zusammenhaengend gesprochener woerter | |
DE10047718A1 (de) | Verfahren zur Spracherkennung | |
DE19654549A1 (de) | Verfahren und System zur Spracherkennung | |
DE60021666T2 (de) | Inkrementales Trainieren eines Spracherkenners für eine neue Sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8125 | Change of the main classification |
Ipc: G10L 5/06 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |