DE4241688C2 - Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung - Google Patents

Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung

Info

Publication number
DE4241688C2
DE4241688C2 DE4241688A DE4241688A DE4241688C2 DE 4241688 C2 DE4241688 C2 DE 4241688C2 DE 4241688 A DE4241688 A DE 4241688A DE 4241688 A DE4241688 A DE 4241688A DE 4241688 C2 DE4241688 C2 DE 4241688C2
Authority
DE
Germany
Prior art keywords
state
splitting
model
states
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4241688A
Other languages
English (en)
Other versions
DE4241688A1 (en
Inventor
Jun-Ichi Takami
Shigeki Sagayama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Interpreting Telecommunications Research Laboratories filed Critical ATR Interpreting Telecommunications Research Laboratories
Publication of DE4241688A1 publication Critical patent/DE4241688A1/de
Application granted granted Critical
Publication of DE4241688C2 publication Critical patent/DE4241688C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • G10L15/146Training of HMMs with insufficient amount of training data, e.g. state sharing, tying, deleted interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung nach dem Oberbegriff des Patentanspruches 1. Insbesondere sollen die Einheit, Struktur und verschiedene Parameter der Dichtevertei­ lung der Ausgabewahrscheinlichkeit von Modellen auf optimale Weise zum Erzeugen eines Modelles hoher Effektivität bestimmt werden, wobei ein verdecktes Markow-Modell (Hidden-Markov-Mo­ del): HMM benutzt wird.
Damit eine hochgenaue und robuste Spracherkennung unter Benut­ zung von HMM realisiert wird, ist die simultane Realisierung der Erzeugung eines genauen Modelles und die Schätzung eines robusten Modelles ein wichtiges zu lösendes Problem. Für genaues Modellieren muß eine Allophon-Klasse geeignet bestimmt werden, die den gesamten Sprachparameterraum abdeckt, und damit ein hochrobustes Modell von begrenzten Trainingsstichproben geschätzt werden kann, muß ein Mechanismus eingeführt werden, der effektiv die Information der Trainingsstichproben aufnehmen kann.
Bei der Spracherkennung unter Benutzung von HMM werden eine Modelleinheit, Modellstruktur und Schätzung der Modellparameter unabhängig voneinander unter Benutzung verschiedener Kriterien bestimmt. Zum Beispiel wird das Kriterium der Modelleinheit auf der Grundlage von Wissen (Phonem, Halbsilbe, Phonemkontex) bestimmt, oder sie wird auf der Grundlage von Ver­ zerrungsminimierung bestimmt (Phonemumgebung in einer Phonem­ umgebungshäufung). Die Modellstruktur wird auf der Grundlage von Wissen bestimmt (ob die Modelle alle die gleichen sind, oder ob die Modelle durch verschiedene Strukturen dargestellt werden), oder sie wird auf der Grundlage der Teilung des Zu­ standes bestimmt, wobei Ähnlichkeit als Bezug genommen wird. Die Modellparameter werden nach dem Maximum-Likelihood-Prinzip (Methode der maximalen Stichprobenwahrscheinlichkeit oder Prinzip der größten Verläßlichkeit) gemäß des Vorwärts-Rückwärts-Algorithmus bestimmt. Folglich gibt es keine Konsistenz zwischen den Kriterien, und insgesamt kann eine optimale Lösung nicht erreicht werden.
Aus der DE 33 37 353 A1 ist ein Sprachanalysator auf der Grund­ lage eines verborgenen Markov-Modelles bekannt. Es weist eine Vielzahl von gespeicherten Bezugsschablonen für ein einge­ schränktes verborgenes Markov-Modell und eine Vielzahl von gespeicherten Signalen auf, die vorbestimmte Akustikmerkmale darstellen. Eine Eingangssprachäußerung wird unter Bildung einer Folge von akustischen Merkmalssignalen analysiert, aus denen eine Folge der gespeicherten vorbestimmten Merkmalssignale zur Darstellung des Eingangsmusters gewählt wird. Unter gemeinsamen Ansprechen auf die Markov-Modell-Bezugsschablonen und die gewählte Merkmalssignalfolge wird ein Signal erzeugt, das die Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster das jeweilige Bezugsmuster ist. Das Eingangssprachmuster wird als eines der Bezugsmuster unter Ansprechen auf die die Wahrschein­ lichkeit darstellende Signale identifizieren.
Aus der EP 0 312 209 A2 ist ein Spracherkennungssystem bekannt, das Markov-Modelle benutzt. Diese sind so ausgelegt, daß sie durch eine anfängliche Trainingsmenge und eine anfängliche Trainingssprache trainiert werden, wobei sie zum Erkennen von Eingangssprache benutzt werden.
Aus der US 4,783,804 ist eine Anordnung mit verdeckten Markov- Modellen für Sprachmustererkennung bekannt. Markov-Modell- Sprachmusterbeispiele werden für Sprachanalysesysteme gebildet, indem identifizierte Sprachmuster zum Erzeugen von Abfolgen von akustischen Merkmalssignalen analysiert werden. Das Sprachmusterbeispiel wird erzeugt, indem iterativ aufeinander folgende Markov-Modellsignalmengen erzeugt werden, wobei mit einer anfänglichen Markov-Modellsignalmenge begonnen wird.
Es ist die Aufgabe der Erfindung, ein Verfahren zum Erzeugen eines wirksamen Wortteilmodelles zur Spracherkennung vorzusehen, bei dem das Verfahren des Darstellens von Modellen durch simultanes und automatisches Bestimmen des Verfahrens unter den gleichen Kriterien des Maximum-Likelihood-Prinzipes wie die Schätzung der Modellparameter optimiert wird, wobei das maximale phonetische Phänomen mit minimalen Modellparametern modulliert wird.
Diese Aufgabe wird gelöst durch ein Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung mit den Merkmalen des Patentanspruchs 1.
Bevorzugte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.
Das heißt, bei der vorliegenden Erfindung werden die Phonem- Kontextklasse, die eine jedem Modell zugeordnete Modelleinheit ist, die Zahl der zum Darstellen eines jeden Modelles benutzten Zustände, das Verhältnis des Teilens beziehungsweise gemeinsamen Benutzens der Zustände unter einer Mehrzahl von Modellen und die Dichteverteilung der Ausgabewahrscheinlichkeit eines jeden Modelles alle auf der Basis des gemeinsamen Krite­ riums bestimmt, indem wiederholt eine kleine Zahl von Zuständen aufgeteilt wird, die in dem anfänglichen verdeckten Markow- Modell vorgesehen sind.
Daher können gemäß der vorliegenden Erfindung die Modelle schrittweise genau gemacht werden, Modelleinheit, Modellstruk­ tur und Modellparameter können automatisch unter dem gemeinsa­ men Kriterium optimiert werden, und als Resultat kann ein Wortteilmodell mit einer hohen Effizienz der Darstellung erzeugt werden.
Es folgt die Beschreibung von Ausführungsformen der Erfindung in Zusammenhang mit den Figuren.
Von den Figuren zeigt:
Fig. 1 ein schematisches Diagramm des Prinzips der vor­ gehenden Erfindung;
Fig. 2 eine Struktur eines verdeckten Markow-Modelles;
Fig. 3 eine Darstellung eines Trainingsverfahrens eines anfänglichen Modelles;
Fig. 4 eine Darstellung der Bestimmung eines aufgespalte­ nen Zustandes;
Fig. 5 eine Darstellung eines aufgespaltenen Zustandes in der kontextuellen Domäne;
Fig. 6 eine Darstellung des aufgespaltenen Zustandes in der temporalen Domäne;
Fig. 7 eine Darstellung der erneuten Schätzung der Vertei­ lung;
Fig. 8 eine Darstellung einer Änderung der Verteilung; und
Fig. 9 ein spezielles Beispiel eines letztendlich been­ digten verdeckten Markow-Netzwerkes.
Fig. 1 ist ein Flußdiagramm, daß das Prinzip der vorliegenden Erfindung zeigt. Die vorliegende Erfindung zielt darauf, suk­ zessiv die Modelle genauzumachen, in dem jeder Zustand aufge­ spalten wird auf der Grundlage eines vorgeschriebenen Krite­ riums (Maximum-Likelihood-Prinzip) eines Wahrscheinlichkeitsmodelles, das eine Darstellung der Form (statisches Merkmal der Sprache) und der Änderung in der Zeit davon (dynamisches Merk­ mal der Sprache) in einer kurzen Zeiteinheit des Merkmalmu­ sters der Sprache ist, die als eine Kette einer Mehrzahl von Verteilungsfunktionen (Zustände) der Ausgabewahrscheinlichkeit dargestellt wird. Folglich kann die Bestimmung der Modellein­ heit, die Bestimmung der Modellstruktur und die Schätzung der Parameter eines jeden Zustandes simultan unter dem gleichen Kriterium realisiert werden.
Die vorliegende Erfindung wird im einzelnen unter Bezugnahme auf Fig. 1 beschrieben. Zuerst wird ein Modell 2, das nur aus einem Zustand und einem Pfad besteht, der den Zustand mit dem Start und dem Ende verbindet, als anfängliches Modell 1 aus allen Sprachstichproben gebildet, und die Tätigkeit beginnt mit dem Aufspalten dieses Zustandes.
Das Aufspalten des Zustandes wird zu diesem Zeitpunkt entweder durch eine Aufspaltung 3 in der kontextuellen Domäne mit einer damit verbundenen Pfadaufspaltung oder durch eine Aufspaltung 4 in der temporalen Domäne ohne Pfadaufspaltung durchgeführt, wie unter Bezugnahme auf Fig. 5 und 6 beschrieben wird. Insbesondere zu dem Zeitpunkt der Aufspaltung 3 in der kontextuellen Domäne werden die Kontextklassen, die ent­ sprechenden Pfaden zugeordnet sind, die mit dem Pfadaufspalten verknüpft sind, simultan aufgespalten. Als ein tatsächliches Ver­ fahren des Aufspaltens wird ein Verfahren der Aufspaltung 5 bestimmt, bei dem die gesamte Likelihood (Wahrscheinlichkeit), wenn sie auf die Sprachstichproben ange­ wendet wird, unter allen Verfahren der Aufspaltung am größten wird, die zu diesem Zeitpunkt verfügbar sind, einschließlich des Verfahrens des Aufspaltens der Kontextklasse. Durch Wie­ derholen eines derartigen Zustandsaufteilens wird ein hoch­ effizientes Modell 6 erzeugt, das eine hohe Likelihood errei­ chen kann mit einer kleinen Zahl von Zustandsindizes.
Das verdeckte Markow-Netzwerk, das automatisch durch das oben erwähnte sukzessive Zustandsaufspalten erzeugt wird, kann als ein Netzwerk einer Mehrzahl von Zuständen dargestellt werden. Jeder Zustand kann als eine probabilistische statistische Si­ gnalquelle in einem Sprachparameterraum betrachtet werden, von denen jede die folgenden Informationen hält.
  • 1) Zustandsindex,
  • 2) Kontextklasse, die akzeptiert werden kann,
  • 3) Listen der vorhergehenden und folgenden Zustände,
  • 4) Parameter der Wahrscheinlichkeitsverteilung, die in einem Merkmalsparameterraum der Sprache zugeordnet werden,
  • 5) Übergangswahrscheinlichkeit in einer geschlossenen Schleife und Übergangswahrscheinlichkeit zu einem folgenden Zustand.
Bei dem verdeckten Markow-Netzwerk kann, wenn Eingangsdaten und Kontextinformation davon angelegt werden, das Modell für die Eingangsdaten auf eine eindeutige Weise durch Verketten von Zuständen bestimmt werden, die den Kontext in der Beschränkung der Listen der vorangehenden und folgenden Zustände akzep­ tieren können. Da dieses Modell äquivalent dem verdeckten Mar­ kow-Modell ist, wie es in Fig. 2 gezeigt ist, können der Vor­ wärtspfadalgorithmus zum Berechnen der Likelihood und der Vor­ wärts-Rückwärtsalgorithmus zum Schätzen von Parametern direkt wie bei einem gewöhnlichen verdeckten Markow-Modell benutzt werden.
Ein Algorithmus zum Realisieren aufeinanderfolgender Zustands­ aufspaltungen wird im einzelnen beschrieben.
Fig. 3 ist eine Darstellung eines Trainingsverfahrens eines anfänglichen Modelles. Als anfängliches Modell wird ein verdecktes Markow-Modell mit einem Zustand (der Index dieses Zustandes wird als Null dargestellt und der Zustand des Zu­ standsindex Null wird als S(0) dargestellt) mit einer gemisch­ ten Gaußschen Dichteverteilung (diagonale Kovarianzmatrix), wobei die Zahl der Mischungen 2 beträgt, gemäß des Vor­ wärts-Rückwärtsalgorithmus unter Benutzung aller Trainingsdaten gelernt. Zur gleichen Zeit werden die Informationen aller Kontextklassen, die in den Trainingsdaten enthalten sind, auf entsprechenden Zuständen gehalten, und Symbole, die den Start und das Ende anzeigen, werden zu der Liste der vorhergehenden Zustände und zu der Liste der folgenden Zustände addiert. Weiterhin wird 1 für eine Variable m eingesetzt, die die Ge­ samtzahl der Zustände anzeigt.
Fig. 4 ist eine Darstellung, die eine Bestimmung eines Spal­ tungszustandes zeigt. Für jeden Zustand i, der zu dem Zeitpunkt des Lernens des oben beschriebenen anfänglichen Modelles existiert, wird die Größe di der Verteilung, die diesem Zustand zugeordnet ist, gemäß der folgenden Gleichung (1) berechnet. Ein Zustand, in dem der Wert der Größe di der Verteilung am größten ist (als S(m) dargestellt), wird als der Spaltungs­ zustand bestimmt:
σik² = λi1σi1k² + λi2σi2k² + λi1λi2i1k - µi2k
λi1, λi2: Gewichtskoeffizienten der zwei Verteilungen des Zustandes i.
µi1k, µi2k: Mittel der zwei Verteilungen des Zustandes i.
σi1k 2, σi2k 2: Varianz der zwei Verteilungen des Zustandes i.
ni: Zahl der Phonemstichproben, die zur Schätzung des Zustandes i verwendet worden sind.
σTK 2: Varianz aller Stichproben (Koeffizient für die Normalisierung).
Das Maß di wird zu diesem Zeitpunkt vorgesehen, in dem der Wert σik 2 in Betracht gezogen wird, der der berechneten Varianz entspricht, wenn eine einzelne Gaußsche Dichteverteilung auf die Verteilung des Zustandes i als auch auf die Zahl der Pho­ nemstichproben ni angewendet wird, die zum Schätzen der Ver­ teilung benutzt werden. Als Resultat wird das weitere Aufspal­ ten solcher Stichproben, für die nur eine kleine Zahl von Stichproben zum Schätzen der Verteilung benutzt wurde, schwie­ rig, was die statistische Robustheit verbessert.
Fig. 5 ist eine Darstellung, die eine Zustandsaufspaltung in der kontextuellen Domäne zeigt, und Fig. 6 ist eine Darstel­ lung, die eine Zustandsaufspaltung in der temporalen Domäne zeigt. Der in Fig. 4 gezeigte Zustand S(m) wird in zwei Zu­ stände aufgespalten, das heißt in den Zustand S′(m) und den Zustand S(M), wie in Fig. 5 gezeigt ist. Zu dieser Zeit werden zwei Verteilungen, die dem Zustand S(m) zugeordnet sind, als Wahrscheinlichkeitsverteilungsparameter diesen zwei Zuständen entsprechend zugeordnet, und die Werte der Übergangswahr­ scheinlichkeit der geschlossenen Schleife (Self Loop) und die Übergangswahrscheinlichkeit zu dem folgenden Zustand, der durch den Zustand S(m) gehalten wird, werden kopiert, wie sie sind. Bezüglich der Domäne der Zustandsaufspaltung ist folgendes zu bemerken, die Maximum Likelihood Pc, die vorgesehen wird, wenn die tatsächliche Phonemstichprobe in der kontextuellen Domäne aufgespalten wird, und die Maximum Likelihood Pt, die vorge­ sehen ist, wenn die Aufspaltung in der temporalen Domäne durchgeführt wird, werden entsprechend berechnet, und die eine höhere Likelihood erzeugende Domäne wird verwendet. Die Werte der Maximum Likelihood Pc und Pt werden gemäß des folgenden Verfahrens berechnet.
Die Zustandsaufspaltung in der kontextuellen Domäne (Berechnung von Pc) wird ausgeführt, in dem der Zustand S′(m) und der Zu­ stand S(M), die parallel zueinander sind, wie in Fig. 5 gezeigt ist, miteinander verkettet werden. Zu dieser Zeit wird der Pfad, der ein Pfad ist, der den Start mit dem Ende verbindet, gleichzeitig aufgespalten. Daher muß die Sprachstichprobe Y, die durch den Pfad dargestellt worden ist, der durch den Zustand S(m) geht, auf einen Pfad, der durch den Zustand S′(m) geht, und einen Pfad, der durch den Zustand S(M) geht, auf­ geteilt werden, welche Zustände neu erzeugt werden. Diese Verteilung wird durchgeführt, in dem Faktoren j (vorhergehendes Phonem, in Frage stehendes Phonem, folgendes Phonem usw.) be­ rechnet werden, die den maximalen Wert Pc realisieren, der gemäß der folgenden Gleichung (2) berechnet wird, und durch Aufspalten der Elemente die zu den Faktoren j gehören.
j: Faktor, der im Zustand S(m) aufgespalten werden kann
ejl: l-tes Element, das zum Faktor j gehört
yjl: Untermenge von Y, die ejl als Faktor j aufweist
Pm (Yjl): Gesamte Likelihood, wenn yjl dem Pfad auf S′(m) zugeordnet wird
PM(Yjl): Gesamte Likelihood, wenn yjl dem Pfad auf S(M) zugeordnet wird.
Zu der Zeit, wenn der Faktor j, der aufgespalten werden soll, bestimmt wird, wird die Verteilung des Elementes ej des Faktors j, das heißt, auf welchen Durchgang dieses Element zu verteilen ist, gemäß der folgenden Gleichung (3) bestimmt, in dem die Werte Pm (Yjl) und das gesamte PM(Yjl) der Likelihood benutzt wird, die bereits im Wege der Berechnung der Gleichung (2) be­ rechnet worden sind.
Emj: Menge aller Elemente, die dem Pfad auf S′ (m) zuge­ ordnet sind;
EMj: Menge aller Elemente, die dem Pfad auf S(M) zugeordnet sind.
Nachdem die Mengen Emj und EMj von Elementen bestimmt sind, werden die Menge Emj von Elementen und die Menge EMj von Ele­ mentenabschnitten, die sich auf den Faktor j beziehen, und Ab­ schnitten, die sich nicht auf j beziehen, zugeordnet, in S(m) gehaltene Information wird direkt als Kontextinformation der Zustände S′(m) und S(M) kopiert.
Das Aufspalten in der temporalen Domäne (Berechnen von Pt) wird ausgeführt, in dem die Zustände S′(m) und S(M) in Reihe ver­ kettet werden, wie in Fig. 6 gezeigt ist, und das Aufspalten in Bezug auf den Pfad nicht durchgeführt wird, da die Zahl der Pfade nicht verändert wird. Es gibt zwei Möglichkeiten des Aufspaltens in Abhängigkeit davon, welcher der Zustände S′(m) und S(M) vorne angeordnet ist. Daher wird in Bezug auf die Phonemstichprobe Y, die auf dem Pfad dargestellt wird, der durch den Zustand S(m) geht, ein Verfahren zum Realisieren des maximalen Wertes Pt, der gemäß der folgenden Gleichung (4) be­ rechnet wird, verwendet.
Pt = max (PmM(Y), PMm(Y)) (4)
PmM(Y): Gesamte Likelihood für Y, wenn S′(m) vorn ange­ ordnet ist;
PMm(Y): Gesamte Likelihood für Y, wenn S(M) vorn ange­ ordnet ist.
Da das Aufspalten des Pfades nicht bei der Aufspaltung in der temporalen Domäne auftritt, wird die in dem Zustand S(m) ent­ haltene Information kopiert, wie sie ist, als die Kontextin­ formation der Zustände S′(m) und S(M).
Fig. 7 ist eine Darstellung, die die erneute Bewertung bzw. Wie­ derschätzung der Verteilung zeigt. Zu dieser Zeit ist noch eine einzelne Gaußsche Dichteverteilung, die bei dem Aufspaltungs­ vorgang benutzt worden ist, den Verteilungen der Zustände S′(m) und S(M) zugeordnet worden. Daher werden sie wieder so herge­ stellt, daß sie die Mischungen von Gaußschen Dichten sind, die die Mischungszahl 2 haben, und unter dieser Bedingung werden die Wahrscheinlichkeitsverteilungsparameter und die Übergangs­ wahrscheinlichkeiten der Zustände neu innerhalb des Bereiches des Einflusses des Aufspaltens des Zustandes S(m) trainiert, wie in Fig. 7 gezeigt ist, damit das verdeckte Markow-Netzwerk optimiert wird. Danach wird der Zustand S′(m) neu als S(m) dargestellt, und 1 wird zu der Variablen M addiert. Der oben erwähnte Vorgang des Bestimmens des Aufspaltungszustandes und die Wiederbewertung der Verteilung wird wiederholt, bis die Variable M eine vorgeschriebene Zahl von Aufspaltungen er­ reicht.
Fig. 8 ist eine Darstellung, die die Änderung der Verteilung zeigt. Die Bestimmung der Struktur des verdeckten Markow-Mo­ dells ist durch die Vorgänge soweit beendet. Daher wird als letzter Schritt das Training zum Ändern der Wahrscheinlich­ keitsverteilung, die jedem Zustand in der letztendlichen Form (die nicht notwendigerweise eine einzelne Gaußsche Dichtever­ teilung ist) zugeordnet ist, die in dem tatsächlichen verdeck­ ten Markow-Netzwerk benutzt werden sollte, auf das gesamte verdeckte Markow-Netzwerk ausgeübt. Somit ist die Erzeugung des verdeckten Markow-Netzwerkes beendet.
Fig. 9 zeigt ein spezielles Beispiel des so erzeugten verdeck­ ten Markow-Netzwerkes. Es sei Bezug genommen auf Fig. 9, die Zahlen mit "#" sind Zustandsindizes, und Zahlen 11, 12 und 13 darunter stellen die Menge der vorhergehenden Phoneme, die Menge der zentralen Phoneme bzw. die Menge der nachfolgenden Phoneme dar. Pfade 14 und 15 stellen den vorhergehenden Zustand und den nachfolgenden Zustand für den Zustand #2 dar. In diesem Bei­ spiel ist der Zustand, der dem Zustand #2 vorangeht, der #29, und die nachfolgenden Zustände sind #1 und #23.
Wie oben beschrieben wurde, kann gemäß der Ausführungsform der vorliegenden Erfindung das Modell sukzessive präziser gemacht werden, in dem Zustandsaufspaltung wiederholt wird; Modellein­ heit, Struktur und Modellparameter können automatisch unter dem gemeinsamen Kriterium optimiert werden; und als ein Resultat kann ein Wortteilmodell mit hoher Effizienz der Darstellung erzeugt werden.

Claims (8)

1. Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung in Abhängigkeit vom Phonemkontext zum Verarbeiten von Sprachinformation unter Benutzung eines verdeckten Markov- Modelles,
bei dem statische Merkmale von Sprache, die eine Form eines Merkmalmusters der Sprache während einer kurzen Zeitdauer darstellen, und dynamische Merkmale von Sprache, die eine temporale Änderung des Merkmalsmusters darstellen, als eine Kette einer Mehrzahl von Ausgabewahrscheinlicheitsdichteverteilungen modelliert werden,
gekennzeichnet durch den Schritt:
wiederholte Aufspaltung (3, 4) einer kleinen Zahl von Zuständen, die in einem anfänglichen verdeckten Markov-Modell (1) vorgesehen sind, zum Bestimmen von
  • - einer Phonemkontextklasse, die eine einem jeden Modell zugeordnete Modelleinheit ist,
  • - einer Art des Aufteilens der Zustände zwischen einer Mehrzahl von Modellen,
  • - der Zahl von Zuständen, die zum Darstellen eines jeden Modelles benutzt werden, und
  • - der Form der Ausgabewahrscheinlichkeitsdichteverteilung eines jeden Modelles,
wobei jeweils das gleiche Kriterium verwendet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Aufspalten aufweist:
den Schritt des Aufspaltens in paralleler Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemkontextklassen entsprechen, so daß eine Änderung in den statischen Merkmalen der Sprache absorbiert wird, die aus der Differenz des Phonem­ kontextes abgeleitet wird, und
den Schritt des Aufspaltens in serieller Domäne von einem Zustand in zwei Zustände, die verschiedenen Phonemsegmenten ent­ sprechen, so daß eine Änderung in den dynamischen Merkmalen der Sprache absorbiert wird, die in einer gegebenen Phonemkontextklasse erzeugt ist,
wobei die Modellstruktur sukzessiv genauer gemacht wird durch Wiederholen der Zustandsaufspaltung in der jeweiligen Domäne, die einen höheren Wahrscheinlichkeitswert der Auswertung in Bezug auf einen tatsächliche Sprachstichprobe ermöglicht.
3. Verfahren nach Anspruch 2, gekennzeichnet durch den Schritt:
Bewirken der Aufspaltung in Bezug auf eine tatsächliche Phonem­ kontextklasse bei der Zustandsaufspaltung in der kontextuellen Domäne,
Zuordnen zweier phonetischer Kontextklassen, die zum Erzielen des höchsten Wahrscheinlichkeitswertes der Auswertung in bezug auf die tatsächliche Sprachstichprobe aufgespalten sind, zu einem der zwei entsprechenden Zustände, die durch die Zustands­ aufspaltung erzeugt sind,
so daß sukzessiv die Modelleinheit kleiner gemacht wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, gekennzeichnet durch den Schritt:
Zuordnen einer überlagerten Gaußschen Dichteverteilung mit der Mischzahl von 2 als jede Ausgabewahrscheinlichkeitsdichteverteilung und Zuordnen einer einzelnen Gaußschen Verteilung der entsprechenden der zwei Verteilungen, die die gemischte Gaußsche Dichteverteilung darstellen, zu den durch die Zustandsaufspaltung neu erzeugten zwei Zustände,
so daß eine deutliche Reduktion in dem Aufwand der Rechnung realisiert wird, die zum Neubewerten der Ausgabewahrscheinlich­ keitsdichteverteilungsparameter nach der Zustandsaufspaltung notwendig ist.
5. Verfahren nach einem der Ansprüche 1 bis 4, gekennzeichnet durch den Schritt:
Berechnen der Größe aller zu der Zeit in dem Sprachparameterraum bestehenden Zuständen und Bestimmen des Zustandes mit dem größten Wert als den Spaltungszustand vor der tatsächlichen Zustandsaufspaltung, wodurch eine Rundum(round-robin-)-Rechnung, die zum Bestimmen des optimalen Spaltungszustandes nötig ist, vermieden wird, wodurch deutlich der Aufwand der Berechnung reduziert wird.
6. Verfahren nach Anspruch 4 oder 5, mit dem Schritt:
Wiedergewinnen der einzelnen Gaußchen Verteilung, die durch das Zustandsaufspalten der ursprünglichen überlagerten Gaußchen Dichteverteilung der Mischungszahl 2 erzeugt wurde, jedesmal wenn die Zustandsaufspaltung durchgeführt wird, und Durchführen eines erneuten Trainings zum Optimieren der gesamten Modellparameter unter dieser Bedingung.
7. Verfahren nach einem der Ansprüche 1 bis 6, mit dem Schritt:
Bewirken eines erneuten Trainings zum Ersetzen der gemischten Gaußchen Dichteverteilung der Mischungszahl von 2, die jedem Zustand zugeordnet ist, durch die Form der Ausgabewahrscheinlich­ keitsdichteverteilung, die zu benutzen ist, nachdem die Zu­ standsaufspaltung beendet ist und die letztendliche Modelleinheit und -struktur bestimmt sind.
DE4241688A 1992-03-21 1992-12-10 Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung Expired - Fee Related DE4241688C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4064296A JPH0782348B2 (ja) 1992-03-21 1992-03-21 音声認識用サブワードモデル生成方法

Publications (2)

Publication Number Publication Date
DE4241688A1 DE4241688A1 (en) 1993-09-23
DE4241688C2 true DE4241688C2 (de) 1996-09-19

Family

ID=13254143

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4241688A Expired - Fee Related DE4241688C2 (de) 1992-03-21 1992-12-10 Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung

Country Status (3)

Country Link
US (1) US5677988A (de)
JP (1) JPH0782348B2 (de)
DE (1) DE4241688C2 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US6073098A (en) * 1997-11-21 2000-06-06 At&T Corporation Method and apparatus for generating deterministic approximate weighted finite-state automata
EP1126438B1 (de) * 1998-09-09 2008-07-16 Asahi Kasei Kabushiki Kaisha Spracherkenner und spracherkennungsverfahren
KR100577515B1 (ko) 1999-11-12 2006-05-10 주식회사 케이티 히든 마르코프 모델 파라미터의 가우시안 믹스츄어 갯수설정방법
FR2857528B1 (fr) * 2003-07-08 2006-01-06 Telisma Reconnaissance vocale pour les larges vocabulaires dynamiques
ATE398324T1 (de) * 2004-04-20 2008-07-15 France Telecom Spracherkennung durch kontextuelle modellierung der spracheinheiten
DE602005012596D1 (de) * 2004-10-19 2009-03-19 France Telecom Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8044798B2 (en) * 2007-06-15 2011-10-25 Icove And Associates, Llc Passive microwave speed and intrusion detection system
US8493212B2 (en) 2007-06-15 2013-07-23 Icore and Associates, LLC Passive microwave system and method for protecting a structure from fire threats
US7724134B2 (en) * 2007-06-15 2010-05-25 Icove And Associates, Llc Passive microwave fire and intrusion detection system
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
JP6274015B2 (ja) * 2014-05-29 2018-02-07 富士通株式会社 音響モデル調整装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5112038B2 (de) * 1972-03-03 1976-04-15
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
JP2600871B2 (ja) * 1987-12-16 1997-04-16 松下電器産業株式会社 Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置

Also Published As

Publication number Publication date
DE4241688A1 (en) 1993-09-23
US5677988A (en) 1997-10-14
JPH0782348B2 (ja) 1995-09-06
JPH06202687A (ja) 1994-07-22

Similar Documents

Publication Publication Date Title
DE4241688C2 (de) Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE60208223T2 (de) Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE19708183A1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE69838189T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60110315T2 (de) Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
WO1998011537A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE112018006885B4 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
DE60310687T2 (de) Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1214703A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
DE3711342A1 (de) Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE10047718A1 (de) Verfahren zur Spracherkennung
DE19654549A1 (de) Verfahren und System zur Spracherkennung
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8125 Change of the main classification

Ipc: G10L 5/06

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee