DE69324428T2

DE69324428T2 - Verfahren zur Sprachformung und Gerät zur Spracherkennung

Info

Publication number: DE69324428T2
Application number: DE69324428T
Authority: DE
Inventors: Masafumi Nishimura; Masaaki Okochi
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-09-29
Filing date: 1993-09-28
Publication date: 1999-11-25
Anticipated expiration: 2013-09-29
Also published as: US5502791A; EP0590925A1; EP0590925B1; DE69324428D1; JPH06110493A; JPH0772840B2

Description

Gebiet der Erfindung

De Erfindung betrifft Sprachmodelle, die versteckte Markov- Modelle in Subwort-Einheiten verwenden, beispielsweise Laute (oder Phoneme, also die Lauteinheiten, aus denen Worte bestehen), und die Spracherkennung, in der solche Sprachmodelle verwendet werden, und im einzelnen die effiziente Spracherkennung bei Transformationen (Schwankungen) der Aussprache.

Stand der Technik

Spracherkennung unter Anwendung des Markov-Modells soll eine Spracherkennung unter dem Blickwinkel der Wahrscheinlich keit ermöglichen. Das Markov-Modell beschreibt die Zeitstruktur eines Sprachmusters als Übergänge zwischen Zuständen in einer Markovschen Kette. Jedem Übergang ist eine Vorkommenswahrscheinlichkeit zugeordnet, die von vorangegangenen Übergängen abhängt. Die Übergänge können beobachtet werden, aber die Zustände selbst können nicht direkt beobachtet werden; daher der Ausdruck "verstecktes" Markov-Modell.
Versteckte Markov-Modelle (Hidden Markov Models = HMMs) werden ausführlicher beschrieben in "Electronic Speech Recognition", (Ed. Bristow, R.) Collins, 1986, Seite 137 ff., sowie in "An Introduction to the Applications of the Theory in Probabalistic Functions of a Markov Process to Automatic Speech Recognition", S. E. Levinson, L. R. Rabiner und M. M. Sondhi, The Beil System Technical Journal, Band 62, Nr. 4, April 1983. Außerdem werden solche HMM-Systeme in EP-0-504-927 und in GB-2-240-203 beschrieben. In den letzten Jahren wurden Systeme vorgeschlagen für eine Spracherkennung mit großem Vokabular und eine kontinuierliche Spracherkennung auf der Basis von HMMs in Subworteinheiten, wie Laute (oder Phoneme) und Silben.
Als repräsentative konventionelle Methode gibt es eine Methode zur Spracherkennung, bei der phonetische HMMs in Reihen kombiniert werden, um ein zu erkennendes Wort darzustellen. Bei dieser Methode wird die Auswahl dieser zu verkettenden phonetischen HMMs auf der Basis einer Beschreibung (Grundform) in einem Vorrat von Aussprachemöglichkeiten zu erkennender Worte getroffen. Da jedoch in der tatsächlichen Sprache Subworteinheiten eine Transformation erfahren, in Abhängigkeit von der Art der vorangehenden und nachfolgenden Phoneme, der Sprechgeschwindigkeit und der Akzentuierung, ist es nicht möglich, eine hohe Erkennungsrate zu erreichen, wenn phonetische HMMs ohne Berücksichtigung dieser Transformationen verkettet werden.
Es gibt noch eine andere Methode, bei der die phonetischen HMMs für jede phonetische Umgebung nur unter Berücksichtigung der vorangehenden und der nachfolgenden phonetischen Umgebung vorbereitet werden; phonetische HMMs werden entsprechend einer phonetischen Umgebung ausgewählt, wie sie in einem Vorrat von Aussprachemöglichkeiten zu erkennender Worte beschrieben wird; anschließend werden sie in Reihen kombiniert. Diese Methode wird ausführlich behandelt in "Context-Dependent Modeling for Acoustic-Phonetic Recognition of Continuous Speech" (Proceedings of ICASSP'85, April 1985, R. Schwartz, Y. Chow, O. Kimball, S. Roucos, M. Krasner, J. Mkhoul). Obwohl diese Methode für jede phonetische Umgebung eine Sprachtransformation auf einfache Weise widerspiegeln kann, erfordert sie die Vorbereitung einer großen Anzahl phonetischer HMMs, um die verschiedensten Sprachtransformationen handhaben zu können, und zwar aufgrund der extrem großen Anzahl von möglichen Kombinationen phonetischer Umgebungen; darüber hinaus ist eine große Menge von Schulungssprachdaten erforderlich.
Für eine vom Sprecher unabhängige Spracherkennung, die Verschiedenheiten in der Aussprache, die von Sprecher zu Sprecher sehr stark voneinander abweichen kann, berücksichtigt, würde diese Methode zudem zu losen Modellen führen, weil jedes einzelne phonetische HMM alle auf die Aussprache bezogenen Unterschiedlichkeiten jedes Sprechers enthalten muß, was dazu führen würde, daß die Fähigkeit, Phoneme zu unterscheiden, abnimmt.
Auf der anderen Seite gibt es eine weitere Methode, bei der die Kenntnisse über Transformationen und sprachliche Unterschiede für jedes Wort dargestellt werden durch eine Kombination von Subwort-HMM-Netzwerken. Diese Methode wird ausführlich behandelt in "A Maximum Likelihood Approach to Continuous Speech Recognition" (IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-5(2), Seite 179-190, 1983, L. R. Bahl, F. Jelinek, R. L. Mercer).
Es ist jedoch nicht leicht, manuell eine solche Netzwerkdarstellung für jedes Wort vorzubereiten, und es ist außerdem nicht unbedingt möglich, das Wissen der menschlichen Sinne einzelnen physikalischen Phänomenen präzise zuzuordnen.
Es gibt noch eine weitere Methode, bei der Parameter (Übergangswahrscheinlichkeiten) in einem Netzwerk bestimmt und für jedes Wort gelernt werden. Bei dieser Methode ist jedoch eine große Menge von Schulungssprachdaten erforderlich, um für je des Wort eine Netzwerkdarstellung zu erhalten, es war also nicht leicht, Worte so zu modifizieren, daß sie erkannt wurden, obwohl Subworte als Einheiten verwendet wurden.

Zusammenfassung der Erfindung

Die vorliegende Erfindung stellt ein Gerät zur Spracherkennung sowie ein entsprechendes Verfahren bereit, entsprechend der Ansprüche 1 und 4.
Die vorliegende Erfindung stellt vorzugsweise für jedes Phonem einige repräsentative Modelle als allophonetische HMMs bereit, die Transformationen (Allophone) jedes Phonems als Subwort darstellen. Diese Darstellung der Variationen von Phonemen erfolgt automatisch auf der Basis von Clusterbildungstechniken. Außerdem werden sprachliche Phänomene, wie die Aussprache eines Wortes, durch Sprachmodelle dargestellt, bei denen die Kombination solcher allophonetischer HMMs vorzugsweise durch ein N-Gramm begrenzt wird (die Wahrscheinlichkeit eines Vorkommens von N Gruppen von allophonetischen HMMs), und diese Sprachmodelle werden für die Spracherkennung eingesetzt. Die Erfindung stellt demnach ein Gerät zur Spracherkennung bereit, das verschiedene, auf die Aussprache bezogene Transformationen (Variationen) durch eine statistische Kombination (N-Gramm) von verschiedenen HMM-Typen darstellt.
Bei der Schulung eines Modells wird ein Schulungssprachmodell zusammengestellt durch Verbindung einer Vielzahl von allophonetischen HMMs mit jedem Phonem, unter Begrenzung durch ein N-Gramm, durch Bezugnahme auf die Grundform der Schulungssprache, und die Parameter für ein N-Gramm-Modell unter den allophonetischen HMMs sowie die Parameter für jedes allopho netische HMM werden automatisch geschätzt durch Anwendung von Techniken wie Abschätzung der größten Wahrscheinlichkeit, um die Spracherkennungsleistung von HMMs zu verbessern.
Nehmen wir zum Beispiel ein Wort-Sprachmodell, das unter der Begrenzung durch ein Bigramm (N = 2; die Wahrscheinlichkeit, daß ein Paar vorkommt) aufgebaut wurde. Wenn ein Element in einem Vorrat von Aussprachemöglichkeiten (phonemische Transkription) für ein bestimmtes Wort vorhanden ist, wird ein Wort-Sprachmodell aufgebaut, in dem HMMs in phonemischen Einheiten entsprechend dem Vorrat von Aussprachemöglichkeiten miteinander verbunden werden. Bei dieser Gelegenheit wird jedem Phonem eine Vielzahl von allophonetischen HMMs zugewiesen, nämlich A (p, i), wobei p ein Phonem bezeichnet und i der Typ des Allophons des Phonems p ist. All diese allophonetischen HMMs für jedes Phonem werden parallel verarbeitet, obwohl die Kombination von statistisch nicht notwendigen allophonetischen HMMs durch ein Bigramm eingeschränkt wird. Das heißt, wenn die phonemische Reihe eines Wort -Sprachmodells wiedergegeben wird mit P = p(1)p(2)... p(w), dann wird die Wahrscheinlichkeit, daß ein Paar vorkommt, das heißt Pr(A(p(j),m) A(p(j - 1),n)), bewertet in der Form eines Produkts mit der Wahrscheinlichkeit von gewöhnlichen HMMs in einem Übergang von einem allophonetischen HMM-Modell, A(p(j- 1),n), für das (j - 1)te Phonem in ein anderes allophonetisches HMM-Modell, A(p (j),m), für das j-te Phonem.
Die Bezeichnung "Subwort" steht in dieser Beschreibung für Sprachbestandteile, wie zum Beispiel Phoneme, Silben KVK und VKV (K: Konsonant; V: Vokal), die nicht direkt etwas mit der Aussprache zu tun haben, aber sich auf phonetische Einheiten beziehen, die dazu dienen, unterschiedliche Bedeutungen auszudrücken. An welcher Stelle die Sprache zur Definition eines Subwortes abgegrenzt wird, kann nach Belieben entschieden werden.
Der Begriff "Wort" bedeutet in dieser Beschreibung eine Einheit eines zu erkennenden Objektes, beispielsweise ein Wort, eine Phrase, oder ein Satz, die nach Belieben gewählt werden kann.
Der Begriff "Sprachtransformationskandidat", wie er in dieser Beschreibung verwendet wird, bezeichnet ein Allophon, wenn das Phonem als ein Subwort definiert wurde; in diesem Fall sind die Sprachtransformationskandidaten jedes Subwort, das transformiert wird, wenn das Phonem als Sprache ausgesprochen wird.
Es gibt zwei Typen von HMMs, und zwar einzelne HMMs, die Kennsätze ausgeben, und kontinuierliche HMMs, die Merkmalsvektoren ausgeben. Mit dieser Erfindung ist die Verwendung beider HMM-Typen möglich: bei den kontinuierlichen HMMs erfolgt die Spracherkennung entsprechend einer Merkmalsvektorsequenz, die das Ergebnis einer Merkmalsanalyse der Eingangssprachen ist, während bei diskreten HMMs die Spracherkennung entsprechend einer Kennsatzsequenz durchgeführt wird, die das Ergebnis einer weiteren Konvertierung der Merkmalsvektorsequenz ist.

Beschreibung eines Ausführungsbeispiels

Ein Ausführungsbeispiel der vorliegenden Erfindung soll nachstehend mit Hilfe eines Beispiels und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben werden; es zeigt:
Fig. 1 ein Blockdiagramm eines Geräts zur Spracherkennung, bezogen auf ein Ausführungsbeispiel dieser Erfindung;
Fig. 2 ein Flußbild, das die Kennsatzbildung bei Sprache zeigt;
Fig. 3 ein Konzept eines phonemischen Markov-Modells;
Fig. 4(a) eine Tabelle von Übergangswahrscheinlichkeiten für phonemische Markov-Modelle;
Fig. 4(b) eine Tabelle von Kennsatzausgabewahrscheinlichkeiten für phonemische Markov-Modelle;
Fig. 4(c) eine Tabelle von Vorkommenswahrscheinlichkeiten mit einem Bigramm zwischen phonemischen Markov-Modellen;
Fig. 5 ein Flußbild der Erzeugung der phonemischen Allophon-Grundform;
Fig. 6 ein Flußbild einer Modellparameterschätzung;
Fig. 7 ein Flußbild von Spracherkennungsoperationen;
Fig. 8 eine Konzeptzeichnung eines Sprachmodells, das Worte darstellt.
In diesem Ausführungsbeispiel wird die vorliegende Erfindung auf die Spracherkennung von Worten angewendet, wobei phonemische Markov-Modelle als HMMs für Kennsatzeinheiten verwendet werden und ein Bigramm (N = 2) als N-Gramm verwendet wird.
Weil Modelle mit demselben Kennsatznamen bei der Schulung und Interpretation solcher Modelle als ein gemeinsames Modell behandelt werden, ist es bei phonemischen Markov-Modellen möglich, Speicherplatz zu sparen und eine bessere Schulungseffizienz zu erreichen. Bei phonemischen Markov-Modellen können Kennsatzsequenzen, die aus der Aussprache gewonnen werden, außerdem direkt den Modellsequenzen entsprechen und dadurch die Erzeugung von Startmodellen für allophonetische HMMs vereinfachen. Solche Kennsatzsequenzen, die Modellsequenzen darstellen, werden als phonemische Grundformen bezeichnet und entsprechen den Grundformen der phonemischen Modelle.
Phonemische Markov-Modelle werden ausführlich in dem folgenden Artikel behandelt:
"Acoustic Markov Models Used in The Tangora Speech Recoanition System" (Proceedings of ICASSP'88, April 1988, S11-3, L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer und M. A. Picheny).
Fig. 1 ist ein komplettes Blockdiagramm des mit diesem Ausführungsbeispiel verbundenen Geräts zur Spracherkennung. Die Eingangssprache (Worte) wird übe r ein Mikrophon 1 und einen Verstärker 2 an einen Analog-Digital(A/D)-Wandler 3 weitergegeben, wo die Eingangssprache in digitale Daten umgewandelt wird. Die so digitalisierten Sprachdaten werden dann an einen Merkmalsextrahierer 4 weitergegeben.
In dem Merkmalsextrahierer 4 werden die Sprachdaten zunächst einer diskreten Fourier-Transformation unterzogen und anschließend von einem kritischen Bandpaßfilter mit neunzehn Kanälen ausgegeben, der die akustischen Merkmale zusammen mit einem logarithmischen Leistungswert reflektiert. Dieser Aus gang wird an einen Endpunktdetektor 5 gesendet, beispielsweise in Intervallen von etwa 10 m sec (dieses Einheitenintervall wird als Frame bezeichnet). Dann werden nur diejenigen Merkmalswerte der Frames, die als innerhalb eines Wortsprachintervalls liegend bewertet werden, an eine Durchschalteinheit 6 gesendet und anschließend entweder an eine Code-Lexikon-Aufbaueinheit 7 oder eine Kennsatzbildeeinheit 8.
Während der Vorbereitung des Code-Lexikons wird die Durchschalteinheit 6 auf die Code-Lexikon-Aufbaueinheit 7 geschaltet, so daß die Merkmalsdaten von dem Merkmalsextrahierer 4 in die Code-Lexikon-Aufbaueinheit 7 eingespeist werden können. Die Code-Lexikon-Aufbaueinheit 7 kompiliert dann ein Code-Lexikon 9 aus dem Merkmalsvorrat, der mit 128 verschiedenen Kennsatztypen ein Cluster bildet.
Andererseits wird zur Erkennung von Sprachdaten eine phonemische Allophon-Grundform registriert, oder es werden Modellparameter geschätzt, und die Durchschalteinheit 6 wird auf die Kennsatzbildeeinheit 8 geschaltet. Die Kennsatzbildeeinheit 8 weist jedem Frame, auf den in dem Code-Lexikon 9 Bezug genommen wird, einen Kennsatz zu.
Die oben beschriebene Kennsatzbildung findet wie in Fig. 2 statt; X bezeichnet die Menge der Merkmalsdaten eines Eingangssprache-Frames (Worte); Yj den Merkmalsvorrat des j-ten Kennsatzes der in dem Code-Lexikon vorgehaltenen Merkmale; R die Größe ( = 128) des Code-Lexikons; dist (X, Yj) die Euklidsche Distanz zwischen X und Yj; m den untersten Wert von dist (X, Yj) zu jedem Zeitpunkt.
Erstens: Wenn eine Merkmalsmenge X eingegeben wird (Schritt 20), dann werden j, m und l (eine Kennsatznummer, die der eingegebenen Merkmalsmenge X endgültig zugewiesen wird) auf 1, einen sehr großen Wert V, bzw. auf 1 initialisiert (Schritt 21).
Zweitens: Es wird beurteilt, ob alle Merkmalsvorräte in dem Code-Lexikon unter der Bedingung "j > R" geprüft wurden (Schritt 22); eine andere Beurteilung prüft, ob ein Kennsatz mit einer Distanz gefunden wurde, die größer als die bisher unter der Bedingung "m > dist (X, Yj)" erhaltene Distanz ist (Schritt 24).
Drittens: Wenn ein Kennsatz mit einer kürzeren Distanz gefunden wird, wird seine Kennsatznummer, j, zunächst auf 1 gesetzt (Schritt 25). Wenn kein solcher Kennsatz gefunden wird, bleibt die Kennsatznummer, j, wie sie ist, und es werden nacheinander Prüfläufe durch das Code-Lexikon bis zur letzten Kennsatznummer, R (Schritt 22), durchgeführt, indem j jeweils um 1 erhöht wird, um festzustellen, ob es einen Kennsatz mit einer noch kürzeren Distanz gibt (Schritt 26). Schließlich wird die Kennsatznummer desjenigen Kennsatzes mit der kürzesten Distanz, das heißt, die Kennsatznummer eines Kennsatzes, der dem eingegebenen Merkmalswert X des in dem Code-Lexikon als Kennsatz enthaltenen Merkmalsvorrates am meisten entspricht, als ermittelter Kennsatz (Kennsatznummer) 1 ausgegeben (Schritt 23).
Erneut bezugnehmend auf Fig. 1; eine Kennsatzsequenz einer Vielzahl von Kennsätzen, die für jeden Frame von der Kennsatzeinheit 8 ausgegeben werden, entspricht einem Phonem, und eine Summenkennsatzsequenz von einigen Kennsatzsequenzen, die solchen Phonemen entsprechen, entspricht einem Wort der Eingangssprache. Diese Kennsatzsequenz, die einem Wort entspricht, wird durch eine Durchschalteinheit 10 durchgeschaltet, entweder zu der Einheit 14, welche die phonemische Allophon-Grundform erzeugt, zu der Modellparameter- Schätzeinheit 15, oder zu der Erkennungseinheit 16.
Auch in diesem Ausführungsbeispiel wird vorausgesetzt, daß Sprachmodelle Kennsatzsequenzen ausgeben, und daher wird die Eingangssprache in eine Kennsatzsequenz transformiert. Es kann jedoch auch vorausgesetzt werden, daß Sprachmodelle Merkmalsvektorsequenzen ausgeben; in diesem Fall werden die Merkmalswerte, die man aus einer Merkmalsanalyse der Sprache als einem Erkennungsobjekt erhält, in die Erkennungseinheit 16 eingespeist, ohne daß sie eine Kennsatztransformation durchmachen.
Wenn eine phonemische Allophon-Grundform erzeugt wird, wird das Durchschaltteil 10 auf die Einheit 14, welche die phonemische Allophon-Grundform erzeugt, geschaltet; in die Erzeugungseinheit 14, welche die phonemische Allophon-Grundform erzeugt, wird eine Kennsatzsequenz eingespeist; eine Tabelle 17 mit phonemischen Allophon-Grundformen wird unter Bezugnahme auf den Wortaussprachevorrat 11 für die Erzeugung der Allophon-Grundform und den Ausgang des Merkmalsextrahierers 4 erzeugt. Die Funktionsweise der Erzeugungseinheit 14 zur Erzeugung der phonemischen Allophon-Grundform soll später unter Bezugnahme auf Fig. 5 noch ausführlich beschrieben werden.
Wenn die Parameter eines Markov-Modells geschätzt werden, wird das Durchschaltteil 10 auf die Modellparameter-Schätzeinheit 15 geschaltet; die Modellparameter-Schätzeinheit 15 schult das Modell unter Bezugnahme auf die Kennsatzsequenz, die Tabelle 17 mit phonemischen Allophon-Grundformen und den Schulungswort-Aussprachevorrat 12; außerdem bestimmt sie die Parameterwerte (die Parameter der phonemischen Markov-Modelle und ein Bigramm) in der Parametertabelle 18. Die Funktionsweise der Modellparameter-Schätzvorrichtung soll später unter Bezugnahme auf Fig. 6 und 8 ausführlich erläutert werden. Wenn Sprache erkannt wird, schaltet das Durchschaltteil 10 auf das Erkennungsgerät 16 und das Erkennungsgerät erkennt die eingehende Sprache anhand einer Eingangskennsatzsequenz, der Tabelle 17 mit phonemischen Allophon-Grundformen, der Parametertabelle 18 und dem Aussprachevorrat 13 der zu erkennenden Worte. Die Funktionsweise der Erkennungseinheit 16 soll später unter Bezugnahme auf die Fig. 7 und 8 ausführlich erläutert werden. Der Ausgang der Erkennungseinheit. 16 wird in eine Workstation 19 eingespeist, wo die so erkannten Worte beispielsweise auf dem Bildschirm angezeigt werden.
Außerdem werden alle Geräte, außer dem Mikrophon 1, dem Verstärker 2, dem A/D-Wandler 3 und dem Bildschirm 16, die in Fig. 1 gezeigt werden, als Software auf der Workstation implementiert.
Fig. 3 zeigt die Struktur eines phonemischen HMM, das in diesem Ausführungsbeispiel verwendet wird. Die als Kreise in dieser Zeichnung eingezeichneten Knoten stellen Zustände dar. Der als gepunktete Linie eingezeichnete Zustandsübergang 3 ist ein Nullübergang, der keinen Kennsatzausgang bewirkt. In diesem Ausführungsbeispiel werden 128 derartige phonemische HMMs mit entsprechenden Kennsatznummern bereitgestellt. Den jeweiligen phonemischen HMMs werden Vorkommenswahrscheinlichkeiten zugewiesen, wie sie in Fig. 4(a) gezeigt werden, entsprechend den jeweiligen Zustandsübergängen 1, 2 und 3 in Fig. 3. Außerdem werden 128 Typen von phonemischen HMs jeweils solche Wahrscheinlichkeiten, nämlich daß 128 Kennsatztypen ausgegeben werden, wie in Fig. 4(b) gezeigt wird, zugewiesen. Die Parameter dieser phonemischen HMMs sind in der Parametertabelle 18 enthalten.
In diesem Ausführungsbeispiel werden phonemische HMMs, welche den Allophonen jedes Phonems entsprechen, in die Zusammensetzung von Sprachmodellen in Worteinheiten einbezogen, und diejenigen phonemischen HMMs der Phoneme, die Allophone enthalten, werden parallel verkettet, entsprechend der Liste cier Phoneme in den Worten, so daß sie Unterschiedlichkeiten aufgrund phonemischer Transformationen in der Wortaussprache berücksichtigen können. Ein Bigramm unter den phonemischen HMMs, das die Verkettung der phonemischen HMMs der Phoneme, die solche Allophone enthalten, begrenzt, wird ebenfalls vorgehalten, um die -Vorkommenswahrscheinlichkeiten von Allophonen von nachfolgenden Phonemen unter den Bedingungen der Allophone von vorangehenden Phonemen in einem Wort in der Parametertabelle 18 darzustellen.
In diesem Ausführungsbeispiel wird nur die Verkettung von Allophonen begrenzt und es wird vorausgesetzt, daß die Wahrscheinlichkeiten der phonemischen Kombinationen bei allen Phonemen gleich sind. Beispiel: Bei der Vorkommenswahrscheinlichkeit des genannten Paares
Pr(A(P(j),m) A(P(j - 1),n))
= Pr(m p(j),A(P(j - 1),n))Pr(P(j) A(P(j - 1),n))
= Pr(m p(j),A(P(j - 1),n))Pr(P(j) P(j - 1))
wird angenommen, daß das inter-phonemische Bigramm "Pr (p (j) p (j - 1)) " in Bezug auf alle Phoneme immer konstant ist. Die vorliegende Erfindung erlaubt den Einschluß eines solchen inter-phonemischen Bigramms; in diesem Fall ist es notwendig, eine ziemlich große Menge von Lerndaten für die Kompilierung jedes Vorrats vorzubereiten.
Außerdem erlaubt diese Erfindung die Zusammenstellung eines Sprachmodells ohne die Notwendigkeit einer N-Gramm-Begrenzung, oder durch Auslassung von Parametern, wie sie in Fig. 4(c) (Parametertabelle) gezeigt werden, unter der Annahme, daß N = 1. Auch in diesem Fall ist es möglich, dass beabsichtigte Ziel dieser Erfindung zu erreichen, das heißt, die Verwirklichung eines Geräts zur Spracherkennung, mit dem phonetische Transformationen ausgedrückt werden, und eine Reduzierung der Speicherkapazität für die Modelle.
In bezug auf das Wort "KASA" gibt es zum Beispiel einige Sprachtransformationskandidaten, die zueinander in einer allophonetischen Beziehung stehen; zum Beispiel: K1 und K2 zu dem Phonem K; A1 und A2 zu dem Phonem A; S1, S2 und S3 zu dem Phonem S. Ein Sprachmodell für das Wort "KASA" wird zusammengestellt durch parallele Verkettung phonemischer HMMs, welche diesen Sprachtransformationskandidaten entsprechen, entsprechend der Vorkommenswahrscheinlichkeit eines Bigramms. Die Parametertabelle 18 enthält die Wahrscheinlichkeit, daß ein Allophon vorkommt, und zwar unmittelbar im Anschluß an das vorhergehende Phonem (Sprachtransformationskandidat) für jedes Phonem (Sprachtransformationskandidat) in dem Wort.
Auch in diesem Ausführungsbeispiel wird angenommen, daß die Wahrscheinlichkeit von /A/ folgt /K/ dieselbe ist, wie die Wahrscheinlichkeit von /I/ folgt /K/, weil angenommen wird, daß das inter-phonemische Bigramm im Hinblick auf alle Phoneme konstant ist.
Die Spracherkennungseinheit in der genannten Anordnung führt drei Hauptoperationen aus: Erzeugung von phomenischen Allophon-Grundformen; Schätzung von Modellparametern; und Spracherkennung. Die beiden ersten Operationen sind vorbereitende Operationen für die Spracherkennung. Diese Operationen werden entsprechend der Beschreibung in dem Wortaussprachevorrat 13 eingegeben.
Phonemische Allophon-Grundformen werden von der obengenannten Erzeugungseinheit für die phonemische Allophon-Grundform, 14, in dem in Fig. 5 gezeigten Verfahren erzeugt.
Zuerst wird die über das Mikrophon 1 eingegebene Wortsprache von der Kennsatzbildeeinheit 8 in eine Eingangs-Kennsatzsequenz zur Erzeugung der phonemischen Allophon-Grundform transformiert. Diese Eingangs-Kennsatzsequenz wird dann von dem Durchschaltteil 10 zur Erzeugung der phonemischen Allophon-Grundform in die Erzeugungseinheit 14 eingespeist. Diese Eingangs-Kennsatzsequenz wird in phonemische Einheiten unterteilt, unter Bezugnahme auf den Wortaussprachevorrat 11 für die Erzeugung der phonemischen Allophon-Grundform, in der die phonemische Sequenz der Eingangswortaussprache umgeschrieben wird (Schritt 27). Bei dieser Gelegenheit werden die Variationen der von dem Merkmalsextrahierer 4 ausgegebenen Merkmale für die Bestimmung phonemischer Grenzen verwendet. Diese Operation wird mit der gesamten Wortsprache für die Erzeugung der phonemischen Allophon-Grundform durchgeführt. Alle Eingangs-Kennsatzsequenzen werden so nach Phonemen partitioniert und klassifiziert.
Alle Kennsatzsequenzen für die in Phoneme (p) klassifizierten Segmente werden einbezogen (Schritt 28). Die Cluster-Bildung wird für jedes Phonem mit Hilfe dieser Daten durchgeführt, die Kennsätze für die jeweiligen Klassen werden ausgewählt (Schritt 29 und Schritt 30). Das Ergebnis sind die Kennsatzsequenzen aller Allophon-Kandidaten (Sprachtransformationskandidaten).
Die Distanz zwischen den Kennsätzen, die während der Cluster- Bildung verwendet werden, wird definiert durch Verwendung der Wahrscheinlichkeit eines Modells, wobei das eine als phonemische Markov-Phonemgrundform und das andere als eine Eincrangs- Kennsatzsequenz betrachtet wird. Bei dieser Gelegenheit werden die Parameter der phonemischen Markov-Modelle nur als Parametervorräte verwendet, die bereits in der Wortaussprache geschult wurden, oder als Erstwerte.
Die für jedes Phonem erhaltenen repräsentativen Kennsatzsequenzen der Sprachtransformationskandidaten werden als phonemische Allophon-Grundformen in die Tabelle 17 der phonemischen Allophon-Grundformen eingetragen (Schritt 31). Die oben beschriebene Verarbeitungsfolge wird mit allen Phonemen durchgeführt, die in der eingegebenen Wortsprache enthalten sind (Schritt 32); anschließend wird die Erzeugung der phonemischen Allophon-Grundform-Tabelle 17 abgeschlossen.
Die Kennsatzsequenzen der Sprachtransformationskandidaten (Allophone) für jedes Phonem werden also in der oben erzeugten phonemischen Allophon-Grundform-Tabelle 17 gespeichert.
Wenn die Spracherkennung mit Hilfe phonemischer HMMs durchgeführt wird, wie in diesem Ausführungsbeispiel, müssen außerdem phonemische Allophon-Grundformen als Kennsatzsequenzen verwendet werden, obwohl die Erkennung entweder anhand der Kennsatzsequenz oder der Merkmalsvektorsequenz erfolgt. Weil andere Typen von HMMs, anders als die phonemischen HMMs, die Modellsequenzen nicht auf der Basis von Kennsatzsequenzen aufbauen, stehen andererseits in der Allophon-Grundform-Tabelle 17 HMMs für alle Sprachtransformationskandidaten (Allophone).
Die Modellparameterschätzung wird ausgeführt, um die Parameter der phonemischen HMMs selbst zu modifizieren (schulen), wie in Fig. 4(a) und 4(b) gezeigt wird, und die Parameter eines inter-phonemischen Bigramms, wie in Fig. 9(c) zu sehen ist, so daß die Ausgabe der zu erkennenden Worte vereinfacht wird, und sie wird ausgeführt von der obengenannten Modellparameter-Schätzeinheit 15 in dem in Fig. 6 gezeigten Verfahren.
Zuerst wird die Parametertabelle 18 initialisiert (Schritt 33). Bei dieser Gelegenheit können bereits gelernte Parameter als Erstwerte verwendet werden.
Anschließend wird durch das Durchschaltteil 10 die Kennsatzsequenz der Schulungswortsprache (zum Beispiel "KASA") geholt (Schritt 34). Ein Wortsprachmodell, wie in Fig. 8 dargestellt, das dieser Schulungswortsprache entspricht, wird unter Bezugnahme auf den Schulungswort-Aussprachevorrat 12, die phonemische Allophon-Grundform-Tabelle 17 und die Parametertabelle 18 zusammengestellt (Schritt 35); anschließend werden die Parameter jedes phonemischen HMM und ein inter-phonemisches Bigramm bestimmt, und zwar durch Ausführung von Vorwärts-Rückwärts-Berechnungen (Schritt 36).
Nachdem diese Berechnungen mit allen Schulungswort-Sprachdaten ausgeführt wurden (Schritt 37), werden die Parameter aller phonemischen HMMs und das Bigramm mit Hilfe der Schätzung der größten Wahrscheinlichkeit geschätzt, durch Verwendung der Ergebnisse dieser Berechnungen (Schritt 38), und die Parametertabelle 18 wird mit den entsprechenden Parametern aktualisiert.
Dann wird die oben beschriebene Prozeßreihe (Schritte 34 bis 38) so oft wiederholt, wie vorgeschrieben ist, zum Beispiel fünfmal, unter Bezugnahme auf die neu geschätzte Parametertabelle 18, und anschließend wird die Modellparameterschätzung abgeschlossen (Schritt 39).
Die Eingangsspracherkennung wird von dem Erkennungsgerät. 16 in der in Fig. 7 gezeigten Prozedur ausgeführt.
Zunächst wird die Eingangskennsatzsequenz der zu erkennenden Wortsprache durch das Durchschaltteil 10 gelesen (Schritt 40). Anschließend wird, wie in Fig. 8 gezeigt wird, ein Wortsprachmodell unter Bezugnahme auf den Wortaussprache- Vorrat 13, der eine Vielzahl von zu erkennenden Wortkandidaten enthält, die phonemische Allophon-Grundform-Tabelle 17, und die Parametertabelle 18 zusammengestellt (Schritt 41). Die Wahrscheinlichkeit, daß das Wortsprachmodell die genannte Eingangskennsatzsequenz ausgibt, wird durch Vorwärts-Berechnungen bestimmt (Schritt 42).
Zur Bestimmung der Wahrscheinlichkeit kann wieder ein Viterbi-Algorithmus verwendet werden.
Die genannte Verarbeitungsfolge wird mit allen Wortkandidaten in dem Wortaussprachevorrat 13 (Schritt 43) durchgeführt. Ein Wortkandidat, der dem Modell entspricht, das unter den Wortsprachmodellen in dem genannten Prozeß die größte Wahrscheinlichkeit hat, wird als Ergebnis der Erkennung an die Anzeige einheit 19 ausgegeben (Schritt 44) und auf dem Bildschirm angezeigt.
Zwar wurde in dem oben beschriebenen Ausführungsbeispiel ein Beispiel für ein Sprachmodell erläutert, das unter der Einschränkung eines Bigramms von phonemischen HMMs zusammengestellt wurde, mit Bezug auf Worteinheiten als Erkennungsobjekte unter Berücksichtigung von Allophonen phonemischer Einheiten, doch ist die vorliegende Erfindung in ihrem Geltungsbereich nicht auf dieses Beispiel beschränkt, sondern kann in verschiedenen Ausführungsbeispielen realisiert werden.
Die Erkennungsobjekte sind nicht auf Worte beschränkt, sondern es kann sich auch um Phrasen oder Sätze handeln. Ein Erkennungsobjekt kann als beliebige Verarbeitungseinheit entsprechend dem jeweils verfolgten Zweck eingestellt werden.
Die Einheiten der Sprachtransformationskandidaten (Allophone), die als Sprache transformiert werden, können Silben und KVK sein. Andere Komponenten, aus denen die zu erkennenden Worte bestehen, können entsprechend den unterschiedlichen Bedingungen beliebig gesetzt werden.
Außerdem sind die HMMs nicht auf den phonemischen Typ beschränkt, sondern es kann sich auch um den phonetischen Typ handeln. HMMs können unter Begrenzung entweder durch ein. Bigramm oder durch verschiedene N-Gramme (N = Ganzzahl, die größer als oder gleich 3 ist) miteinander verbunden werden.

Vorteile der Erfindung

Entsprechend der Beschreibung ermöglicht diese Erfindung die effiziente Verwirklichung eines Geräts zur Spracherkennung für verschiedene phonetische Transformationen, zum Beispiel Allophone, die durch die Aussprache bewirkt werden, durch Kombination von HMMs unter Begrenzung durch ein N-Gramm. Außerdem können durch diese Erfindung Verschiedenheiten, die sich in der Aussprache der unterschiedlichen Sprecher finden, unter einem N-Gramm einer Allophonbegrenzung unterdrückt werden; anders als bei dem Verfahren, HMMs in Reihen miteinander zu verbinden, ist es also mit dieser Erfindung möglich, zu vermeiden, daß jedes HMM die unterschiedliche Aussprache der verschiedenen Sprecher berücksichtigt, auch bei Erkennung der Sprache eines unspezifischen Sprechers.
Außerdem können die Sprachmodelle dieser Erfindung selbst in Komponenten-HMMs vorgehalten werden, was bedeutet, daß diese HMMs auch für die Zusammensetzung verschiedener Sprachmodelle verwendet werden können. Sprachmodelle gemäß dieser Erfindung ermöglichen außerdem eine enorme Reduzierung des Speicherbedarfs für die Modelle im Vergleich mit dem Modus, in dem Sprachmodelle in Worteinheiten vorbereitet werden.
Darüber hinaus können mit dieser Erfindung die Parameter eines N-Gramms wirksam geschult werden. Wenn phonemische HMMs verwendet werden, haben diese Parameter viele Möglichkeiten, eine Schulung mit den verschiedensten Arten von Schulungssprache zu erhalten. Daher können optimale Parameter gesetzt werden, selbst dann, wenn die Schulung nicht häufig stattfindet.

Claims

1. Eine Vorrichtung zur Spracherkennung, folgendes umfassend:

Mittel (4) zur Analyse eines als Sprache eingegebenen Wortes im Hinblick auf seine Merkmale und somit Erhalten einer Kennsatzsequenz oder Merkmalsvektorsequenz, die dem genannten Wort entspricht;

Mittel (18) zum Speichern eines versteckten Markov-Modells jedes Ausspracheunterschieds aller Subworteinheiten, die von der Spracherkennungseinheit verwendet werden, in die ein als Sprache eingegebenes Wort zerlegt werden kann;

Bevorratungsmittel (13) zum Speichern einer Vielzahl von Kandidatenworten, als die ein als Sprache eingegebenes Wort erkannt werden kann;

Mittel (15) zur Aufstellung eines Sprachmodells für jedes der genannten Kandidatenworte durch parallele Verkettung des versteckten Markov-Modells jedes Ausspracheunterschieds der in einem Kandidatenwort enthaltenen Subworteinheiten, wodurch die versteckten Markov-Modelle aller Ausspracheunterschiede einer Subworteinheit in einem jeden so zusammengestellten Sprachmodell parallel angeordnet werden; und

Mittel (42) zur Bestimmung der Wahrscheinlichkeit eines Sprachmodells, das für jedes Kandidatenwort, zusammengestellt wurde, und das die Kennsatzsequenz oder die Merkmalsvektorsequenz des genannten, als Sprache eingegebe nen Wortes ausgibt, und für die Ausgabe des Kandidatenwortes entsprechend dem Sprachmodell der höchsten Wahrscheinlichkeit als ein Ergebnis der Erkennung.

2. Eine Vorrichtung zur Spracherkennung nach Anspruch 1, bei der: die genannten versteckten Markov-Modelle phonemische versteckte Markov-Modelle sind.

3. Eine Vorrichtung zur Spracherkennung nach Anspruch 1 oder Anspruch 2, bei der:

die genannten Subworteinheiten eines Wortes eine N-Gramm-Beziehung erhalten, wobei N eine Ganzzahl ist, die größer als oder gleich 2 ist, mit den Ausspracheunterschieden anderer vorangehender Subworte in dem Wort; und

die genannten versteckten Markov-Modelle in Abhängigkeit von der genannten N-Gramm-Beziehung unter den Subworten parallel verkettet sind.

4. Eine Methode zur Spracherkennung, folgende Schritte umfassend:

Analysieren eines als Sprache eingegebenen Wortes im Hinblick auf seine Merkmale und dadurch Erhalten (40) einer Kennsatzsequenz oder einer Merkmalsvektorsequenz, die dem genannten Wort entspricht;

Speichern eines versteckten Markov-Modells jedes Ausspracheunterschiedes aller Subworteinheiten, die von der Spracherkennungseinheit verwendet werden, und in die ein als Sprache eingegebenes Wort zerlegt werden kann;

Speichern einer Vielzahl von Kandidatenworten, als die ein als Sprache eingegebenes Wort erkannt werden kann;

Zerlegen (41) eines Sprachmodells eines jeden der genannten Kandidatenworte durch Parallelverkettung des versteckten Markov-Modells jedes Ausspracheunterschiedes der Subworteinheiten, die in einem Kandidatenwort enthalten sind, wodurch die versteckten Markov-Modelle aller Ausspracheunterschiede einer Subworteinheit in jedem so zusammengestellten Sprachmodell parallel angeordnet werden; und

Bestimmen (42) der Wahrscheinlichkeit eines Sprachmodells, das für jedes Kandidatenwort zusammengestellt wurde, das die Kennsatzsequenz oder die Merkmalsvektorsequenz des genannten, als Sprache eingegebenen Wortes ausgibt, und Ausgabe (44) des Kandidatenwortes, das dem Sprachmodell mit der höchsten Wahrscheinlichkeit entspricht, als Ergebnis der Erkennung.

5. Eine Methode nach Anspruch 4, bei der: die genannten versteckten Markov-Modelle phonemische versteckte Markov-Modelle sind.

6. Eine Methode nach Anspruch 4 oder Anspruch 5, bei der: den genannten Subworteinheiten eines Wortes eine N-Gramm-Relation mit den Ausspracheunterschieden anderer vorangehender Subworte in dem Wort gegeben wird, wobei N eine Ganzzahl ist, die größer als oder gleich 2 ist; und die genannten versteckten Markov-Modelle parallel unter den genannten Subworten verkettet werden, in Abhängigkeit von der genannten N-Gramm-Relation.