DE69324428T2 - Verfahren zur Sprachformung und Gerät zur Spracherkennung - Google Patents

Verfahren zur Sprachformung und Gerät zur Spracherkennung

Info

Publication number
DE69324428T2
DE69324428T2 DE69324428T DE69324428T DE69324428T2 DE 69324428 T2 DE69324428 T2 DE 69324428T2 DE 69324428 T DE69324428 T DE 69324428T DE 69324428 T DE69324428 T DE 69324428T DE 69324428 T2 DE69324428 T2 DE 69324428T2
Authority
DE
Germany
Prior art keywords
word
speech
hidden markov
phonemic
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69324428T
Other languages
English (en)
Other versions
DE69324428D1 (de
Inventor
Masafumi Nishimura
Masaaki Okochi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69324428D1 publication Critical patent/DE69324428D1/de
Publication of DE69324428T2 publication Critical patent/DE69324428T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

    Gebiet der Erfindung
  • De Erfindung betrifft Sprachmodelle, die versteckte Markov- Modelle in Subwort-Einheiten verwenden, beispielsweise Laute (oder Phoneme, also die Lauteinheiten, aus denen Worte bestehen), und die Spracherkennung, in der solche Sprachmodelle verwendet werden, und im einzelnen die effiziente Spracherkennung bei Transformationen (Schwankungen) der Aussprache.
  • Stand der Technik
  • Spracherkennung unter Anwendung des Markov-Modells soll eine Spracherkennung unter dem Blickwinkel der Wahrscheinlich keit ermöglichen. Das Markov-Modell beschreibt die Zeitstruktur eines Sprachmusters als Übergänge zwischen Zuständen in einer Markovschen Kette. Jedem Übergang ist eine Vorkommenswahrscheinlichkeit zugeordnet, die von vorangegangenen Übergängen abhängt. Die Übergänge können beobachtet werden, aber die Zustände selbst können nicht direkt beobachtet werden; daher der Ausdruck "verstecktes" Markov-Modell.
  • Versteckte Markov-Modelle (Hidden Markov Models = HMMs) werden ausführlicher beschrieben in "Electronic Speech Recognition", (Ed. Bristow, R.) Collins, 1986, Seite 137 ff., sowie in "An Introduction to the Applications of the Theory in Probabalistic Functions of a Markov Process to Automatic Speech Recognition", S. E. Levinson, L. R. Rabiner und M. M. Sondhi, The Beil System Technical Journal, Band 62, Nr. 4, April 1983. Außerdem werden solche HMM-Systeme in EP-0-504-927 und in GB-2-240-203 beschrieben. In den letzten Jahren wurden Systeme vorgeschlagen für eine Spracherkennung mit großem Vokabular und eine kontinuierliche Spracherkennung auf der Basis von HMMs in Subworteinheiten, wie Laute (oder Phoneme) und Silben.
  • Als repräsentative konventionelle Methode gibt es eine Methode zur Spracherkennung, bei der phonetische HMMs in Reihen kombiniert werden, um ein zu erkennendes Wort darzustellen. Bei dieser Methode wird die Auswahl dieser zu verkettenden phonetischen HMMs auf der Basis einer Beschreibung (Grundform) in einem Vorrat von Aussprachemöglichkeiten zu erkennender Worte getroffen. Da jedoch in der tatsächlichen Sprache Subworteinheiten eine Transformation erfahren, in Abhängigkeit von der Art der vorangehenden und nachfolgenden Phoneme, der Sprechgeschwindigkeit und der Akzentuierung, ist es nicht möglich, eine hohe Erkennungsrate zu erreichen, wenn phonetische HMMs ohne Berücksichtigung dieser Transformationen verkettet werden.
  • Es gibt noch eine andere Methode, bei der die phonetischen HMMs für jede phonetische Umgebung nur unter Berücksichtigung der vorangehenden und der nachfolgenden phonetischen Umgebung vorbereitet werden; phonetische HMMs werden entsprechend einer phonetischen Umgebung ausgewählt, wie sie in einem Vorrat von Aussprachemöglichkeiten zu erkennender Worte beschrieben wird; anschließend werden sie in Reihen kombiniert. Diese Methode wird ausführlich behandelt in "Context-Dependent Modeling for Acoustic-Phonetic Recognition of Continuous Speech" (Proceedings of ICASSP'85, April 1985, R. Schwartz, Y. Chow, O. Kimball, S. Roucos, M. Krasner, J. Mkhoul). Obwohl diese Methode für jede phonetische Umgebung eine Sprachtransformation auf einfache Weise widerspiegeln kann, erfordert sie die Vorbereitung einer großen Anzahl phonetischer HMMs, um die verschiedensten Sprachtransformationen handhaben zu können, und zwar aufgrund der extrem großen Anzahl von möglichen Kombinationen phonetischer Umgebungen; darüber hinaus ist eine große Menge von Schulungssprachdaten erforderlich.
  • Für eine vom Sprecher unabhängige Spracherkennung, die Verschiedenheiten in der Aussprache, die von Sprecher zu Sprecher sehr stark voneinander abweichen kann, berücksichtigt, würde diese Methode zudem zu losen Modellen führen, weil jedes einzelne phonetische HMM alle auf die Aussprache bezogenen Unterschiedlichkeiten jedes Sprechers enthalten muß, was dazu führen würde, daß die Fähigkeit, Phoneme zu unterscheiden, abnimmt.
  • Auf der anderen Seite gibt es eine weitere Methode, bei der die Kenntnisse über Transformationen und sprachliche Unterschiede für jedes Wort dargestellt werden durch eine Kombination von Subwort-HMM-Netzwerken. Diese Methode wird ausführlich behandelt in "A Maximum Likelihood Approach to Continuous Speech Recognition" (IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-5(2), Seite 179-190, 1983, L. R. Bahl, F. Jelinek, R. L. Mercer).
  • Es ist jedoch nicht leicht, manuell eine solche Netzwerkdarstellung für jedes Wort vorzubereiten, und es ist außerdem nicht unbedingt möglich, das Wissen der menschlichen Sinne einzelnen physikalischen Phänomenen präzise zuzuordnen.
  • Es gibt noch eine weitere Methode, bei der Parameter (Übergangswahrscheinlichkeiten) in einem Netzwerk bestimmt und für jedes Wort gelernt werden. Bei dieser Methode ist jedoch eine große Menge von Schulungssprachdaten erforderlich, um für je des Wort eine Netzwerkdarstellung zu erhalten, es war also nicht leicht, Worte so zu modifizieren, daß sie erkannt wurden, obwohl Subworte als Einheiten verwendet wurden.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung stellt ein Gerät zur Spracherkennung sowie ein entsprechendes Verfahren bereit, entsprechend der Ansprüche 1 und 4.
  • Die vorliegende Erfindung stellt vorzugsweise für jedes Phonem einige repräsentative Modelle als allophonetische HMMs bereit, die Transformationen (Allophone) jedes Phonems als Subwort darstellen. Diese Darstellung der Variationen von Phonemen erfolgt automatisch auf der Basis von Clusterbildungstechniken. Außerdem werden sprachliche Phänomene, wie die Aussprache eines Wortes, durch Sprachmodelle dargestellt, bei denen die Kombination solcher allophonetischer HMMs vorzugsweise durch ein N-Gramm begrenzt wird (die Wahrscheinlichkeit eines Vorkommens von N Gruppen von allophonetischen HMMs), und diese Sprachmodelle werden für die Spracherkennung eingesetzt. Die Erfindung stellt demnach ein Gerät zur Spracherkennung bereit, das verschiedene, auf die Aussprache bezogene Transformationen (Variationen) durch eine statistische Kombination (N-Gramm) von verschiedenen HMM-Typen darstellt.
  • Bei der Schulung eines Modells wird ein Schulungssprachmodell zusammengestellt durch Verbindung einer Vielzahl von allophonetischen HMMs mit jedem Phonem, unter Begrenzung durch ein N-Gramm, durch Bezugnahme auf die Grundform der Schulungssprache, und die Parameter für ein N-Gramm-Modell unter den allophonetischen HMMs sowie die Parameter für jedes allopho netische HMM werden automatisch geschätzt durch Anwendung von Techniken wie Abschätzung der größten Wahrscheinlichkeit, um die Spracherkennungsleistung von HMMs zu verbessern.
  • Nehmen wir zum Beispiel ein Wort-Sprachmodell, das unter der Begrenzung durch ein Bigramm (N = 2; die Wahrscheinlichkeit, daß ein Paar vorkommt) aufgebaut wurde. Wenn ein Element in einem Vorrat von Aussprachemöglichkeiten (phonemische Transkription) für ein bestimmtes Wort vorhanden ist, wird ein Wort-Sprachmodell aufgebaut, in dem HMMs in phonemischen Einheiten entsprechend dem Vorrat von Aussprachemöglichkeiten miteinander verbunden werden. Bei dieser Gelegenheit wird jedem Phonem eine Vielzahl von allophonetischen HMMs zugewiesen, nämlich A (p, i), wobei p ein Phonem bezeichnet und i der Typ des Allophons des Phonems p ist. All diese allophonetischen HMMs für jedes Phonem werden parallel verarbeitet, obwohl die Kombination von statistisch nicht notwendigen allophonetischen HMMs durch ein Bigramm eingeschränkt wird. Das heißt, wenn die phonemische Reihe eines Wort -Sprachmodells wiedergegeben wird mit P = p(1)p(2)... p(w), dann wird die Wahrscheinlichkeit, daß ein Paar vorkommt, das heißt Pr(A(p(j),m) A(p(j - 1),n)), bewertet in der Form eines Produkts mit der Wahrscheinlichkeit von gewöhnlichen HMMs in einem Übergang von einem allophonetischen HMM-Modell, A(p(j- 1),n), für das (j - 1)te Phonem in ein anderes allophonetisches HMM-Modell, A(p (j),m), für das j-te Phonem.
  • Die Bezeichnung "Subwort" steht in dieser Beschreibung für Sprachbestandteile, wie zum Beispiel Phoneme, Silben KVK und VKV (K: Konsonant; V: Vokal), die nicht direkt etwas mit der Aussprache zu tun haben, aber sich auf phonetische Einheiten beziehen, die dazu dienen, unterschiedliche Bedeutungen auszudrücken. An welcher Stelle die Sprache zur Definition eines Subwortes abgegrenzt wird, kann nach Belieben entschieden werden.
  • Der Begriff "Wort" bedeutet in dieser Beschreibung eine Einheit eines zu erkennenden Objektes, beispielsweise ein Wort, eine Phrase, oder ein Satz, die nach Belieben gewählt werden kann.
  • Der Begriff "Sprachtransformationskandidat", wie er in dieser Beschreibung verwendet wird, bezeichnet ein Allophon, wenn das Phonem als ein Subwort definiert wurde; in diesem Fall sind die Sprachtransformationskandidaten jedes Subwort, das transformiert wird, wenn das Phonem als Sprache ausgesprochen wird.
  • Es gibt zwei Typen von HMMs, und zwar einzelne HMMs, die Kennsätze ausgeben, und kontinuierliche HMMs, die Merkmalsvektoren ausgeben. Mit dieser Erfindung ist die Verwendung beider HMM-Typen möglich: bei den kontinuierlichen HMMs erfolgt die Spracherkennung entsprechend einer Merkmalsvektorsequenz, die das Ergebnis einer Merkmalsanalyse der Eingangssprachen ist, während bei diskreten HMMs die Spracherkennung entsprechend einer Kennsatzsequenz durchgeführt wird, die das Ergebnis einer weiteren Konvertierung der Merkmalsvektorsequenz ist.
  • Beschreibung eines Ausführungsbeispiels
  • Ein Ausführungsbeispiel der vorliegenden Erfindung soll nachstehend mit Hilfe eines Beispiels und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben werden; es zeigt:
  • Fig. 1 ein Blockdiagramm eines Geräts zur Spracherkennung, bezogen auf ein Ausführungsbeispiel dieser Erfindung;
  • Fig. 2 ein Flußbild, das die Kennsatzbildung bei Sprache zeigt;
  • Fig. 3 ein Konzept eines phonemischen Markov-Modells;
  • Fig. 4(a) eine Tabelle von Übergangswahrscheinlichkeiten für phonemische Markov-Modelle;
  • Fig. 4(b) eine Tabelle von Kennsatzausgabewahrscheinlichkeiten für phonemische Markov-Modelle;
  • Fig. 4(c) eine Tabelle von Vorkommenswahrscheinlichkeiten mit einem Bigramm zwischen phonemischen Markov-Modellen;
  • Fig. 5 ein Flußbild der Erzeugung der phonemischen Allophon-Grundform;
  • Fig. 6 ein Flußbild einer Modellparameterschätzung;
  • Fig. 7 ein Flußbild von Spracherkennungsoperationen;
  • Fig. 8 eine Konzeptzeichnung eines Sprachmodells, das Worte darstellt.
  • In diesem Ausführungsbeispiel wird die vorliegende Erfindung auf die Spracherkennung von Worten angewendet, wobei phonemische Markov-Modelle als HMMs für Kennsatzeinheiten verwendet werden und ein Bigramm (N = 2) als N-Gramm verwendet wird.
  • Weil Modelle mit demselben Kennsatznamen bei der Schulung und Interpretation solcher Modelle als ein gemeinsames Modell behandelt werden, ist es bei phonemischen Markov-Modellen möglich, Speicherplatz zu sparen und eine bessere Schulungseffizienz zu erreichen. Bei phonemischen Markov-Modellen können Kennsatzsequenzen, die aus der Aussprache gewonnen werden, außerdem direkt den Modellsequenzen entsprechen und dadurch die Erzeugung von Startmodellen für allophonetische HMMs vereinfachen. Solche Kennsatzsequenzen, die Modellsequenzen darstellen, werden als phonemische Grundformen bezeichnet und entsprechen den Grundformen der phonemischen Modelle.
  • Phonemische Markov-Modelle werden ausführlich in dem folgenden Artikel behandelt:
  • "Acoustic Markov Models Used in The Tangora Speech Recoanition System" (Proceedings of ICASSP'88, April 1988, S11-3, L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer und M. A. Picheny).
  • Fig. 1 ist ein komplettes Blockdiagramm des mit diesem Ausführungsbeispiel verbundenen Geräts zur Spracherkennung. Die Eingangssprache (Worte) wird übe r ein Mikrophon 1 und einen Verstärker 2 an einen Analog-Digital(A/D)-Wandler 3 weitergegeben, wo die Eingangssprache in digitale Daten umgewandelt wird. Die so digitalisierten Sprachdaten werden dann an einen Merkmalsextrahierer 4 weitergegeben.
  • In dem Merkmalsextrahierer 4 werden die Sprachdaten zunächst einer diskreten Fourier-Transformation unterzogen und anschließend von einem kritischen Bandpaßfilter mit neunzehn Kanälen ausgegeben, der die akustischen Merkmale zusammen mit einem logarithmischen Leistungswert reflektiert. Dieser Aus gang wird an einen Endpunktdetektor 5 gesendet, beispielsweise in Intervallen von etwa 10 m sec (dieses Einheitenintervall wird als Frame bezeichnet). Dann werden nur diejenigen Merkmalswerte der Frames, die als innerhalb eines Wortsprachintervalls liegend bewertet werden, an eine Durchschalteinheit 6 gesendet und anschließend entweder an eine Code-Lexikon-Aufbaueinheit 7 oder eine Kennsatzbildeeinheit 8.
  • Während der Vorbereitung des Code-Lexikons wird die Durchschalteinheit 6 auf die Code-Lexikon-Aufbaueinheit 7 geschaltet, so daß die Merkmalsdaten von dem Merkmalsextrahierer 4 in die Code-Lexikon-Aufbaueinheit 7 eingespeist werden können. Die Code-Lexikon-Aufbaueinheit 7 kompiliert dann ein Code-Lexikon 9 aus dem Merkmalsvorrat, der mit 128 verschiedenen Kennsatztypen ein Cluster bildet.
  • Andererseits wird zur Erkennung von Sprachdaten eine phonemische Allophon-Grundform registriert, oder es werden Modellparameter geschätzt, und die Durchschalteinheit 6 wird auf die Kennsatzbildeeinheit 8 geschaltet. Die Kennsatzbildeeinheit 8 weist jedem Frame, auf den in dem Code-Lexikon 9 Bezug genommen wird, einen Kennsatz zu.
  • Die oben beschriebene Kennsatzbildung findet wie in Fig. 2 statt; X bezeichnet die Menge der Merkmalsdaten eines Eingangssprache-Frames (Worte); Yj den Merkmalsvorrat des j-ten Kennsatzes der in dem Code-Lexikon vorgehaltenen Merkmale; R die Größe ( = 128) des Code-Lexikons; dist (X, Yj) die Euklidsche Distanz zwischen X und Yj; m den untersten Wert von dist (X, Yj) zu jedem Zeitpunkt.
  • Erstens: Wenn eine Merkmalsmenge X eingegeben wird (Schritt 20), dann werden j, m und l (eine Kennsatznummer, die der eingegebenen Merkmalsmenge X endgültig zugewiesen wird) auf 1, einen sehr großen Wert V, bzw. auf 1 initialisiert (Schritt 21).
  • Zweitens: Es wird beurteilt, ob alle Merkmalsvorräte in dem Code-Lexikon unter der Bedingung "j > R" geprüft wurden (Schritt 22); eine andere Beurteilung prüft, ob ein Kennsatz mit einer Distanz gefunden wurde, die größer als die bisher unter der Bedingung "m > dist (X, Yj)" erhaltene Distanz ist (Schritt 24).
  • Drittens: Wenn ein Kennsatz mit einer kürzeren Distanz gefunden wird, wird seine Kennsatznummer, j, zunächst auf 1 gesetzt (Schritt 25). Wenn kein solcher Kennsatz gefunden wird, bleibt die Kennsatznummer, j, wie sie ist, und es werden nacheinander Prüfläufe durch das Code-Lexikon bis zur letzten Kennsatznummer, R (Schritt 22), durchgeführt, indem j jeweils um 1 erhöht wird, um festzustellen, ob es einen Kennsatz mit einer noch kürzeren Distanz gibt (Schritt 26). Schließlich wird die Kennsatznummer desjenigen Kennsatzes mit der kürzesten Distanz, das heißt, die Kennsatznummer eines Kennsatzes, der dem eingegebenen Merkmalswert X des in dem Code-Lexikon als Kennsatz enthaltenen Merkmalsvorrates am meisten entspricht, als ermittelter Kennsatz (Kennsatznummer) 1 ausgegeben (Schritt 23).
  • Erneut bezugnehmend auf Fig. 1; eine Kennsatzsequenz einer Vielzahl von Kennsätzen, die für jeden Frame von der Kennsatzeinheit 8 ausgegeben werden, entspricht einem Phonem, und eine Summenkennsatzsequenz von einigen Kennsatzsequenzen, die solchen Phonemen entsprechen, entspricht einem Wort der Eingangssprache. Diese Kennsatzsequenz, die einem Wort entspricht, wird durch eine Durchschalteinheit 10 durchgeschaltet, entweder zu der Einheit 14, welche die phonemische Allophon-Grundform erzeugt, zu der Modellparameter- Schätzeinheit 15, oder zu der Erkennungseinheit 16.
  • Auch in diesem Ausführungsbeispiel wird vorausgesetzt, daß Sprachmodelle Kennsatzsequenzen ausgeben, und daher wird die Eingangssprache in eine Kennsatzsequenz transformiert. Es kann jedoch auch vorausgesetzt werden, daß Sprachmodelle Merkmalsvektorsequenzen ausgeben; in diesem Fall werden die Merkmalswerte, die man aus einer Merkmalsanalyse der Sprache als einem Erkennungsobjekt erhält, in die Erkennungseinheit 16 eingespeist, ohne daß sie eine Kennsatztransformation durchmachen.
  • Wenn eine phonemische Allophon-Grundform erzeugt wird, wird das Durchschaltteil 10 auf die Einheit 14, welche die phonemische Allophon-Grundform erzeugt, geschaltet; in die Erzeugungseinheit 14, welche die phonemische Allophon-Grundform erzeugt, wird eine Kennsatzsequenz eingespeist; eine Tabelle 17 mit phonemischen Allophon-Grundformen wird unter Bezugnahme auf den Wortaussprachevorrat 11 für die Erzeugung der Allophon-Grundform und den Ausgang des Merkmalsextrahierers 4 erzeugt. Die Funktionsweise der Erzeugungseinheit 14 zur Erzeugung der phonemischen Allophon-Grundform soll später unter Bezugnahme auf Fig. 5 noch ausführlich beschrieben werden.
  • Wenn die Parameter eines Markov-Modells geschätzt werden, wird das Durchschaltteil 10 auf die Modellparameter-Schätzeinheit 15 geschaltet; die Modellparameter-Schätzeinheit 15 schult das Modell unter Bezugnahme auf die Kennsatzsequenz, die Tabelle 17 mit phonemischen Allophon-Grundformen und den Schulungswort-Aussprachevorrat 12; außerdem bestimmt sie die Parameterwerte (die Parameter der phonemischen Markov-Modelle und ein Bigramm) in der Parametertabelle 18. Die Funktionsweise der Modellparameter-Schätzvorrichtung soll später unter Bezugnahme auf Fig. 6 und 8 ausführlich erläutert werden. Wenn Sprache erkannt wird, schaltet das Durchschaltteil 10 auf das Erkennungsgerät 16 und das Erkennungsgerät erkennt die eingehende Sprache anhand einer Eingangskennsatzsequenz, der Tabelle 17 mit phonemischen Allophon-Grundformen, der Parametertabelle 18 und dem Aussprachevorrat 13 der zu erkennenden Worte. Die Funktionsweise der Erkennungseinheit 16 soll später unter Bezugnahme auf die Fig. 7 und 8 ausführlich erläutert werden. Der Ausgang der Erkennungseinheit. 16 wird in eine Workstation 19 eingespeist, wo die so erkannten Worte beispielsweise auf dem Bildschirm angezeigt werden.
  • Außerdem werden alle Geräte, außer dem Mikrophon 1, dem Verstärker 2, dem A/D-Wandler 3 und dem Bildschirm 16, die in Fig. 1 gezeigt werden, als Software auf der Workstation implementiert.
  • Fig. 3 zeigt die Struktur eines phonemischen HMM, das in diesem Ausführungsbeispiel verwendet wird. Die als Kreise in dieser Zeichnung eingezeichneten Knoten stellen Zustände dar. Der als gepunktete Linie eingezeichnete Zustandsübergang 3 ist ein Nullübergang, der keinen Kennsatzausgang bewirkt. In diesem Ausführungsbeispiel werden 128 derartige phonemische HMMs mit entsprechenden Kennsatznummern bereitgestellt. Den jeweiligen phonemischen HMMs werden Vorkommenswahrscheinlichkeiten zugewiesen, wie sie in Fig. 4(a) gezeigt werden, entsprechend den jeweiligen Zustandsübergängen 1, 2 und 3 in Fig. 3. Außerdem werden 128 Typen von phonemischen HMs jeweils solche Wahrscheinlichkeiten, nämlich daß 128 Kennsatztypen ausgegeben werden, wie in Fig. 4(b) gezeigt wird, zugewiesen. Die Parameter dieser phonemischen HMMs sind in der Parametertabelle 18 enthalten.
  • In diesem Ausführungsbeispiel werden phonemische HMMs, welche den Allophonen jedes Phonems entsprechen, in die Zusammensetzung von Sprachmodellen in Worteinheiten einbezogen, und diejenigen phonemischen HMMs der Phoneme, die Allophone enthalten, werden parallel verkettet, entsprechend der Liste cier Phoneme in den Worten, so daß sie Unterschiedlichkeiten aufgrund phonemischer Transformationen in der Wortaussprache berücksichtigen können. Ein Bigramm unter den phonemischen HMMs, das die Verkettung der phonemischen HMMs der Phoneme, die solche Allophone enthalten, begrenzt, wird ebenfalls vorgehalten, um die -Vorkommenswahrscheinlichkeiten von Allophonen von nachfolgenden Phonemen unter den Bedingungen der Allophone von vorangehenden Phonemen in einem Wort in der Parametertabelle 18 darzustellen.
  • In diesem Ausführungsbeispiel wird nur die Verkettung von Allophonen begrenzt und es wird vorausgesetzt, daß die Wahrscheinlichkeiten der phonemischen Kombinationen bei allen Phonemen gleich sind. Beispiel: Bei der Vorkommenswahrscheinlichkeit des genannten Paares
  • Pr(A(P(j),m) A(P(j - 1),n))
  • = Pr(m p(j),A(P(j - 1),n))Pr(P(j) A(P(j - 1),n))
  • = Pr(m p(j),A(P(j - 1),n))Pr(P(j) P(j - 1))
  • wird angenommen, daß das inter-phonemische Bigramm "Pr (p (j) p (j - 1)) " in Bezug auf alle Phoneme immer konstant ist. Die vorliegende Erfindung erlaubt den Einschluß eines solchen inter-phonemischen Bigramms; in diesem Fall ist es notwendig, eine ziemlich große Menge von Lerndaten für die Kompilierung jedes Vorrats vorzubereiten.
  • Außerdem erlaubt diese Erfindung die Zusammenstellung eines Sprachmodells ohne die Notwendigkeit einer N-Gramm-Begrenzung, oder durch Auslassung von Parametern, wie sie in Fig. 4(c) (Parametertabelle) gezeigt werden, unter der Annahme, daß N = 1. Auch in diesem Fall ist es möglich, dass beabsichtigte Ziel dieser Erfindung zu erreichen, das heißt, die Verwirklichung eines Geräts zur Spracherkennung, mit dem phonetische Transformationen ausgedrückt werden, und eine Reduzierung der Speicherkapazität für die Modelle.
  • In bezug auf das Wort "KASA" gibt es zum Beispiel einige Sprachtransformationskandidaten, die zueinander in einer allophonetischen Beziehung stehen; zum Beispiel: K1 und K2 zu dem Phonem K; A1 und A2 zu dem Phonem A; S1, S2 und S3 zu dem Phonem S. Ein Sprachmodell für das Wort "KASA" wird zusammengestellt durch parallele Verkettung phonemischer HMMs, welche diesen Sprachtransformationskandidaten entsprechen, entsprechend der Vorkommenswahrscheinlichkeit eines Bigramms. Die Parametertabelle 18 enthält die Wahrscheinlichkeit, daß ein Allophon vorkommt, und zwar unmittelbar im Anschluß an das vorhergehende Phonem (Sprachtransformationskandidat) für jedes Phonem (Sprachtransformationskandidat) in dem Wort.
  • Auch in diesem Ausführungsbeispiel wird angenommen, daß die Wahrscheinlichkeit von /A/ folgt /K/ dieselbe ist, wie die Wahrscheinlichkeit von /I/ folgt /K/, weil angenommen wird, daß das inter-phonemische Bigramm im Hinblick auf alle Phoneme konstant ist.
  • Die Spracherkennungseinheit in der genannten Anordnung führt drei Hauptoperationen aus: Erzeugung von phomenischen Allophon-Grundformen; Schätzung von Modellparametern; und Spracherkennung. Die beiden ersten Operationen sind vorbereitende Operationen für die Spracherkennung. Diese Operationen werden entsprechend der Beschreibung in dem Wortaussprachevorrat 13 eingegeben.
  • Phonemische Allophon-Grundformen werden von der obengenannten Erzeugungseinheit für die phonemische Allophon-Grundform, 14, in dem in Fig. 5 gezeigten Verfahren erzeugt.
  • Zuerst wird die über das Mikrophon 1 eingegebene Wortsprache von der Kennsatzbildeeinheit 8 in eine Eingangs-Kennsatzsequenz zur Erzeugung der phonemischen Allophon-Grundform transformiert. Diese Eingangs-Kennsatzsequenz wird dann von dem Durchschaltteil 10 zur Erzeugung der phonemischen Allophon-Grundform in die Erzeugungseinheit 14 eingespeist. Diese Eingangs-Kennsatzsequenz wird in phonemische Einheiten unterteilt, unter Bezugnahme auf den Wortaussprachevorrat 11 für die Erzeugung der phonemischen Allophon-Grundform, in der die phonemische Sequenz der Eingangswortaussprache umgeschrieben wird (Schritt 27). Bei dieser Gelegenheit werden die Variationen der von dem Merkmalsextrahierer 4 ausgegebenen Merkmale für die Bestimmung phonemischer Grenzen verwendet. Diese Operation wird mit der gesamten Wortsprache für die Erzeugung der phonemischen Allophon-Grundform durchgeführt. Alle Eingangs-Kennsatzsequenzen werden so nach Phonemen partitioniert und klassifiziert.
  • Alle Kennsatzsequenzen für die in Phoneme (p) klassifizierten Segmente werden einbezogen (Schritt 28). Die Cluster-Bildung wird für jedes Phonem mit Hilfe dieser Daten durchgeführt, die Kennsätze für die jeweiligen Klassen werden ausgewählt (Schritt 29 und Schritt 30). Das Ergebnis sind die Kennsatzsequenzen aller Allophon-Kandidaten (Sprachtransformationskandidaten).
  • Die Distanz zwischen den Kennsätzen, die während der Cluster- Bildung verwendet werden, wird definiert durch Verwendung der Wahrscheinlichkeit eines Modells, wobei das eine als phonemische Markov-Phonemgrundform und das andere als eine Eincrangs- Kennsatzsequenz betrachtet wird. Bei dieser Gelegenheit werden die Parameter der phonemischen Markov-Modelle nur als Parametervorräte verwendet, die bereits in der Wortaussprache geschult wurden, oder als Erstwerte.
  • Die für jedes Phonem erhaltenen repräsentativen Kennsatzsequenzen der Sprachtransformationskandidaten werden als phonemische Allophon-Grundformen in die Tabelle 17 der phonemischen Allophon-Grundformen eingetragen (Schritt 31). Die oben beschriebene Verarbeitungsfolge wird mit allen Phonemen durchgeführt, die in der eingegebenen Wortsprache enthalten sind (Schritt 32); anschließend wird die Erzeugung der phonemischen Allophon-Grundform-Tabelle 17 abgeschlossen.
  • Die Kennsatzsequenzen der Sprachtransformationskandidaten (Allophone) für jedes Phonem werden also in der oben erzeugten phonemischen Allophon-Grundform-Tabelle 17 gespeichert.
  • Wenn die Spracherkennung mit Hilfe phonemischer HMMs durchgeführt wird, wie in diesem Ausführungsbeispiel, müssen außerdem phonemische Allophon-Grundformen als Kennsatzsequenzen verwendet werden, obwohl die Erkennung entweder anhand der Kennsatzsequenz oder der Merkmalsvektorsequenz erfolgt. Weil andere Typen von HMMs, anders als die phonemischen HMMs, die Modellsequenzen nicht auf der Basis von Kennsatzsequenzen aufbauen, stehen andererseits in der Allophon-Grundform-Tabelle 17 HMMs für alle Sprachtransformationskandidaten (Allophone).
  • Die Modellparameterschätzung wird ausgeführt, um die Parameter der phonemischen HMMs selbst zu modifizieren (schulen), wie in Fig. 4(a) und 4(b) gezeigt wird, und die Parameter eines inter-phonemischen Bigramms, wie in Fig. 9(c) zu sehen ist, so daß die Ausgabe der zu erkennenden Worte vereinfacht wird, und sie wird ausgeführt von der obengenannten Modellparameter-Schätzeinheit 15 in dem in Fig. 6 gezeigten Verfahren.
  • Zuerst wird die Parametertabelle 18 initialisiert (Schritt 33). Bei dieser Gelegenheit können bereits gelernte Parameter als Erstwerte verwendet werden.
  • Anschließend wird durch das Durchschaltteil 10 die Kennsatzsequenz der Schulungswortsprache (zum Beispiel "KASA") geholt (Schritt 34). Ein Wortsprachmodell, wie in Fig. 8 dargestellt, das dieser Schulungswortsprache entspricht, wird unter Bezugnahme auf den Schulungswort-Aussprachevorrat 12, die phonemische Allophon-Grundform-Tabelle 17 und die Parametertabelle 18 zusammengestellt (Schritt 35); anschließend werden die Parameter jedes phonemischen HMM und ein inter-phonemisches Bigramm bestimmt, und zwar durch Ausführung von Vorwärts-Rückwärts-Berechnungen (Schritt 36).
  • Nachdem diese Berechnungen mit allen Schulungswort-Sprachdaten ausgeführt wurden (Schritt 37), werden die Parameter aller phonemischen HMMs und das Bigramm mit Hilfe der Schätzung der größten Wahrscheinlichkeit geschätzt, durch Verwendung der Ergebnisse dieser Berechnungen (Schritt 38), und die Parametertabelle 18 wird mit den entsprechenden Parametern aktualisiert.
  • Dann wird die oben beschriebene Prozeßreihe (Schritte 34 bis 38) so oft wiederholt, wie vorgeschrieben ist, zum Beispiel fünfmal, unter Bezugnahme auf die neu geschätzte Parametertabelle 18, und anschließend wird die Modellparameterschätzung abgeschlossen (Schritt 39).
  • Die Eingangsspracherkennung wird von dem Erkennungsgerät. 16 in der in Fig. 7 gezeigten Prozedur ausgeführt.
  • Zunächst wird die Eingangskennsatzsequenz der zu erkennenden Wortsprache durch das Durchschaltteil 10 gelesen (Schritt 40). Anschließend wird, wie in Fig. 8 gezeigt wird, ein Wortsprachmodell unter Bezugnahme auf den Wortaussprache- Vorrat 13, der eine Vielzahl von zu erkennenden Wortkandidaten enthält, die phonemische Allophon-Grundform-Tabelle 17, und die Parametertabelle 18 zusammengestellt (Schritt 41). Die Wahrscheinlichkeit, daß das Wortsprachmodell die genannte Eingangskennsatzsequenz ausgibt, wird durch Vorwärts-Berechnungen bestimmt (Schritt 42).
  • Zur Bestimmung der Wahrscheinlichkeit kann wieder ein Viterbi-Algorithmus verwendet werden.
  • Die genannte Verarbeitungsfolge wird mit allen Wortkandidaten in dem Wortaussprachevorrat 13 (Schritt 43) durchgeführt. Ein Wortkandidat, der dem Modell entspricht, das unter den Wortsprachmodellen in dem genannten Prozeß die größte Wahrscheinlichkeit hat, wird als Ergebnis der Erkennung an die Anzeige einheit 19 ausgegeben (Schritt 44) und auf dem Bildschirm angezeigt.
  • Zwar wurde in dem oben beschriebenen Ausführungsbeispiel ein Beispiel für ein Sprachmodell erläutert, das unter der Einschränkung eines Bigramms von phonemischen HMMs zusammengestellt wurde, mit Bezug auf Worteinheiten als Erkennungsobjekte unter Berücksichtigung von Allophonen phonemischer Einheiten, doch ist die vorliegende Erfindung in ihrem Geltungsbereich nicht auf dieses Beispiel beschränkt, sondern kann in verschiedenen Ausführungsbeispielen realisiert werden.
  • Die Erkennungsobjekte sind nicht auf Worte beschränkt, sondern es kann sich auch um Phrasen oder Sätze handeln. Ein Erkennungsobjekt kann als beliebige Verarbeitungseinheit entsprechend dem jeweils verfolgten Zweck eingestellt werden.
  • Die Einheiten der Sprachtransformationskandidaten (Allophone), die als Sprache transformiert werden, können Silben und KVK sein. Andere Komponenten, aus denen die zu erkennenden Worte bestehen, können entsprechend den unterschiedlichen Bedingungen beliebig gesetzt werden.
  • Außerdem sind die HMMs nicht auf den phonemischen Typ beschränkt, sondern es kann sich auch um den phonetischen Typ handeln. HMMs können unter Begrenzung entweder durch ein. Bigramm oder durch verschiedene N-Gramme (N = Ganzzahl, die größer als oder gleich 3 ist) miteinander verbunden werden.
  • Vorteile der Erfindung
  • Entsprechend der Beschreibung ermöglicht diese Erfindung die effiziente Verwirklichung eines Geräts zur Spracherkennung für verschiedene phonetische Transformationen, zum Beispiel Allophone, die durch die Aussprache bewirkt werden, durch Kombination von HMMs unter Begrenzung durch ein N-Gramm. Außerdem können durch diese Erfindung Verschiedenheiten, die sich in der Aussprache der unterschiedlichen Sprecher finden, unter einem N-Gramm einer Allophonbegrenzung unterdrückt werden; anders als bei dem Verfahren, HMMs in Reihen miteinander zu verbinden, ist es also mit dieser Erfindung möglich, zu vermeiden, daß jedes HMM die unterschiedliche Aussprache der verschiedenen Sprecher berücksichtigt, auch bei Erkennung der Sprache eines unspezifischen Sprechers.
  • Außerdem können die Sprachmodelle dieser Erfindung selbst in Komponenten-HMMs vorgehalten werden, was bedeutet, daß diese HMMs auch für die Zusammensetzung verschiedener Sprachmodelle verwendet werden können. Sprachmodelle gemäß dieser Erfindung ermöglichen außerdem eine enorme Reduzierung des Speicherbedarfs für die Modelle im Vergleich mit dem Modus, in dem Sprachmodelle in Worteinheiten vorbereitet werden.
  • Darüber hinaus können mit dieser Erfindung die Parameter eines N-Gramms wirksam geschult werden. Wenn phonemische HMMs verwendet werden, haben diese Parameter viele Möglichkeiten, eine Schulung mit den verschiedensten Arten von Schulungssprache zu erhalten. Daher können optimale Parameter gesetzt werden, selbst dann, wenn die Schulung nicht häufig stattfindet.

Claims (6)

1. Eine Vorrichtung zur Spracherkennung, folgendes umfassend:
Mittel (4) zur Analyse eines als Sprache eingegebenen Wortes im Hinblick auf seine Merkmale und somit Erhalten einer Kennsatzsequenz oder Merkmalsvektorsequenz, die dem genannten Wort entspricht;
Mittel (18) zum Speichern eines versteckten Markov-Modells jedes Ausspracheunterschieds aller Subworteinheiten, die von der Spracherkennungseinheit verwendet werden, in die ein als Sprache eingegebenes Wort zerlegt werden kann;
Bevorratungsmittel (13) zum Speichern einer Vielzahl von Kandidatenworten, als die ein als Sprache eingegebenes Wort erkannt werden kann;
Mittel (15) zur Aufstellung eines Sprachmodells für jedes der genannten Kandidatenworte durch parallele Verkettung des versteckten Markov-Modells jedes Ausspracheunterschieds der in einem Kandidatenwort enthaltenen Subworteinheiten, wodurch die versteckten Markov-Modelle aller Ausspracheunterschiede einer Subworteinheit in einem jeden so zusammengestellten Sprachmodell parallel angeordnet werden; und
Mittel (42) zur Bestimmung der Wahrscheinlichkeit eines Sprachmodells, das für jedes Kandidatenwort, zusammengestellt wurde, und das die Kennsatzsequenz oder die Merkmalsvektorsequenz des genannten, als Sprache eingegebe nen Wortes ausgibt, und für die Ausgabe des Kandidatenwortes entsprechend dem Sprachmodell der höchsten Wahrscheinlichkeit als ein Ergebnis der Erkennung.
2. Eine Vorrichtung zur Spracherkennung nach Anspruch 1, bei der: die genannten versteckten Markov-Modelle phonemische versteckte Markov-Modelle sind.
3. Eine Vorrichtung zur Spracherkennung nach Anspruch 1 oder Anspruch 2, bei der:
die genannten Subworteinheiten eines Wortes eine N-Gramm-Beziehung erhalten, wobei N eine Ganzzahl ist, die größer als oder gleich 2 ist, mit den Ausspracheunterschieden anderer vorangehender Subworte in dem Wort; und
die genannten versteckten Markov-Modelle in Abhängigkeit von der genannten N-Gramm-Beziehung unter den Subworten parallel verkettet sind.
4. Eine Methode zur Spracherkennung, folgende Schritte umfassend:
Analysieren eines als Sprache eingegebenen Wortes im Hinblick auf seine Merkmale und dadurch Erhalten (40) einer Kennsatzsequenz oder einer Merkmalsvektorsequenz, die dem genannten Wort entspricht;
Speichern eines versteckten Markov-Modells jedes Ausspracheunterschiedes aller Subworteinheiten, die von der Spracherkennungseinheit verwendet werden, und in die ein als Sprache eingegebenes Wort zerlegt werden kann;
Speichern einer Vielzahl von Kandidatenworten, als die ein als Sprache eingegebenes Wort erkannt werden kann;
Zerlegen (41) eines Sprachmodells eines jeden der genannten Kandidatenworte durch Parallelverkettung des versteckten Markov-Modells jedes Ausspracheunterschiedes der Subworteinheiten, die in einem Kandidatenwort enthalten sind, wodurch die versteckten Markov-Modelle aller Ausspracheunterschiede einer Subworteinheit in jedem so zusammengestellten Sprachmodell parallel angeordnet werden; und
Bestimmen (42) der Wahrscheinlichkeit eines Sprachmodells, das für jedes Kandidatenwort zusammengestellt wurde, das die Kennsatzsequenz oder die Merkmalsvektorsequenz des genannten, als Sprache eingegebenen Wortes ausgibt, und Ausgabe (44) des Kandidatenwortes, das dem Sprachmodell mit der höchsten Wahrscheinlichkeit entspricht, als Ergebnis der Erkennung.
5. Eine Methode nach Anspruch 4, bei der: die genannten versteckten Markov-Modelle phonemische versteckte Markov-Modelle sind.
6. Eine Methode nach Anspruch 4 oder Anspruch 5, bei der: den genannten Subworteinheiten eines Wortes eine N-Gramm-Relation mit den Ausspracheunterschieden anderer vorangehender Subworte in dem Wort gegeben wird, wobei N eine Ganzzahl ist, die größer als oder gleich 2 ist; und die genannten versteckten Markov-Modelle parallel unter den genannten Subworten verkettet werden, in Abhängigkeit von der genannten N-Gramm-Relation.
DE69324428T 1992-09-29 1993-09-28 Verfahren zur Sprachformung und Gerät zur Spracherkennung Expired - Fee Related DE69324428T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4259301A JPH0772840B2 (ja) 1992-09-29 1992-09-29 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法

Publications (2)

Publication Number Publication Date
DE69324428D1 DE69324428D1 (de) 1999-05-20
DE69324428T2 true DE69324428T2 (de) 1999-11-25

Family

ID=17332180

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69324428T Expired - Fee Related DE69324428T2 (de) 1992-09-29 1993-09-28 Verfahren zur Sprachformung und Gerät zur Spracherkennung

Country Status (4)

Country Link
US (1) US5502791A (de)
EP (1) EP0590925B1 (de)
JP (1) JPH0772840B2 (de)
DE (1) DE69324428T2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE102004048348A1 (de) * 2004-10-01 2006-04-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994014270A1 (en) * 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
DE4412745A1 (de) * 1994-04-14 1996-11-07 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
FI98162C (fi) * 1994-05-30 1997-04-25 Tecnomen Oy HMM-malliin perustuva puheentunnistusmenetelmä
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
EP0813734B1 (de) * 1995-03-07 1999-04-28 Siemens Aktiengesellschaft Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
EP0769184B1 (de) * 1995-05-03 2000-04-26 Koninklijke Philips Electronics N.V. Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE19516099C2 (de) * 1995-05-05 2003-07-03 Philips Intellectual Property Verfahren zum Bestimmen von Sprachmodellwerten
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
GB2305288A (en) * 1995-09-15 1997-04-02 Ibm Speech recognition system
SE9601811L (sv) * 1996-05-13 1997-11-03 Telia Ab Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
CN1201286C (zh) * 1999-12-23 2005-05-11 英特尔公司 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4973731B2 (ja) * 2007-07-09 2012-07-11 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP4808764B2 (ja) * 2008-12-15 2011-11-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システムおよび方法
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
GB2469499A (en) * 2009-04-16 2010-10-20 Aurix Ltd Labelling an audio file in an audio mining system and training a classifier to compensate for false alarm behaviour.
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) * 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
CN102479510A (zh) * 2010-11-24 2012-05-30 株式会社东芝 用于生成语音标签的方法和装置
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
JP5703747B2 (ja) * 2010-12-27 2015-04-22 富士通株式会社 音声認識装置,および音声認識プログラム
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
CN103650033B (zh) * 2011-06-30 2016-10-26 谷歌公司 使用可变长度语境的语音识别
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
AU2014227586C1 (en) 2013-03-15 2020-01-30 Apple Inc. User training by intelligent digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
WO2022198474A1 (en) * 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
KR102494627B1 (ko) * 2020-08-03 2023-02-01 한양대학교 산학협력단 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법
CN112541856B (zh) * 2020-12-07 2022-05-03 重庆邮电大学 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5317673A (en) * 1992-06-22 1994-05-31 Sri International Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE102004048348A1 (de) * 2004-10-01 2006-04-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
DE102004048348B4 (de) * 2004-10-01 2006-07-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle

Also Published As

Publication number Publication date
US5502791A (en) 1996-03-26
EP0590925A1 (de) 1994-04-06
EP0590925B1 (de) 1999-04-14
DE69324428D1 (de) 1999-05-20
JPH06110493A (ja) 1994-04-22
JPH0772840B2 (ja) 1995-08-02

Similar Documents

Publication Publication Date Title
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69712277T2 (de) Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69933623T2 (de) Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
DE69514382T2 (de) Spracherkennung
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69623364T2 (de) Einrichtung zur Erkennung kontinuierlich gesprochener Sprache

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee