DE69324428T2 - Verfahren zur Sprachformung und Gerät zur Spracherkennung - Google Patents
Verfahren zur Sprachformung und Gerät zur SpracherkennungInfo
- Publication number
- DE69324428T2 DE69324428T2 DE69324428T DE69324428T DE69324428T2 DE 69324428 T2 DE69324428 T2 DE 69324428T2 DE 69324428 T DE69324428 T DE 69324428T DE 69324428 T DE69324428 T DE 69324428T DE 69324428 T2 DE69324428 T2 DE 69324428T2
- Authority
- DE
- Germany
- Prior art keywords
- word
- speech
- hidden markov
- phonemic
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000007493 shaping process Methods 0.000 title 1
- 239000013598 vector Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 description 24
- 238000012549 training Methods 0.000 description 15
- 230000007704 transition Effects 0.000 description 10
- 238000000844 transformation Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001944 accentuation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
- De Erfindung betrifft Sprachmodelle, die versteckte Markov- Modelle in Subwort-Einheiten verwenden, beispielsweise Laute (oder Phoneme, also die Lauteinheiten, aus denen Worte bestehen), und die Spracherkennung, in der solche Sprachmodelle verwendet werden, und im einzelnen die effiziente Spracherkennung bei Transformationen (Schwankungen) der Aussprache.
- Spracherkennung unter Anwendung des Markov-Modells soll eine Spracherkennung unter dem Blickwinkel der Wahrscheinlich keit ermöglichen. Das Markov-Modell beschreibt die Zeitstruktur eines Sprachmusters als Übergänge zwischen Zuständen in einer Markovschen Kette. Jedem Übergang ist eine Vorkommenswahrscheinlichkeit zugeordnet, die von vorangegangenen Übergängen abhängt. Die Übergänge können beobachtet werden, aber die Zustände selbst können nicht direkt beobachtet werden; daher der Ausdruck "verstecktes" Markov-Modell.
- Versteckte Markov-Modelle (Hidden Markov Models = HMMs) werden ausführlicher beschrieben in "Electronic Speech Recognition", (Ed. Bristow, R.) Collins, 1986, Seite 137 ff., sowie in "An Introduction to the Applications of the Theory in Probabalistic Functions of a Markov Process to Automatic Speech Recognition", S. E. Levinson, L. R. Rabiner und M. M. Sondhi, The Beil System Technical Journal, Band 62, Nr. 4, April 1983. Außerdem werden solche HMM-Systeme in EP-0-504-927 und in GB-2-240-203 beschrieben. In den letzten Jahren wurden Systeme vorgeschlagen für eine Spracherkennung mit großem Vokabular und eine kontinuierliche Spracherkennung auf der Basis von HMMs in Subworteinheiten, wie Laute (oder Phoneme) und Silben.
- Als repräsentative konventionelle Methode gibt es eine Methode zur Spracherkennung, bei der phonetische HMMs in Reihen kombiniert werden, um ein zu erkennendes Wort darzustellen. Bei dieser Methode wird die Auswahl dieser zu verkettenden phonetischen HMMs auf der Basis einer Beschreibung (Grundform) in einem Vorrat von Aussprachemöglichkeiten zu erkennender Worte getroffen. Da jedoch in der tatsächlichen Sprache Subworteinheiten eine Transformation erfahren, in Abhängigkeit von der Art der vorangehenden und nachfolgenden Phoneme, der Sprechgeschwindigkeit und der Akzentuierung, ist es nicht möglich, eine hohe Erkennungsrate zu erreichen, wenn phonetische HMMs ohne Berücksichtigung dieser Transformationen verkettet werden.
- Es gibt noch eine andere Methode, bei der die phonetischen HMMs für jede phonetische Umgebung nur unter Berücksichtigung der vorangehenden und der nachfolgenden phonetischen Umgebung vorbereitet werden; phonetische HMMs werden entsprechend einer phonetischen Umgebung ausgewählt, wie sie in einem Vorrat von Aussprachemöglichkeiten zu erkennender Worte beschrieben wird; anschließend werden sie in Reihen kombiniert. Diese Methode wird ausführlich behandelt in "Context-Dependent Modeling for Acoustic-Phonetic Recognition of Continuous Speech" (Proceedings of ICASSP'85, April 1985, R. Schwartz, Y. Chow, O. Kimball, S. Roucos, M. Krasner, J. Mkhoul). Obwohl diese Methode für jede phonetische Umgebung eine Sprachtransformation auf einfache Weise widerspiegeln kann, erfordert sie die Vorbereitung einer großen Anzahl phonetischer HMMs, um die verschiedensten Sprachtransformationen handhaben zu können, und zwar aufgrund der extrem großen Anzahl von möglichen Kombinationen phonetischer Umgebungen; darüber hinaus ist eine große Menge von Schulungssprachdaten erforderlich.
- Für eine vom Sprecher unabhängige Spracherkennung, die Verschiedenheiten in der Aussprache, die von Sprecher zu Sprecher sehr stark voneinander abweichen kann, berücksichtigt, würde diese Methode zudem zu losen Modellen führen, weil jedes einzelne phonetische HMM alle auf die Aussprache bezogenen Unterschiedlichkeiten jedes Sprechers enthalten muß, was dazu führen würde, daß die Fähigkeit, Phoneme zu unterscheiden, abnimmt.
- Auf der anderen Seite gibt es eine weitere Methode, bei der die Kenntnisse über Transformationen und sprachliche Unterschiede für jedes Wort dargestellt werden durch eine Kombination von Subwort-HMM-Netzwerken. Diese Methode wird ausführlich behandelt in "A Maximum Likelihood Approach to Continuous Speech Recognition" (IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-5(2), Seite 179-190, 1983, L. R. Bahl, F. Jelinek, R. L. Mercer).
- Es ist jedoch nicht leicht, manuell eine solche Netzwerkdarstellung für jedes Wort vorzubereiten, und es ist außerdem nicht unbedingt möglich, das Wissen der menschlichen Sinne einzelnen physikalischen Phänomenen präzise zuzuordnen.
- Es gibt noch eine weitere Methode, bei der Parameter (Übergangswahrscheinlichkeiten) in einem Netzwerk bestimmt und für jedes Wort gelernt werden. Bei dieser Methode ist jedoch eine große Menge von Schulungssprachdaten erforderlich, um für je des Wort eine Netzwerkdarstellung zu erhalten, es war also nicht leicht, Worte so zu modifizieren, daß sie erkannt wurden, obwohl Subworte als Einheiten verwendet wurden.
- Die vorliegende Erfindung stellt ein Gerät zur Spracherkennung sowie ein entsprechendes Verfahren bereit, entsprechend der Ansprüche 1 und 4.
- Die vorliegende Erfindung stellt vorzugsweise für jedes Phonem einige repräsentative Modelle als allophonetische HMMs bereit, die Transformationen (Allophone) jedes Phonems als Subwort darstellen. Diese Darstellung der Variationen von Phonemen erfolgt automatisch auf der Basis von Clusterbildungstechniken. Außerdem werden sprachliche Phänomene, wie die Aussprache eines Wortes, durch Sprachmodelle dargestellt, bei denen die Kombination solcher allophonetischer HMMs vorzugsweise durch ein N-Gramm begrenzt wird (die Wahrscheinlichkeit eines Vorkommens von N Gruppen von allophonetischen HMMs), und diese Sprachmodelle werden für die Spracherkennung eingesetzt. Die Erfindung stellt demnach ein Gerät zur Spracherkennung bereit, das verschiedene, auf die Aussprache bezogene Transformationen (Variationen) durch eine statistische Kombination (N-Gramm) von verschiedenen HMM-Typen darstellt.
- Bei der Schulung eines Modells wird ein Schulungssprachmodell zusammengestellt durch Verbindung einer Vielzahl von allophonetischen HMMs mit jedem Phonem, unter Begrenzung durch ein N-Gramm, durch Bezugnahme auf die Grundform der Schulungssprache, und die Parameter für ein N-Gramm-Modell unter den allophonetischen HMMs sowie die Parameter für jedes allopho netische HMM werden automatisch geschätzt durch Anwendung von Techniken wie Abschätzung der größten Wahrscheinlichkeit, um die Spracherkennungsleistung von HMMs zu verbessern.
- Nehmen wir zum Beispiel ein Wort-Sprachmodell, das unter der Begrenzung durch ein Bigramm (N = 2; die Wahrscheinlichkeit, daß ein Paar vorkommt) aufgebaut wurde. Wenn ein Element in einem Vorrat von Aussprachemöglichkeiten (phonemische Transkription) für ein bestimmtes Wort vorhanden ist, wird ein Wort-Sprachmodell aufgebaut, in dem HMMs in phonemischen Einheiten entsprechend dem Vorrat von Aussprachemöglichkeiten miteinander verbunden werden. Bei dieser Gelegenheit wird jedem Phonem eine Vielzahl von allophonetischen HMMs zugewiesen, nämlich A (p, i), wobei p ein Phonem bezeichnet und i der Typ des Allophons des Phonems p ist. All diese allophonetischen HMMs für jedes Phonem werden parallel verarbeitet, obwohl die Kombination von statistisch nicht notwendigen allophonetischen HMMs durch ein Bigramm eingeschränkt wird. Das heißt, wenn die phonemische Reihe eines Wort -Sprachmodells wiedergegeben wird mit P = p(1)p(2)... p(w), dann wird die Wahrscheinlichkeit, daß ein Paar vorkommt, das heißt Pr(A(p(j),m) A(p(j - 1),n)), bewertet in der Form eines Produkts mit der Wahrscheinlichkeit von gewöhnlichen HMMs in einem Übergang von einem allophonetischen HMM-Modell, A(p(j- 1),n), für das (j - 1)te Phonem in ein anderes allophonetisches HMM-Modell, A(p (j),m), für das j-te Phonem.
- Die Bezeichnung "Subwort" steht in dieser Beschreibung für Sprachbestandteile, wie zum Beispiel Phoneme, Silben KVK und VKV (K: Konsonant; V: Vokal), die nicht direkt etwas mit der Aussprache zu tun haben, aber sich auf phonetische Einheiten beziehen, die dazu dienen, unterschiedliche Bedeutungen auszudrücken. An welcher Stelle die Sprache zur Definition eines Subwortes abgegrenzt wird, kann nach Belieben entschieden werden.
- Der Begriff "Wort" bedeutet in dieser Beschreibung eine Einheit eines zu erkennenden Objektes, beispielsweise ein Wort, eine Phrase, oder ein Satz, die nach Belieben gewählt werden kann.
- Der Begriff "Sprachtransformationskandidat", wie er in dieser Beschreibung verwendet wird, bezeichnet ein Allophon, wenn das Phonem als ein Subwort definiert wurde; in diesem Fall sind die Sprachtransformationskandidaten jedes Subwort, das transformiert wird, wenn das Phonem als Sprache ausgesprochen wird.
- Es gibt zwei Typen von HMMs, und zwar einzelne HMMs, die Kennsätze ausgeben, und kontinuierliche HMMs, die Merkmalsvektoren ausgeben. Mit dieser Erfindung ist die Verwendung beider HMM-Typen möglich: bei den kontinuierlichen HMMs erfolgt die Spracherkennung entsprechend einer Merkmalsvektorsequenz, die das Ergebnis einer Merkmalsanalyse der Eingangssprachen ist, während bei diskreten HMMs die Spracherkennung entsprechend einer Kennsatzsequenz durchgeführt wird, die das Ergebnis einer weiteren Konvertierung der Merkmalsvektorsequenz ist.
- Ein Ausführungsbeispiel der vorliegenden Erfindung soll nachstehend mit Hilfe eines Beispiels und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben werden; es zeigt:
- Fig. 1 ein Blockdiagramm eines Geräts zur Spracherkennung, bezogen auf ein Ausführungsbeispiel dieser Erfindung;
- Fig. 2 ein Flußbild, das die Kennsatzbildung bei Sprache zeigt;
- Fig. 3 ein Konzept eines phonemischen Markov-Modells;
- Fig. 4(a) eine Tabelle von Übergangswahrscheinlichkeiten für phonemische Markov-Modelle;
- Fig. 4(b) eine Tabelle von Kennsatzausgabewahrscheinlichkeiten für phonemische Markov-Modelle;
- Fig. 4(c) eine Tabelle von Vorkommenswahrscheinlichkeiten mit einem Bigramm zwischen phonemischen Markov-Modellen;
- Fig. 5 ein Flußbild der Erzeugung der phonemischen Allophon-Grundform;
- Fig. 6 ein Flußbild einer Modellparameterschätzung;
- Fig. 7 ein Flußbild von Spracherkennungsoperationen;
- Fig. 8 eine Konzeptzeichnung eines Sprachmodells, das Worte darstellt.
- In diesem Ausführungsbeispiel wird die vorliegende Erfindung auf die Spracherkennung von Worten angewendet, wobei phonemische Markov-Modelle als HMMs für Kennsatzeinheiten verwendet werden und ein Bigramm (N = 2) als N-Gramm verwendet wird.
- Weil Modelle mit demselben Kennsatznamen bei der Schulung und Interpretation solcher Modelle als ein gemeinsames Modell behandelt werden, ist es bei phonemischen Markov-Modellen möglich, Speicherplatz zu sparen und eine bessere Schulungseffizienz zu erreichen. Bei phonemischen Markov-Modellen können Kennsatzsequenzen, die aus der Aussprache gewonnen werden, außerdem direkt den Modellsequenzen entsprechen und dadurch die Erzeugung von Startmodellen für allophonetische HMMs vereinfachen. Solche Kennsatzsequenzen, die Modellsequenzen darstellen, werden als phonemische Grundformen bezeichnet und entsprechen den Grundformen der phonemischen Modelle.
- Phonemische Markov-Modelle werden ausführlich in dem folgenden Artikel behandelt:
- "Acoustic Markov Models Used in The Tangora Speech Recoanition System" (Proceedings of ICASSP'88, April 1988, S11-3, L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer und M. A. Picheny).
- Fig. 1 ist ein komplettes Blockdiagramm des mit diesem Ausführungsbeispiel verbundenen Geräts zur Spracherkennung. Die Eingangssprache (Worte) wird übe r ein Mikrophon 1 und einen Verstärker 2 an einen Analog-Digital(A/D)-Wandler 3 weitergegeben, wo die Eingangssprache in digitale Daten umgewandelt wird. Die so digitalisierten Sprachdaten werden dann an einen Merkmalsextrahierer 4 weitergegeben.
- In dem Merkmalsextrahierer 4 werden die Sprachdaten zunächst einer diskreten Fourier-Transformation unterzogen und anschließend von einem kritischen Bandpaßfilter mit neunzehn Kanälen ausgegeben, der die akustischen Merkmale zusammen mit einem logarithmischen Leistungswert reflektiert. Dieser Aus gang wird an einen Endpunktdetektor 5 gesendet, beispielsweise in Intervallen von etwa 10 m sec (dieses Einheitenintervall wird als Frame bezeichnet). Dann werden nur diejenigen Merkmalswerte der Frames, die als innerhalb eines Wortsprachintervalls liegend bewertet werden, an eine Durchschalteinheit 6 gesendet und anschließend entweder an eine Code-Lexikon-Aufbaueinheit 7 oder eine Kennsatzbildeeinheit 8.
- Während der Vorbereitung des Code-Lexikons wird die Durchschalteinheit 6 auf die Code-Lexikon-Aufbaueinheit 7 geschaltet, so daß die Merkmalsdaten von dem Merkmalsextrahierer 4 in die Code-Lexikon-Aufbaueinheit 7 eingespeist werden können. Die Code-Lexikon-Aufbaueinheit 7 kompiliert dann ein Code-Lexikon 9 aus dem Merkmalsvorrat, der mit 128 verschiedenen Kennsatztypen ein Cluster bildet.
- Andererseits wird zur Erkennung von Sprachdaten eine phonemische Allophon-Grundform registriert, oder es werden Modellparameter geschätzt, und die Durchschalteinheit 6 wird auf die Kennsatzbildeeinheit 8 geschaltet. Die Kennsatzbildeeinheit 8 weist jedem Frame, auf den in dem Code-Lexikon 9 Bezug genommen wird, einen Kennsatz zu.
- Die oben beschriebene Kennsatzbildung findet wie in Fig. 2 statt; X bezeichnet die Menge der Merkmalsdaten eines Eingangssprache-Frames (Worte); Yj den Merkmalsvorrat des j-ten Kennsatzes der in dem Code-Lexikon vorgehaltenen Merkmale; R die Größe ( = 128) des Code-Lexikons; dist (X, Yj) die Euklidsche Distanz zwischen X und Yj; m den untersten Wert von dist (X, Yj) zu jedem Zeitpunkt.
- Erstens: Wenn eine Merkmalsmenge X eingegeben wird (Schritt 20), dann werden j, m und l (eine Kennsatznummer, die der eingegebenen Merkmalsmenge X endgültig zugewiesen wird) auf 1, einen sehr großen Wert V, bzw. auf 1 initialisiert (Schritt 21).
- Zweitens: Es wird beurteilt, ob alle Merkmalsvorräte in dem Code-Lexikon unter der Bedingung "j > R" geprüft wurden (Schritt 22); eine andere Beurteilung prüft, ob ein Kennsatz mit einer Distanz gefunden wurde, die größer als die bisher unter der Bedingung "m > dist (X, Yj)" erhaltene Distanz ist (Schritt 24).
- Drittens: Wenn ein Kennsatz mit einer kürzeren Distanz gefunden wird, wird seine Kennsatznummer, j, zunächst auf 1 gesetzt (Schritt 25). Wenn kein solcher Kennsatz gefunden wird, bleibt die Kennsatznummer, j, wie sie ist, und es werden nacheinander Prüfläufe durch das Code-Lexikon bis zur letzten Kennsatznummer, R (Schritt 22), durchgeführt, indem j jeweils um 1 erhöht wird, um festzustellen, ob es einen Kennsatz mit einer noch kürzeren Distanz gibt (Schritt 26). Schließlich wird die Kennsatznummer desjenigen Kennsatzes mit der kürzesten Distanz, das heißt, die Kennsatznummer eines Kennsatzes, der dem eingegebenen Merkmalswert X des in dem Code-Lexikon als Kennsatz enthaltenen Merkmalsvorrates am meisten entspricht, als ermittelter Kennsatz (Kennsatznummer) 1 ausgegeben (Schritt 23).
- Erneut bezugnehmend auf Fig. 1; eine Kennsatzsequenz einer Vielzahl von Kennsätzen, die für jeden Frame von der Kennsatzeinheit 8 ausgegeben werden, entspricht einem Phonem, und eine Summenkennsatzsequenz von einigen Kennsatzsequenzen, die solchen Phonemen entsprechen, entspricht einem Wort der Eingangssprache. Diese Kennsatzsequenz, die einem Wort entspricht, wird durch eine Durchschalteinheit 10 durchgeschaltet, entweder zu der Einheit 14, welche die phonemische Allophon-Grundform erzeugt, zu der Modellparameter- Schätzeinheit 15, oder zu der Erkennungseinheit 16.
- Auch in diesem Ausführungsbeispiel wird vorausgesetzt, daß Sprachmodelle Kennsatzsequenzen ausgeben, und daher wird die Eingangssprache in eine Kennsatzsequenz transformiert. Es kann jedoch auch vorausgesetzt werden, daß Sprachmodelle Merkmalsvektorsequenzen ausgeben; in diesem Fall werden die Merkmalswerte, die man aus einer Merkmalsanalyse der Sprache als einem Erkennungsobjekt erhält, in die Erkennungseinheit 16 eingespeist, ohne daß sie eine Kennsatztransformation durchmachen.
- Wenn eine phonemische Allophon-Grundform erzeugt wird, wird das Durchschaltteil 10 auf die Einheit 14, welche die phonemische Allophon-Grundform erzeugt, geschaltet; in die Erzeugungseinheit 14, welche die phonemische Allophon-Grundform erzeugt, wird eine Kennsatzsequenz eingespeist; eine Tabelle 17 mit phonemischen Allophon-Grundformen wird unter Bezugnahme auf den Wortaussprachevorrat 11 für die Erzeugung der Allophon-Grundform und den Ausgang des Merkmalsextrahierers 4 erzeugt. Die Funktionsweise der Erzeugungseinheit 14 zur Erzeugung der phonemischen Allophon-Grundform soll später unter Bezugnahme auf Fig. 5 noch ausführlich beschrieben werden.
- Wenn die Parameter eines Markov-Modells geschätzt werden, wird das Durchschaltteil 10 auf die Modellparameter-Schätzeinheit 15 geschaltet; die Modellparameter-Schätzeinheit 15 schult das Modell unter Bezugnahme auf die Kennsatzsequenz, die Tabelle 17 mit phonemischen Allophon-Grundformen und den Schulungswort-Aussprachevorrat 12; außerdem bestimmt sie die Parameterwerte (die Parameter der phonemischen Markov-Modelle und ein Bigramm) in der Parametertabelle 18. Die Funktionsweise der Modellparameter-Schätzvorrichtung soll später unter Bezugnahme auf Fig. 6 und 8 ausführlich erläutert werden. Wenn Sprache erkannt wird, schaltet das Durchschaltteil 10 auf das Erkennungsgerät 16 und das Erkennungsgerät erkennt die eingehende Sprache anhand einer Eingangskennsatzsequenz, der Tabelle 17 mit phonemischen Allophon-Grundformen, der Parametertabelle 18 und dem Aussprachevorrat 13 der zu erkennenden Worte. Die Funktionsweise der Erkennungseinheit 16 soll später unter Bezugnahme auf die Fig. 7 und 8 ausführlich erläutert werden. Der Ausgang der Erkennungseinheit. 16 wird in eine Workstation 19 eingespeist, wo die so erkannten Worte beispielsweise auf dem Bildschirm angezeigt werden.
- Außerdem werden alle Geräte, außer dem Mikrophon 1, dem Verstärker 2, dem A/D-Wandler 3 und dem Bildschirm 16, die in Fig. 1 gezeigt werden, als Software auf der Workstation implementiert.
- Fig. 3 zeigt die Struktur eines phonemischen HMM, das in diesem Ausführungsbeispiel verwendet wird. Die als Kreise in dieser Zeichnung eingezeichneten Knoten stellen Zustände dar. Der als gepunktete Linie eingezeichnete Zustandsübergang 3 ist ein Nullübergang, der keinen Kennsatzausgang bewirkt. In diesem Ausführungsbeispiel werden 128 derartige phonemische HMMs mit entsprechenden Kennsatznummern bereitgestellt. Den jeweiligen phonemischen HMMs werden Vorkommenswahrscheinlichkeiten zugewiesen, wie sie in Fig. 4(a) gezeigt werden, entsprechend den jeweiligen Zustandsübergängen 1, 2 und 3 in Fig. 3. Außerdem werden 128 Typen von phonemischen HMs jeweils solche Wahrscheinlichkeiten, nämlich daß 128 Kennsatztypen ausgegeben werden, wie in Fig. 4(b) gezeigt wird, zugewiesen. Die Parameter dieser phonemischen HMMs sind in der Parametertabelle 18 enthalten.
- In diesem Ausführungsbeispiel werden phonemische HMMs, welche den Allophonen jedes Phonems entsprechen, in die Zusammensetzung von Sprachmodellen in Worteinheiten einbezogen, und diejenigen phonemischen HMMs der Phoneme, die Allophone enthalten, werden parallel verkettet, entsprechend der Liste cier Phoneme in den Worten, so daß sie Unterschiedlichkeiten aufgrund phonemischer Transformationen in der Wortaussprache berücksichtigen können. Ein Bigramm unter den phonemischen HMMs, das die Verkettung der phonemischen HMMs der Phoneme, die solche Allophone enthalten, begrenzt, wird ebenfalls vorgehalten, um die -Vorkommenswahrscheinlichkeiten von Allophonen von nachfolgenden Phonemen unter den Bedingungen der Allophone von vorangehenden Phonemen in einem Wort in der Parametertabelle 18 darzustellen.
- In diesem Ausführungsbeispiel wird nur die Verkettung von Allophonen begrenzt und es wird vorausgesetzt, daß die Wahrscheinlichkeiten der phonemischen Kombinationen bei allen Phonemen gleich sind. Beispiel: Bei der Vorkommenswahrscheinlichkeit des genannten Paares
- Pr(A(P(j),m) A(P(j - 1),n))
- = Pr(m p(j),A(P(j - 1),n))Pr(P(j) A(P(j - 1),n))
- = Pr(m p(j),A(P(j - 1),n))Pr(P(j) P(j - 1))
- wird angenommen, daß das inter-phonemische Bigramm "Pr (p (j) p (j - 1)) " in Bezug auf alle Phoneme immer konstant ist. Die vorliegende Erfindung erlaubt den Einschluß eines solchen inter-phonemischen Bigramms; in diesem Fall ist es notwendig, eine ziemlich große Menge von Lerndaten für die Kompilierung jedes Vorrats vorzubereiten.
- Außerdem erlaubt diese Erfindung die Zusammenstellung eines Sprachmodells ohne die Notwendigkeit einer N-Gramm-Begrenzung, oder durch Auslassung von Parametern, wie sie in Fig. 4(c) (Parametertabelle) gezeigt werden, unter der Annahme, daß N = 1. Auch in diesem Fall ist es möglich, dass beabsichtigte Ziel dieser Erfindung zu erreichen, das heißt, die Verwirklichung eines Geräts zur Spracherkennung, mit dem phonetische Transformationen ausgedrückt werden, und eine Reduzierung der Speicherkapazität für die Modelle.
- In bezug auf das Wort "KASA" gibt es zum Beispiel einige Sprachtransformationskandidaten, die zueinander in einer allophonetischen Beziehung stehen; zum Beispiel: K1 und K2 zu dem Phonem K; A1 und A2 zu dem Phonem A; S1, S2 und S3 zu dem Phonem S. Ein Sprachmodell für das Wort "KASA" wird zusammengestellt durch parallele Verkettung phonemischer HMMs, welche diesen Sprachtransformationskandidaten entsprechen, entsprechend der Vorkommenswahrscheinlichkeit eines Bigramms. Die Parametertabelle 18 enthält die Wahrscheinlichkeit, daß ein Allophon vorkommt, und zwar unmittelbar im Anschluß an das vorhergehende Phonem (Sprachtransformationskandidat) für jedes Phonem (Sprachtransformationskandidat) in dem Wort.
- Auch in diesem Ausführungsbeispiel wird angenommen, daß die Wahrscheinlichkeit von /A/ folgt /K/ dieselbe ist, wie die Wahrscheinlichkeit von /I/ folgt /K/, weil angenommen wird, daß das inter-phonemische Bigramm im Hinblick auf alle Phoneme konstant ist.
- Die Spracherkennungseinheit in der genannten Anordnung führt drei Hauptoperationen aus: Erzeugung von phomenischen Allophon-Grundformen; Schätzung von Modellparametern; und Spracherkennung. Die beiden ersten Operationen sind vorbereitende Operationen für die Spracherkennung. Diese Operationen werden entsprechend der Beschreibung in dem Wortaussprachevorrat 13 eingegeben.
- Phonemische Allophon-Grundformen werden von der obengenannten Erzeugungseinheit für die phonemische Allophon-Grundform, 14, in dem in Fig. 5 gezeigten Verfahren erzeugt.
- Zuerst wird die über das Mikrophon 1 eingegebene Wortsprache von der Kennsatzbildeeinheit 8 in eine Eingangs-Kennsatzsequenz zur Erzeugung der phonemischen Allophon-Grundform transformiert. Diese Eingangs-Kennsatzsequenz wird dann von dem Durchschaltteil 10 zur Erzeugung der phonemischen Allophon-Grundform in die Erzeugungseinheit 14 eingespeist. Diese Eingangs-Kennsatzsequenz wird in phonemische Einheiten unterteilt, unter Bezugnahme auf den Wortaussprachevorrat 11 für die Erzeugung der phonemischen Allophon-Grundform, in der die phonemische Sequenz der Eingangswortaussprache umgeschrieben wird (Schritt 27). Bei dieser Gelegenheit werden die Variationen der von dem Merkmalsextrahierer 4 ausgegebenen Merkmale für die Bestimmung phonemischer Grenzen verwendet. Diese Operation wird mit der gesamten Wortsprache für die Erzeugung der phonemischen Allophon-Grundform durchgeführt. Alle Eingangs-Kennsatzsequenzen werden so nach Phonemen partitioniert und klassifiziert.
- Alle Kennsatzsequenzen für die in Phoneme (p) klassifizierten Segmente werden einbezogen (Schritt 28). Die Cluster-Bildung wird für jedes Phonem mit Hilfe dieser Daten durchgeführt, die Kennsätze für die jeweiligen Klassen werden ausgewählt (Schritt 29 und Schritt 30). Das Ergebnis sind die Kennsatzsequenzen aller Allophon-Kandidaten (Sprachtransformationskandidaten).
- Die Distanz zwischen den Kennsätzen, die während der Cluster- Bildung verwendet werden, wird definiert durch Verwendung der Wahrscheinlichkeit eines Modells, wobei das eine als phonemische Markov-Phonemgrundform und das andere als eine Eincrangs- Kennsatzsequenz betrachtet wird. Bei dieser Gelegenheit werden die Parameter der phonemischen Markov-Modelle nur als Parametervorräte verwendet, die bereits in der Wortaussprache geschult wurden, oder als Erstwerte.
- Die für jedes Phonem erhaltenen repräsentativen Kennsatzsequenzen der Sprachtransformationskandidaten werden als phonemische Allophon-Grundformen in die Tabelle 17 der phonemischen Allophon-Grundformen eingetragen (Schritt 31). Die oben beschriebene Verarbeitungsfolge wird mit allen Phonemen durchgeführt, die in der eingegebenen Wortsprache enthalten sind (Schritt 32); anschließend wird die Erzeugung der phonemischen Allophon-Grundform-Tabelle 17 abgeschlossen.
- Die Kennsatzsequenzen der Sprachtransformationskandidaten (Allophone) für jedes Phonem werden also in der oben erzeugten phonemischen Allophon-Grundform-Tabelle 17 gespeichert.
- Wenn die Spracherkennung mit Hilfe phonemischer HMMs durchgeführt wird, wie in diesem Ausführungsbeispiel, müssen außerdem phonemische Allophon-Grundformen als Kennsatzsequenzen verwendet werden, obwohl die Erkennung entweder anhand der Kennsatzsequenz oder der Merkmalsvektorsequenz erfolgt. Weil andere Typen von HMMs, anders als die phonemischen HMMs, die Modellsequenzen nicht auf der Basis von Kennsatzsequenzen aufbauen, stehen andererseits in der Allophon-Grundform-Tabelle 17 HMMs für alle Sprachtransformationskandidaten (Allophone).
- Die Modellparameterschätzung wird ausgeführt, um die Parameter der phonemischen HMMs selbst zu modifizieren (schulen), wie in Fig. 4(a) und 4(b) gezeigt wird, und die Parameter eines inter-phonemischen Bigramms, wie in Fig. 9(c) zu sehen ist, so daß die Ausgabe der zu erkennenden Worte vereinfacht wird, und sie wird ausgeführt von der obengenannten Modellparameter-Schätzeinheit 15 in dem in Fig. 6 gezeigten Verfahren.
- Zuerst wird die Parametertabelle 18 initialisiert (Schritt 33). Bei dieser Gelegenheit können bereits gelernte Parameter als Erstwerte verwendet werden.
- Anschließend wird durch das Durchschaltteil 10 die Kennsatzsequenz der Schulungswortsprache (zum Beispiel "KASA") geholt (Schritt 34). Ein Wortsprachmodell, wie in Fig. 8 dargestellt, das dieser Schulungswortsprache entspricht, wird unter Bezugnahme auf den Schulungswort-Aussprachevorrat 12, die phonemische Allophon-Grundform-Tabelle 17 und die Parametertabelle 18 zusammengestellt (Schritt 35); anschließend werden die Parameter jedes phonemischen HMM und ein inter-phonemisches Bigramm bestimmt, und zwar durch Ausführung von Vorwärts-Rückwärts-Berechnungen (Schritt 36).
- Nachdem diese Berechnungen mit allen Schulungswort-Sprachdaten ausgeführt wurden (Schritt 37), werden die Parameter aller phonemischen HMMs und das Bigramm mit Hilfe der Schätzung der größten Wahrscheinlichkeit geschätzt, durch Verwendung der Ergebnisse dieser Berechnungen (Schritt 38), und die Parametertabelle 18 wird mit den entsprechenden Parametern aktualisiert.
- Dann wird die oben beschriebene Prozeßreihe (Schritte 34 bis 38) so oft wiederholt, wie vorgeschrieben ist, zum Beispiel fünfmal, unter Bezugnahme auf die neu geschätzte Parametertabelle 18, und anschließend wird die Modellparameterschätzung abgeschlossen (Schritt 39).
- Die Eingangsspracherkennung wird von dem Erkennungsgerät. 16 in der in Fig. 7 gezeigten Prozedur ausgeführt.
- Zunächst wird die Eingangskennsatzsequenz der zu erkennenden Wortsprache durch das Durchschaltteil 10 gelesen (Schritt 40). Anschließend wird, wie in Fig. 8 gezeigt wird, ein Wortsprachmodell unter Bezugnahme auf den Wortaussprache- Vorrat 13, der eine Vielzahl von zu erkennenden Wortkandidaten enthält, die phonemische Allophon-Grundform-Tabelle 17, und die Parametertabelle 18 zusammengestellt (Schritt 41). Die Wahrscheinlichkeit, daß das Wortsprachmodell die genannte Eingangskennsatzsequenz ausgibt, wird durch Vorwärts-Berechnungen bestimmt (Schritt 42).
- Zur Bestimmung der Wahrscheinlichkeit kann wieder ein Viterbi-Algorithmus verwendet werden.
- Die genannte Verarbeitungsfolge wird mit allen Wortkandidaten in dem Wortaussprachevorrat 13 (Schritt 43) durchgeführt. Ein Wortkandidat, der dem Modell entspricht, das unter den Wortsprachmodellen in dem genannten Prozeß die größte Wahrscheinlichkeit hat, wird als Ergebnis der Erkennung an die Anzeige einheit 19 ausgegeben (Schritt 44) und auf dem Bildschirm angezeigt.
- Zwar wurde in dem oben beschriebenen Ausführungsbeispiel ein Beispiel für ein Sprachmodell erläutert, das unter der Einschränkung eines Bigramms von phonemischen HMMs zusammengestellt wurde, mit Bezug auf Worteinheiten als Erkennungsobjekte unter Berücksichtigung von Allophonen phonemischer Einheiten, doch ist die vorliegende Erfindung in ihrem Geltungsbereich nicht auf dieses Beispiel beschränkt, sondern kann in verschiedenen Ausführungsbeispielen realisiert werden.
- Die Erkennungsobjekte sind nicht auf Worte beschränkt, sondern es kann sich auch um Phrasen oder Sätze handeln. Ein Erkennungsobjekt kann als beliebige Verarbeitungseinheit entsprechend dem jeweils verfolgten Zweck eingestellt werden.
- Die Einheiten der Sprachtransformationskandidaten (Allophone), die als Sprache transformiert werden, können Silben und KVK sein. Andere Komponenten, aus denen die zu erkennenden Worte bestehen, können entsprechend den unterschiedlichen Bedingungen beliebig gesetzt werden.
- Außerdem sind die HMMs nicht auf den phonemischen Typ beschränkt, sondern es kann sich auch um den phonetischen Typ handeln. HMMs können unter Begrenzung entweder durch ein. Bigramm oder durch verschiedene N-Gramme (N = Ganzzahl, die größer als oder gleich 3 ist) miteinander verbunden werden.
- Entsprechend der Beschreibung ermöglicht diese Erfindung die effiziente Verwirklichung eines Geräts zur Spracherkennung für verschiedene phonetische Transformationen, zum Beispiel Allophone, die durch die Aussprache bewirkt werden, durch Kombination von HMMs unter Begrenzung durch ein N-Gramm. Außerdem können durch diese Erfindung Verschiedenheiten, die sich in der Aussprache der unterschiedlichen Sprecher finden, unter einem N-Gramm einer Allophonbegrenzung unterdrückt werden; anders als bei dem Verfahren, HMMs in Reihen miteinander zu verbinden, ist es also mit dieser Erfindung möglich, zu vermeiden, daß jedes HMM die unterschiedliche Aussprache der verschiedenen Sprecher berücksichtigt, auch bei Erkennung der Sprache eines unspezifischen Sprechers.
- Außerdem können die Sprachmodelle dieser Erfindung selbst in Komponenten-HMMs vorgehalten werden, was bedeutet, daß diese HMMs auch für die Zusammensetzung verschiedener Sprachmodelle verwendet werden können. Sprachmodelle gemäß dieser Erfindung ermöglichen außerdem eine enorme Reduzierung des Speicherbedarfs für die Modelle im Vergleich mit dem Modus, in dem Sprachmodelle in Worteinheiten vorbereitet werden.
- Darüber hinaus können mit dieser Erfindung die Parameter eines N-Gramms wirksam geschult werden. Wenn phonemische HMMs verwendet werden, haben diese Parameter viele Möglichkeiten, eine Schulung mit den verschiedensten Arten von Schulungssprache zu erhalten. Daher können optimale Parameter gesetzt werden, selbst dann, wenn die Schulung nicht häufig stattfindet.
Claims (6)
1. Eine Vorrichtung zur Spracherkennung, folgendes
umfassend:
Mittel (4) zur Analyse eines als Sprache eingegebenen
Wortes im Hinblick auf seine Merkmale und somit Erhalten
einer Kennsatzsequenz oder Merkmalsvektorsequenz, die
dem genannten Wort entspricht;
Mittel (18) zum Speichern eines versteckten
Markov-Modells jedes Ausspracheunterschieds aller
Subworteinheiten, die von der Spracherkennungseinheit verwendet
werden, in die ein als Sprache eingegebenes Wort zerlegt
werden kann;
Bevorratungsmittel (13) zum Speichern einer Vielzahl von
Kandidatenworten, als die ein als Sprache eingegebenes
Wort erkannt werden kann;
Mittel (15) zur Aufstellung eines Sprachmodells für
jedes der genannten Kandidatenworte durch parallele
Verkettung des versteckten Markov-Modells jedes
Ausspracheunterschieds der in einem Kandidatenwort enthaltenen
Subworteinheiten, wodurch die versteckten Markov-Modelle
aller Ausspracheunterschiede einer Subworteinheit in
einem jeden so zusammengestellten Sprachmodell parallel
angeordnet werden; und
Mittel (42) zur Bestimmung der Wahrscheinlichkeit eines
Sprachmodells, das für jedes Kandidatenwort,
zusammengestellt wurde, und das die Kennsatzsequenz oder die
Merkmalsvektorsequenz des genannten, als Sprache
eingegebe
nen Wortes ausgibt, und für die Ausgabe des
Kandidatenwortes entsprechend dem Sprachmodell der höchsten
Wahrscheinlichkeit als ein Ergebnis der Erkennung.
2. Eine Vorrichtung zur Spracherkennung nach Anspruch 1,
bei der:
die genannten versteckten Markov-Modelle phonemische
versteckte Markov-Modelle sind.
3. Eine Vorrichtung zur Spracherkennung nach Anspruch 1
oder Anspruch 2, bei der:
die genannten Subworteinheiten eines Wortes eine
N-Gramm-Beziehung erhalten, wobei N eine Ganzzahl ist,
die größer als oder gleich 2 ist, mit den
Ausspracheunterschieden anderer vorangehender Subworte in dem Wort;
und
die genannten versteckten Markov-Modelle in Abhängigkeit
von der genannten N-Gramm-Beziehung unter den Subworten
parallel verkettet sind.
4. Eine Methode zur Spracherkennung, folgende Schritte
umfassend:
Analysieren eines als Sprache eingegebenen Wortes im
Hinblick auf seine Merkmale und dadurch Erhalten (40)
einer Kennsatzsequenz oder einer Merkmalsvektorsequenz,
die dem genannten Wort entspricht;
Speichern eines versteckten Markov-Modells jedes
Ausspracheunterschiedes aller Subworteinheiten, die von der
Spracherkennungseinheit verwendet werden, und in die ein
als Sprache eingegebenes Wort zerlegt werden kann;
Speichern einer Vielzahl von Kandidatenworten, als die
ein als Sprache eingegebenes Wort erkannt werden kann;
Zerlegen (41) eines Sprachmodells eines jeden der
genannten Kandidatenworte durch Parallelverkettung des
versteckten Markov-Modells jedes Ausspracheunterschiedes
der Subworteinheiten, die in einem Kandidatenwort
enthalten sind, wodurch die versteckten Markov-Modelle
aller Ausspracheunterschiede einer Subworteinheit in jedem
so zusammengestellten Sprachmodell parallel angeordnet
werden; und
Bestimmen (42) der Wahrscheinlichkeit eines
Sprachmodells, das für jedes Kandidatenwort zusammengestellt
wurde, das die Kennsatzsequenz oder die
Merkmalsvektorsequenz des genannten, als Sprache eingegebenen Wortes
ausgibt, und Ausgabe (44) des Kandidatenwortes, das dem
Sprachmodell mit der höchsten Wahrscheinlichkeit
entspricht, als Ergebnis der Erkennung.
5. Eine Methode nach Anspruch 4, bei der:
die genannten versteckten Markov-Modelle phonemische
versteckte Markov-Modelle sind.
6. Eine Methode nach Anspruch 4 oder Anspruch 5, bei der:
den genannten Subworteinheiten eines Wortes eine
N-Gramm-Relation mit den Ausspracheunterschieden anderer
vorangehender Subworte in dem Wort gegeben wird, wobei N
eine Ganzzahl ist, die größer als oder gleich 2 ist; und
die genannten versteckten Markov-Modelle parallel unter
den genannten Subworten verkettet werden, in
Abhängigkeit von der genannten N-Gramm-Relation.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4259301A JPH0772840B2 (ja) | 1992-09-29 | 1992-09-29 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69324428D1 DE69324428D1 (de) | 1999-05-20 |
DE69324428T2 true DE69324428T2 (de) | 1999-11-25 |
Family
ID=17332180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69324428T Expired - Fee Related DE69324428T2 (de) | 1992-09-29 | 1993-09-28 | Verfahren zur Sprachformung und Gerät zur Spracherkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US5502791A (de) |
EP (1) | EP0590925B1 (de) |
JP (1) | JPH0772840B2 (de) |
DE (1) | DE69324428T2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
DE102004048348A1 (de) * | 2004-10-01 | 2006-04-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
Families Citing this family (186)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994014270A1 (en) * | 1992-12-17 | 1994-06-23 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5737490A (en) * | 1993-09-30 | 1998-04-07 | Apple Computer, Inc. | Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models |
DE4412745A1 (de) * | 1994-04-14 | 1996-11-07 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
FI98162C (fi) * | 1994-05-30 | 1997-04-25 | Tecnomen Oy | HMM-malliin perustuva puheentunnistusmenetelmä |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
EP0813734B1 (de) * | 1995-03-07 | 1999-04-28 | Siemens Aktiengesellschaft | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird |
DE19510083C2 (de) * | 1995-03-20 | 1997-04-24 | Ibm | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
EP0769184B1 (de) * | 1995-05-03 | 2000-04-26 | Koninklijke Philips Electronics N.V. | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle |
DE19516099C2 (de) * | 1995-05-05 | 2003-07-03 | Philips Intellectual Property | Verfahren zum Bestimmen von Sprachmodellwerten |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
SE9601811L (sv) * | 1996-05-13 | 1997-11-03 | Telia Ab | Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
US6385579B1 (en) * | 1999-04-29 | 2002-05-07 | International Business Machines Corporation | Methods and apparatus for forming compound words for use in a continuous speech recognition system |
CN1201286C (zh) * | 1999-12-23 | 2005-05-11 | 英特尔公司 | 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法 |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
CN1159702C (zh) | 2001-04-11 | 2004-07-28 | 国际商业机器公司 | 具有情感的语音-语音翻译系统和方法 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8700404B1 (en) | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070132834A1 (en) * | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Speech disambiguation in a composite services enablement environment |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP4973731B2 (ja) * | 2007-07-09 | 2012-07-11 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP4808764B2 (ja) * | 2008-12-15 | 2011-11-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識システムおよび方法 |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
GB2469499A (en) * | 2009-04-16 | 2010-10-20 | Aurix Ltd | Labelling an audio file in an audio mining system and training a classifier to compensate for false alarm behaviour. |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
CN102479510A (zh) * | 2010-11-24 | 2012-05-30 | 株式会社东芝 | 用于生成语音标签的方法和装置 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
JP5703747B2 (ja) * | 2010-12-27 | 2015-04-22 | 富士通株式会社 | 音声認識装置,および音声認識プログラム |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
CN103650033B (zh) * | 2011-06-30 | 2016-10-26 | 谷歌公司 | 使用可变长度语境的语音识别 |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9135911B2 (en) * | 2014-02-07 | 2015-09-15 | NexGen Flight LLC | Automated generation of phonemic lexicon for voice activated cockpit management systems |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
WO2022198474A1 (en) * | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
KR102494627B1 (ko) * | 2020-08-03 | 2023-02-01 | 한양대학교 산학협력단 | 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 |
CN112541856B (zh) * | 2020-12-07 | 2022-05-03 | 重庆邮电大学 | 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法 |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
JPH0296800A (ja) * | 1988-10-03 | 1990-04-09 | Nec Corp | 連続音声認識装置 |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5278942A (en) * | 1991-12-05 | 1994-01-11 | International Business Machines Corporation | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data |
US5317673A (en) * | 1992-06-22 | 1994-05-31 | Sri International | Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system |
-
1992
- 1992-09-29 JP JP4259301A patent/JPH0772840B2/ja not_active Expired - Fee Related
-
1993
- 1993-09-01 US US08/114,709 patent/US5502791A/en not_active Expired - Fee Related
- 1993-09-28 EP EP93307664A patent/EP0590925B1/de not_active Expired - Lifetime
- 1993-09-28 DE DE69324428T patent/DE69324428T2/de not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
DE102004048348A1 (de) * | 2004-10-01 | 2006-04-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
DE102004048348B4 (de) * | 2004-10-01 | 2006-07-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
Also Published As
Publication number | Publication date |
---|---|
US5502791A (en) | 1996-03-26 |
EP0590925A1 (de) | 1994-04-06 |
EP0590925B1 (de) | 1999-04-14 |
DE69324428D1 (de) | 1999-05-20 |
JPH06110493A (ja) | 1994-04-22 |
JPH0772840B2 (ja) | 1995-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE3874049T2 (de) | Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers. | |
DE69832393T2 (de) | Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69712277T2 (de) | Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten | |
DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE69933623T2 (de) | Spracherkennung | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69908254T2 (de) | System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung | |
DE69514382T2 (de) | Spracherkennung | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69623364T2 (de) | Einrichtung zur Erkennung kontinuierlich gesprochener Sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |