DE3876207T2 - Spracherkennungssystem unter verwendung von markov-modellen. - Google Patents
Spracherkennungssystem unter verwendung von markov-modellen.Info
- Publication number
- DE3876207T2 DE3876207T2 DE8888308585T DE3876207T DE3876207T2 DE 3876207 T2 DE3876207 T2 DE 3876207T2 DE 8888308585 T DE8888308585 T DE 8888308585T DE 3876207 T DE3876207 T DE 3876207T DE 3876207 T2 DE3876207 T2 DE 3876207T2
- Authority
- DE
- Germany
- Prior art keywords
- adaptation
- speech
- mark
- token
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006978 adaptation Effects 0.000 claims abstract description 93
- 230000007704 transition Effects 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 26
- 238000000034 method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Synchronisation In Digital Transmission Systems (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
- Die vorliegende Erfindung betrifft ein Spracherkennungssystem unter Verwendung von Markov-Modellen und insbesondere ein Spracherkennungsverfahren, bei dem eine Sprecheradaptierung und Hintergrundgeräuschadaptierung auf einfache Weise erfolgen kann.
- In Spracherkennungssystemen, in denen Markov-Modelle zum Einsatz kommen, wird Sprache nach Wahrscheinlichkeitsgesichtspunkten erkannt. In einem System wird beispielsweise ein Markov-Modell für jedes Wort festgelegt. Gewöhnlich werden eine Reihe von Zuständen und Übergängen zwischen den Zuständen für jedes Markov-Modell definiert, und für jeden Zustandsübergang werden Vorkommenswahrscheinlichkeiten festgelegt. Weitere Ausgabewahrscheinlichkeiten von Marken oder Symbolen werden für jeden Zustand oder Zustandsübergang festgelegt. Dem System unbekannte Sprache wird in eine Markenkette konvertiert, und danach wird die Wahrscheinlichkeit jedes Markov-Wortmodells, das die Markenkette ausgibt, auf der Basis der Übergangsvorkommenswahrscheinlichkeiten und der Markenausgabewahrscheinlichkeiten, die nachstehend als Parameter bezeichnet werden, ermittelt. Dann wird das Markov-Wortmodell, bei dem die Erzeugung der Markenkette am wahrscheinlichsten ist, ermittelt. Die Erkennung wird entsprechend diesem Ergebnis durchgeführt. In Spracherkennungssystemen, in denen Markov-Modelle zum Einsatz kommen, können die Parameter statistisch geschätzt werden, wodurch die Erkennungsquote verbessert wird.
- Die Einzelheiten der oben genannten Erkennungsmethode werden in den folgenden Artikeln beschrieben:
- (1): "A Maximum Likelihood Approach to Continuous Speech Recognition" (IEEE-Abhandlung zum Thema Musteranalyse und Künstliche Intelligenz , PAMI-Vol. 5, Nr. 2, S. 179-190, 1983, Lalit R. Bahl, Frederick Jelinek und Robert L. Mercer).
- (2) "Continuous Speech Recognition by Statistical Methods" (IEEE-Protokolle, Vol. 64, 1976, S. 532-556, Frederick Jelinek).
- (3) "An Introduction to the Application of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recognition" (The Bell System Technical Journal Vol. 64, Nr. 4, April 1983, S.E. Levinson, L.R. Rabiner und M.M. Sondhi).
- Für ein Spracherkennungssystem mit Markov-Modellen sind jedoch beträchtliche Mengen an Sprechdaten erforderlich, und das Übungssprechen ist sehr zeitaufwendig. Außerdem ist bei einem System, das von einem bestimmten Sprecher trainiert wurde, die Erkennungsquote bei anderen Sprechern häufig nicht ausreichend. Wenn der zeitliche Abstand zwischen der Übung und der Erkennung beträchtlich ist (d.h. wenn ein Unterschied zwischen den beiden Stadien entsteht) ist selbst bei ein und demselben Sprecher nur eine mangelhafte Spracherkennung zu erzielen. Darüber hinaus ist eine Minderung der Erkennungsgenauigkeit aufgrund von Hintergrundgeräuschen ein weiterer Punkt, der berücksichtigt werden muß.
- Seit kurzem wird verstärkt eine Adaptierung von geübten Markov-Modellen für einen Sprecher oder eine Einsatzumgebung vorgeschlagen. Diese Vorschläge lassen sich den folgenden beiden Typen zuordnen:
- In Vorschlägen des ersten Typs werden Ereignishäufigkeiten, die zur Schätzung von Parametern von Markov-Modellen während der Anfangsübungen verwendet werden, reserviert, und weitere Ereignishäufigkeiten werden für Adaptierungsdaten ermittelt. Danach werden diese Ereignishäufigkeiten zwecks Schätzung von neuen Parametern interpoliert. Vorschläge dieses Typs werden beschrieben in:
- (4) "Speaker Adaptation for A Hidden Markov Model", Protokolle der ICASSP '86, April 1986, 49-11, S. 2667-2670, Kazuhide Sugawara, Masafumi Nishimura, Akihiro Kuroda.
- (5) Japanische Patentanmeldung Nr. 61-65030 [Europäische Patentanmeldung 87302603.3 (EP-A-243009)].
- Diese Vorschläge setzen jedoch ein Übungssprechen aller zu adaptierenden Wörter voraus, und stellen folglich eine Belastung für Benutzer dar, die in Spracherkennungssystemen auf ein umfassendes Vokabular angewiesen sind. Weiterhin ist der Rechenaufwand bei diesen Vorschlägen relativ hoch.
- In Vorschlägen des zweiten Typs werden die mittels der Anfangsübungen erzeugten Markov-Modelle abhängig von der Beziehung zwischen den verschiedenen Parametern modifiziert. Vorschläge dieses Typs sind niedergelegt in:
- (6) "Isolated Word Recognition Using Hidden Markov Models", Protokolle der ICASSP '85, März 1985, 1-1, S. 1-4, Kazuhide Sugawara, Masafumi Nishimura, Kouichi Toshioka, Masaaki Okochi, Toyohisa Kaneko.
- (7) "Rapid Speaker Adaptation Using A Probabilistic Spectral Mapping", Protokolle der TCASSP '87, März 1987, 15-3, S. 633- 638, Richard Schwartz, Yen-Lu Chow, Francis Kubala.
- In der in Artikel (6) beschriebenen Methode wird die DP-Zuordnung unter mit Marken versehenen Wörtern durchgeführt, und eine Mischmatrix von Marken wird entsprechend der Beziehung zwischen den Marken im Hinblick auf einen optimalen Pfad erzeugt. Anschließend werden die Parameter der Markov-Modelle unter Verwendung dieser Mischmatrix modifiziert. Bei diesem Ansatz ist neben der Verwendung von Markov-Modellen eine DP- Zuordnung erforderlich, und dieser Ansatz zeichnet sich daher nicht durch eine gute Speichereffizienz aus. Darüber hinaus sind große Mengen an Sprechdaten für die Erzeugung einer Mischmatrix mit einer ausreichenden Genauigkeit erforderlich. Mit der in dem Artikel (7) beschriebenen Methode werden Beziehungswahrscheinlichkeiten zwischen Marken direkt in Ausgabewahrscheinlichkeiten konventioneller Markov-Modelle umgewandelt. Dieser Ansatz erfordert eine vorwärts- und rückwärtsgerichtete Berechnung und führt somit aufgrund des äußerst hohen Rechenaufwands und des benötigten Speichers zu sehr hohen Kosten.
- Der folgende Artikel ist ein weiterer relevanter Beitrag zu diesem Themengebiet und behandelt die Adaptierung von Kennzeichen zur Vektorquantisierung.
- (8) "Speaker Adaptation by Vector Quantization", Berichte des japanischen Instituts für Elektronik- und Kommunikationsingenieure, Dezember 1986, SP86-65, S. 33-40, Kiyohiro Shikano.
- In der vorhandenen, nicht vorveröffentlichten Patentschrift EP-A-0303022 wird ein Spracherkennungssystem unter Verwendung von Markov-Modellen offenbart, das auf neue Sprecher abgestimmt werden kann. Sprecherabhängige Marken werden zur Markierung von Adaptierungssprechen verwendet, und eine Wahrscheinlichkeitsmischmatrix wird berechnet. Diese Matrix dient als Grundlage für die Berechnung neuer Markov-Modellparameter für den neuen Sprecher.
- Gegenstand der vorliegenden Erfindung ist es, ein verbessertes Spracherkennungssystem zu offenbaren, in dem ein geübtes System unterschiedlichen Einsatzbedingungen angepaßt und die Adaptierung auf einfachere Weise durchgeführt werden kann.
- Die vorliegende Erfindung betrifft ein Spracherkennungssystem unter Verwendung von Markov-Modellen, bei welchem Sprache mittels Marken aus einem Markensatz markiert ist, wobei die Markov-Modelle von einem Anfangsmarkensatz geübt werden, der aus Anfangsübungssprechen abgeleitet ist und unter Verwendung von Adaptierungssprechen adaptiert wird.
- Gemäß der Erfindung umfaßt das Erkennungssystem Mittel zum Adaptieren des Anfangsmarkensatzes zu einem Adapatierungsmarkensatz unter Verwendung von Adaptierungssprechen durch Ändern eines Prototyps jeder Marke in dem Anfangsmarkensatz, um einen Prototyp jeder Marke in dem Adaptierungsmarkensatz zu erzeugen, wobei die Änderung aus folgendem besteht: Klassifizieren von Kennzeichenvektoren, die aus dem Adaptierungssprechen extrahiert sind, in Klassen entsprechend Markenprototypen des Anfangsmarkensatzes und Verwenden eines Durchschnitts jeder der Klassen als einen entsprechenden Prototyp des Adaptierungsmarkensatzes, Mittel zum Markieren von Adaptierungssprechen zu einer Adaptierungsmarkenkette, Mittel zum Verbinden jeder Marke in jeder der Adaptierungsmarkenketten mit jedem Zustand oder jedem Zustandsübergang eines Markov- Modells, welches der betroffenen Adaptierungsmarkenkette entspricht, wobei die Verbindung durch einen Pfad festgelegt ist, entlang dessen jede der Adaptierungsmarkenketten entweder linear oder entsprechend dem Viterbi-Algorithmus mit dem Markov-Modell ausgerichtet ist, Mittel zum Bestimmen von Tabelleneintragungen, welche folgendes kennzeichnen: die Wahrscheinlichkeit einer von dem nachfolgenden Sprecher gesprochenen Marke, die einer Marke entspricht, die von dem Referenzsprecher gesprochen ist, auf der Grundlage der Verbindung zwischen jeder Marke in der Adapierungsmarkenkette und jedem der Zustände oder Zustandsübergänge und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen, und Mittel zum Bestimmen der Wahrscheinlichkeitswerte jedes der Markov-Modelle, welche der Adaptierungsmarkenkette entsprechen, auf der Grundlage der Tabelleneintragungen und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen.
- Gemäß einem Ausführungsbeispiel der Erfindung werden die Adaptierungssprechdaten zuerst markiert. Als nächstes wird jede Markenkette mit dem entsprechenden Markov-Modell hinsichtlich der Zeitabfolge verbunden. Für jedes der Markov-Modelle wurde im voraus ausgehend von einer großen Menge an Sprechdaten eine Schätzung vorgenommen. Ausgehend von den vorhandenen Verbindungen wird die Verbindungshäufigkeit zwischen jeder Marke und jedem Zustandsübergang gezählt, und aus den daraus resultierenden Zählungen werden bedingte Wahrscheinlichkeiten zwischen Marken und Zustandsübergängen veranschlagt. Unter Verwendung dieser bedingten Wahrscheinlichkeiten werden aus Parametern von Markov-Modellen, die vorher ermittelt wurden, neue Parameter gefolgert. Vor diesem Hintergrund können vor der Markierung der Adaptierungssprechdaten Markenprototypen unter Verwendung der Adaptierungssprechdaten zwecks Minimierung von Quantisierungsfehlern geändert werden.
- Um den Gegenstand der Erfindung besser verständlich zu machen, wird im folgenden ein Ausführungsbeispiel dieser Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, in denen:
- Fig. 1 ein Schaltbild darstellt, aus dem das Funktionsprinzip eines Spracherkennungssystems hervorgeht,
- Fig. 2 ein Blockschaltbild mit einem Ausführungsbeispiel der Erfindung darstellt,
- Fig. 3 ein Flußdiagramm darstellt, das die Funktionsweise des Blocks 8 (Markierung) des in Fig. 2 gezeigten Ausführungsbeispiels verdeutlicht,
- Fig. 4 ein Flußdiagramm darstellt, das die Markenprototypadaptierung aus Block 7 des in Fig. 2 gezeigten Ausführungsbeispiels verdeutlicht,
- Fig. 5 ein Flußdiagramm darstellt, in dem der Funktionsablauf der Anfangsübung für das Markov-Modell aus Block 11 des in Fig. 2 gezeigten Ausführungsbeispiels beschrieben wird,
- Fig. 6 und Fig. 7 Schaltbilder für den in Fig. 5 veranschaulichten Funktionsablauf zeigen,
- Fig. 8 ein Schaltbild zur Verdeutlichung des Funktionsablaufs der Markov-Modell-Adaptierung aus Block 12 des Ausführungsbeispiels in Fig. 2 darstellt,
- Fig. 9 ein Flußdiagramm darstellt, das den in Fig. 8 gezeigten Funktionsablauf verdeutlicht, und
- Fig. 10 ein Schaltbild mit den Ergebnissen des im Rahmen der vorliegenden Erfindung durchgeführten Experiments zeigt.
- Die Beziehung zwischen einem Markov-Modell und einer Markenkette des Adaptierungssprechens ist in Fig. 1 dargestellt. In Fig. 1 stellt die Abszisse (x-Achse) eine Markenkette dar, die der zur Adaptierung eines Spracherkennungssystems verwendeten Sprache entspricht, und auf der Ordinaten (y-Achse) sind die Zustände eines Markov-Modells dargestellt. Eine Eingabemarke ist durch L(t) gekennzeichnet. "t" (time) steht für Zeit. Wenn V die Beziehung zwischen der Markenkette und den Zuständen des Modells darstellt, ergibt sich der Zustand Sk des Markov-Modells aus der folgenden Gleichung (siehe Fig. 1) :
- Sk = V(L(t))
- Die Häufigkeit der Verbindung C jeder Marke L(t) ergibt sich durch Zählen der Ausgabewahrscheinlichkeiten dieser Marke in dem Zustand Sk,P(Li Sk). Hier ist Li eine Markenkennung für Anfangsübungen und Lj (siehe unten) eine für Adaptierungen verwendete Markenkennung.
- Die Wahrscheinlichkeit, mit der die Marke Lj mit der Marke Li verbunden wird, erhält man durch Standardisieren der Häufigkeit C für jede Marke Li, wie durch nachstehende Gleichung ausgedrückt wird:
- Die Ausgabewahrscheinlichkeit P (Li Sk) eines zuvor definierten Markov-Modells wird durch den folgenden Ausdruck mit der obigen Wahrscheinlichkeit P(Lj, Li) interpretiert, um Parameter zu erzeugen, in denen sich die Adaptierungsdaten genau widerspiegeln.
- Analog dazu werden zur Ermittlung der Übergangswahrscheinlichkeiten die Verbindungshäufigkeiten zwischen den Zustandsübergängen unter Verwendung der Übergangshäufigkeit in jedem Zustand P(Ti Sk) entlang des Zustandsübergangspfads gezählt, welcher durch die Beziehung zwischen der Markenkette des Adaptierungssprechens und den Zuständen des Markov-Modells definiert ist. Die Wahrscheinlichkeit P(Tj Ti) ergibt sich aus der Standardisierung der Häufigkeit. Die zuvor festgelegten Übergangswahrscheinlichkeiten werden durch den folgenden Ausdruck mit den obigen Wahrscheinlichkeiten P(Tj Ti) umgewandelt und anschließend für die Spracherkennung verwendet.
- In der obigen Diskussion wird eine Erklärung für den Fall gegeben, in dem ein Markov-Modell Markenausgabewahrscheinlichkeiten und Zustandsübergangswahrscheinlichkeiten als getrennte Wahrscheinlichkeitsparameter besitzt. Die vorliegende Erfindung kann auf den Fall angewandt werden, in dem jeder Zustand Markenausgabewahrscheinlichkeiten aufweist.
- Eine weitere Adaptierung nur im Hinblick auf Markenprototypen oder nur im Hinblick auf Parameter von Markov-Modellen ist möglich.
- Wie durch Fig. 1 belegt wird, sind in dem obigen Beispiel die Marken L(t) mit den Zuständen Sk unter Verwendung des Pfads verbunden, entlang dessen Verlauf die Markenkette am günstigsten auf das Markov-Modell ausgerichtet ist. Zu diesem Zweck kann ein Viterbi-Algorithmus für Spracherkennung ohne Änderungen verwendet werden. Die Verbindung ist jedoch nicht auf die obige Situation beschränkt und kann auch geändert werden. Beispielsweise kann eine Markenkette mit den einzelnen Zuständen linear verbunden werden.
- Im folgenden wird die vorliegende Erfindung unter Bezugnahme auf die beigefügten Zeichnungen anhand eines Ausführungsbeispiels beschrieben, das auf ein Worterkennungssystem angewandt wird.
- In Fig. 2, in dem das Ausführungsbeispiel insgesamt veranschaulicht wird, werden die Sprechdaten einem A/D-Wandler 3 über ein Mikrofon 1 und einen Verstärker 2 zur Umwandlung in Digitaldaten zugeführt; diese Digitaldaten werden wiederum in einen Block 4 zur Kennzeichenextraktion eingespeist. In dem Block 4 zur Kennzeichenextraktion werden die Sprechdaten zuerst nach dem Fourier-Verfahren umgewandelt und anschließend an jedem Kanal eines 20-kanaligen kritischen Bandpaßfilters ausgegeben, auf dem akustische Richtungskennzeichen reflektiert werden. Die Ausgabe wird alle 8 Millisekunden über ein Fenster von 25,6 Millisekunden in die nächste Stufe eingespeist, einem Schaltblock 5, und nachfolgend entweder an einen Markenprototyp-Anfangsübungsblock 6, an einen Markenprototyp-Adaptierungsblock 7 oder an einen Markierungsblock 8 weitergeleitet. Bei dem anfänglichen Training der Markenprototypen wird von Schaltblock 5 zum Markenprototyp- Übungsblock 6 umgeschaltet und die Ausgabe des kritischen Bandpaßfilters zu dem oben erwähnten Übungsblock 6 weitergeleitet. Der Übungsblock 6 erzeugt mittels Clustering ein Wörterbuch aus 128 Markenprototypen. Während des Adaptierens von Markenprototypen schaltet der Schaltblock 5 zum Adaptierungsblock 7 um, wodurch das durch die Anfangsübungsmarkenprototypen erzeugte Prototyp-Wörterbuch 9 adaptiert wird. Einzelheiten zu dem Adaptierungsblock werden an späterer Stelle unter Bezugnahme auf Fig. 3 beschrieben. Während der Spracherkennung, des anfänglichen Übens von Markov-Modellen oder deren Anpassung schaltet der Schaltblock 5 zum Markierungsblock 8 um, der anschließend Markierungen unter Bezugnahme auf das Markenprototypwörterbuch 9 durchführt. Die im Rahmen von Anfangsübungen erzeugten Markenprototypen werden ohne jede Änderung für Anfangsübungen für die Markov-Modelle verwendet.
- Die Markierung kann wie in Fig. 3 dargestellt durchgeführt werden, in der X das Eingabekennzeichen, Yi das Kennzeichen des i-ten Prototyps, N die Gesamtzahl der Prototypen (=128), dist (X, Yi) die euklidische Distanz zwischen X und Yi und m den Mindestwert unter den vorherigen Distanzen (X, Yi) darstellt. m wird mit einem sehr hohen Wert initialisiert. Wie aus der Abbildung hervorgeht, werden die X-Werte der Eingabekennzeichen ihrerseits mit jedem Kennzeichenprototyp verglichen, und für jedes Eingabekennzeichen wird der ähnlichste Prototyp (d.h. der Prototyp mit der kürzesten Distanz) als ermittelte Marke oder Markennummer L ausgewählt.
- Wie oben beschrieben, erzeugt der Markierungsblock 8 eine Ausgabemarkenkette in einem Zeitraum von acht Millisekunden zwischen aufeinanderfolgenden Marken.
- Wie aus Fig. 2 hervorgeht, werden Markenketten aus dem Markierungsblock 8 entweder in einen Anfangsübungsblock 11 eines Markov-Modells, einen Adaptierungsblock 12 eines Markov-Modells oder in einen Erkennungsblock 13 über einen Schaltblock 10 eingespeist. Eine ausführliche Beschreibung der Funktionsweise des Anfangsübungsblocks 11 und des Adaptierungsblocks 12 wird später unter Bezugnahme auf Fig. 5 und nachfolgende Abbildungen gegeben. Beim anfänglichen Üben des Markov-Modells schaltet der Schaltblock 10 auf den Übungsblock 11 zur Bereitstellung der entsprechenden Markenkette um. Der Übungsblock 11 legt Parameterwerte einer Parametertabelle 14 durch Üben von Markov-Modellen unter Verwendung der Markenketten fest. Beim Adaptieren schaltet der Schaltblock 10 zum Adaptierungsblock 12 um, wodurch die Parameterwerte der Parametertabelle 14 entsprechend der Beziehung zwischen den Eingabe-Markenketten und den Zuständen der Markov-Modelle adaptiert werden. Während der Erkennung schaltet der Umschaltblock 10 zum Erkennungsblock 13 um, wodurch Sprechdaten auf Basis der Markenketten und der Parametertabelle erkannt werden. Bei der Auslegung des Erkennungsblocks 13 kann zwischen der Methode der Vorwärtsberechnung oder den Vitervi-Algorithmen gewählt werden.
- Die Ausgabe des Erkennungsblocks 13 wird an einen Arbeitsplatzrechner 15 weitergeleitet und kann z.B. an dessen Bildschirm angezeigt werden.
- Im folgenden werden Einzelheiten zu dem Markenprototyp-Adaptierungsblock 7 beschrieben. Fig. 4 veranschaulicht den Funktionsablauf dieser Adaptierung, in der ein Markenprototyp- Wörterbuch, das während der Anfangsübungen erzeugt wurde, in Schritt 16 ausgelesen wird. In Schritt 17 werden die Sprechdaten für die Adaptierung eingespeist. Diese Sprechdaten stammen von einem Sprecher, der das Spracherkennungssystem nutzen will, und können beliebiger Art sein, z.B. Moren, Sätze, Wörter o.ä. Wenn ein Teil eines Erkennungszielvokabulars zu diesem Zweck gesprochen wird, können die Sprechdaten auch für den Adaptierungsblock 12 des Markov-Modells verwendet werden. Die Adaptierungssprechdaten werden unter Verwendung der Markenprototypen in Schritt 18 markiert. Nachdem alle Teile der Adaptierungssprechdaten markiert sind, wird für jede Markennummer der Durchschnitt von Kennzeichenvektoren der Adaptierungssprechdaten mit dieser Markennummer ermittelt, und der Markenprototyp dieser Nummer wird durch einen durchschnittlichen Kennzeichenvektor in Schritt 19 ersetzt. Die vorstehend genannten Prozeduren in den Schritten 17 bis 19 werden über eine vorbestimmte Anzahl von Durchläufen, z.B. zweimal, wiederholt, und dann ist die Adaptierung der Prototypen abgeschlossen.
- In Fig. 2 können die von der gestrichelten Linie umrahmten Blöcke in der Software auf einem Host-Rechner implementiert werden. Ein Prozessorsystem IBM 3083 kann als Host-Rechner eingesetzt und CMS bzw. PL/I als Betriebssystem bzw. als Programmiersprache verwendet werden. Als Alternative können die oben aufgeführten Blöcke hardwareseitig implementiert werden.
- Der Funktionsablauf für den Anfangsübungsblock 11 des Markov- Modells wird im folgenden unter Bezugnahme auf Fig. 5 und die nachfolgenden Abbildungen beschrieben. Bei den Verfahren der in Fig. 5 gezeigten Anfangsübungen wird jedes Markov-Wortmodell zuerst in Schritt 21 definiert. Fig. 6 zeigt ein Beispiel für ein Markov-Wortmodell, in dem Zustände durch kleine runde Kreise und Übergangszustände durch Pfeile gekennzeichnet sind. Die Anzahl von Zuständen einschließlich des Anfangszustands Si und des Endzustands SF beträgt 8. Es gibt drei Arten von Übergängen: Übergänge in andere Übergänge T1, Übergänge in die nächsten Zustände T2 und Null-Übergänge in die nächsten Zustände ohne Ausgabe irgendwelcher Marken T3.
- Die Definition der Markov-Modelle bedeutet, daß die Parametertabelle 11 in Fig. 2 vorläufig festgelegt wird. Insbesondere wird für jedes Wort ein Tabellenformat wie in Fig. 7 gezeigt zugeordnet, und die Parameter P(Li Sk) und P(Ti Sk) werden initialisiert. Der Parameter P(Li Sk) stellt die Wahrscheinlichkeit der Ausgabe einer Marke Li in einem Zustand Sk dar, und P(Ti Sk) stellt die Wahrscheinlichkeit für das Auftreten eines Übergangs in einem Zustand Sk dar. Darüber hinaus werden in dieser Initialisierung die Parameter so gesetzt, daß Übergänge T1, T2 und T3 mit Wahrscheinlichkeiten von 0.9, 0.05 und 0.05 auftreten, und daß bei jedem Übergang alle Marken mit gleicher Wahrscheinlichkeit erzeugt werden, d.h. 1/128. In Fig. 7 sind die geübten Wahrscheinlichkeiten dargestellt.
- Nach der Definition von Markov-Wortmodellen werden Anfangsübungsdaten in Schritt 22 eingespeist, die aus Markenketten bestehen, die durch Sprechen von Wörtern erhalten wurden und zehnmal erkannt werden müssen. Als Markenprototypen werden solche für Anfangsübungen verwendet. Nach Eingabe der Anfangsübungsdaten werden in Schritt 23 vorwärts- und rückwärtsgerichtete Berechnungen durchgeführt. Diese Berechnung wird für alle Anfangsübungsdaten für jedes Wort, das erkannt werden soll, durchgeführt, und die Parameter des Markov-Modells jedes Worts werden in Schritt 24 geschätzt. Die in den Schritten 22 bis 24 genannten Prozeduren werden über eine vorbestimmte Anzahl von Durchläufen, z.B. fünfmal mit neu festgelegten Parametern für jeden erneuten Durchlauf wiederholt, und nach dieser Phase ist die anfängliche Übung abgeschlossen.
- Als nächsten wird der Funktionsablauf im Adaptierungsblock 12 des Markov-Modells unter Bezugnahme auf Fig. 8 und Fig. 9 beschrieben. Ein Beispiel wird untersucht, in dem einige der Zielwörter für die Adaptierung der Ausgabewahrscheinlichkeiten von Markov-Modellen verwendet werden. In Fig. 8 werden die Parameter des Markov-Modells für eines der zur Adaptierung verwendeten Wörter in Schritt 26 gelesen. Dies sind die Parameter aus den oben beschriebenen Anfangsübungen. Als nächstes werden die Sprechdaten des Adaptierungsworts in Schritt 27 eingespeist. Diese für die Adaptierung bestimmten Sprechdaten werden von dem Sprecher gesprochen, der das System benutzen will, und werden unter Verwendung der vom Adaptierungsblock 7 adaptierten Markenprototypen markiert. Dann werden die Markenketten der Adaptierungssprechdaten und die Zustände des Markov-Wortmodells miteinander entlang des bevorzugten Pfades durch einen Vitervi-Algorithmus in Schritt 28 verbunden. Wenn V die Beziehung zwischen den Marken und den Zuständen des Markov-Modells entlang des mit dem Vitervi- Algorithmus ermittelten bevorzugten Pfades angibt, kann dies durch die folgende Gleichung ausgedrückt werden:
- Sk = V (L(w,t))
- wobei Sk eine Zustandsnummer
- L(w,t) eine Markennummer für eine Wortnummer w
- und t die Zeit angibt
- Entlang des Pfades werden die Wahrscheinlichkeiten, daß eine Marke Li mit Lj verbunden wird, gezählt und in Schritt 29 aufsummiert.
- In Fig. 9 ist der oben beschriebene Funktionsablauf veranschaulicht.
- Die obigen Prozeduren in den Schritten 26 bis 29 werden für jeden Teil der für den Adaptierungsprozeß verwendeten Sprache durchgeführt. C(Lj, Li) wird für jedes Li standardisiert, und anschließend wird P(Lj Li) in Schritt 31 bestimmt.
- Schließlich werden alle Ausgabewahrscheinlichkeiten der Markov-Modelle, die während der anfänglichen Übungen erhalten wurden, unter Verwendung von P (Lj Li) in Schritt 32 umgewandelt.
- Das Verfahren zur Bestimmung der Ausgabewahrscheinlichkeiten wird weiter oben erklärt. Die Übergangswahrscheinlichkeiten werden in ähnlicher Weise festgelegt.
- Nach Durchführung der o.g. Schritte ist die Adaptierung abgeschlossen. Danach kann die Sprache des Sprechers, für den die Adaptierung durchgeführt wurde, mit hoher Genauigkeit erkannt werden.
- Das beschriebene System kann schnell unterschiedlichen Einsatzbedingungen mit nur einer begrenzten Menge an Adaptierungsdaten angepaßt werden, z.B. mit einigen der Erkennungszielwörter. Im Vergleich mit früheren Systemen, bei denen der Sprecher jedes Sprachelement mehrmals in jeder der unterschiedlichen Einsatzbedingungen und für jedes Wort aussprechen mußte, was einen erheblichen Aufwand für den Sprecher darstellte und aufgrund des hohen Rechenaufwands beträchtliche Kosten verursachte, ermöglicht das beschriebene System beim Einsatz in Situationen, in denen die Eingabesprechdaten ein umfangsreiches Vokabular von mehr als 1000 Erkennungszielwörtern beinhalten, eine beträchtliche Reduzierung des Aufwands für den Sprecher und eine bedeutsame Erhöhung der Effizienz. Beim Einsatz des beschriebenen Systems können die für einen Sprecher zusammengetragenen anfänglichen Übungsdaten für andere Sprecher verwendet werden. Da nur P(Lj Li) und P(Tj Ti) als Tabellen für Adaptierungen für Sprecher oder Einsatzbedingungen erforderlich sind, ist nur eine geringe Speicherkapazität und Rechenleistung für das neue System erforderlich.
- Ein Experiment wurde zur Bewertung eines Ausführungsbeispiels durchgeführt, in dem einhundertfünfzig einander ähnliche Wörter wie z.B. "keiho" (japanisch für Alarm) und "heiho" (japanisch für rechteckig), tyokusen (gerade Linie) und tyokuzen (unmittelbar vor) als Erkennungszielwörter verwendet wurden. In diesem Experiment sollte ein männlicher Sprecher jedes der 150 Wörter zehnmal sprechen, die als anfängliche Übungsdaten für Markenprotoypen und Markov-Modellen vorgesehen waren, und die Adaptierung für sieben Sprecher (fünf männliche, zwei weibliche Sprecher) wurde anschließend ausgewertet. Die Adaptierung wurde unter Verwendung eines Teilvokabulars (10, 25, 50, 100 und 150 Wörter, jedes Wort wurde nur einmal gesprochen) durchgeführt, und jeder Sprecher sprach jedes der 150 Wörter dreimal zur Erkennung aus. Fig. 10 zeigt das Ergebnis dieses Experiments. In dieser Abbildung sind auf der Abszisse die Anzahl von Adaptierungswörtern und auf der Ordinate die mittlere Fehlerhäufigkeit aufgetragen. Die Kreise kennzeichnen Sprechdaten von männlichen Sprechern, und die Rechtecke Sprechdaten von weiblichen Sprechern. Die durchgehenden Linien geben eine Adaptierung nur von Prototypen und die gestrichelten Linien eine Adaptierung auch von Parametern der Markov-Modelle an. Im weiteren Verlauf der durchgehenden 4%-Linie ist das Experimentergebnis der Erkennung für den Sprecher erkennbar, der das System anfänglich trainiert hat. Aus diesem Ergebnis ist erkennbar, daß die Erkennungsquoten für männliche Sprecher äquivalent zu dem Sprecher, der das System zu Beginn trainiert hat, durch Adaptierung mit 25 Wörtern an Sprechdaten verbessert werden können. Darüber hinaus kann die Adaptierung für weibliche Sprecher, die in der Vergangenheit als schwierig erachtet wurde, zufriedenstellend verwirklicht werden.
- Der Geltungsbereich der vorliegenden Erfindung ist nicht auf das oben genannte Ausführungsbeispiel beschränkt, und verschiedene Änderungen können vorgenommen werden, ohne grundsätzlich vom Geltungsbereich der Erfindung abzuweichen. Beispielsweise kann diese Erfindung auf die Adaptierung von HMM- Spracherkennung des Typs Feneme angewandt werden, die in der japanischen Patentanmeldung Nr. 61-16993 (EP-A-238693) beschrieben wird. In dieser Adaptierung werden die Markenketten des Adaptierungssprechens und die Ketten von Feneme-Markov- Modellen (jede Kette, die ein Markov-Wortmodell bildet) so ausgerichtet, daß die Marken des Adaptierungssprechens den Zuständen der Markov-Wortmodelle zugeordnet werden.
Claims (1)
1. Spracherkennungssystem mit Markov-Modellen bei welchem
Sprache mittels Marken aus einem Markensatz markiert ist,
wobei die Markov-Modelle von einem Anfangsmarkensatz geübt
werden, der aus Anfangsübungssprechen abgeleitet ist und unter
Verwendung von Adaptierungssprechen adaptiert ist, dadurch
gekennzeichnet, daß das System folgendes aufweist:
Mittel (5, 7) zum Adaptieren des Anfangsmarkensatzes zu einem
Adaptierungsmarkensatz unter Verwendung von
Adaptierungssprechen durch Ändern eines Prototyps jeder Marke in dem
Anfangsmarkensatz, um einen Prototyp jeder Marke in dem
Adaptierungsmarkensatz zu erzeugen, wobei die Änderung aus
folgendem besteht: Klassifizieren von Kennzeichenvektoren, die
aus dem Adaptierungssprechen extrahiert sind, in Klassen
entsprechend Markenprototypen des Anfangsmarkensatzes und
Verwenden eines Durchschnitts jeder der Klassen wie einen
entsprechenden Prototyp des Adaptierungsmarkensatzes,
Mittel (5, 8) zum Markieren von Adaptierungssprechen zu einer
Adaptierungsmarkenkette,
Mittel zum Verbinden jeder Marke in jeder der
Adaptierungsmarkenketten mit jedem Zustand oder jedem Zustandsübergang
eines Markov-Modells, welches der betroffenen
Adaptierungsmarkenkette entspricht, wobei die Verbindung durch einen Pfad
festgelegt ist, entlang dessen jede der
Adpatierungsmarkenketten entweder linear oder entsprechend dem Viterbi-
Algorithmus mit dem Markov-Modell ausgerichtet ist,
Mittel zum Bestimmen von Tabelleneintragungen, welche
folgendes kennzeichnen: die Wahrscheinlichkeit einer von dem
nachfolgenden Sprecher gesprochenen Marke Lj, die einer Marke Li
entspricht, die von dem Referenzsprecher gesprochen ist, auf
der Grundlage der Verbindung zwischen jeder Marke in der
Adaptierungsmarkenkette und jedem der Zustände oder
Zustandsübergänge und der Wahrscheinlichkeitswerte der Markov-Modelle,
welche den Anfangsmarkensatz betreffen und
Mittel zum Bestimmen der Wahrscheinlichkeitswerte jedes der
Markov-Modelle, welche der Adaptierungsmarkenkette
entsprechen, auf der Grundlage der Tabelleneintragungen und der
Wahrscheinlichkeitswerte der Markov-Modelle, welche den
Anfangsmarkensatz betreffen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62254821A JPH01102599A (ja) | 1987-10-12 | 1987-10-12 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3876207D1 DE3876207D1 (de) | 1993-01-07 |
DE3876207T2 true DE3876207T2 (de) | 1993-06-03 |
Family
ID=17270338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8888308585T Expired - Fee Related DE3876207T2 (de) | 1987-10-12 | 1988-09-16 | Spracherkennungssystem unter verwendung von markov-modellen. |
Country Status (4)
Country | Link |
---|---|
US (1) | US5050215A (de) |
EP (1) | EP0312209B1 (de) |
JP (1) | JPH01102599A (de) |
DE (1) | DE3876207T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832190B1 (en) | 1998-05-11 | 2004-12-14 | Siemens Aktiengesellschaft | Method and array for introducing temporal correlation in hidden markov models for speech recognition |
Families Citing this family (174)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2870224B2 (ja) * | 1991-06-19 | 1999-03-17 | 松下電器産業株式会社 | 音声認識方法 |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
DE69232463T2 (de) * | 1991-12-31 | 2002-11-28 | Unisys Pulsepoint Communications, Carpinteria | Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
US5483579A (en) * | 1993-02-25 | 1996-01-09 | Digital Acoustics, Inc. | Voice recognition dialing system |
NL9301119A (nl) * | 1993-06-25 | 1995-01-16 | Nederland Ptt | Methode voor de detectie van het beste pad door een stochastisch netwerk, in het bijzonder voor spraak- of beeldherkenning. |
WO1995009416A1 (en) * | 1993-09-30 | 1995-04-06 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
WO1995034884A1 (fr) * | 1994-06-13 | 1995-12-21 | Matsushita Electric Industrial Co., Ltd. | Analyseur de signaux |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US5835894A (en) * | 1995-01-19 | 1998-11-10 | Ann Adcock Corporation | Speaker and command verification method |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3008799B2 (ja) * | 1995-01-26 | 2000-02-14 | 日本電気株式会社 | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
US5615286A (en) * | 1995-05-05 | 1997-03-25 | Bell Communications Research, Inc. | Method for determining a most likely sequence of states |
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US5987414A (en) * | 1996-10-31 | 1999-11-16 | Nortel Networks Corporation | Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance |
US5839107A (en) * | 1996-11-29 | 1998-11-17 | Northern Telecom Limited | Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
US5987408A (en) * | 1996-12-16 | 1999-11-16 | Nortel Networks Corporation | Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6018708A (en) * | 1997-08-26 | 2000-01-25 | Nortel Networks Corporation | Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies |
US5995929A (en) * | 1997-09-12 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for generating an a priori advisor for a speech recognition dictionary |
US6122361A (en) * | 1997-09-12 | 2000-09-19 | Nortel Networks Corporation | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6253173B1 (en) | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
US6208965B1 (en) | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6205428B1 (en) * | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US6223158B1 (en) | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US7937260B1 (en) * | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
US7031925B1 (en) | 1998-06-15 | 2006-04-18 | At&T Corp. | Method and apparatus for creating customer specific dynamic grammars |
US6243680B1 (en) | 1998-06-15 | 2001-06-05 | Nortel Networks Limited | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances |
US6377921B1 (en) * | 1998-06-26 | 2002-04-23 | International Business Machines Corporation | Identifying mismatches between assumed and actual pronunciations of words |
US6208964B1 (en) | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
CA2376277C (en) | 1999-06-11 | 2011-03-15 | Telstra New Wave Pty Ltd | A method of developing an interactive system |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
AU2002950336A0 (en) | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
AU2002951244A0 (en) | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
AU2003900584A0 (en) | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
AU2003902020A0 (en) | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
WO2006119122A2 (en) * | 2005-05-02 | 2006-11-09 | Graham Shapiro | Statistical machine learning system and methods |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102063900A (zh) * | 2010-11-26 | 2011-05-18 | 北京交通大学 | 克服混淆发音的语音识别方法及系统 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6116993A (ja) * | 1984-07-02 | 1986-01-24 | Hitachi Zosen Corp | 石炭の化学的脱灰方法 |
JPS6165030A (ja) * | 1984-09-07 | 1986-04-03 | Toyota Motor Corp | デイ−ゼルエンジンの加速装置 |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
JPS62220998A (ja) * | 1986-03-22 | 1987-09-29 | 工業技術院長 | 音声認識装置 |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
-
1987
- 1987-10-12 JP JP62254821A patent/JPH01102599A/ja active Granted
-
1988
- 1988-09-16 DE DE8888308585T patent/DE3876207T2/de not_active Expired - Fee Related
- 1988-09-16 EP EP88308585A patent/EP0312209B1/de not_active Expired - Lifetime
-
1990
- 1990-05-10 US US07/524,689 patent/US5050215A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6832190B1 (en) | 1998-05-11 | 2004-12-14 | Siemens Aktiengesellschaft | Method and array for introducing temporal correlation in hidden markov models for speech recognition |
Also Published As
Publication number | Publication date |
---|---|
DE3876207D1 (de) | 1993-01-07 |
US5050215A (en) | 1991-09-17 |
EP0312209A3 (en) | 1989-08-30 |
JPH01102599A (ja) | 1989-04-20 |
EP0312209B1 (de) | 1992-11-25 |
EP0312209A2 (de) | 1989-04-19 |
JPH0355838B2 (de) | 1991-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE69425776T2 (de) | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind | |
DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE3874049T2 (de) | Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers. | |
DE69032777T2 (de) | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69129015T2 (de) | Sprecherunabhängiges Gerät zur Markierungskodierung | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69229816T2 (de) | Einrichtung und Verfahren für Sprachmusteridentifizierung | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
DE69416670T2 (de) | Sprachverarbeitung | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE69623364T2 (de) | Einrichtung zur Erkennung kontinuierlich gesprochener Sprache | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE69614233T2 (de) | Sprachadaptionssystem und Spracherkenner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |