DE3876207T2 - Spracherkennungssystem unter verwendung von markov-modellen. - Google Patents

Spracherkennungssystem unter verwendung von markov-modellen.

Info

Publication number
DE3876207T2
DE3876207T2 DE8888308585T DE3876207T DE3876207T2 DE 3876207 T2 DE3876207 T2 DE 3876207T2 DE 8888308585 T DE8888308585 T DE 8888308585T DE 3876207 T DE3876207 T DE 3876207T DE 3876207 T2 DE3876207 T2 DE 3876207T2
Authority
DE
Germany
Prior art keywords
adaptation
speech
mark
token
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8888308585T
Other languages
English (en)
Other versions
DE3876207D1 (de
Inventor
Masafumi Denendomiir Nishimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE3876207D1 publication Critical patent/DE3876207D1/de
Application granted granted Critical
Publication of DE3876207T2 publication Critical patent/DE3876207T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Spracherkennungssystem unter Verwendung von Markov-Modellen und insbesondere ein Spracherkennungsverfahren, bei dem eine Sprecheradaptierung und Hintergrundgeräuschadaptierung auf einfache Weise erfolgen kann.
  • In Spracherkennungssystemen, in denen Markov-Modelle zum Einsatz kommen, wird Sprache nach Wahrscheinlichkeitsgesichtspunkten erkannt. In einem System wird beispielsweise ein Markov-Modell für jedes Wort festgelegt. Gewöhnlich werden eine Reihe von Zuständen und Übergängen zwischen den Zuständen für jedes Markov-Modell definiert, und für jeden Zustandsübergang werden Vorkommenswahrscheinlichkeiten festgelegt. Weitere Ausgabewahrscheinlichkeiten von Marken oder Symbolen werden für jeden Zustand oder Zustandsübergang festgelegt. Dem System unbekannte Sprache wird in eine Markenkette konvertiert, und danach wird die Wahrscheinlichkeit jedes Markov-Wortmodells, das die Markenkette ausgibt, auf der Basis der Übergangsvorkommenswahrscheinlichkeiten und der Markenausgabewahrscheinlichkeiten, die nachstehend als Parameter bezeichnet werden, ermittelt. Dann wird das Markov-Wortmodell, bei dem die Erzeugung der Markenkette am wahrscheinlichsten ist, ermittelt. Die Erkennung wird entsprechend diesem Ergebnis durchgeführt. In Spracherkennungssystemen, in denen Markov-Modelle zum Einsatz kommen, können die Parameter statistisch geschätzt werden, wodurch die Erkennungsquote verbessert wird.
  • Die Einzelheiten der oben genannten Erkennungsmethode werden in den folgenden Artikeln beschrieben:
  • (1): "A Maximum Likelihood Approach to Continuous Speech Recognition" (IEEE-Abhandlung zum Thema Musteranalyse und Künstliche Intelligenz , PAMI-Vol. 5, Nr. 2, S. 179-190, 1983, Lalit R. Bahl, Frederick Jelinek und Robert L. Mercer).
  • (2) "Continuous Speech Recognition by Statistical Methods" (IEEE-Protokolle, Vol. 64, 1976, S. 532-556, Frederick Jelinek).
  • (3) "An Introduction to the Application of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recognition" (The Bell System Technical Journal Vol. 64, Nr. 4, April 1983, S.E. Levinson, L.R. Rabiner und M.M. Sondhi).
  • Für ein Spracherkennungssystem mit Markov-Modellen sind jedoch beträchtliche Mengen an Sprechdaten erforderlich, und das Übungssprechen ist sehr zeitaufwendig. Außerdem ist bei einem System, das von einem bestimmten Sprecher trainiert wurde, die Erkennungsquote bei anderen Sprechern häufig nicht ausreichend. Wenn der zeitliche Abstand zwischen der Übung und der Erkennung beträchtlich ist (d.h. wenn ein Unterschied zwischen den beiden Stadien entsteht) ist selbst bei ein und demselben Sprecher nur eine mangelhafte Spracherkennung zu erzielen. Darüber hinaus ist eine Minderung der Erkennungsgenauigkeit aufgrund von Hintergrundgeräuschen ein weiterer Punkt, der berücksichtigt werden muß.
  • Seit kurzem wird verstärkt eine Adaptierung von geübten Markov-Modellen für einen Sprecher oder eine Einsatzumgebung vorgeschlagen. Diese Vorschläge lassen sich den folgenden beiden Typen zuordnen:
  • In Vorschlägen des ersten Typs werden Ereignishäufigkeiten, die zur Schätzung von Parametern von Markov-Modellen während der Anfangsübungen verwendet werden, reserviert, und weitere Ereignishäufigkeiten werden für Adaptierungsdaten ermittelt. Danach werden diese Ereignishäufigkeiten zwecks Schätzung von neuen Parametern interpoliert. Vorschläge dieses Typs werden beschrieben in:
  • (4) "Speaker Adaptation for A Hidden Markov Model", Protokolle der ICASSP '86, April 1986, 49-11, S. 2667-2670, Kazuhide Sugawara, Masafumi Nishimura, Akihiro Kuroda.
  • (5) Japanische Patentanmeldung Nr. 61-65030 [Europäische Patentanmeldung 87302603.3 (EP-A-243009)].
  • Diese Vorschläge setzen jedoch ein Übungssprechen aller zu adaptierenden Wörter voraus, und stellen folglich eine Belastung für Benutzer dar, die in Spracherkennungssystemen auf ein umfassendes Vokabular angewiesen sind. Weiterhin ist der Rechenaufwand bei diesen Vorschlägen relativ hoch.
  • In Vorschlägen des zweiten Typs werden die mittels der Anfangsübungen erzeugten Markov-Modelle abhängig von der Beziehung zwischen den verschiedenen Parametern modifiziert. Vorschläge dieses Typs sind niedergelegt in:
  • (6) "Isolated Word Recognition Using Hidden Markov Models", Protokolle der ICASSP '85, März 1985, 1-1, S. 1-4, Kazuhide Sugawara, Masafumi Nishimura, Kouichi Toshioka, Masaaki Okochi, Toyohisa Kaneko.
  • (7) "Rapid Speaker Adaptation Using A Probabilistic Spectral Mapping", Protokolle der TCASSP '87, März 1987, 15-3, S. 633- 638, Richard Schwartz, Yen-Lu Chow, Francis Kubala.
  • In der in Artikel (6) beschriebenen Methode wird die DP-Zuordnung unter mit Marken versehenen Wörtern durchgeführt, und eine Mischmatrix von Marken wird entsprechend der Beziehung zwischen den Marken im Hinblick auf einen optimalen Pfad erzeugt. Anschließend werden die Parameter der Markov-Modelle unter Verwendung dieser Mischmatrix modifiziert. Bei diesem Ansatz ist neben der Verwendung von Markov-Modellen eine DP- Zuordnung erforderlich, und dieser Ansatz zeichnet sich daher nicht durch eine gute Speichereffizienz aus. Darüber hinaus sind große Mengen an Sprechdaten für die Erzeugung einer Mischmatrix mit einer ausreichenden Genauigkeit erforderlich. Mit der in dem Artikel (7) beschriebenen Methode werden Beziehungswahrscheinlichkeiten zwischen Marken direkt in Ausgabewahrscheinlichkeiten konventioneller Markov-Modelle umgewandelt. Dieser Ansatz erfordert eine vorwärts- und rückwärtsgerichtete Berechnung und führt somit aufgrund des äußerst hohen Rechenaufwands und des benötigten Speichers zu sehr hohen Kosten.
  • Der folgende Artikel ist ein weiterer relevanter Beitrag zu diesem Themengebiet und behandelt die Adaptierung von Kennzeichen zur Vektorquantisierung.
  • (8) "Speaker Adaptation by Vector Quantization", Berichte des japanischen Instituts für Elektronik- und Kommunikationsingenieure, Dezember 1986, SP86-65, S. 33-40, Kiyohiro Shikano.
  • In der vorhandenen, nicht vorveröffentlichten Patentschrift EP-A-0303022 wird ein Spracherkennungssystem unter Verwendung von Markov-Modellen offenbart, das auf neue Sprecher abgestimmt werden kann. Sprecherabhängige Marken werden zur Markierung von Adaptierungssprechen verwendet, und eine Wahrscheinlichkeitsmischmatrix wird berechnet. Diese Matrix dient als Grundlage für die Berechnung neuer Markov-Modellparameter für den neuen Sprecher.
  • Gegenstand der vorliegenden Erfindung ist es, ein verbessertes Spracherkennungssystem zu offenbaren, in dem ein geübtes System unterschiedlichen Einsatzbedingungen angepaßt und die Adaptierung auf einfachere Weise durchgeführt werden kann.
  • Die vorliegende Erfindung betrifft ein Spracherkennungssystem unter Verwendung von Markov-Modellen, bei welchem Sprache mittels Marken aus einem Markensatz markiert ist, wobei die Markov-Modelle von einem Anfangsmarkensatz geübt werden, der aus Anfangsübungssprechen abgeleitet ist und unter Verwendung von Adaptierungssprechen adaptiert wird.
  • Gemäß der Erfindung umfaßt das Erkennungssystem Mittel zum Adaptieren des Anfangsmarkensatzes zu einem Adapatierungsmarkensatz unter Verwendung von Adaptierungssprechen durch Ändern eines Prototyps jeder Marke in dem Anfangsmarkensatz, um einen Prototyp jeder Marke in dem Adaptierungsmarkensatz zu erzeugen, wobei die Änderung aus folgendem besteht: Klassifizieren von Kennzeichenvektoren, die aus dem Adaptierungssprechen extrahiert sind, in Klassen entsprechend Markenprototypen des Anfangsmarkensatzes und Verwenden eines Durchschnitts jeder der Klassen als einen entsprechenden Prototyp des Adaptierungsmarkensatzes, Mittel zum Markieren von Adaptierungssprechen zu einer Adaptierungsmarkenkette, Mittel zum Verbinden jeder Marke in jeder der Adaptierungsmarkenketten mit jedem Zustand oder jedem Zustandsübergang eines Markov- Modells, welches der betroffenen Adaptierungsmarkenkette entspricht, wobei die Verbindung durch einen Pfad festgelegt ist, entlang dessen jede der Adaptierungsmarkenketten entweder linear oder entsprechend dem Viterbi-Algorithmus mit dem Markov-Modell ausgerichtet ist, Mittel zum Bestimmen von Tabelleneintragungen, welche folgendes kennzeichnen: die Wahrscheinlichkeit einer von dem nachfolgenden Sprecher gesprochenen Marke, die einer Marke entspricht, die von dem Referenzsprecher gesprochen ist, auf der Grundlage der Verbindung zwischen jeder Marke in der Adapierungsmarkenkette und jedem der Zustände oder Zustandsübergänge und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen, und Mittel zum Bestimmen der Wahrscheinlichkeitswerte jedes der Markov-Modelle, welche der Adaptierungsmarkenkette entsprechen, auf der Grundlage der Tabelleneintragungen und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen.
  • Gemäß einem Ausführungsbeispiel der Erfindung werden die Adaptierungssprechdaten zuerst markiert. Als nächstes wird jede Markenkette mit dem entsprechenden Markov-Modell hinsichtlich der Zeitabfolge verbunden. Für jedes der Markov-Modelle wurde im voraus ausgehend von einer großen Menge an Sprechdaten eine Schätzung vorgenommen. Ausgehend von den vorhandenen Verbindungen wird die Verbindungshäufigkeit zwischen jeder Marke und jedem Zustandsübergang gezählt, und aus den daraus resultierenden Zählungen werden bedingte Wahrscheinlichkeiten zwischen Marken und Zustandsübergängen veranschlagt. Unter Verwendung dieser bedingten Wahrscheinlichkeiten werden aus Parametern von Markov-Modellen, die vorher ermittelt wurden, neue Parameter gefolgert. Vor diesem Hintergrund können vor der Markierung der Adaptierungssprechdaten Markenprototypen unter Verwendung der Adaptierungssprechdaten zwecks Minimierung von Quantisierungsfehlern geändert werden.
  • Um den Gegenstand der Erfindung besser verständlich zu machen, wird im folgenden ein Ausführungsbeispiel dieser Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, in denen:
  • Fig. 1 ein Schaltbild darstellt, aus dem das Funktionsprinzip eines Spracherkennungssystems hervorgeht,
  • Fig. 2 ein Blockschaltbild mit einem Ausführungsbeispiel der Erfindung darstellt,
  • Fig. 3 ein Flußdiagramm darstellt, das die Funktionsweise des Blocks 8 (Markierung) des in Fig. 2 gezeigten Ausführungsbeispiels verdeutlicht,
  • Fig. 4 ein Flußdiagramm darstellt, das die Markenprototypadaptierung aus Block 7 des in Fig. 2 gezeigten Ausführungsbeispiels verdeutlicht,
  • Fig. 5 ein Flußdiagramm darstellt, in dem der Funktionsablauf der Anfangsübung für das Markov-Modell aus Block 11 des in Fig. 2 gezeigten Ausführungsbeispiels beschrieben wird,
  • Fig. 6 und Fig. 7 Schaltbilder für den in Fig. 5 veranschaulichten Funktionsablauf zeigen,
  • Fig. 8 ein Schaltbild zur Verdeutlichung des Funktionsablaufs der Markov-Modell-Adaptierung aus Block 12 des Ausführungsbeispiels in Fig. 2 darstellt,
  • Fig. 9 ein Flußdiagramm darstellt, das den in Fig. 8 gezeigten Funktionsablauf verdeutlicht, und
  • Fig. 10 ein Schaltbild mit den Ergebnissen des im Rahmen der vorliegenden Erfindung durchgeführten Experiments zeigt.
  • Die Beziehung zwischen einem Markov-Modell und einer Markenkette des Adaptierungssprechens ist in Fig. 1 dargestellt. In Fig. 1 stellt die Abszisse (x-Achse) eine Markenkette dar, die der zur Adaptierung eines Spracherkennungssystems verwendeten Sprache entspricht, und auf der Ordinaten (y-Achse) sind die Zustände eines Markov-Modells dargestellt. Eine Eingabemarke ist durch L(t) gekennzeichnet. "t" (time) steht für Zeit. Wenn V die Beziehung zwischen der Markenkette und den Zuständen des Modells darstellt, ergibt sich der Zustand Sk des Markov-Modells aus der folgenden Gleichung (siehe Fig. 1) :
  • Sk = V(L(t))
  • Die Häufigkeit der Verbindung C jeder Marke L(t) ergibt sich durch Zählen der Ausgabewahrscheinlichkeiten dieser Marke in dem Zustand Sk,P(Li Sk). Hier ist Li eine Markenkennung für Anfangsübungen und Lj (siehe unten) eine für Adaptierungen verwendete Markenkennung.
  • Die Wahrscheinlichkeit, mit der die Marke Lj mit der Marke Li verbunden wird, erhält man durch Standardisieren der Häufigkeit C für jede Marke Li, wie durch nachstehende Gleichung ausgedrückt wird:
  • Die Ausgabewahrscheinlichkeit P (Li Sk) eines zuvor definierten Markov-Modells wird durch den folgenden Ausdruck mit der obigen Wahrscheinlichkeit P(Lj, Li) interpretiert, um Parameter zu erzeugen, in denen sich die Adaptierungsdaten genau widerspiegeln.
  • Analog dazu werden zur Ermittlung der Übergangswahrscheinlichkeiten die Verbindungshäufigkeiten zwischen den Zustandsübergängen unter Verwendung der Übergangshäufigkeit in jedem Zustand P(Ti Sk) entlang des Zustandsübergangspfads gezählt, welcher durch die Beziehung zwischen der Markenkette des Adaptierungssprechens und den Zuständen des Markov-Modells definiert ist. Die Wahrscheinlichkeit P(Tj Ti) ergibt sich aus der Standardisierung der Häufigkeit. Die zuvor festgelegten Übergangswahrscheinlichkeiten werden durch den folgenden Ausdruck mit den obigen Wahrscheinlichkeiten P(Tj Ti) umgewandelt und anschließend für die Spracherkennung verwendet.
  • In der obigen Diskussion wird eine Erklärung für den Fall gegeben, in dem ein Markov-Modell Markenausgabewahrscheinlichkeiten und Zustandsübergangswahrscheinlichkeiten als getrennte Wahrscheinlichkeitsparameter besitzt. Die vorliegende Erfindung kann auf den Fall angewandt werden, in dem jeder Zustand Markenausgabewahrscheinlichkeiten aufweist.
  • Eine weitere Adaptierung nur im Hinblick auf Markenprototypen oder nur im Hinblick auf Parameter von Markov-Modellen ist möglich.
  • Wie durch Fig. 1 belegt wird, sind in dem obigen Beispiel die Marken L(t) mit den Zuständen Sk unter Verwendung des Pfads verbunden, entlang dessen Verlauf die Markenkette am günstigsten auf das Markov-Modell ausgerichtet ist. Zu diesem Zweck kann ein Viterbi-Algorithmus für Spracherkennung ohne Änderungen verwendet werden. Die Verbindung ist jedoch nicht auf die obige Situation beschränkt und kann auch geändert werden. Beispielsweise kann eine Markenkette mit den einzelnen Zuständen linear verbunden werden.
  • Im folgenden wird die vorliegende Erfindung unter Bezugnahme auf die beigefügten Zeichnungen anhand eines Ausführungsbeispiels beschrieben, das auf ein Worterkennungssystem angewandt wird.
  • In Fig. 2, in dem das Ausführungsbeispiel insgesamt veranschaulicht wird, werden die Sprechdaten einem A/D-Wandler 3 über ein Mikrofon 1 und einen Verstärker 2 zur Umwandlung in Digitaldaten zugeführt; diese Digitaldaten werden wiederum in einen Block 4 zur Kennzeichenextraktion eingespeist. In dem Block 4 zur Kennzeichenextraktion werden die Sprechdaten zuerst nach dem Fourier-Verfahren umgewandelt und anschließend an jedem Kanal eines 20-kanaligen kritischen Bandpaßfilters ausgegeben, auf dem akustische Richtungskennzeichen reflektiert werden. Die Ausgabe wird alle 8 Millisekunden über ein Fenster von 25,6 Millisekunden in die nächste Stufe eingespeist, einem Schaltblock 5, und nachfolgend entweder an einen Markenprototyp-Anfangsübungsblock 6, an einen Markenprototyp-Adaptierungsblock 7 oder an einen Markierungsblock 8 weitergeleitet. Bei dem anfänglichen Training der Markenprototypen wird von Schaltblock 5 zum Markenprototyp- Übungsblock 6 umgeschaltet und die Ausgabe des kritischen Bandpaßfilters zu dem oben erwähnten Übungsblock 6 weitergeleitet. Der Übungsblock 6 erzeugt mittels Clustering ein Wörterbuch aus 128 Markenprototypen. Während des Adaptierens von Markenprototypen schaltet der Schaltblock 5 zum Adaptierungsblock 7 um, wodurch das durch die Anfangsübungsmarkenprototypen erzeugte Prototyp-Wörterbuch 9 adaptiert wird. Einzelheiten zu dem Adaptierungsblock werden an späterer Stelle unter Bezugnahme auf Fig. 3 beschrieben. Während der Spracherkennung, des anfänglichen Übens von Markov-Modellen oder deren Anpassung schaltet der Schaltblock 5 zum Markierungsblock 8 um, der anschließend Markierungen unter Bezugnahme auf das Markenprototypwörterbuch 9 durchführt. Die im Rahmen von Anfangsübungen erzeugten Markenprototypen werden ohne jede Änderung für Anfangsübungen für die Markov-Modelle verwendet.
  • Die Markierung kann wie in Fig. 3 dargestellt durchgeführt werden, in der X das Eingabekennzeichen, Yi das Kennzeichen des i-ten Prototyps, N die Gesamtzahl der Prototypen (=128), dist (X, Yi) die euklidische Distanz zwischen X und Yi und m den Mindestwert unter den vorherigen Distanzen (X, Yi) darstellt. m wird mit einem sehr hohen Wert initialisiert. Wie aus der Abbildung hervorgeht, werden die X-Werte der Eingabekennzeichen ihrerseits mit jedem Kennzeichenprototyp verglichen, und für jedes Eingabekennzeichen wird der ähnlichste Prototyp (d.h. der Prototyp mit der kürzesten Distanz) als ermittelte Marke oder Markennummer L ausgewählt.
  • Wie oben beschrieben, erzeugt der Markierungsblock 8 eine Ausgabemarkenkette in einem Zeitraum von acht Millisekunden zwischen aufeinanderfolgenden Marken.
  • Wie aus Fig. 2 hervorgeht, werden Markenketten aus dem Markierungsblock 8 entweder in einen Anfangsübungsblock 11 eines Markov-Modells, einen Adaptierungsblock 12 eines Markov-Modells oder in einen Erkennungsblock 13 über einen Schaltblock 10 eingespeist. Eine ausführliche Beschreibung der Funktionsweise des Anfangsübungsblocks 11 und des Adaptierungsblocks 12 wird später unter Bezugnahme auf Fig. 5 und nachfolgende Abbildungen gegeben. Beim anfänglichen Üben des Markov-Modells schaltet der Schaltblock 10 auf den Übungsblock 11 zur Bereitstellung der entsprechenden Markenkette um. Der Übungsblock 11 legt Parameterwerte einer Parametertabelle 14 durch Üben von Markov-Modellen unter Verwendung der Markenketten fest. Beim Adaptieren schaltet der Schaltblock 10 zum Adaptierungsblock 12 um, wodurch die Parameterwerte der Parametertabelle 14 entsprechend der Beziehung zwischen den Eingabe-Markenketten und den Zuständen der Markov-Modelle adaptiert werden. Während der Erkennung schaltet der Umschaltblock 10 zum Erkennungsblock 13 um, wodurch Sprechdaten auf Basis der Markenketten und der Parametertabelle erkannt werden. Bei der Auslegung des Erkennungsblocks 13 kann zwischen der Methode der Vorwärtsberechnung oder den Vitervi-Algorithmen gewählt werden.
  • Die Ausgabe des Erkennungsblocks 13 wird an einen Arbeitsplatzrechner 15 weitergeleitet und kann z.B. an dessen Bildschirm angezeigt werden.
  • Im folgenden werden Einzelheiten zu dem Markenprototyp-Adaptierungsblock 7 beschrieben. Fig. 4 veranschaulicht den Funktionsablauf dieser Adaptierung, in der ein Markenprototyp- Wörterbuch, das während der Anfangsübungen erzeugt wurde, in Schritt 16 ausgelesen wird. In Schritt 17 werden die Sprechdaten für die Adaptierung eingespeist. Diese Sprechdaten stammen von einem Sprecher, der das Spracherkennungssystem nutzen will, und können beliebiger Art sein, z.B. Moren, Sätze, Wörter o.ä. Wenn ein Teil eines Erkennungszielvokabulars zu diesem Zweck gesprochen wird, können die Sprechdaten auch für den Adaptierungsblock 12 des Markov-Modells verwendet werden. Die Adaptierungssprechdaten werden unter Verwendung der Markenprototypen in Schritt 18 markiert. Nachdem alle Teile der Adaptierungssprechdaten markiert sind, wird für jede Markennummer der Durchschnitt von Kennzeichenvektoren der Adaptierungssprechdaten mit dieser Markennummer ermittelt, und der Markenprototyp dieser Nummer wird durch einen durchschnittlichen Kennzeichenvektor in Schritt 19 ersetzt. Die vorstehend genannten Prozeduren in den Schritten 17 bis 19 werden über eine vorbestimmte Anzahl von Durchläufen, z.B. zweimal, wiederholt, und dann ist die Adaptierung der Prototypen abgeschlossen.
  • In Fig. 2 können die von der gestrichelten Linie umrahmten Blöcke in der Software auf einem Host-Rechner implementiert werden. Ein Prozessorsystem IBM 3083 kann als Host-Rechner eingesetzt und CMS bzw. PL/I als Betriebssystem bzw. als Programmiersprache verwendet werden. Als Alternative können die oben aufgeführten Blöcke hardwareseitig implementiert werden.
  • Der Funktionsablauf für den Anfangsübungsblock 11 des Markov- Modells wird im folgenden unter Bezugnahme auf Fig. 5 und die nachfolgenden Abbildungen beschrieben. Bei den Verfahren der in Fig. 5 gezeigten Anfangsübungen wird jedes Markov-Wortmodell zuerst in Schritt 21 definiert. Fig. 6 zeigt ein Beispiel für ein Markov-Wortmodell, in dem Zustände durch kleine runde Kreise und Übergangszustände durch Pfeile gekennzeichnet sind. Die Anzahl von Zuständen einschließlich des Anfangszustands Si und des Endzustands SF beträgt 8. Es gibt drei Arten von Übergängen: Übergänge in andere Übergänge T1, Übergänge in die nächsten Zustände T2 und Null-Übergänge in die nächsten Zustände ohne Ausgabe irgendwelcher Marken T3.
  • Die Definition der Markov-Modelle bedeutet, daß die Parametertabelle 11 in Fig. 2 vorläufig festgelegt wird. Insbesondere wird für jedes Wort ein Tabellenformat wie in Fig. 7 gezeigt zugeordnet, und die Parameter P(Li Sk) und P(Ti Sk) werden initialisiert. Der Parameter P(Li Sk) stellt die Wahrscheinlichkeit der Ausgabe einer Marke Li in einem Zustand Sk dar, und P(Ti Sk) stellt die Wahrscheinlichkeit für das Auftreten eines Übergangs in einem Zustand Sk dar. Darüber hinaus werden in dieser Initialisierung die Parameter so gesetzt, daß Übergänge T1, T2 und T3 mit Wahrscheinlichkeiten von 0.9, 0.05 und 0.05 auftreten, und daß bei jedem Übergang alle Marken mit gleicher Wahrscheinlichkeit erzeugt werden, d.h. 1/128. In Fig. 7 sind die geübten Wahrscheinlichkeiten dargestellt.
  • Nach der Definition von Markov-Wortmodellen werden Anfangsübungsdaten in Schritt 22 eingespeist, die aus Markenketten bestehen, die durch Sprechen von Wörtern erhalten wurden und zehnmal erkannt werden müssen. Als Markenprototypen werden solche für Anfangsübungen verwendet. Nach Eingabe der Anfangsübungsdaten werden in Schritt 23 vorwärts- und rückwärtsgerichtete Berechnungen durchgeführt. Diese Berechnung wird für alle Anfangsübungsdaten für jedes Wort, das erkannt werden soll, durchgeführt, und die Parameter des Markov-Modells jedes Worts werden in Schritt 24 geschätzt. Die in den Schritten 22 bis 24 genannten Prozeduren werden über eine vorbestimmte Anzahl von Durchläufen, z.B. fünfmal mit neu festgelegten Parametern für jeden erneuten Durchlauf wiederholt, und nach dieser Phase ist die anfängliche Übung abgeschlossen.
  • Als nächsten wird der Funktionsablauf im Adaptierungsblock 12 des Markov-Modells unter Bezugnahme auf Fig. 8 und Fig. 9 beschrieben. Ein Beispiel wird untersucht, in dem einige der Zielwörter für die Adaptierung der Ausgabewahrscheinlichkeiten von Markov-Modellen verwendet werden. In Fig. 8 werden die Parameter des Markov-Modells für eines der zur Adaptierung verwendeten Wörter in Schritt 26 gelesen. Dies sind die Parameter aus den oben beschriebenen Anfangsübungen. Als nächstes werden die Sprechdaten des Adaptierungsworts in Schritt 27 eingespeist. Diese für die Adaptierung bestimmten Sprechdaten werden von dem Sprecher gesprochen, der das System benutzen will, und werden unter Verwendung der vom Adaptierungsblock 7 adaptierten Markenprototypen markiert. Dann werden die Markenketten der Adaptierungssprechdaten und die Zustände des Markov-Wortmodells miteinander entlang des bevorzugten Pfades durch einen Vitervi-Algorithmus in Schritt 28 verbunden. Wenn V die Beziehung zwischen den Marken und den Zuständen des Markov-Modells entlang des mit dem Vitervi- Algorithmus ermittelten bevorzugten Pfades angibt, kann dies durch die folgende Gleichung ausgedrückt werden:
  • Sk = V (L(w,t))
  • wobei Sk eine Zustandsnummer
  • L(w,t) eine Markennummer für eine Wortnummer w
  • und t die Zeit angibt
  • Entlang des Pfades werden die Wahrscheinlichkeiten, daß eine Marke Li mit Lj verbunden wird, gezählt und in Schritt 29 aufsummiert.
  • In Fig. 9 ist der oben beschriebene Funktionsablauf veranschaulicht.
  • Die obigen Prozeduren in den Schritten 26 bis 29 werden für jeden Teil der für den Adaptierungsprozeß verwendeten Sprache durchgeführt. C(Lj, Li) wird für jedes Li standardisiert, und anschließend wird P(Lj Li) in Schritt 31 bestimmt.
  • Schließlich werden alle Ausgabewahrscheinlichkeiten der Markov-Modelle, die während der anfänglichen Übungen erhalten wurden, unter Verwendung von P (Lj Li) in Schritt 32 umgewandelt.
  • Das Verfahren zur Bestimmung der Ausgabewahrscheinlichkeiten wird weiter oben erklärt. Die Übergangswahrscheinlichkeiten werden in ähnlicher Weise festgelegt.
  • Nach Durchführung der o.g. Schritte ist die Adaptierung abgeschlossen. Danach kann die Sprache des Sprechers, für den die Adaptierung durchgeführt wurde, mit hoher Genauigkeit erkannt werden.
  • Das beschriebene System kann schnell unterschiedlichen Einsatzbedingungen mit nur einer begrenzten Menge an Adaptierungsdaten angepaßt werden, z.B. mit einigen der Erkennungszielwörter. Im Vergleich mit früheren Systemen, bei denen der Sprecher jedes Sprachelement mehrmals in jeder der unterschiedlichen Einsatzbedingungen und für jedes Wort aussprechen mußte, was einen erheblichen Aufwand für den Sprecher darstellte und aufgrund des hohen Rechenaufwands beträchtliche Kosten verursachte, ermöglicht das beschriebene System beim Einsatz in Situationen, in denen die Eingabesprechdaten ein umfangsreiches Vokabular von mehr als 1000 Erkennungszielwörtern beinhalten, eine beträchtliche Reduzierung des Aufwands für den Sprecher und eine bedeutsame Erhöhung der Effizienz. Beim Einsatz des beschriebenen Systems können die für einen Sprecher zusammengetragenen anfänglichen Übungsdaten für andere Sprecher verwendet werden. Da nur P(Lj Li) und P(Tj Ti) als Tabellen für Adaptierungen für Sprecher oder Einsatzbedingungen erforderlich sind, ist nur eine geringe Speicherkapazität und Rechenleistung für das neue System erforderlich.
  • Ein Experiment wurde zur Bewertung eines Ausführungsbeispiels durchgeführt, in dem einhundertfünfzig einander ähnliche Wörter wie z.B. "keiho" (japanisch für Alarm) und "heiho" (japanisch für rechteckig), tyokusen (gerade Linie) und tyokuzen (unmittelbar vor) als Erkennungszielwörter verwendet wurden. In diesem Experiment sollte ein männlicher Sprecher jedes der 150 Wörter zehnmal sprechen, die als anfängliche Übungsdaten für Markenprotoypen und Markov-Modellen vorgesehen waren, und die Adaptierung für sieben Sprecher (fünf männliche, zwei weibliche Sprecher) wurde anschließend ausgewertet. Die Adaptierung wurde unter Verwendung eines Teilvokabulars (10, 25, 50, 100 und 150 Wörter, jedes Wort wurde nur einmal gesprochen) durchgeführt, und jeder Sprecher sprach jedes der 150 Wörter dreimal zur Erkennung aus. Fig. 10 zeigt das Ergebnis dieses Experiments. In dieser Abbildung sind auf der Abszisse die Anzahl von Adaptierungswörtern und auf der Ordinate die mittlere Fehlerhäufigkeit aufgetragen. Die Kreise kennzeichnen Sprechdaten von männlichen Sprechern, und die Rechtecke Sprechdaten von weiblichen Sprechern. Die durchgehenden Linien geben eine Adaptierung nur von Prototypen und die gestrichelten Linien eine Adaptierung auch von Parametern der Markov-Modelle an. Im weiteren Verlauf der durchgehenden 4%-Linie ist das Experimentergebnis der Erkennung für den Sprecher erkennbar, der das System anfänglich trainiert hat. Aus diesem Ergebnis ist erkennbar, daß die Erkennungsquoten für männliche Sprecher äquivalent zu dem Sprecher, der das System zu Beginn trainiert hat, durch Adaptierung mit 25 Wörtern an Sprechdaten verbessert werden können. Darüber hinaus kann die Adaptierung für weibliche Sprecher, die in der Vergangenheit als schwierig erachtet wurde, zufriedenstellend verwirklicht werden.
  • Der Geltungsbereich der vorliegenden Erfindung ist nicht auf das oben genannte Ausführungsbeispiel beschränkt, und verschiedene Änderungen können vorgenommen werden, ohne grundsätzlich vom Geltungsbereich der Erfindung abzuweichen. Beispielsweise kann diese Erfindung auf die Adaptierung von HMM- Spracherkennung des Typs Feneme angewandt werden, die in der japanischen Patentanmeldung Nr. 61-16993 (EP-A-238693) beschrieben wird. In dieser Adaptierung werden die Markenketten des Adaptierungssprechens und die Ketten von Feneme-Markov- Modellen (jede Kette, die ein Markov-Wortmodell bildet) so ausgerichtet, daß die Marken des Adaptierungssprechens den Zuständen der Markov-Wortmodelle zugeordnet werden.

Claims (1)

1. Spracherkennungssystem mit Markov-Modellen bei welchem Sprache mittels Marken aus einem Markensatz markiert ist, wobei die Markov-Modelle von einem Anfangsmarkensatz geübt werden, der aus Anfangsübungssprechen abgeleitet ist und unter Verwendung von Adaptierungssprechen adaptiert ist, dadurch gekennzeichnet, daß das System folgendes aufweist:
Mittel (5, 7) zum Adaptieren des Anfangsmarkensatzes zu einem Adaptierungsmarkensatz unter Verwendung von Adaptierungssprechen durch Ändern eines Prototyps jeder Marke in dem Anfangsmarkensatz, um einen Prototyp jeder Marke in dem Adaptierungsmarkensatz zu erzeugen, wobei die Änderung aus folgendem besteht: Klassifizieren von Kennzeichenvektoren, die aus dem Adaptierungssprechen extrahiert sind, in Klassen entsprechend Markenprototypen des Anfangsmarkensatzes und Verwenden eines Durchschnitts jeder der Klassen wie einen entsprechenden Prototyp des Adaptierungsmarkensatzes,
Mittel (5, 8) zum Markieren von Adaptierungssprechen zu einer Adaptierungsmarkenkette,
Mittel zum Verbinden jeder Marke in jeder der Adaptierungsmarkenketten mit jedem Zustand oder jedem Zustandsübergang eines Markov-Modells, welches der betroffenen Adaptierungsmarkenkette entspricht, wobei die Verbindung durch einen Pfad festgelegt ist, entlang dessen jede der Adpatierungsmarkenketten entweder linear oder entsprechend dem Viterbi- Algorithmus mit dem Markov-Modell ausgerichtet ist,
Mittel zum Bestimmen von Tabelleneintragungen, welche folgendes kennzeichnen: die Wahrscheinlichkeit einer von dem nachfolgenden Sprecher gesprochenen Marke Lj, die einer Marke Li entspricht, die von dem Referenzsprecher gesprochen ist, auf der Grundlage der Verbindung zwischen jeder Marke in der Adaptierungsmarkenkette und jedem der Zustände oder Zustandsübergänge und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen und
Mittel zum Bestimmen der Wahrscheinlichkeitswerte jedes der Markov-Modelle, welche der Adaptierungsmarkenkette entsprechen, auf der Grundlage der Tabelleneintragungen und der Wahrscheinlichkeitswerte der Markov-Modelle, welche den Anfangsmarkensatz betreffen.
DE8888308585T 1987-10-12 1988-09-16 Spracherkennungssystem unter verwendung von markov-modellen. Expired - Fee Related DE3876207T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62254821A JPH01102599A (ja) 1987-10-12 1987-10-12 音声認識方法

Publications (2)

Publication Number Publication Date
DE3876207D1 DE3876207D1 (de) 1993-01-07
DE3876207T2 true DE3876207T2 (de) 1993-06-03

Family

ID=17270338

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8888308585T Expired - Fee Related DE3876207T2 (de) 1987-10-12 1988-09-16 Spracherkennungssystem unter verwendung von markov-modellen.

Country Status (4)

Country Link
US (1) US5050215A (de)
EP (1) EP0312209B1 (de)
JP (1) JPH01102599A (de)
DE (1) DE3876207T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832190B1 (en) 1998-05-11 2004-12-14 Siemens Aktiengesellschaft Method and array for introducing temporal correlation in hidden markov models for speech recognition

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
DE69232463T2 (de) * 1991-12-31 2002-11-28 Unisys Pulsepoint Communications, Carpinteria Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5745873A (en) * 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5483579A (en) * 1993-02-25 1996-01-09 Digital Acoustics, Inc. Voice recognition dialing system
NL9301119A (nl) * 1993-06-25 1995-01-16 Nederland Ptt Methode voor de detectie van het beste pad door een stochastisch netwerk, in het bijzonder voor spraak- of beeldherkenning.
WO1995009416A1 (en) * 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
WO1995034884A1 (fr) * 1994-06-13 1995-12-21 Matsushita Electric Industrial Co., Ltd. Analyseur de signaux
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835894A (en) * 1995-01-19 1998-11-10 Ann Adcock Corporation Speaker and command verification method
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3008799B2 (ja) * 1995-01-26 2000-02-14 日本電気株式会社 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US5987414A (en) * 1996-10-31 1999-11-16 Nortel Networks Corporation Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance
US5839107A (en) * 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6253173B1 (en) 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6377921B1 (en) * 1998-06-26 2002-04-23 International Business Machines Corporation Identifying mismatches between assumed and actual pronunciations of words
US6208964B1 (en) 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
CA2376277C (en) 1999-06-11 2011-03-15 Telstra New Wave Pty Ltd A method of developing an interactive system
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2002950336A0 (en) 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
AU2002951244A0 (en) 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
AU2003900584A0 (en) 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
AU2003902020A0 (en) 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
WO2006119122A2 (en) * 2005-05-02 2006-11-09 Graham Shapiro Statistical machine learning system and methods
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及系统
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116993A (ja) * 1984-07-02 1986-01-24 Hitachi Zosen Corp 石炭の化学的脱灰方法
JPS6165030A (ja) * 1984-09-07 1986-04-03 Toyota Motor Corp デイ−ゼルエンジンの加速装置
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832190B1 (en) 1998-05-11 2004-12-14 Siemens Aktiengesellschaft Method and array for introducing temporal correlation in hidden markov models for speech recognition

Also Published As

Publication number Publication date
DE3876207D1 (de) 1993-01-07
US5050215A (en) 1991-09-17
EP0312209A3 (en) 1989-08-30
JPH01102599A (ja) 1989-04-20
EP0312209B1 (de) 1992-11-25
EP0312209A2 (de) 1989-04-19
JPH0355838B2 (de) 1991-08-26

Similar Documents

Publication Publication Date Title
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69010722T2 (de) Spracherkennungssystem.
DE69425776T2 (de) Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE3783154T2 (de) Spracherkennungssystem.
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE69416670T2 (de) Sprachverarbeitung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE69623364T2 (de) Einrichtung zur Erkennung kontinuierlich gesprochener Sprache
DE10030105A1 (de) Spracherkennungseinrichtung
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee