DE3878541T2 - Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. - Google Patents

Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.

Info

Publication number
DE3878541T2
DE3878541T2 DE8888810855T DE3878541T DE3878541T2 DE 3878541 T2 DE3878541 T2 DE 3878541T2 DE 8888810855 T DE8888810855 T DE 8888810855T DE 3878541 T DE3878541 T DE 3878541T DE 3878541 T2 DE3878541 T2 DE 3878541T2
Authority
DE
Germany
Prior art keywords
chain
markov
model
markov model
base form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8888810855T
Other languages
English (en)
Other versions
DE3878541D1 (de
Inventor
Lalit Rai Bahl
Peter Vincent Desouza
Robert Leroy Mercer
Michael Alan Picheny
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE3878541D1 publication Critical patent/DE3878541D1/de
Application granted granted Critical
Publication of DE3878541T2 publication Critical patent/DE3878541T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Sprachverarbeitung, wie etwa die Spracherkennung, wobei jedes Wort einer Anzahl von Wörter aus einem bestimmten Vokabular im Hauptspeicher eines Computers als Basisform des Wortes, bestehend aus einer Folge von Markov-Modellen gespeichert und abrufbar sein soll.
  • In der Spracherkennung wurde die Verwendung von Markov-Modellen vorgeschlagen. Ein wesentlicher Schritt bei der Spracherkennung mit Markov-Modellen ist die Definition jedes einzelnen Wortes eines Vokabulars als eine entsprechende Folge von Markov-Modellen.
  • Nach dem Stand der Technik entspricht jedes Markov-Modell einem Phonem oder einem phonetischen Element. Aufgrund von Erfahrung und Wahrnehmung definiert ein(e) Phonetiker(in) jedes Wort als eine entsprechende Folge von phonetischen Elementen. Die Markov- Modelle, die den Folgen von phonetischen Elementen zugeordnet sind, werden zu einer phonetischen Basisform des Wortes verknüpft. FIG. 1 zeigt eine phonetische Basisform 100 des Wortes "THE", welche eine Kette von drei phonetischen Markov-Modellen beinhaltet: Das erste steht für das phonetische Element DH, das zweite für das phonetische Element UH1 und das dritte für das phonetische Element XX. Das internationale phonetische Alphabet enthält die phonetischen Standardelemente.
  • Alle drei Markov-Modelle weisen einen Anfangs Zustand und einen Endzustand auf, eine Anzahl von verschiedenen Zuständen dazwischen sowie eine Anzahl von Bögen, die sich jeweils von einem Zustand zu einem anderen erstrecken. In einer Übergangsphase wird für jeden Bogen eine Wahrscheinlichkeit ermittelt, und für Bögen mit einem von Null verschiedenen Wert (durch durchgezogene
  • Linien gekennzeichnet) werden Markenausgangswahrscheinlichkeiten ermittelt. Jede Markenausgangswahrscheinlichkeit entspricht der Wahrscheinlichkeit der Erzeugung einer Marke bei der Belegung eines der vorhandenen Bögen. In früheren Spracherkennungssystemen mit Markov-Modellen, wie in der Europa-Patentschrift EP-A-0,239,016 mit dem Titel "Speech Recognition System" beschrieben, wird jedes Wort eines Vokabulars durch eine Kette von Markov-Modellen dargestellt, wie sie in FIG. 1 gezeigt ist. Während der Spracherkennung erzeugt ein Akustikprozessor eine Kette von Marken, die einer sprachlichen Äußerung entspricht. Während die Folge von phonetischen Markov-Modellen jedes Wortes, die Folge der Bogenwahrscheinlichkeiten und der Markenausgangswahrscheinlichkeiten der aufeinander folgenden Bögen abläuft, kann die Kette der erzeugten Marken verschiedene Schritte durchlaufen. Aufgrund dieser Schritte wird die Wahrscheinlichkeit der Kette von Markov-Modellen jedes einzelnen Wortes festgelegt, welches diese Kette von Marken erzeugt.
  • Es gibt eine Reihe von Problemen mit der phonetischen Annäherung von Markov-Modellen. Erstens hängt die Kette von Markov-Modellen jedes Wortes sehr stark von der Erfahrung und Wahrnehmung des phonetikers ab. Die Kette der Markov-Modelle, die einem Wort von verschiedenen Phonetikern zugeordnet wird, kann unterschiedlich ausfallen. Zweitens ist das Markov-Modell eines phonetischen Elements relativ komplex. Die Spracherkennung mit Hilfe der phonetischen Markov-Modelle kann beträchtlichen Rechenaufwand erfordern. Drittens ist die Erkennung gesprochener Worte ausschließlich mittels der phonetischen Markov-Modelle nicht mit optimaler Genauigkeit möglich.
  • Teilweise können die oben genannten Probleme gelöst werden, indem man näherungsweisen akustischen Vergleich für alle Wörter durchführt, um eine kurze Liste aller in Frage kommender Wortkandidaten zu ermitteln. Jeder der Wortkandidaten wird dann zu einem detaillierten akustischen Vergleich verarbeitet. Durch die Reduzierung der Anzahl detailliert zu verarbeitender Wörter wird Rechenleistung eingespart. Dieser Ansatz wurde in der obengenannten Europa-Patentschcrift EP-A-0'239'016 mit dem Titel "Speech Recognition System" besprochen.
  • Um die Genauigkeit zu verbessern und um dem Problem der Abhängigkeit von einem Phonetiker zu begegnen, wurde ein anderer Typ von Markov-Modell zur Spracherkennung vorgeschlagen. Zur Veranschaulichung des zweiten Markov-Modells ist zu beachten, daß die Verwendung eines Akustikprozessors für ein Spracherkennungssystem mit Markov-Modellen bezeichnend ist. Dieser Prozessor wandelt eine akustische Wellenform (Spracheingabe) in eine Kette von Marken um. Die Marken der Kette werden aus einem Alphabet von Marken ausgewählt. Jede Marke des Alphabets entspricht einer Gruppe vordefinierter Vektoren in einem r-dimensionalen Raum, durch den die gesamte Sprache definiert ist. Für jedes Zeitintervall prüft der Akustikprozessor eine Anzahl von r Sprachmerkmalen (in der Größenordnung von 20 Merkmalen (z.B. Erregeramplituden in 20 entsprechenden Freguenzbändern). Aufgrund der Werte der r Merkmale wird ein "Erkennungsvektor" aus r Komponenten gebildet. Aus einer Anzahl vordefinierter Gruppen von Mustervektoren (z.B. 200 Gruppen) wird diejenige Gruppe ausgewählt, zu welcher der Erkennungsvektor gehört. Jede Gruppe wird durch eine entsprechende Marke gekennzeichnet. In jedem Zeitintervall wird vom Akustikprozessor ein Erkennungsvektor erzeugt, die Gruppe wird bestimmt, zu welcher der Vektor gehört, und die Marke dieser Gruppe wird dem Zeitintervall zugeordnet. So besteht der Signalausgang des Akustikprozessors aus einer Kette von Marken.
  • Das obengenannte zweite Markov-Modell beruht auf Marken statt auf phonetischen Elementen. Das bedeutet, daß es für jede Marke ein Markov-Modell gibt. Dort, wo der Ausdruck "Phonem" auf den Bezug zu Marken hindeutet, gibt es zu jeder Marke ein phonemisches Markov-Modell.
  • In der Spracherkennung mit phonemischen Markov-Modellen wird jedes Wort durch eine Kette von phonemischen Markov-Modellen als Basisform des Wortes dargestellt. Die Kette von Marken, die ein Akustikprozessor als Reaktion auf eine sprachliche Äußerung erzeugt, wird mit den Ketten von phonemischen Markov-Modellen der Wörter verglichen, um die Wahrscheinlichkeit der Wörter zu bestimmen.
  • Da Marken nicht so einfach wie phonetische Elemente unterschieden werden können, kann eine Basisform eines Wortes aus phonemischen Markov-Modellen nicht ohne weiteres durch den Menschen hergestellt werden. Die phonemische Basisform eines Wortes wird deshalb automatisch durch den Computer erstellt. Ein Sprecher kann sich diesem Verfahren auf einfache Weise annähern, indem er jedes Wort einmal ausspricht und über den Akustikprozessor eine Kette von Marken erzeugt. Die einzelnen phonemischen Markov-Modelle werden entsprechend der aufeinanderfolgenden Marken der Kette des betreffenden Wortes aneinandergereiht und bilden so eine Basisform des Wortes aus phonemischen Markov-Modellen. Wenn also die Marken L1-L5-L10---L50 erzeugt werden, bilden die phonemischen Markov-Modelle F1 F5 F10---F50 die Basisform des Wortes aus phonemischen Markov-Modellen. Diese Art der Basisform wird als "Einzelbasisform" bezeichnet. Die Einzelbasisform ist nicht besonders genau, da sie nur mit einer einzigen Sprechweise des zugrundeliegenden Wortes erstellt wird. Durch ein Wort mit verschiedenen Aussprachemöglichkeiten oder eine ungenaue Aussprache des Wortes wird die Einzelbasisform besonders unbefriedigend.
  • Um die Einzelbasisform zu übertreffen, wurde eine Basisform vorgeschlagen, die mit verschiedenen Aussprachemöglichkeiten eines zugrundeliegenden Wortes erstellt wird. Eine Methode und die Maschine hierfür sind in der Europa-Patentschrift EP-A-0 238'697 mit dem Titel "Method of constructing baseform models of words from multiple utterances for speech recognition systems" beschrieben. In diesem Patent werden Basisformen von Wörtern erstellt, die nicht nur eine höhere Genauigkeit durch die zugrundeliegende unterschiedliche Aussprache aufweisen, sondern auch automatisch ohne menschliches Zutun erzeugt werden. Dort wird erwähnt, daß natürlich genauso wie für ganze Wörter auch Basisformen für Wortsegmente mit mehrfacher Sprechweise erstellt werden können.
  • Gemäß EP-A-0238697 sind die Basisformen wie folgt festgelegt:
  • - Alle Phonemketten, die durch die Äußerung eines gegebenen Wortes erzeugt werden, werden mit einer Gruppe vordefinierter phonemischer Lautmaschinen verglichen. Die Lautmaschine, welche mit der größten Wahrscheinlichkeit alle Phonemketten des entsprechenden Wortes erzeugt, wird als die beste Basisform P&sub1; mit der Länge 1 ausgewählt.
  • - Unter Beibehaltung von Laut P&sub1;, wird die beste Basisform der Länge 2 mit der Form P&sub1;P&sub2; oder p&sub2;P&sub1; gesucht und an allen Phonemketten ausgerichtet. Entlang der aneinandergereihten Ketten werden in jeder der Phonemketten übereinstimmende Punkte lokalisiert. Jede linke Hälfte wird als linke Unterkette und jede rechte Hälfte als rechte Unterkette betrachtet.
  • - Die linke und die rechte Unterkette werden dann getrennt aber gleichermaßen nach dem Motto teile und herrsche behandelt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf eine Methode und Einrichtungen zur Aufteilung von Wörtern und Ermittlung von Ketten von Markov-Modellen für die Segmente auf der Basis von mehrfachen Aussprachemöglichkeiten. Die Ketten von Markov-Modellen für aufeinanderfolgende Segmente eines Wortes werden zur Basisform des gesamten Wortes verknüpft.
  • Im ersten Schritt werden verschieden Sprechweisen eines zugrundeliegenden Wortes von einem Akustikprozessor verarbeitet, um verschiedene Ketten von Marken zu erzeugen. Eine der Ketten wird dann als Prototyp-Kette ausgewählt (bevorzugt nach der Länge der Kette). Von der Prototyp-Kette wird eine Einzelbasisform bevorzugt aus phonemischen Markov-Modellen abgeleitet. Die Einzelbasisform wird dann gegenüber verschiedenen durch das zugrundeliegende Wort erzeugten Ketten ausgerichtet, welche sich von der Prototyp-Kette unterscheiden. Jede Kette wird dabei in aufeinanderfolgende Unterketten (aus jeweils null oder mehr Marken) aufgeteilt. Jede fortlaufende Unterkette entspricht einem fortlaufenden Modell in der Einzelbasisform. Für jede der verschiedenen Ketten gibt es eine Unterkette, die nach einem phonemischen Markov-Modell in der Einzelbasisforin ausgerichtet ist. Die nach einem vorgegebenen phonemischen Markov-Modell ausgerichteten Unterketten sind in Gruppen aufgeteilt. Jede Gruppe stellt ein segment eines Wortes dar. Die Unterketten einer Gruppe werden gemeinsam geprüft, und es wird das phonemische Markov-Modell oder die Kette von phonemischen Markov-Modellen ermittelt, welche mit der größten Wahrscheinlichkeit die Unterketten der entsprechenden Gruppe erzeugen würde. Dieses phonemische Markov- Modell oder diese Kette von phonemischen Markov-Modellen wird der Gruppe zugewiesen und auf diese Weise das Wortsegment dargestellt.
  • Die phonemischen Markov-Modelle oder die Kette der Modelle für aufeinanderfolgende Wortsegmente werden zu einer Basisform des Wortes verknüpft. Der Prozeß wird für alle Wörter eines vokabulars wiederholt, um höchst exakte Basisformen von Wörtern zu erhalten, die automatisch erzeugt werden, ohne daß der Mensch eingreifen muß dadurch Unzulänglichkeiten verursacht.
  • In Übereinstimmung mit der vorliegenden Erfindung sind eine entsprechende Methode und eine entsprechende Einrichtung in den Ansprüchen 1 und 9 dargelegt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • FIG. 1 ist die Darstellung einer Basisform eines Wortes mit phonetischen Markov-Modellen, welche in anderen Sprachprozessoren zur Spracherkennung mittels Markov-Modellen verwendet wird.
  • FIG. 2 ist ein Blockdiagramm, welches die Hauptelemente der vorliegenden Erfindung darstellt.
  • FIG. 3 ist eine Darstellung von Marken, die aufgrund verschiedener Sprechweisen von Wörtern erzeugt werden.
  • FIG. 4 ist eine Darstellung eines einzelnen herausgegriffenen Markov-Modells, wie es in der vorliegenden Erfindung verwendet wird.
  • FIG. 5 ist die Darstellung der Ausrichtung einer Einzelbasisform aus einer Sprechweise eines Wortes an den einzelnen Ketten von Marken aus anderen entsprechenden Aussprachen des Wortes.
  • FIG. 6 (schließt die Teile 6a und 6b ein) ist ein Flußdiagramm zur Darstellung der Methodik der vorliegenden Erfindung.
  • FIG. 7 ist ein Flußdiagramm zur detaillierten Darstellung der einzelnen Schritte bei der Auswahl einer Prototyp-Kette.
  • FIG. 8 ist ein Flußdiagramm zur detaillierten Darstellung der Einteilung von Unterketten in Gruppen und der Zuordnung der Gruppen zu einem gebräuchlichen Wortsegment.
  • FIG. 9 ist ein Flußdiagramm zur Darstellung der Bestimmung des besten Markov-Modells oder der besten Kette von Markov-Modellen.
  • BESCHREIBUNG IM EINZELNEN
  • Entsprechend FIG. 2 wird ein System 200 für die Darstellung von Wörtern durch entsprechende Folgen von Markov-Modellen beschrieben.
  • Ein Akustikprozessor 202 erzeugt eine Kette von "Marken" als Reaktion auf eine Eingabe in Form einer sprachlichen Äußerung. Genauer gesagt mißt oder verarbeitet der Akustikprozessor 202 Amplituden für eine Vielzahl von festgelegten Sprachmerkmalen. Jedes Merkmal entspricht einer Vektorkomponente. Bei zwanzig Merkmalen hat der als "Erkennungsvektor" bezeichnete Vektor zwanzig Komponenten. Für aufeinanderfolgende Zeitintervalle erzeugt der Akustikprozessor 202 aufeinanderfolgende Erkennungsvektoren. Im Akustikprozessor 202 ist ein Alphabet von Prototyp- Vektoren gespeichert, wobei eine Anzahl von 200 Prototyp-Vektoren für das Alphabet typisch ist. Jeder Prototyp-Vektor stellt eine ganz bestimmte Gruppe von Erkennungsvektoren dar. Jeder erzeugte Erkennungsvektor ist einer einzigen Gruppe zugeordnet und wird durch einen einzigen Prototyp-Vektor dargestellt. Jeder Prototyp-Vektor ist durch eine Marke gekennzeichnet, wie L1, L2, L3,... oder L200 oder irgendeine andere Kennzeichnung. Der Ausdruck "Phonem" kann also durch den Ausdruck "Marke" ersetzt werden und der Ausdruck "phonemisch" bedeutet "mit einer Marke verknüpft".
  • Gemäß der Erfindung werden mehrere Sprechweisen eines Wortes in den Akustikprozessor 202 gesprochen. Für jede Sprechweise gibt es eine entsprechende Kette von Marken, welche im Hauptspeicher des Computers gespeichert wird. Dies ist in FIG. 3 dargestellt. Das Ergebnis einer ersten Sprechweise eines Wortes WORT1 ist eine Kette von Marken: L10-L20-L20-L30-L32---L185. Jeder Marke entspricht einem Zeitintervall von vorzugsweise einer Centisekunde; also sind in jeder Kette typischerweise 60 bis 100 Marken enthalten. Aus einer zweiten Sprechweise von WORT1 ergibt sich die Kette von Marken L10-L10-L10-L20-L35-L200---L1. Eine n&sub1;-te Sprechweise von WORT1 ergibt eine Kette von Marken L20-L30-L32- L31-L32---L10. Für das mehrfach ausgesprochene Wort WORT1 werden n&sub1; verschiedene Ketten von Marken erzeugt. Die Ketten sind unterschiedlich, da die gemessenen Merkmale für jede Sprechweise im selben Zeitintervall durch verschiedene Sprechgeschwindigkeit, unterschiedliche Aussprache, anderen Wortzusammenhang, Lärm oder andere Faktoren variieren können. Der Akustikprozessor 202 wiederholt das Verfahren der Erzeugung verschiedener Ketten für jedes der zahlreichen Wörter eines Vokabulars. Dies zeigt FIG.3 durch die Darstellung einer Kette von Merkmalen, die mit der nw- ten Sprechweise des letzten Wortes WORTw endet.
  • Die verschiedenen Ketten für jedes Wort werden im Speicher 204 für Ketten von Marken gespeichert (FIG.2).
  • Für jedes Wort im Speicher 204 bestimmt ein Modelltrainer 206 eine Kette von phonemischen Markov-Modellen und ermittelt Werte der Bogenwahrscheinlichkeiten und Werte der Markenausgangswahrscheinlichkeiten für jedes phonemische Markov-Modell. Jedes phonemische Markov-Modell ist ein Element aus einer endlichen Menge von phonemischen Markov-Modellen.
  • Vorzugsweise entspricht jedes Markov-Modell aus dieser Menge einer Marke im Alphabet der Marken. Solche Markov-Modelle werden hier als "phonemische Markov-Modelle" bezeichnet. Alle phonemischen Markov-Modelle sind vorzugsweise so strukturiert, wie in FIG.4 gezeigt ist. Also hat jedes phonemische Markov-Modell zwei Zustände S1 und S2. Ein erster Übergang - oder Bogen -, als tr&sub1; bezeichnet, ist eine Schleife von S1 zurück nach S1. Von S1 nach S2 gibt es einen zweiten, als tr&sub2; bezeichneten Übergang - oder Bogen. Ein letzter Übergang - oder Bogen - ebenfalls von S1 nach S2, mit tr&sub3; bezeichnet, entspricht hingegen einem "Null"-Übergang. Im Gegensatz zu den Übergängen tr&sub1; und tr&sub2;, die Marken als Ausgänge für die phonemischen Markov-Modelle produzieren können, wird bei einem Übergang tr3 keine Marke erzeugt. Jedem Übergang ist eine Übergangswahrscheinlichkeit zugeordnet - eine Wahrscheinlichkeit dieses Übergangs im Zustand S1 des Markov-Modells. Den Übergängen tr&sub1; und tr&sub2; sind auch Markenausgangswahrscheinlichkeiten zugeordnet. Die Markenausgangswahrscheinlich keit entspricht der Wahrscheinlichkeit, mit der eine Marke während eines Übergangs erzeugt wird. Für den ersten Übergang tr&sub1; gibt es eine Gruppe von 200 Wahrscheinlichkeiten,
  • wobei jede Wahrscheinlichkeit einer Marke des Alphabets entspricht. Ebenso gibt es 200 Markenwahrscheinlichkeiten für den Übergang tr&sub2;. Da während eines "Null" -Übergangs keine Marke erzeugt werden kann, gibt es für den Übergang tr&sub3; keine Markenausgangswahrscheinlichkeiten.
  • Die Möglichkeiten der phonemischen Markov-Modelle werden durch den Modelltrainer 206 und durch die Anwendung des bekannten Vorwärts-Rückwärts-Algorithmus bestimmt. Dieser basiert auf statistischen Ermittlungen während eines als "Training" bezeichneten Prozesses. Kurz gesagt spricht ein Sprecher einen Trainingstext während einer Trainingssitzung. Der Trainingstext entspricht einer bekannten Kette von Markov-Modellen (mit initialisierten Wahrscheinlichkeitswerten). Ein Sprecher spricht den Trainingstext und ein Akustikprozessor (wie das Element 202) erzeugt als Reaktion auf den gesprochenen Text eine Kette von Marken. Jedes Phonem kann mehrfach im Trainingstext vorkommen. Anschließend werden Zählerwerte gebildet. Sie geben jeweils die Häufigkeit an, mit der ein vorgegebenes Markov-Modell eine vorgegebene Marke erzeugt. Jeder Zählerwert berücksichtigt alle entsprechenden Vorkommnisse des phonemischen Markov-Modells. Wenn beispielsweise ein phonemisches Markov-Modell F&sub1;&sub0; dreimal im Trainingstext vorkommt und beim ersten Auftreten die Marken L10-L1-L10-L9 erzeugt werden; beim zweiten Auftreten die Marke L10, und beim dritten Auftreten die Marken L9-L11 erzeugt werden, beträgt der Zählerwert des Phonems F10 für die Marke L10 2+1+0=3. Teilt man den Zählerwert für L10 durch die Zählerwerte für Marken, die vom phonemischen Markov-Modell F10 erzeugt werden, ergibt sich ein normiertes Ergebnis, in diesem Fall 3/7. Gemäß dem Vorwärts- Rückwärts-Algorithmus werden aus den Zählerwerten die Wahrscheinlichkeiten des phonemischen Markov-Modells errechnet. Einzelheiten des Vorwärts-Rückwärts-Algorithmus wurden in verschiedenen Veröffentlichungen dargelegt, wie "Continuous Speech Recognition by Statistical Methods" von F. Jelinek, Proceedings of the IEEE, Band 64, Seiten 532 bis 556 (1976) und "A Maximum Likelihood Approach to Continuous Speech Recognition", IEEE Transactions on Pattern Analysis and Machine Intelligence, Band PAMI- 5, Nummer 2, März 1983, von L. R. Bahl, F. Jelinek und L. R. Mercer, und sind in der Europa-Patentschrift EP-A-0'240'679 mit dem Titel "Improving the Training of Markovmodels used in a speech recognition system" umrissen.
  • Eine der Ketten von Marken wird als Prototyp-Kette von einem Selektor 208 ausgewählt. Der Selektor 208 für Prototyp-Ketten wählt für ein zugrundeliegendes "WORTw" die gespeicherte Kette von Marken aus, deren Länge der durchschnittlichen Länge aller Ketten entspricht, die für das Wort "WORTw" erzeugt wurden. Die Prototyp-Kette wird in einen Markov-Modell-Selektor 210 eingegeben. Aufgrund der Wahrscheinlichkeiten der einzelnen Markov-Modelle wird das phonemische Markov-Modell ausgewählt, welches den einzelnen entsprechenden Marken der Prototyp-Kette entspricht. Wenn beispielsweise die Prototyp-Kette die Marken L10-L20-L20-L30-L32---L185 enthält (siehe erste Sprechweise von WORT1 in FIG.3), sind die ausgewählten aufeinanderfolgenden Markov-Modelle F&sub1;&sub0;-F&sub2;&sub0;-F&sub2;&sub0;-F&sub3;&sub0;-F&sub3;&sub2;---F&sub1;&sub8;&sub5;. Die Aneinanderreihung von aufeinanderfolgenden phonemischen Markov-Modellen wird als eine "Einzelbasisform" von WORTw bezeichnet, deren Marken in nur einer Kette einzeln je einem entsprechenden Markov-Modell zugeordnet sind.
  • Gemäß der Erfindung wird die Kette von Markov-Modellen der Einzelbasisform auf die Marken in jeder anderen Kette als der Prototyp-Kette abgestimmt, die für das zugrundeliegende "WORTw" gespeichert sind. Die Abstimmung erfolgt durch einen Viterbi- Algorithmus-Justierer 212. Der Viterbi-Algorithmus-Justierer 212 richtet aufeinanderfolgende Unterketten in jeder gespeicherten Kette an aufeinanderfolgenden Markov-Modellen der Einzelbasisform aus. Dies ist in FIG.5 für WORT1 aus FIG3 dargestellt, mit der Prototyp-Kette entsprechend der ersten Sprechweise.
  • Die phonemischen Markov-Modelle in FIG.5 aus der Einzelbasisform des Wortes - basierend auf der ersten Sprechweise von WORT1 - sind F&sub1;&sub0;-F&sub2;&sub0;-F&sub2;&sub0;-F&sub3;&sub0;-F&sub3;&sub2;---. Entsprechend dem bekannten Viterbi-Algorithmus zur Ausrichtung werden die Marken der Kette entsprechend der zweiten Sprechweise von WORT1 an den phonemischen Markov-Modellen der Einzelbasisform ausgerichtet. Aufgrund der für die phonemischen Markov-Modelle gespeicherten Wahrscheinlichkeiten ist festgelegt, daß die ersten drei Marken am phonemischen Markov-Modell F&sub1;&sub0; ausgerichtet sind. Das nächste phonemische Markov-Modell erzeugt keine Marken in der Kette für die zweite Sprechweise. Das dritte phonemische Markov-Modell F&sub2;&sub0; ist an der Marke L20 ausgerichtet. Das vierte phonemische Markov-Modell F&sub3;&sub0; ist an den Marken L35 und L200 der Kette für die zweite Sprechweise ausgerichtet. Für die zweite Sprechweise ist zu beachten, daß die Kette in eine Folge von Unterketten aufgeteilt wurde, wobei die einzelnen i-ten Unterketten (mit null, einer oder mehreren Marken) aufeinanderfolgenden i-ten phonetischen Markov-Modellen der Einzelbasisform entsprechen.
  • Weiterhin ist zu beachten (siehe FIG. 5), daß die dritte Sprechweise auch an den phonemischen Markov-Modellen F&sub1;&sub0;-F&sub2;&sub0;-F&sub3;&sub0;-F&sub3;&sub2;--- ausgerichtet ist. Wie bei der zweiten Sprechweise ist die Kette der dritten Sprechweise in eine Folge von Unterketten aufgeteilt, wobei jede einzelne Unterkette einem der phonemischen Markov-Modelle entspricht. In der erste Unterkette (i=1) ist die Marke L20, gefolgt von der Marke L30 enthalten; die zweite Unterkette enthält die Marke L32; die dritte Unterkette enthält die Marke L31; die vierte Unterkette enthält die Marke L32 usw. Die letzte Aussprache von WORT1 ergibt folgende Unterketten: Keine Marken in der ersten Unterkette; in der zweiten Unterkette die Marke L1 gefolgt von der Marke L1; die Marke L20 in der dritten Unterkette; in der vierten Unterkette die Marke L21 gefolgt von der Marke L22; die Marke L7 in der fünften Unterkette usw.
  • Die Unterketten dienen der Unterteilung der Ketten (und der entsprechenden sprachlichen Äußerungen) in allgemein gebräuchliche Segmente. So stellt die i-te Unterkette aus jeder Kette jeweils dasselbe Segment von WORT1 dar. Ein unterkettenkorrelator 214 faßt die ersten Unterketten i=1 für die n&sub1; Ketten, die zweiten Unterketten (i=2) für die n&sub1; Ketten usw. in Gruppen zusammen. Allgemein werden die i-ten Unterketten für die n&sub1; Ketten durch den Unterkettenkorrelator in Gruppen zusammengefaßt.
  • Für jede Gruppe von Unterketten bestimmt ein Markov-Modellverketter 216 eine oder mehrere Markov-Modelle in Folge, welche mit der größten Wahrscheinlichkeit eine Gruppe von Unterketten erzeugen. Nach FIG.5 enthält beispielsweise die erste Gruppe der zusammengefaßten Unterketten L10-l10-L10;L20-L30;...; und keine Marken. Es wird ein phonemisches Markov-Modell oder eine Kette von phonemischen Markov-Modellen ermittelt, welche mit der größten Wahrscheinlichkeit die entsprechenden Unterkette erzeugt. Das ermittelte Modell oder die ermittelte Kette von Modellen wird dem ersten gebräuchlichen Segment des zugrundegelegten Wortes zugeordnet. Dieses Verfahren wird für die folgenden Gruppen wiederholt, bis jedem der gebräuchlichen Segmente des zugrundeliegenden Wortes ein Modell oder eine Kette von Modellen zugeordnet ist.
  • Die phonemischen Markov-Modelle aller aufeinanderfolgender Gruppen werden durch einen Markov-Modellfolgen-Verknüpfer 218 verbunden, um eine Basisform des zugrundeliegenden Wortes zu bilden. Die vom Verknüpfer 218 gebildete Basisform des zugrundeliegenden Wortes basiert auf unterschiedlichen Sprechweisen und stellt eine bedeutende Verbesserung gegenüber der Einzelbasisform des Wortes dar. Wie unten beschrieben und im Flußdiagramm von FIG.6 dargestellt, können die Wörter eines Vokabulars nacheinander durch das System 200 verarbeitet werden, sodaß jedes Wort des Vokabulars eine Basisform des Wortes erhält, die aus Markov-Modellen oder Ketten von Markov-Modellen abgeleitet sind, welche einzelnen durch verschiedene Sprechweisen ermittelten Wortsegmenten zugeordnet sind.
  • FIG.6 beschreibt die Verfahrensweise des Systems 200. Im Schritt 302 wird ein Wortindexwert w für das erste Wort des Vokabulars auf 1 gesetzt. Der Akustikprozessor 202 (aus FIG.3) erzeugt nw Ketten aus nw Sprechweisen des ersten Wortes (Schritt 304).In Schritt 306 werden auf der Grundlage der in Schritt 304 erzeugten Marken Wahrscheinlichkeiten von Markov-Modellen und daraus abgeleitete Statistiken verarbeitet und gespeichert. In Schritt 308 wird aus den nw Ketten für das WORTw eine Prototyp-Kette ausgewählt. Wie oben ausgeführt ist die Prototyp-Kette vorzugsweise die Kette, deren Länge der durchschnittlichen Kettenlänge am nächsten kommt, obwohl auch andere, wie etwa die kürzeste Kette, als Prototyp-Ketten definiert werden können.
  • FIG. 7 veranschaulicht die Verfahrensweise der Bestimmung der durchschnittlichen Kettenlänge der verschiedenen Ketten eines zugrundeliegenden Wortes zur Definition der Prototyp-Kette. In FIG.7 ist lu die Länge der u-ten Sprechweise, n ist die Anzahl von Sprechweisen und j ist eine Kennung der Kette mit der durchschnittlichen Kettenlänge. Die Schritte 402 und 404 beziehen sich auf Initialisierungswerte. Der Wert lave wird laufend angeglichen (zu Beginn ist der Wert 0), indem die Längen der aufeinanderfolgenden Sprechweisen addiert werden, bis die Längen der Ketten aller Sprechweisen aufsummiert sind (Schritte 404, 406 und 408). Die durchschnittliche Länge wird durch Teilen der Summe durch n ermittelt (Schritt 410). Die Kettenlängen werden einzeln mit der durchschnittlichen Kettenlänge verglichen, und die Kette mit der geringsten Längenabweichung von der durchschnittlichen Länge wird ausgewählt (siehe Schritte 412 bis 420).
  • Wie in FIG.6 beschrieben, wird ein Markenindex i in Schritt 310 initialisiert und auf den Wert 1 gesetzt. (Es ist zu beachten, das Indexwerte wie i und j in verschiedenen Teilen dieser Beschreibung verschiedene Ereignisse bezeichnen können.) In den Schritten 312 bis 316 werden die Markov-Modelle ausgewählt, die den einzelnen i-ten Marken der Prototyp-Kette entsprechen. Unter der Annahme, daß die Prototyp-Kette aus N Marken besteht, werden die jeweils entsprechenden N phonemischen Markov-Modelle zu einer Einzelbasisform des Wortes verknüpft. In Schritt 320 wird eine andere als die Prototyp-Kette ausgewählt. Mit Hilfe der Viterbi-Ausrichtung wird die in Schritt 320 gewählte Kette an den Markov-Modellen der Einzelbasisform des Wortes ausgerichtet (Schritt 322), sodaß es für jedes der aufeinanderfolgenden Markov-Modelle der Einzelbasisform des Wortes eine entsprechende Unterkette aus der gerade in Schritt 320 ausgewählten Kette gibt. Die Schritte 320 und 322 werden für alle gespeicherten Ketten einzeln ausgeführt (Schritt 324).
  • FIG.8 zeigt die Schritte 320 bis 324 im Einzelnen. In FIG.8 ist "fαβγ" als die γ-te Marke der β-ten Sprechweise des α-ten Wortes definiert. "lαβ" ist die Anzahl von Marken, die der β-ten Sprechweise des α-ten Wortes in einem Text aus gesprochenen Wörtern entspricht. "dα" ist die Anzahl von phonemischen Markov-Modellen, die dem α-ten Wort in einem Text aus gesprochenen Wörtern entspricht. "vαβγ" ist die Zuordnung der γ-ten Marke der β-ten Sprechweise des α-ten Wortes zu einem Makrovmodell in einem Text aus gesprochenen Wörtern, in dem lαβ ≥ γ ≥ 1; dα ≥ vαβγ ≥ 1 ist. In FIG.8 sind γ und β auf den Wert 1 initialisiert und alle Ketten U sind als leere Ketten initialisiert (Schritt 502). Jede Kette Uαβvαβγ wird angeglichen, indem die Marken aneinandergereiht werden, bis alle Marken der Äußerung verknüpft sind (Schritte 504 bis 508). In einem Beispiel enthält die β-te Sprechweise 14 Marken. Die ersten drei Marken sind einem ersten Modell zugeordnet, die nächsten zehn Marken sind einem zweiten Modell zugeordnet und die letzte Marke ist einem dritten Modell zugeordnet. Da Uαβ dem ersten Modell zugeordnet ist, gleicht der Schritt 504 diese Kette an, indem die erste Marke an die Kette angehängt wird. Nach dem Hinzufügen der ersten Marke wird die zweite Marke angehängt und danach die dritte Marke. Der nächste Zyklus von Schritt 508 bis Schritt 504 wird auf eine neue (leere) Kette angewandt, die dem zweiten Modell entspricht. Die vierte Marke der Kette wird an die leere Kette angehängt, um eine aktualisierte Kette zu erhalten. Daran anschließend werden die 5., 6., 7... und 14. Marke angehängt. Dann wird eine nächste (leere) Kette für das dritte Markov-Modell aktualisiert, indem die 14. Marke an die leere Kette angehängt wird. Nach der 14. (letzten) Marke der β-ten Sprechweise wird β in Schritt 510 erhöht, sodaß die nächste Sprechweise verarbeitet werden kann. Jede Sprechweise wird beginnend mit ihrer ersten Marke und endend mit ihrer letzten Marke verarbeitet (Schritte 512 und 514).
  • In gleicher Weise werden alle (n-1) Ketten, d.h. alle anderen als die Prototyp-Kette, in aufeinanderfolgende Unterketten aufgeteilt, wobei jede i-te Unterkette eine Länge von 0 oder mehr Marken aufweist und einem gebräuchlichen Segment von WORTw entspricht. Das entsprechende phonemische Markov-Modell oder die Kette von phonemischen Markov-Modellen, welche mit der größten Wahrscheinlichkeit alle Unterketten erzeugt, wird gebildet (Schritte 326 bis 332). So werden die Unterketten für jedes einzelne gebräuchliche Segment verarbeitet, um die den Segmenten entsprechenden Modelle oder Ketten von Modellen zu ermitteln.
  • Die bevorzugte Methode, um das zu jeder Gruppe von i-ten Unterketten gehörige Markov-Modell oder die entsprechende Kette von Markov-Modellen zu ermitteln, ist im Einzelnen in der oben genannten Europa-Patentschrift EP-A-0'238'697 beschrieben.
  • In FIG.9 wird eine in oben genannter Europa-Patentschrift EP-A-0'238'697 beschriebene Teile-und-herrsche-Annäherung angewandt, um eine verbesserte Basisform des gegebenen i-ten gebräuchlichen Segments eines zugrundeliegenden Wortes zu ermitteln. Die einzelnen Schritte von FIG.9 sind hiermit beschrieben. Im Flußdiagramm von FIG.9 ist angegeben, daß sich der Ausdruck "Laut" oder "Lautmaschine" auf ein Markov-Modell bezieht.
  • Anhand der definierten Folge von Lauten (bzw. Markov-Modellen) wird der Laut ausgewählt, der bei Anwendung auf alle dem i-ten gebräuchlichen Segment entsprechenden i-ten Unterketten die beste Basisform des Lautes mit der Länge 1 ergibt (Schritte 602 und 604). Die beste Basisform des Lautes der Länge 1 (als P&sub1; bezeichnet) wird ermittelt, indem jeder Laut der Folge geprüft wird und für jeden Laut die Wahrscheinlichkeit bestimmt wird, mit der er jede i-te Unterkette erzeugt. Die n Wahrscheinlichkeiten, die für jeden einzelnen Laut gefunden werden, werden miteinander multipliziert (durch einen Prozessor des Verketters 216 in FIG.2), um eine Gesamtwahrscheinlichkeit für das bestimmte Markov-Modell oder den bestimmten Laut zu erhalten. Der Laut mit der besten Gesamtwahrscheinlichkeit wird als die beste Basisform P&sub1; der Länge 1 ausgewählt.
  • Unter Beibehaltung des Lautes P&sub1; wird in Schritt 606 die beste Basisform der Länge 2 mit der Form P&sub1;P&sub2; oder P&sub2;P&sub1; gesucht. Das bedeutet, daß jeder Laut der Folge am Ende von P&sub1; und vor P&sub1; angehängt und eine Gesamtwahrscheinlichkeit jedes so erhaltenen Lautpaares abgeleitet wird. Das Paar mit der höchsten Gesamtwahrscheinlichkeit, die phonemischen Ketten zu bilden, wird als das beste Lautpaar betrachtet.
  • In Schritt 608 wird dann die beste Basisform der Länge 2, also das Paar mit der höchsten Gesamtwahrscheinlichkeit, nach einem Verfahren wie dem bekannten Viterbi-Algorithmus verknüpft. Vereinfacht bestimmt die Verknüpfung, welche Marken in jeder i-ten Unterkette jedem Laut in dem geordneten Lautpaar entsprechen.
  • Nach der Verknüpfung wird in jeder i-ten Unterkette ein übereinstimmender Punkt ermittelt. Der übereinstimmende Punkt in jeder der Unterketten ist als der Punkt definiert, an dem sich die Laute P&sub1; und P&sub2; (der besten Basisform der Länge 2) treffen. Wahl weise kann der übereinstimmende Punkt als der Punkt angesehen werden, wo jede i-te Unterkette in einen linken, am linken Laut ausgerichteten Teil und einen rechten, am rechten Laut ausgerichteten Teil aufgeteilt wird, wobei die linken Teile aller i- ten Unterketten ein gebräuchliches Wortsegment darstellen und die rechten Teile aller i-ten Unterketten ebenfalls einem gebräuchlichen Wortsegment entsprechen (siehe Schritt 610).
  • In Schritt 612 werden dann die linken und die rechten Teile getrennt aber gleichermaßen als "linke Unterketten" bzw. "rechte Unterketten" behandelt und die Teile-und-herrsche-Annäherung auf diese angewandt.
  • Für die linken Unterketten wird die beste Einzelbasisform des Lautes PL gefunden (Schritt 614). Unter Beibehaltung des Lautes PL wird jeder Laut der Folge davor oder dahinter angehängt, um geordnete Lautpaare zu bilden. Danach werden die Paare PLPA oder PAPL mit der höchsten Wahrscheinlichkeit, die Marken der linken Unterketten zu erzeugen, ermittelt (Schritt 616). Wie weiter vorne bereits vorgeschlagen, ist dies die beste Basisform der Länge 2 für die linken Unterketten.
  • Die Gesamtwahrscheinlichkeit der besten Basisform der Länge 2 für die linken Unterketten wird mit der Gesamtwahrscheinlichkeit von PL alleine verglichen (Schritt 618). Wenn die Gesamtwahrscheinlichkeit von PL größer ist, wird der Laut PL in eine verknüpfte Basisform eingesetzt (Schritt 620). Wenn die Gesamtwahrscheinlichkeit von PL in Schritt 618 kleiner ist, werden PLPA oder PAPL an den linken Unterketten ausgerichtet (Schritt 622). In den linken Unterketten wird ein übereinstimmender Punkt ermittelt, und jede linke Unterkette wird dort in einen (neuen) linken Teil und einen (neuen) rechten Teil aufgeteilt (Schritt 624).
  • Das gleiche Verfahren wird auch auf jeden rechten Teil der erstmalig aufgeteilten i-ten Unterketten angewandt. Eine beste Einzelbasisform PR (Schritt 626) wird mit der besten Basisform PRPB oder PBPR des Lautes mit der Länge 2 verglichen (Schritte 628 und 630). Ist die Gesamtwahrscheinlichkeit von PR größer, wird der Laut PR in die verknüpfte Basisform eingesetzt (Schritt 620). Andernfalls wird eine Verknüpfung durchgeführt, und jede rechte Unterkette wird dabei am übereinstimmenden Punkt aufgetrennt (Schritte 632 und 634).
  • Der Teilungszyklus wird in jeder linken und in jeder rechten Unterkette wiederholt, sofern deren beste Basisform der Länge 2 eine größere Gesamtwahrscheinlichkeit als die beste Einzelbasisform des Lautes hat. Es wird ein Punkt erreicht, wo nur noch die besten Einzellaute übrig bleiben. Die besten Einzellaute werden in Schritt 620 verknüpft.
  • Die Einzelbasisformen des Lautes werden in derselben Reihenfolge verknüpft, wie sie durch die Unterketten dargestellt werden. Die verknüpfte Basisform stellt eine grundlegende Basisform des Wortsegments dar.
  • Die grundlegende verknüpfte Basisform wird noch verbessert. Gemäß der Verbesserung wird die grundlegende verknüpfte Basisform an den ursprünglichen i-ten Unterketten ausgerichtet (Schritt 640). Die i-ten Unterketten werden an den Stellen geteilt, wo sich die Laute bzw. die Markov-Modelle treffen (Schritt 6429). In Schritt 644 wird für jeden Teil ein "neuer" bester Laut ermittelt. In bekannter Weise wird aufgrund der gegebenen Wahrscheinlichkeiten aller Laute der Laut mit der größten Wahrscheinlichkeit, die Marken in dem entsprechenden Teil zu bilden, ausgewählt. Aufgrund der Ausrichtung kann sich der beste Einzellaut aus Marken eines Teils vom Einzellaut der vorher zusammengesetzten verknüpften Basisform unterscheiden. Wenn der "neue" beste Laut genau gleich ist wie der Laut in der verknüpften Basisform (Schritt 646), wird er vom Prozessor des Verknüpfers 216 aus FIG.2 in eine verbesserte Basisform des Wortsegments eingesetzt (Schritte 648). Falls sich der neue Laut vom Laut in der vorher verknüpften Basisform unterscheidet, ersetzt der neue Laut den bisherigen Laut in der grundlegenden verknüpften Basisform (Schritt 648) und die Schritte 640 bis 646 werden wiederholt. Wenn das Ausgabeergebnis von Schritt 646 für alle Teile immer "JA" ist, werden die sich ergebenden Laute zu einer verbesserten Basisform des Wortsegments verknüpft (Schritt 652).
  • In Schritt 334 von FIG.6 wird das phonemische Markov-Modell oder die Kette der phonemischen Markov-Modelle für jedes i-te gebräuchliche Wortsegment zu einer Basisform des Wortes verknüpft.
  • In den Schritten 336 und 338 werden entsprechend den Schritten 304 bis 334 Basisformen des Wortes für aufeinanderfolgende Wörter des Vokabulars gebildet.
  • Während der Verarbeitung werden die Basisformen des Wortes im Hauptspeicher des Computers als Kette von phonemischen Markov- Modellen gespeichert. Ein Wort kann beispielsweise als Kette aus F&sub5;-F&sub1;&sub0;-F&sub1;&sub0;--- gespeichert werden. Die Wahrscheinlichkeiten aller Markov-Modelle werden ebenfalls im Hauptspeicher gespeichert: Speicherung der Wahrscheinlichkeiten von Markov-Modellen Modell Zustand S1 Boden tr1 Bogenwahrsch Wahrsch.
  • Mit den gespeicherten Wahrscheinlichkeiten der phonemischen Markov-Modelle und den gemäß der vorliegenden Erfindung ermittelten Basisformen des Wortes wird die Spracherkennung durch akustischen Vergleich der Basisformen des Wortes mit den erzeugten Marken wie in der oben beschriebenen Europa-Patentschrift EP-A- 0'239'016 mit dem Titel "Speech Recognition System" durchgeführt.
  • Das Verfahren zur Entwicklung der Basisform wurde auf einem Datenverarbeitungssystem IBM 3090 in der PLI-Sprache implementiert und erforderte die folgenden Speicherkapazitäten:
  • Speicher für verborgene Markov-Modell-Statistiken: 200 kByte
  • Speicherung der Marken: 10 Bytes/Marke -> 1 kByte pro Wort Für ein Vokabular von 20000 Wörtern mit 10 Sprechweisen pro Wort sind 200 MByte Speicherplatz erforderlich.
  • phonemische Einzelbasisform: 1 kByte/Basisform. Für ein Vokabular mit 20000 Wörtern sind 20 MByte Speicherplatz erforderlich.

Claims (17)

1. Verfahren zum Bilden von Basisformen aus Markov-Modellen für Wörter in einem Spracherkennungssystem mit Markov-Modellen, das einen akustischen Prozessor aufweist, der eine Kette von Marken erzeugt, die aufeinanderfolgenden Zeitintervallen eines ausgesprochenen Eingangs entsprechen, wobei jede Marke eine aus einem Alphabet von Marken ist, welches die folgenden Schritte umfaßt:
(a) für jedes aus einem Satz von Markov-Modellen, in dem jedes Markov-Modell einer jeweiligen Marke entspricht und in dem jedes Markov-Modell eine Mehrzahl von Zuständen und eine Mehrzahl von Bögen aufweist, bei welchen sich jeder Bogen von einem Zustand zu einem Zustand erstreckt, Berechnen und Speichern von Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten in einem Rechnerspeicher, bei welchen jede Markenausgangswahrscheinlichkeit die Wahrscheinlichkeit einer gegebenen Marke repräsentiert, die bei einem gegebenen Bogen erzeugt wird,
(b) Erzeugen von n jeweiligen Ketten von Marken mittels des akustischen Prozessors entsprechend jeder von n Aussprachen eines Subjektwortes, das aus einem Vokabular von Wörtern ausgewählt ist, wobei das Verfahren durch die folgenden weiteren Schritte gekennzeichnet ist:
(c) Auswählen der Kette von Marken mit einer Länge, die am nächsten zu der Durchschnittslänge aller in Schritt (b) erzeugten Ketten liegt, als eine Prototypkette,
(d) Verketten der Markov-Modelle der Reihe nach, welche den aufeinanderfolgenden Marken in der Prototypkette entsprechen und Speichern der verketteten Folge,
(e) für eine andere Kette als die Prototypkette, Ausrichten der Kette an aufeinanderfolgenden Markov-Modellen in der verketteten Folge auf der Grundlage des Viterbi-Algorithmus unter Verwendung der gespeicherten Wahrscheinlichkeiten, wodurch aufeinanderfolgende Unterketten von Null oder mehr Marken erzeugt werden, die mit den aufeinanderfolgenden Markov-Modellen in der verketteten Folge ausgerichtet sind,
(f) Wiederholen des Schrittes (e) für jede erzeugte Kette des Schrittes (b), die eine andere ist als die Prototypkette,
(g) Gruppieren der i-ten Unterketten der erzeugten Ketten des Schrittes (b), wobei jede eine jeweilige Unterkette aufweist, die jedem Markov-Modell in der verketteten Folge des Schrittes (d) entspricht und jede Gruppe für jede i-te Kette einem gemeinsamen Wortsegment entspricht und
(h) Bilden einer Folge aus einem oder mehr Markov-Modellen für jedes i-te gemeinsame Segment mit der größten Verbundwahrscheinlichkeit für das Erzeugen der i-ten Marke der Prototypkette und der i-ten Unterketten aller anderen Ketten und
(j) Verketten der jeweiligen gebildeten Folgen von Markov- Modellen für die aufeinanderfolgenden gemeinsamen Segmente des Subjektwortes, um eine Basisform für Wörter zu bilden.
2. Verfahren nach Anspruch 1, welches den folgenden weiteren Schritt umfaßt:
(k) Wiederholen der Schritte (a) bis (j) für jedes Wort in dem Vokabular.
3. Verfahren nach Anspruch 2, bei welchem der Schritt (h) die folgenden Schritte umfaßt:
(1) für jedes i-te gemeinsame Segment Lokalisieren einer konsistenten Stelle in jeder i-ten Unterkette, die dieser entspricht und Teilen jeder Unterkette bei der konsistenten Stelle derselben in einen linken Teil und einen rechten Teil.
4. Verfahren nach Anspruch 3, bei welchem der Schritt (1) die folgenden Schritte umfaßt:
(m) Bestimmen des Markov-Modells aus den gespeicherten Wahrscheinlichkeiten, welches die größte Verbundwahrscheinlichkeit für das Erzeugen der i-ten Marke der Prototypkette und der i-ten Unterketten aller anderen Ketten aufweist,
(n) Anfügen eines Markov-Modells vor dem bestimmten Markov-Modell, um ein geordnetes Paar von Markov-Modellen zu bilden und Berechnen der Wahrscheinlichkeit des geordneten Paares von Markov-Modellen, welche die i-te Marke der Prototypkette und jede der i-ten Unterketten der anderen Ketten erzeugen, auf der Grundlage der gespeicherten Wahrscheinlichkeiten,
(o) Wiederholen des Schrittes (n) für jedes Markov-Modell in dem Satz, als das angefügte Markov-Modell,
(p) Anfügen eines Markov-Modells bei dem Ende des ausgewählten Markov-Modells, um ein geordnetes Paar von Markov-Modellen zu bilden und Berechnen der Wahrscheinlichkeit des geordneten Paares von Markov-Modellen, welche die i-te Marke der Prototypkette und jede der i-ten Unterketten der anderen Ketten erzeugen, auf der Grundlage der gespeicherten Wahrscheinlichkeiten,
(g) Wiederholen des Schrittes (p) für jedes Markov-Modell in dem Satz, als das angefügte Markov-Modell,
(r) Auswählen des geordneten Paares des angefügten Markov- Modells und des ausgewählten Markov-Modells, welches die größte Verbundwahrscheinlichkeit für das Erzeugen der i-ten Marke der Prototypkette und jeder der i-ten Unterketten der anderen Ketten aufweist und
(s) Durchführen eines Ausrichtverfahrens zwischen dem ausgewählten geordneten Paar von Markov-Modellen und jeder i-ten Unterkette, wobei die Stelle in jeder Unterkette, wo sich die zwei Markov-Modelle begegnen, die konsistente Stelle ist.
5. Verfahren nach Anspruch 3, welches die folgenden weiteren Schritte umfaßt:
(t) Trennen des linken Teils von dem rechten Teil jeder i- ten Unterkette bei der jeweiligen konsistenten Stelle derselben,
(u) Finden des einzelnen Markov-Modells PL mit der größten Verbundwahrscheinlichkeit für die linken Teile der i- ten Unterketten,
(v) Finden der Zwei-Modell-Folge aus allen Zwei-Modell- Folgen, welche das Markov-Modell PL enthalten, welches die größte Verbundwahrscheinlichkeit für das Erzeugen der linken Teile aufweist,
(w) falls die Zwei-Modell-Folge des Schrittes (v) mit größter Wahrscheinlichkeit größer ist als die Wahrscheinlichkeit, welche dem einzelnen laut PL zugeordnet ist, Ausrichten jeder i-ten Unterkette an der gefundenen Zwei-Modell-Folge und Abtrennen der gefundenen Zwei-Modell-Folge bei der Stelle des Begegnens in einen resultierenden linken Teil und einen resultierenden rechten Teil und
(x) Durchführen der Schritte (t) bis (w), wobei der resultierende linke Teil und der resultierende rechte Teil für den linken Teil beziehungsweise den rechten Teil eingesetzt werden.
6. Verfahren nach Anspruch 5, welches die folgenden weiteren Schritte umfaßt:
(y) Unterbrechen des Trennens, wenn ein einzelnes Markov- Modell mit größter Wahrscheinlichkeit eine größere Wahrscheinlichkeit aufweist als irgendeine Zwei-Modell-Folge, welche das einzelne Markov-Modell mit größter Wahrscheinlichkeit und ein angefügtes Markov- Modell enthält und
(z) Verketten der nicht-getrennten einzelnen Markov-Modelle, wobei die verketteten, nicht-getrennten Markov- Modelle eine grundlegende Basisform für das i-te Segment des Subjektwortes repräsentieren.
7. Verfahren nach Anspruch 6, welches die folgenden weiteren Schritte umfaßt:
(aa) Ausrichten jeder i-ten Unterkette an der Basisform verketteter nicht-getrennter einzelner Markov-Modelle und
(bb) für ein Markov-Modell in der verketten Basisform, Bestimmen der Marken, die an demselben ausgerichtet sind und entweder Löschen des Markov-Modells aus der verketteten Basisform, falls es keine ausgerichteten Marken gibt oder Finden des Markov-Modells, welches die Wahrscheinlichkeit für das Erzeugen der bestimmten Marken maximiert, falls es ausgerichtete Marken gibt
und
(cc) Ersetzen des Markov-Modells in der verketteten Basisform durch den gefundenen Laut, falls sie sich unterscheiden und
(dd) Wiederholen des Schrittes (cc) für jedes Markov-Modell in der verketteten grundlegenden Basisform des i-ten Segments des Subjektwortes.
8. Verfahren nach Anspruch 7, welches die folgenden weiteren Schritte umfaßt:
(ee) Wiederholen der Schritte (aa), (bb) und (cc) solange, bis jedes Markov-Modell in der verketteten Basisform die maximale Wahrscheinlichkeit für das Erzeugen der mit diesen ausgerichteten Marken aufweist,
wobei die aus dem Schritt (dd) resultierende Basisform eine verfeinerte Basisform für das Wortsegment ist.
9. Vorrichtung zum Bilden von Basisform aus Markov-Modellen für Wörter in einem Spracherkennungssystem mit Markov-Modellen, das einen akustischen Prozessor aufweist, der eine Kette von Marken erzeugt, die aufeinanderfolgenden Zeitintervallen eines ausgesprochenen Eingangs entsprechen, wobei jede Marke eine aus einem Alphabet von Marken ist, welche folgendes aufweist:
(a) für jedes aus einem Satz von Markov-Modellen, in dem jedes Markov-Modell einer jeweiligen Marke entspricht und in dem jedes Markov-Modell eine Mehrzahl von Zuständen und eine Mehrzahl von Bögen aufweist, bei welchen sich jeder Bogen von einem Zustand zu einem Zustand erstreckt, Mittel zum Berechnen und zum Speichern von Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten in einem Rechnerspeicher, bei welchen jede Markenausgangswahrscheinlichkeit die Wahrscheinlichkeit einer gegebenen Marke repräsentiert, die bei einem gegebenen Bogen erzeugt wird,
(b) Mittel zum Erzeugen von n jeweiligen Ketten von Marken mittels des akustischen Prozessors entsprechend jeder von n Ansprachen eines Subjektwortes, das aus einem Vokabular von Wörtern ausgewählt ist, wobei die Einrichtung dadurch gekennzeichnet ist, daß sie ferner folgendes aufweist:
(c) ein Mittel zum Auswählen der Kette von Marken mit einer Länge, die am nächsten zu der Durchschnittslänge aller in Schritt (b) erzeugten Ketten liegt als eine Prototypkette,
(d) Mittel zum Verketten der Markov-Modelle der Reihe nach, welche den aufeinanderfolgenden Marken in der Prototypkette entsprechen und zum Speichern der verketteten Folge,
(e) für eine andere Kette als die Prototypkette, Mittel zum Ausrichten der Kette an aufeinanderfolgenden Markov-Modellen in der verketteten Folge auf der Grundlage des Viterbi-Algorithmus unter Verwendung der gespeicherten Wahrscheinlichkeiten, wodurch aufeinanderfolgende Unterketten von Null oder mehr Marken erzeugt werden, die mit den aufeinanderfolgenden Markov- Modellen in der verketteten Folge ausgerichtet sind,
(f) Mittel zum Wiederholen des Schrittes (e) für jede erzeugte Kette des Schrittes (b) die eine andere ist als die Prototypkette,
(g) Mittel zum Gruppieren der i-ten Unterketten der erzeugten Ketten des Schrittes (b), wobei jede eine jeweilige Unterkette aufweist, die jedem Markov-Modell in der verketteten Folge des Schrittes (d) entspricht und jede Gruppe für jede i-te Kette einem gemeinsamen Wortsegment entspricht und
(h) Mittel zum Bilden einer Folge aus einem oder mehr Markov-Modellen für jedes i-te gemeinsame Segment mit der größten Verbundwahrscheinlichkeit für das Erzeugen der i-ten Marke der Prototypkette und der i-ten Unterketten aller anderen Ketten und
(j) Mittel zum Verketten der jeweiligen gebildeten Folgen von Markov-Modellen für die aufeinanderfolgenden gemeinsamen Segmente des Subjektwortes, um eine Basisform für Wörter zu bilden
10. Vorrichtung nach Anspruch 9, die ferner folgendes aufweist:
(k) Mittel zum Bilden einer einzelnen Folge von Markov-Modellen, die auf jedes i-te Segment angewandt werden können, das jeder Aussprache entspricht, wo 1 ≤ i ≤ N und N die Gesamtzahl von Segmenten ist, in welche das Subjektwort geteilt ist,
einschließlich,
(1) Mittel zum Finden einer besten ersten Ein-Modell-Basisform PL mit einer Lautlänge 1, welche die Verbundwahrscheinlichkeit für das Erzeugen der Unterketten maximiert, die sich aus mehrfachen Aussprachen eines gegebenen Wortes in einem Vokabular von Wörtern ergeben, wo die Lautlänge der Anzahl von Markov-Modellen der Reihe nach entspricht,
(m) Mittel zum Finden einer besten zweiten Zwei-Modell-Basisform mit einer Lautlänge 2 und in Form von entweder PLP&sub2; oder P&sub2;PL, die eine größere Verbundwahrscheinlichkeit aufweist, als irgendeine andere Basisform mit einer Länge 2,
(n) Mittel zum iterativen Vergleichen der Verbundwahrscheinlichkeit der gefundenen besten ersten Basisform mit der Verbundwahrscheinlichkeit der gefundenen besten zweiten Basisform und falls die Verbundwahrscheinlichkeit für die gefundene beste zweite Basisform größer ist, als die Verbundwahrscheinlichkeit der aufgefunden besten ersten Basisform, Trennen jeder Markenkette in einen linken Teil und einen rechten Teil bei der Stelle, welche die Wahrscheinlichkeit maximiert, daß der linke Teil von dem linken Modell erzeugt wird und der rechte Teil von dem rechten Teil erzeugt wird,
(o) Mittel zum Wiederholen der Schritte (1) bis (n) solange, bis alle Basisform eine einzelne Lautlänge besitzen und keine gefundene beste zweite Basisform eine größere Wahrscheinlichkeit aufweist, als ihre jeweilige gefundene beste erste Basisform,
(p) Mittel zum Verketten der Basisform mit einer Lautlänge 1, um eine grundlegende Basisform des i-ten Wortsegments nach dem Schritte (0) zu bilden.
11. Vorrichtung nach Anspruch 10, die folgendes aufweist:
(q) Mittel zum Ausrichten der verketteten Basisform an den i-ten Unterketten unter Verwendung des Viterbi-Algorithmus und zum Identifizieren einer Gruppe von Marken in jeder i-ten Unterkette, die jedem Markov-Modell in der verketteten Basisform für das i-te Wortsegment entspricht und
(r) Mittel zum Ersetzen irgendeines Markov-Modells in der verketteten Basisform in einem Speicher, welcher die Basisform enthält, durch irgendein anderes Markov-Modell in dem Satz mit einer größeren Verbundwahrscheinlichkeit für das Erzeugen der Markengruppen in den mehrfachen i-ten Unterketten.
12. Vorrichtung nach Anspruch 11, die folgendes aufweist:
(s) Mittel zum Verketten der jeweiligen einzelnen Folgen für aufeinanderfolgende Folgen, um eine Folge von Markov-Modellen für das Subjektwort zu bilden und
(t) Mittel zum Wiederholen der Schritte, die mittels (a) bis (s) für ein Wort nach dem anderen in einem Vokabular von Wörtern durchgeführt werden.
13. Vorrichtung nach Anspruch 12, bei welcher das Mittel (d) zum Verketten der Markov-Modelle der Reihe nach folgendes aufweist:
(u) Mittel zum Auswählen einer der Ketten für ein gegebenes Wort und zum Bilden einer vorläufigen Basisform des gegebenen Wortes, das aus der Folge von fenemic Markov-Modellen gebildet ist, welche den Marken in der ausgewählten Kette entsprechen und
(v) Mittel zum Berechnen von Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten für die fenemic Markov-Modelle.
14. Vorrichtung nach Anspruch 9, bei welcher das Mittel (d) zum Verketten der Markov-Modelle der Reihe nach folgendes aufweist:
(w) Mittel zum Auswählen einer der Ketten für ein gegebenes Wort und zum Bilden einer vorläufigen Basisform des gegebenen Wortes, das aus der Folge von fenemic Markov-Modellen gebildet ist, welche den Marken in der ausgewählten Kette entsprechen,
(x) Mittel zum Berechnen von Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten für fenemic Markov- Modellen auf der Grundlage der Marken, die für alle Ketten erzeugt werden, die andere sind, als die ausgewählte eine Kette des Schrittes (w).
15. Vorrichtung nach Anspruch 9, bei welcher das Mittel (c) zum Auswählen der Kette von Marken folgendes aufweist:
(y) Mittel zum Gruppieren von Unterketten, die einem Markov-Modell in der Einzel-Basisform nach einer anderen entsprechen, wobei jede Gruppe einem gemeinsamen Segment des Subjektwortes entspricht,
(z) Mittel zum Bestimmen des besten einzelnen Markov-Modells P1 zum Erzeugen der Unterketten in einer i-ten Gruppe,
(aa) Mittel zum Bestimmen der besten Zwei-Modell-Basisform der Form P&sub1;P&sub2; oder P&sub2;P&sub1;, zum Erzeugen der Unterketten in der i-ten Gruppe,
(bb) Mittel zum Ausrichten der besten Zwei-Modell-Basisform an jeder Unterkette in der i-ten Gruppe,
(cc) Mittel zum Trennen jeder Unterkette der i-ten Gruppe in einen linken Teil und einen rechten Teil, wobei der linke Teil dem ersten Markov-Modell der Basisform für zwei Laute entspricht und der rechte Teil dem zweiten Markov-Modell der Basisform für zwei Laute entspricht,
(dd) Mittel zum Identifizieren jedes linken Teils als eine linke Unterkette und jedes rechten Teil als eine rechte Unterkette,
(ee) Mittel zum Verarbeiten des Satzes linker Unterketten auf dieselbe Weise, wie des Satzes von Unterketten in der i-ten Gruppe einschließlich des weiteren Schrittes des Verhinderns einer weiteren Trennung einer Unterkette, wenn die Einzelmodell-Basisform derselben eine größere Wahrscheinlichkeit für das Erzeugen der Unterkette aufweist, als die beste Zwei-Modell-Basisform,
(ff) Mittel zum Verarbeiten des Satzes rechter Unterketten auf dieselbe Weise wie des Satzes von Unterketten in der i-ten Gruppe einschließlich des weiteren Schrittes des Verhinderns einer weiteren Trennung einer Unterkette wenn die Einzelmodell-Basisform derselben eine größere Wahrscheinlichkeit für das Erzeugen der Unterkette aufweist, als die beste Zwei-Modell-Basisform,
(gg) Mittel zum Verketten der nicht-getrennten Einzel-Modelle in einer Reihenfolge, welche der Reihenfolge der Gruppen entspricht, welchen sie entsprechen,
(hh) Mittel zum Ausrichten der verketteten Basisform an jeder der Unterketten für die i-te Gruppe und zum Identifizieren der Unterkette in jeder Unterkette der i-ten Gruppe, die dieser entspricht, für jedes Modell in der verketteten Basisform, wobei die Unterketten einem gegebenen Modell entsprechen, das ein Satz gemeinsamer Unterketten ist,
(jj) Mittel zum Bestimmen des Markov-Modells mit der größten Verbundwahrscheinlichkeit für das Erzeugen der gemeinsamen Unterketten, für jeden Satz gemeinsamer Unterketten,
(kk) Mittel zum Ersetzen des Modells für dieses in der verketteten Basisform durch das bestimmte Modell mit größter Verbundwahrscheinlichkeit für jede gemeinsame Unterkette und wobei die Einrichtung für eine Wiederholung der Schritte (hh) bis (kk) sorgt, die von den jeweiligen Mitteln solange durchgeführt werden, bis keine Modelle ersetzt werden.
16. Vorrichtung nach Anspruch 9, die ferner folgendes aufweist:
Modellbildungsmittel (216) zum Bestimmen des fenemic Markov-Modells oder der fenemic Markov-Modell-Folge mit der größten Verbundwahrscheinlichkeit für das Erzeugen der Marken in einer Gruppe von Unterketten, die von den Korrelator-Mitteln gebildet werden.
17. Vorrichtung nach Anspruch 16, die ferner folgendes aufweist:
Übungsmittel (206) zum Berechnen von Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten für jedes fenemic Markov-Modell, die folgendes aufweisen:
Mittel zum Wählen irgendeiner Kette von Marken, die für das Subjektwort erzeugt werden,
Mittel, die mit den Mitteln zum Wählen von Ketten verbunden sind, um eine vorläufige Probebasisform aus der irgendeinen gewählten Kette zu bilden und
Mittel, die mit den Mitteln zum Bilden einer Probebasisform und mit den Speichermitteln verbunden sind, um Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten zu berechnen.
DE8888810855T 1987-12-16 1988-12-12 Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. Expired - Fee Related DE3878541T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/133,719 US4819271A (en) 1985-05-29 1987-12-16 Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments

Publications (2)

Publication Number Publication Date
DE3878541D1 DE3878541D1 (de) 1993-03-25
DE3878541T2 true DE3878541T2 (de) 1993-08-12

Family

ID=22459990

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8888810855T Expired - Fee Related DE3878541T2 (de) 1987-12-16 1988-12-12 Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.

Country Status (5)

Country Link
US (1) US4819271A (de)
EP (1) EP0321410B1 (de)
JP (1) JPH01265297A (de)
CA (1) CA1320274C (de)
DE (1) DE3878541T2 (de)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
KR950013127B1 (ko) * 1993-03-15 1995-10-25 김진형 영어 문자 인식 방법 및 시스템
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
CN1130688C (zh) * 1995-05-03 2003-12-10 皇家菲利浦电子有限公司 基于新字建模的语音识别方法和装置
US5706397A (en) * 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6514201B1 (en) 1999-01-29 2003-02-04 Acuson Corporation Voice-enhanced diagnostic medical ultrasound system and review station
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
DE102004063552A1 (de) * 2004-12-30 2006-07-13 Siemens Ag Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070094024A1 (en) 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8229232B2 (en) * 2007-08-24 2012-07-24 CVISION Technologies, Inc. Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
US8010341B2 (en) 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) * 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
WO2013003772A2 (en) 2011-06-30 2013-01-03 Google Inc. Speech recognition using variable-length context
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN111160024B (zh) * 2019-12-30 2023-08-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
JPS62194295A (ja) * 1986-02-18 1987-08-26 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン ワード・マルコフ・モデル生成方法
EP0238697B1 (de) * 1986-03-27 1991-08-14 International Business Machines Corporation Verfahren zur Erzeugung vor Wortmustern aus mehreren Äusserungen für Spracherkennung

Also Published As

Publication number Publication date
DE3878541D1 (de) 1993-03-25
JPH01265297A (ja) 1989-10-23
EP0321410B1 (de) 1993-02-17
US4819271A (en) 1989-04-04
EP0321410A2 (de) 1989-06-21
CA1320274C (en) 1993-07-13
EP0321410A3 (en) 1989-10-25

Similar Documents

Publication Publication Date Title
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3783154T2 (de) Spracherkennungssystem.
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69225173T2 (de) Spracherkennungsgerät
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69717899T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60201262T2 (de) Hierarchische sprachmodelle
DE69416670T2 (de) Sprachverarbeitung
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69229124T2 (de) Mehrteiliger expertsystem
DE3723078A1 (de) Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee