DE3878541T2 - Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. - Google Patents
Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.Info
- Publication number
- DE3878541T2 DE3878541T2 DE8888810855T DE3878541T DE3878541T2 DE 3878541 T2 DE3878541 T2 DE 3878541T2 DE 8888810855 T DE8888810855 T DE 8888810855T DE 3878541 T DE3878541 T DE 3878541T DE 3878541 T2 DE3878541 T2 DE 3878541T2
- Authority
- DE
- Germany
- Prior art keywords
- chain
- markov
- model
- markov model
- base form
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000926 separation method Methods 0.000 claims 3
- 101001126414 Homo sapiens Proteolipid protein 2 Proteins 0.000 claims 1
- 101001129122 Mannheimia haemolytica Outer membrane lipoprotein 2 Proteins 0.000 claims 1
- 101000642171 Odontomachus monticola U-poneritoxin(01)-Om2a Proteins 0.000 claims 1
- 102100030486 Proteolipid protein 2 Human genes 0.000 claims 1
- 239000013598 vector Substances 0.000 description 17
- 230000007704 transition Effects 0.000 description 15
- 230000004044 response Effects 0.000 description 3
- 102100036426 Acid phosphatase type 7 Human genes 0.000 description 2
- 101000928881 Homo sapiens Acid phosphatase type 7 Proteins 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf Sprachverarbeitung, wie etwa die Spracherkennung, wobei jedes Wort einer Anzahl von Wörter aus einem bestimmten Vokabular im Hauptspeicher eines Computers als Basisform des Wortes, bestehend aus einer Folge von Markov-Modellen gespeichert und abrufbar sein soll.
- In der Spracherkennung wurde die Verwendung von Markov-Modellen vorgeschlagen. Ein wesentlicher Schritt bei der Spracherkennung mit Markov-Modellen ist die Definition jedes einzelnen Wortes eines Vokabulars als eine entsprechende Folge von Markov-Modellen.
- Nach dem Stand der Technik entspricht jedes Markov-Modell einem Phonem oder einem phonetischen Element. Aufgrund von Erfahrung und Wahrnehmung definiert ein(e) Phonetiker(in) jedes Wort als eine entsprechende Folge von phonetischen Elementen. Die Markov- Modelle, die den Folgen von phonetischen Elementen zugeordnet sind, werden zu einer phonetischen Basisform des Wortes verknüpft. FIG. 1 zeigt eine phonetische Basisform 100 des Wortes "THE", welche eine Kette von drei phonetischen Markov-Modellen beinhaltet: Das erste steht für das phonetische Element DH, das zweite für das phonetische Element UH1 und das dritte für das phonetische Element XX. Das internationale phonetische Alphabet enthält die phonetischen Standardelemente.
- Alle drei Markov-Modelle weisen einen Anfangs Zustand und einen Endzustand auf, eine Anzahl von verschiedenen Zuständen dazwischen sowie eine Anzahl von Bögen, die sich jeweils von einem Zustand zu einem anderen erstrecken. In einer Übergangsphase wird für jeden Bogen eine Wahrscheinlichkeit ermittelt, und für Bögen mit einem von Null verschiedenen Wert (durch durchgezogene
- Linien gekennzeichnet) werden Markenausgangswahrscheinlichkeiten ermittelt. Jede Markenausgangswahrscheinlichkeit entspricht der Wahrscheinlichkeit der Erzeugung einer Marke bei der Belegung eines der vorhandenen Bögen. In früheren Spracherkennungssystemen mit Markov-Modellen, wie in der Europa-Patentschrift EP-A-0,239,016 mit dem Titel "Speech Recognition System" beschrieben, wird jedes Wort eines Vokabulars durch eine Kette von Markov-Modellen dargestellt, wie sie in FIG. 1 gezeigt ist. Während der Spracherkennung erzeugt ein Akustikprozessor eine Kette von Marken, die einer sprachlichen Äußerung entspricht. Während die Folge von phonetischen Markov-Modellen jedes Wortes, die Folge der Bogenwahrscheinlichkeiten und der Markenausgangswahrscheinlichkeiten der aufeinander folgenden Bögen abläuft, kann die Kette der erzeugten Marken verschiedene Schritte durchlaufen. Aufgrund dieser Schritte wird die Wahrscheinlichkeit der Kette von Markov-Modellen jedes einzelnen Wortes festgelegt, welches diese Kette von Marken erzeugt.
- Es gibt eine Reihe von Problemen mit der phonetischen Annäherung von Markov-Modellen. Erstens hängt die Kette von Markov-Modellen jedes Wortes sehr stark von der Erfahrung und Wahrnehmung des phonetikers ab. Die Kette der Markov-Modelle, die einem Wort von verschiedenen Phonetikern zugeordnet wird, kann unterschiedlich ausfallen. Zweitens ist das Markov-Modell eines phonetischen Elements relativ komplex. Die Spracherkennung mit Hilfe der phonetischen Markov-Modelle kann beträchtlichen Rechenaufwand erfordern. Drittens ist die Erkennung gesprochener Worte ausschließlich mittels der phonetischen Markov-Modelle nicht mit optimaler Genauigkeit möglich.
- Teilweise können die oben genannten Probleme gelöst werden, indem man näherungsweisen akustischen Vergleich für alle Wörter durchführt, um eine kurze Liste aller in Frage kommender Wortkandidaten zu ermitteln. Jeder der Wortkandidaten wird dann zu einem detaillierten akustischen Vergleich verarbeitet. Durch die Reduzierung der Anzahl detailliert zu verarbeitender Wörter wird Rechenleistung eingespart. Dieser Ansatz wurde in der obengenannten Europa-Patentschcrift EP-A-0'239'016 mit dem Titel "Speech Recognition System" besprochen.
- Um die Genauigkeit zu verbessern und um dem Problem der Abhängigkeit von einem Phonetiker zu begegnen, wurde ein anderer Typ von Markov-Modell zur Spracherkennung vorgeschlagen. Zur Veranschaulichung des zweiten Markov-Modells ist zu beachten, daß die Verwendung eines Akustikprozessors für ein Spracherkennungssystem mit Markov-Modellen bezeichnend ist. Dieser Prozessor wandelt eine akustische Wellenform (Spracheingabe) in eine Kette von Marken um. Die Marken der Kette werden aus einem Alphabet von Marken ausgewählt. Jede Marke des Alphabets entspricht einer Gruppe vordefinierter Vektoren in einem r-dimensionalen Raum, durch den die gesamte Sprache definiert ist. Für jedes Zeitintervall prüft der Akustikprozessor eine Anzahl von r Sprachmerkmalen (in der Größenordnung von 20 Merkmalen (z.B. Erregeramplituden in 20 entsprechenden Freguenzbändern). Aufgrund der Werte der r Merkmale wird ein "Erkennungsvektor" aus r Komponenten gebildet. Aus einer Anzahl vordefinierter Gruppen von Mustervektoren (z.B. 200 Gruppen) wird diejenige Gruppe ausgewählt, zu welcher der Erkennungsvektor gehört. Jede Gruppe wird durch eine entsprechende Marke gekennzeichnet. In jedem Zeitintervall wird vom Akustikprozessor ein Erkennungsvektor erzeugt, die Gruppe wird bestimmt, zu welcher der Vektor gehört, und die Marke dieser Gruppe wird dem Zeitintervall zugeordnet. So besteht der Signalausgang des Akustikprozessors aus einer Kette von Marken.
- Das obengenannte zweite Markov-Modell beruht auf Marken statt auf phonetischen Elementen. Das bedeutet, daß es für jede Marke ein Markov-Modell gibt. Dort, wo der Ausdruck "Phonem" auf den Bezug zu Marken hindeutet, gibt es zu jeder Marke ein phonemisches Markov-Modell.
- In der Spracherkennung mit phonemischen Markov-Modellen wird jedes Wort durch eine Kette von phonemischen Markov-Modellen als Basisform des Wortes dargestellt. Die Kette von Marken, die ein Akustikprozessor als Reaktion auf eine sprachliche Äußerung erzeugt, wird mit den Ketten von phonemischen Markov-Modellen der Wörter verglichen, um die Wahrscheinlichkeit der Wörter zu bestimmen.
- Da Marken nicht so einfach wie phonetische Elemente unterschieden werden können, kann eine Basisform eines Wortes aus phonemischen Markov-Modellen nicht ohne weiteres durch den Menschen hergestellt werden. Die phonemische Basisform eines Wortes wird deshalb automatisch durch den Computer erstellt. Ein Sprecher kann sich diesem Verfahren auf einfache Weise annähern, indem er jedes Wort einmal ausspricht und über den Akustikprozessor eine Kette von Marken erzeugt. Die einzelnen phonemischen Markov-Modelle werden entsprechend der aufeinanderfolgenden Marken der Kette des betreffenden Wortes aneinandergereiht und bilden so eine Basisform des Wortes aus phonemischen Markov-Modellen. Wenn also die Marken L1-L5-L10---L50 erzeugt werden, bilden die phonemischen Markov-Modelle F1 F5 F10---F50 die Basisform des Wortes aus phonemischen Markov-Modellen. Diese Art der Basisform wird als "Einzelbasisform" bezeichnet. Die Einzelbasisform ist nicht besonders genau, da sie nur mit einer einzigen Sprechweise des zugrundeliegenden Wortes erstellt wird. Durch ein Wort mit verschiedenen Aussprachemöglichkeiten oder eine ungenaue Aussprache des Wortes wird die Einzelbasisform besonders unbefriedigend.
- Um die Einzelbasisform zu übertreffen, wurde eine Basisform vorgeschlagen, die mit verschiedenen Aussprachemöglichkeiten eines zugrundeliegenden Wortes erstellt wird. Eine Methode und die Maschine hierfür sind in der Europa-Patentschrift EP-A-0 238'697 mit dem Titel "Method of constructing baseform models of words from multiple utterances for speech recognition systems" beschrieben. In diesem Patent werden Basisformen von Wörtern erstellt, die nicht nur eine höhere Genauigkeit durch die zugrundeliegende unterschiedliche Aussprache aufweisen, sondern auch automatisch ohne menschliches Zutun erzeugt werden. Dort wird erwähnt, daß natürlich genauso wie für ganze Wörter auch Basisformen für Wortsegmente mit mehrfacher Sprechweise erstellt werden können.
- Gemäß EP-A-0238697 sind die Basisformen wie folgt festgelegt:
- - Alle Phonemketten, die durch die Äußerung eines gegebenen Wortes erzeugt werden, werden mit einer Gruppe vordefinierter phonemischer Lautmaschinen verglichen. Die Lautmaschine, welche mit der größten Wahrscheinlichkeit alle Phonemketten des entsprechenden Wortes erzeugt, wird als die beste Basisform P&sub1; mit der Länge 1 ausgewählt.
- - Unter Beibehaltung von Laut P&sub1;, wird die beste Basisform der Länge 2 mit der Form P&sub1;P&sub2; oder p&sub2;P&sub1; gesucht und an allen Phonemketten ausgerichtet. Entlang der aneinandergereihten Ketten werden in jeder der Phonemketten übereinstimmende Punkte lokalisiert. Jede linke Hälfte wird als linke Unterkette und jede rechte Hälfte als rechte Unterkette betrachtet.
- - Die linke und die rechte Unterkette werden dann getrennt aber gleichermaßen nach dem Motto teile und herrsche behandelt.
- Die vorliegende Erfindung bezieht sich auf eine Methode und Einrichtungen zur Aufteilung von Wörtern und Ermittlung von Ketten von Markov-Modellen für die Segmente auf der Basis von mehrfachen Aussprachemöglichkeiten. Die Ketten von Markov-Modellen für aufeinanderfolgende Segmente eines Wortes werden zur Basisform des gesamten Wortes verknüpft.
- Im ersten Schritt werden verschieden Sprechweisen eines zugrundeliegenden Wortes von einem Akustikprozessor verarbeitet, um verschiedene Ketten von Marken zu erzeugen. Eine der Ketten wird dann als Prototyp-Kette ausgewählt (bevorzugt nach der Länge der Kette). Von der Prototyp-Kette wird eine Einzelbasisform bevorzugt aus phonemischen Markov-Modellen abgeleitet. Die Einzelbasisform wird dann gegenüber verschiedenen durch das zugrundeliegende Wort erzeugten Ketten ausgerichtet, welche sich von der Prototyp-Kette unterscheiden. Jede Kette wird dabei in aufeinanderfolgende Unterketten (aus jeweils null oder mehr Marken) aufgeteilt. Jede fortlaufende Unterkette entspricht einem fortlaufenden Modell in der Einzelbasisform. Für jede der verschiedenen Ketten gibt es eine Unterkette, die nach einem phonemischen Markov-Modell in der Einzelbasisforin ausgerichtet ist. Die nach einem vorgegebenen phonemischen Markov-Modell ausgerichteten Unterketten sind in Gruppen aufgeteilt. Jede Gruppe stellt ein segment eines Wortes dar. Die Unterketten einer Gruppe werden gemeinsam geprüft, und es wird das phonemische Markov-Modell oder die Kette von phonemischen Markov-Modellen ermittelt, welche mit der größten Wahrscheinlichkeit die Unterketten der entsprechenden Gruppe erzeugen würde. Dieses phonemische Markov- Modell oder diese Kette von phonemischen Markov-Modellen wird der Gruppe zugewiesen und auf diese Weise das Wortsegment dargestellt.
- Die phonemischen Markov-Modelle oder die Kette der Modelle für aufeinanderfolgende Wortsegmente werden zu einer Basisform des Wortes verknüpft. Der Prozeß wird für alle Wörter eines vokabulars wiederholt, um höchst exakte Basisformen von Wörtern zu erhalten, die automatisch erzeugt werden, ohne daß der Mensch eingreifen muß dadurch Unzulänglichkeiten verursacht.
- In Übereinstimmung mit der vorliegenden Erfindung sind eine entsprechende Methode und eine entsprechende Einrichtung in den Ansprüchen 1 und 9 dargelegt.
- FIG. 1 ist die Darstellung einer Basisform eines Wortes mit phonetischen Markov-Modellen, welche in anderen Sprachprozessoren zur Spracherkennung mittels Markov-Modellen verwendet wird.
- FIG. 2 ist ein Blockdiagramm, welches die Hauptelemente der vorliegenden Erfindung darstellt.
- FIG. 3 ist eine Darstellung von Marken, die aufgrund verschiedener Sprechweisen von Wörtern erzeugt werden.
- FIG. 4 ist eine Darstellung eines einzelnen herausgegriffenen Markov-Modells, wie es in der vorliegenden Erfindung verwendet wird.
- FIG. 5 ist die Darstellung der Ausrichtung einer Einzelbasisform aus einer Sprechweise eines Wortes an den einzelnen Ketten von Marken aus anderen entsprechenden Aussprachen des Wortes.
- FIG. 6 (schließt die Teile 6a und 6b ein) ist ein Flußdiagramm zur Darstellung der Methodik der vorliegenden Erfindung.
- FIG. 7 ist ein Flußdiagramm zur detaillierten Darstellung der einzelnen Schritte bei der Auswahl einer Prototyp-Kette.
- FIG. 8 ist ein Flußdiagramm zur detaillierten Darstellung der Einteilung von Unterketten in Gruppen und der Zuordnung der Gruppen zu einem gebräuchlichen Wortsegment.
- FIG. 9 ist ein Flußdiagramm zur Darstellung der Bestimmung des besten Markov-Modells oder der besten Kette von Markov-Modellen.
- Entsprechend FIG. 2 wird ein System 200 für die Darstellung von Wörtern durch entsprechende Folgen von Markov-Modellen beschrieben.
- Ein Akustikprozessor 202 erzeugt eine Kette von "Marken" als Reaktion auf eine Eingabe in Form einer sprachlichen Äußerung. Genauer gesagt mißt oder verarbeitet der Akustikprozessor 202 Amplituden für eine Vielzahl von festgelegten Sprachmerkmalen. Jedes Merkmal entspricht einer Vektorkomponente. Bei zwanzig Merkmalen hat der als "Erkennungsvektor" bezeichnete Vektor zwanzig Komponenten. Für aufeinanderfolgende Zeitintervalle erzeugt der Akustikprozessor 202 aufeinanderfolgende Erkennungsvektoren. Im Akustikprozessor 202 ist ein Alphabet von Prototyp- Vektoren gespeichert, wobei eine Anzahl von 200 Prototyp-Vektoren für das Alphabet typisch ist. Jeder Prototyp-Vektor stellt eine ganz bestimmte Gruppe von Erkennungsvektoren dar. Jeder erzeugte Erkennungsvektor ist einer einzigen Gruppe zugeordnet und wird durch einen einzigen Prototyp-Vektor dargestellt. Jeder Prototyp-Vektor ist durch eine Marke gekennzeichnet, wie L1, L2, L3,... oder L200 oder irgendeine andere Kennzeichnung. Der Ausdruck "Phonem" kann also durch den Ausdruck "Marke" ersetzt werden und der Ausdruck "phonemisch" bedeutet "mit einer Marke verknüpft".
- Gemäß der Erfindung werden mehrere Sprechweisen eines Wortes in den Akustikprozessor 202 gesprochen. Für jede Sprechweise gibt es eine entsprechende Kette von Marken, welche im Hauptspeicher des Computers gespeichert wird. Dies ist in FIG. 3 dargestellt. Das Ergebnis einer ersten Sprechweise eines Wortes WORT1 ist eine Kette von Marken: L10-L20-L20-L30-L32---L185. Jeder Marke entspricht einem Zeitintervall von vorzugsweise einer Centisekunde; also sind in jeder Kette typischerweise 60 bis 100 Marken enthalten. Aus einer zweiten Sprechweise von WORT1 ergibt sich die Kette von Marken L10-L10-L10-L20-L35-L200---L1. Eine n&sub1;-te Sprechweise von WORT1 ergibt eine Kette von Marken L20-L30-L32- L31-L32---L10. Für das mehrfach ausgesprochene Wort WORT1 werden n&sub1; verschiedene Ketten von Marken erzeugt. Die Ketten sind unterschiedlich, da die gemessenen Merkmale für jede Sprechweise im selben Zeitintervall durch verschiedene Sprechgeschwindigkeit, unterschiedliche Aussprache, anderen Wortzusammenhang, Lärm oder andere Faktoren variieren können. Der Akustikprozessor 202 wiederholt das Verfahren der Erzeugung verschiedener Ketten für jedes der zahlreichen Wörter eines Vokabulars. Dies zeigt FIG.3 durch die Darstellung einer Kette von Merkmalen, die mit der nw- ten Sprechweise des letzten Wortes WORTw endet.
- Die verschiedenen Ketten für jedes Wort werden im Speicher 204 für Ketten von Marken gespeichert (FIG.2).
- Für jedes Wort im Speicher 204 bestimmt ein Modelltrainer 206 eine Kette von phonemischen Markov-Modellen und ermittelt Werte der Bogenwahrscheinlichkeiten und Werte der Markenausgangswahrscheinlichkeiten für jedes phonemische Markov-Modell. Jedes phonemische Markov-Modell ist ein Element aus einer endlichen Menge von phonemischen Markov-Modellen.
- Vorzugsweise entspricht jedes Markov-Modell aus dieser Menge einer Marke im Alphabet der Marken. Solche Markov-Modelle werden hier als "phonemische Markov-Modelle" bezeichnet. Alle phonemischen Markov-Modelle sind vorzugsweise so strukturiert, wie in FIG.4 gezeigt ist. Also hat jedes phonemische Markov-Modell zwei Zustände S1 und S2. Ein erster Übergang - oder Bogen -, als tr&sub1; bezeichnet, ist eine Schleife von S1 zurück nach S1. Von S1 nach S2 gibt es einen zweiten, als tr&sub2; bezeichneten Übergang - oder Bogen. Ein letzter Übergang - oder Bogen - ebenfalls von S1 nach S2, mit tr&sub3; bezeichnet, entspricht hingegen einem "Null"-Übergang. Im Gegensatz zu den Übergängen tr&sub1; und tr&sub2;, die Marken als Ausgänge für die phonemischen Markov-Modelle produzieren können, wird bei einem Übergang tr3 keine Marke erzeugt. Jedem Übergang ist eine Übergangswahrscheinlichkeit zugeordnet - eine Wahrscheinlichkeit dieses Übergangs im Zustand S1 des Markov-Modells. Den Übergängen tr&sub1; und tr&sub2; sind auch Markenausgangswahrscheinlichkeiten zugeordnet. Die Markenausgangswahrscheinlich keit entspricht der Wahrscheinlichkeit, mit der eine Marke während eines Übergangs erzeugt wird. Für den ersten Übergang tr&sub1; gibt es eine Gruppe von 200 Wahrscheinlichkeiten,
- wobei jede Wahrscheinlichkeit einer Marke des Alphabets entspricht. Ebenso gibt es 200 Markenwahrscheinlichkeiten für den Übergang tr&sub2;. Da während eines "Null" -Übergangs keine Marke erzeugt werden kann, gibt es für den Übergang tr&sub3; keine Markenausgangswahrscheinlichkeiten.
- Die Möglichkeiten der phonemischen Markov-Modelle werden durch den Modelltrainer 206 und durch die Anwendung des bekannten Vorwärts-Rückwärts-Algorithmus bestimmt. Dieser basiert auf statistischen Ermittlungen während eines als "Training" bezeichneten Prozesses. Kurz gesagt spricht ein Sprecher einen Trainingstext während einer Trainingssitzung. Der Trainingstext entspricht einer bekannten Kette von Markov-Modellen (mit initialisierten Wahrscheinlichkeitswerten). Ein Sprecher spricht den Trainingstext und ein Akustikprozessor (wie das Element 202) erzeugt als Reaktion auf den gesprochenen Text eine Kette von Marken. Jedes Phonem kann mehrfach im Trainingstext vorkommen. Anschließend werden Zählerwerte gebildet. Sie geben jeweils die Häufigkeit an, mit der ein vorgegebenes Markov-Modell eine vorgegebene Marke erzeugt. Jeder Zählerwert berücksichtigt alle entsprechenden Vorkommnisse des phonemischen Markov-Modells. Wenn beispielsweise ein phonemisches Markov-Modell F&sub1;&sub0; dreimal im Trainingstext vorkommt und beim ersten Auftreten die Marken L10-L1-L10-L9 erzeugt werden; beim zweiten Auftreten die Marke L10, und beim dritten Auftreten die Marken L9-L11 erzeugt werden, beträgt der Zählerwert des Phonems F10 für die Marke L10 2+1+0=3. Teilt man den Zählerwert für L10 durch die Zählerwerte für Marken, die vom phonemischen Markov-Modell F10 erzeugt werden, ergibt sich ein normiertes Ergebnis, in diesem Fall 3/7. Gemäß dem Vorwärts- Rückwärts-Algorithmus werden aus den Zählerwerten die Wahrscheinlichkeiten des phonemischen Markov-Modells errechnet. Einzelheiten des Vorwärts-Rückwärts-Algorithmus wurden in verschiedenen Veröffentlichungen dargelegt, wie "Continuous Speech Recognition by Statistical Methods" von F. Jelinek, Proceedings of the IEEE, Band 64, Seiten 532 bis 556 (1976) und "A Maximum Likelihood Approach to Continuous Speech Recognition", IEEE Transactions on Pattern Analysis and Machine Intelligence, Band PAMI- 5, Nummer 2, März 1983, von L. R. Bahl, F. Jelinek und L. R. Mercer, und sind in der Europa-Patentschrift EP-A-0'240'679 mit dem Titel "Improving the Training of Markovmodels used in a speech recognition system" umrissen.
- Eine der Ketten von Marken wird als Prototyp-Kette von einem Selektor 208 ausgewählt. Der Selektor 208 für Prototyp-Ketten wählt für ein zugrundeliegendes "WORTw" die gespeicherte Kette von Marken aus, deren Länge der durchschnittlichen Länge aller Ketten entspricht, die für das Wort "WORTw" erzeugt wurden. Die Prototyp-Kette wird in einen Markov-Modell-Selektor 210 eingegeben. Aufgrund der Wahrscheinlichkeiten der einzelnen Markov-Modelle wird das phonemische Markov-Modell ausgewählt, welches den einzelnen entsprechenden Marken der Prototyp-Kette entspricht. Wenn beispielsweise die Prototyp-Kette die Marken L10-L20-L20-L30-L32---L185 enthält (siehe erste Sprechweise von WORT1 in FIG.3), sind die ausgewählten aufeinanderfolgenden Markov-Modelle F&sub1;&sub0;-F&sub2;&sub0;-F&sub2;&sub0;-F&sub3;&sub0;-F&sub3;&sub2;---F&sub1;&sub8;&sub5;. Die Aneinanderreihung von aufeinanderfolgenden phonemischen Markov-Modellen wird als eine "Einzelbasisform" von WORTw bezeichnet, deren Marken in nur einer Kette einzeln je einem entsprechenden Markov-Modell zugeordnet sind.
- Gemäß der Erfindung wird die Kette von Markov-Modellen der Einzelbasisform auf die Marken in jeder anderen Kette als der Prototyp-Kette abgestimmt, die für das zugrundeliegende "WORTw" gespeichert sind. Die Abstimmung erfolgt durch einen Viterbi- Algorithmus-Justierer 212. Der Viterbi-Algorithmus-Justierer 212 richtet aufeinanderfolgende Unterketten in jeder gespeicherten Kette an aufeinanderfolgenden Markov-Modellen der Einzelbasisform aus. Dies ist in FIG.5 für WORT1 aus FIG3 dargestellt, mit der Prototyp-Kette entsprechend der ersten Sprechweise.
- Die phonemischen Markov-Modelle in FIG.5 aus der Einzelbasisform des Wortes - basierend auf der ersten Sprechweise von WORT1 - sind F&sub1;&sub0;-F&sub2;&sub0;-F&sub2;&sub0;-F&sub3;&sub0;-F&sub3;&sub2;---. Entsprechend dem bekannten Viterbi-Algorithmus zur Ausrichtung werden die Marken der Kette entsprechend der zweiten Sprechweise von WORT1 an den phonemischen Markov-Modellen der Einzelbasisform ausgerichtet. Aufgrund der für die phonemischen Markov-Modelle gespeicherten Wahrscheinlichkeiten ist festgelegt, daß die ersten drei Marken am phonemischen Markov-Modell F&sub1;&sub0; ausgerichtet sind. Das nächste phonemische Markov-Modell erzeugt keine Marken in der Kette für die zweite Sprechweise. Das dritte phonemische Markov-Modell F&sub2;&sub0; ist an der Marke L20 ausgerichtet. Das vierte phonemische Markov-Modell F&sub3;&sub0; ist an den Marken L35 und L200 der Kette für die zweite Sprechweise ausgerichtet. Für die zweite Sprechweise ist zu beachten, daß die Kette in eine Folge von Unterketten aufgeteilt wurde, wobei die einzelnen i-ten Unterketten (mit null, einer oder mehreren Marken) aufeinanderfolgenden i-ten phonetischen Markov-Modellen der Einzelbasisform entsprechen.
- Weiterhin ist zu beachten (siehe FIG. 5), daß die dritte Sprechweise auch an den phonemischen Markov-Modellen F&sub1;&sub0;-F&sub2;&sub0;-F&sub3;&sub0;-F&sub3;&sub2;--- ausgerichtet ist. Wie bei der zweiten Sprechweise ist die Kette der dritten Sprechweise in eine Folge von Unterketten aufgeteilt, wobei jede einzelne Unterkette einem der phonemischen Markov-Modelle entspricht. In der erste Unterkette (i=1) ist die Marke L20, gefolgt von der Marke L30 enthalten; die zweite Unterkette enthält die Marke L32; die dritte Unterkette enthält die Marke L31; die vierte Unterkette enthält die Marke L32 usw. Die letzte Aussprache von WORT1 ergibt folgende Unterketten: Keine Marken in der ersten Unterkette; in der zweiten Unterkette die Marke L1 gefolgt von der Marke L1; die Marke L20 in der dritten Unterkette; in der vierten Unterkette die Marke L21 gefolgt von der Marke L22; die Marke L7 in der fünften Unterkette usw.
- Die Unterketten dienen der Unterteilung der Ketten (und der entsprechenden sprachlichen Äußerungen) in allgemein gebräuchliche Segmente. So stellt die i-te Unterkette aus jeder Kette jeweils dasselbe Segment von WORT1 dar. Ein unterkettenkorrelator 214 faßt die ersten Unterketten i=1 für die n&sub1; Ketten, die zweiten Unterketten (i=2) für die n&sub1; Ketten usw. in Gruppen zusammen. Allgemein werden die i-ten Unterketten für die n&sub1; Ketten durch den Unterkettenkorrelator in Gruppen zusammengefaßt.
- Für jede Gruppe von Unterketten bestimmt ein Markov-Modellverketter 216 eine oder mehrere Markov-Modelle in Folge, welche mit der größten Wahrscheinlichkeit eine Gruppe von Unterketten erzeugen. Nach FIG.5 enthält beispielsweise die erste Gruppe der zusammengefaßten Unterketten L10-l10-L10;L20-L30;...; und keine Marken. Es wird ein phonemisches Markov-Modell oder eine Kette von phonemischen Markov-Modellen ermittelt, welche mit der größten Wahrscheinlichkeit die entsprechenden Unterkette erzeugt. Das ermittelte Modell oder die ermittelte Kette von Modellen wird dem ersten gebräuchlichen Segment des zugrundegelegten Wortes zugeordnet. Dieses Verfahren wird für die folgenden Gruppen wiederholt, bis jedem der gebräuchlichen Segmente des zugrundeliegenden Wortes ein Modell oder eine Kette von Modellen zugeordnet ist.
- Die phonemischen Markov-Modelle aller aufeinanderfolgender Gruppen werden durch einen Markov-Modellfolgen-Verknüpfer 218 verbunden, um eine Basisform des zugrundeliegenden Wortes zu bilden. Die vom Verknüpfer 218 gebildete Basisform des zugrundeliegenden Wortes basiert auf unterschiedlichen Sprechweisen und stellt eine bedeutende Verbesserung gegenüber der Einzelbasisform des Wortes dar. Wie unten beschrieben und im Flußdiagramm von FIG.6 dargestellt, können die Wörter eines Vokabulars nacheinander durch das System 200 verarbeitet werden, sodaß jedes Wort des Vokabulars eine Basisform des Wortes erhält, die aus Markov-Modellen oder Ketten von Markov-Modellen abgeleitet sind, welche einzelnen durch verschiedene Sprechweisen ermittelten Wortsegmenten zugeordnet sind.
- FIG.6 beschreibt die Verfahrensweise des Systems 200. Im Schritt 302 wird ein Wortindexwert w für das erste Wort des Vokabulars auf 1 gesetzt. Der Akustikprozessor 202 (aus FIG.3) erzeugt nw Ketten aus nw Sprechweisen des ersten Wortes (Schritt 304).In Schritt 306 werden auf der Grundlage der in Schritt 304 erzeugten Marken Wahrscheinlichkeiten von Markov-Modellen und daraus abgeleitete Statistiken verarbeitet und gespeichert. In Schritt 308 wird aus den nw Ketten für das WORTw eine Prototyp-Kette ausgewählt. Wie oben ausgeführt ist die Prototyp-Kette vorzugsweise die Kette, deren Länge der durchschnittlichen Kettenlänge am nächsten kommt, obwohl auch andere, wie etwa die kürzeste Kette, als Prototyp-Ketten definiert werden können.
- FIG. 7 veranschaulicht die Verfahrensweise der Bestimmung der durchschnittlichen Kettenlänge der verschiedenen Ketten eines zugrundeliegenden Wortes zur Definition der Prototyp-Kette. In FIG.7 ist lu die Länge der u-ten Sprechweise, n ist die Anzahl von Sprechweisen und j ist eine Kennung der Kette mit der durchschnittlichen Kettenlänge. Die Schritte 402 und 404 beziehen sich auf Initialisierungswerte. Der Wert lave wird laufend angeglichen (zu Beginn ist der Wert 0), indem die Längen der aufeinanderfolgenden Sprechweisen addiert werden, bis die Längen der Ketten aller Sprechweisen aufsummiert sind (Schritte 404, 406 und 408). Die durchschnittliche Länge wird durch Teilen der Summe durch n ermittelt (Schritt 410). Die Kettenlängen werden einzeln mit der durchschnittlichen Kettenlänge verglichen, und die Kette mit der geringsten Längenabweichung von der durchschnittlichen Länge wird ausgewählt (siehe Schritte 412 bis 420).
- Wie in FIG.6 beschrieben, wird ein Markenindex i in Schritt 310 initialisiert und auf den Wert 1 gesetzt. (Es ist zu beachten, das Indexwerte wie i und j in verschiedenen Teilen dieser Beschreibung verschiedene Ereignisse bezeichnen können.) In den Schritten 312 bis 316 werden die Markov-Modelle ausgewählt, die den einzelnen i-ten Marken der Prototyp-Kette entsprechen. Unter der Annahme, daß die Prototyp-Kette aus N Marken besteht, werden die jeweils entsprechenden N phonemischen Markov-Modelle zu einer Einzelbasisform des Wortes verknüpft. In Schritt 320 wird eine andere als die Prototyp-Kette ausgewählt. Mit Hilfe der Viterbi-Ausrichtung wird die in Schritt 320 gewählte Kette an den Markov-Modellen der Einzelbasisform des Wortes ausgerichtet (Schritt 322), sodaß es für jedes der aufeinanderfolgenden Markov-Modelle der Einzelbasisform des Wortes eine entsprechende Unterkette aus der gerade in Schritt 320 ausgewählten Kette gibt. Die Schritte 320 und 322 werden für alle gespeicherten Ketten einzeln ausgeführt (Schritt 324).
- FIG.8 zeigt die Schritte 320 bis 324 im Einzelnen. In FIG.8 ist "fαβγ" als die γ-te Marke der β-ten Sprechweise des α-ten Wortes definiert. "lαβ" ist die Anzahl von Marken, die der β-ten Sprechweise des α-ten Wortes in einem Text aus gesprochenen Wörtern entspricht. "dα" ist die Anzahl von phonemischen Markov-Modellen, die dem α-ten Wort in einem Text aus gesprochenen Wörtern entspricht. "vαβγ" ist die Zuordnung der γ-ten Marke der β-ten Sprechweise des α-ten Wortes zu einem Makrovmodell in einem Text aus gesprochenen Wörtern, in dem lαβ ≥ γ ≥ 1; dα ≥ vαβγ ≥ 1 ist. In FIG.8 sind γ und β auf den Wert 1 initialisiert und alle Ketten U sind als leere Ketten initialisiert (Schritt 502). Jede Kette Uαβvαβγ wird angeglichen, indem die Marken aneinandergereiht werden, bis alle Marken der Äußerung verknüpft sind (Schritte 504 bis 508). In einem Beispiel enthält die β-te Sprechweise 14 Marken. Die ersten drei Marken sind einem ersten Modell zugeordnet, die nächsten zehn Marken sind einem zweiten Modell zugeordnet und die letzte Marke ist einem dritten Modell zugeordnet. Da Uαβ dem ersten Modell zugeordnet ist, gleicht der Schritt 504 diese Kette an, indem die erste Marke an die Kette angehängt wird. Nach dem Hinzufügen der ersten Marke wird die zweite Marke angehängt und danach die dritte Marke. Der nächste Zyklus von Schritt 508 bis Schritt 504 wird auf eine neue (leere) Kette angewandt, die dem zweiten Modell entspricht. Die vierte Marke der Kette wird an die leere Kette angehängt, um eine aktualisierte Kette zu erhalten. Daran anschließend werden die 5., 6., 7... und 14. Marke angehängt. Dann wird eine nächste (leere) Kette für das dritte Markov-Modell aktualisiert, indem die 14. Marke an die leere Kette angehängt wird. Nach der 14. (letzten) Marke der β-ten Sprechweise wird β in Schritt 510 erhöht, sodaß die nächste Sprechweise verarbeitet werden kann. Jede Sprechweise wird beginnend mit ihrer ersten Marke und endend mit ihrer letzten Marke verarbeitet (Schritte 512 und 514).
- In gleicher Weise werden alle (n-1) Ketten, d.h. alle anderen als die Prototyp-Kette, in aufeinanderfolgende Unterketten aufgeteilt, wobei jede i-te Unterkette eine Länge von 0 oder mehr Marken aufweist und einem gebräuchlichen Segment von WORTw entspricht. Das entsprechende phonemische Markov-Modell oder die Kette von phonemischen Markov-Modellen, welche mit der größten Wahrscheinlichkeit alle Unterketten erzeugt, wird gebildet (Schritte 326 bis 332). So werden die Unterketten für jedes einzelne gebräuchliche Segment verarbeitet, um die den Segmenten entsprechenden Modelle oder Ketten von Modellen zu ermitteln.
- Die bevorzugte Methode, um das zu jeder Gruppe von i-ten Unterketten gehörige Markov-Modell oder die entsprechende Kette von Markov-Modellen zu ermitteln, ist im Einzelnen in der oben genannten Europa-Patentschrift EP-A-0'238'697 beschrieben.
- In FIG.9 wird eine in oben genannter Europa-Patentschrift EP-A-0'238'697 beschriebene Teile-und-herrsche-Annäherung angewandt, um eine verbesserte Basisform des gegebenen i-ten gebräuchlichen Segments eines zugrundeliegenden Wortes zu ermitteln. Die einzelnen Schritte von FIG.9 sind hiermit beschrieben. Im Flußdiagramm von FIG.9 ist angegeben, daß sich der Ausdruck "Laut" oder "Lautmaschine" auf ein Markov-Modell bezieht.
- Anhand der definierten Folge von Lauten (bzw. Markov-Modellen) wird der Laut ausgewählt, der bei Anwendung auf alle dem i-ten gebräuchlichen Segment entsprechenden i-ten Unterketten die beste Basisform des Lautes mit der Länge 1 ergibt (Schritte 602 und 604). Die beste Basisform des Lautes der Länge 1 (als P&sub1; bezeichnet) wird ermittelt, indem jeder Laut der Folge geprüft wird und für jeden Laut die Wahrscheinlichkeit bestimmt wird, mit der er jede i-te Unterkette erzeugt. Die n Wahrscheinlichkeiten, die für jeden einzelnen Laut gefunden werden, werden miteinander multipliziert (durch einen Prozessor des Verketters 216 in FIG.2), um eine Gesamtwahrscheinlichkeit für das bestimmte Markov-Modell oder den bestimmten Laut zu erhalten. Der Laut mit der besten Gesamtwahrscheinlichkeit wird als die beste Basisform P&sub1; der Länge 1 ausgewählt.
- Unter Beibehaltung des Lautes P&sub1; wird in Schritt 606 die beste Basisform der Länge 2 mit der Form P&sub1;P&sub2; oder P&sub2;P&sub1; gesucht. Das bedeutet, daß jeder Laut der Folge am Ende von P&sub1; und vor P&sub1; angehängt und eine Gesamtwahrscheinlichkeit jedes so erhaltenen Lautpaares abgeleitet wird. Das Paar mit der höchsten Gesamtwahrscheinlichkeit, die phonemischen Ketten zu bilden, wird als das beste Lautpaar betrachtet.
- In Schritt 608 wird dann die beste Basisform der Länge 2, also das Paar mit der höchsten Gesamtwahrscheinlichkeit, nach einem Verfahren wie dem bekannten Viterbi-Algorithmus verknüpft. Vereinfacht bestimmt die Verknüpfung, welche Marken in jeder i-ten Unterkette jedem Laut in dem geordneten Lautpaar entsprechen.
- Nach der Verknüpfung wird in jeder i-ten Unterkette ein übereinstimmender Punkt ermittelt. Der übereinstimmende Punkt in jeder der Unterketten ist als der Punkt definiert, an dem sich die Laute P&sub1; und P&sub2; (der besten Basisform der Länge 2) treffen. Wahl weise kann der übereinstimmende Punkt als der Punkt angesehen werden, wo jede i-te Unterkette in einen linken, am linken Laut ausgerichteten Teil und einen rechten, am rechten Laut ausgerichteten Teil aufgeteilt wird, wobei die linken Teile aller i- ten Unterketten ein gebräuchliches Wortsegment darstellen und die rechten Teile aller i-ten Unterketten ebenfalls einem gebräuchlichen Wortsegment entsprechen (siehe Schritt 610).
- In Schritt 612 werden dann die linken und die rechten Teile getrennt aber gleichermaßen als "linke Unterketten" bzw. "rechte Unterketten" behandelt und die Teile-und-herrsche-Annäherung auf diese angewandt.
- Für die linken Unterketten wird die beste Einzelbasisform des Lautes PL gefunden (Schritt 614). Unter Beibehaltung des Lautes PL wird jeder Laut der Folge davor oder dahinter angehängt, um geordnete Lautpaare zu bilden. Danach werden die Paare PLPA oder PAPL mit der höchsten Wahrscheinlichkeit, die Marken der linken Unterketten zu erzeugen, ermittelt (Schritt 616). Wie weiter vorne bereits vorgeschlagen, ist dies die beste Basisform der Länge 2 für die linken Unterketten.
- Die Gesamtwahrscheinlichkeit der besten Basisform der Länge 2 für die linken Unterketten wird mit der Gesamtwahrscheinlichkeit von PL alleine verglichen (Schritt 618). Wenn die Gesamtwahrscheinlichkeit von PL größer ist, wird der Laut PL in eine verknüpfte Basisform eingesetzt (Schritt 620). Wenn die Gesamtwahrscheinlichkeit von PL in Schritt 618 kleiner ist, werden PLPA oder PAPL an den linken Unterketten ausgerichtet (Schritt 622). In den linken Unterketten wird ein übereinstimmender Punkt ermittelt, und jede linke Unterkette wird dort in einen (neuen) linken Teil und einen (neuen) rechten Teil aufgeteilt (Schritt 624).
- Das gleiche Verfahren wird auch auf jeden rechten Teil der erstmalig aufgeteilten i-ten Unterketten angewandt. Eine beste Einzelbasisform PR (Schritt 626) wird mit der besten Basisform PRPB oder PBPR des Lautes mit der Länge 2 verglichen (Schritte 628 und 630). Ist die Gesamtwahrscheinlichkeit von PR größer, wird der Laut PR in die verknüpfte Basisform eingesetzt (Schritt 620). Andernfalls wird eine Verknüpfung durchgeführt, und jede rechte Unterkette wird dabei am übereinstimmenden Punkt aufgetrennt (Schritte 632 und 634).
- Der Teilungszyklus wird in jeder linken und in jeder rechten Unterkette wiederholt, sofern deren beste Basisform der Länge 2 eine größere Gesamtwahrscheinlichkeit als die beste Einzelbasisform des Lautes hat. Es wird ein Punkt erreicht, wo nur noch die besten Einzellaute übrig bleiben. Die besten Einzellaute werden in Schritt 620 verknüpft.
- Die Einzelbasisformen des Lautes werden in derselben Reihenfolge verknüpft, wie sie durch die Unterketten dargestellt werden. Die verknüpfte Basisform stellt eine grundlegende Basisform des Wortsegments dar.
- Die grundlegende verknüpfte Basisform wird noch verbessert. Gemäß der Verbesserung wird die grundlegende verknüpfte Basisform an den ursprünglichen i-ten Unterketten ausgerichtet (Schritt 640). Die i-ten Unterketten werden an den Stellen geteilt, wo sich die Laute bzw. die Markov-Modelle treffen (Schritt 6429). In Schritt 644 wird für jeden Teil ein "neuer" bester Laut ermittelt. In bekannter Weise wird aufgrund der gegebenen Wahrscheinlichkeiten aller Laute der Laut mit der größten Wahrscheinlichkeit, die Marken in dem entsprechenden Teil zu bilden, ausgewählt. Aufgrund der Ausrichtung kann sich der beste Einzellaut aus Marken eines Teils vom Einzellaut der vorher zusammengesetzten verknüpften Basisform unterscheiden. Wenn der "neue" beste Laut genau gleich ist wie der Laut in der verknüpften Basisform (Schritt 646), wird er vom Prozessor des Verknüpfers 216 aus FIG.2 in eine verbesserte Basisform des Wortsegments eingesetzt (Schritte 648). Falls sich der neue Laut vom Laut in der vorher verknüpften Basisform unterscheidet, ersetzt der neue Laut den bisherigen Laut in der grundlegenden verknüpften Basisform (Schritt 648) und die Schritte 640 bis 646 werden wiederholt. Wenn das Ausgabeergebnis von Schritt 646 für alle Teile immer "JA" ist, werden die sich ergebenden Laute zu einer verbesserten Basisform des Wortsegments verknüpft (Schritt 652).
- In Schritt 334 von FIG.6 wird das phonemische Markov-Modell oder die Kette der phonemischen Markov-Modelle für jedes i-te gebräuchliche Wortsegment zu einer Basisform des Wortes verknüpft.
- In den Schritten 336 und 338 werden entsprechend den Schritten 304 bis 334 Basisformen des Wortes für aufeinanderfolgende Wörter des Vokabulars gebildet.
- Während der Verarbeitung werden die Basisformen des Wortes im Hauptspeicher des Computers als Kette von phonemischen Markov- Modellen gespeichert. Ein Wort kann beispielsweise als Kette aus F&sub5;-F&sub1;&sub0;-F&sub1;&sub0;--- gespeichert werden. Die Wahrscheinlichkeiten aller Markov-Modelle werden ebenfalls im Hauptspeicher gespeichert: Speicherung der Wahrscheinlichkeiten von Markov-Modellen Modell Zustand S1 Boden tr1 Bogenwahrsch Wahrsch.
- Mit den gespeicherten Wahrscheinlichkeiten der phonemischen Markov-Modelle und den gemäß der vorliegenden Erfindung ermittelten Basisformen des Wortes wird die Spracherkennung durch akustischen Vergleich der Basisformen des Wortes mit den erzeugten Marken wie in der oben beschriebenen Europa-Patentschrift EP-A- 0'239'016 mit dem Titel "Speech Recognition System" durchgeführt.
- Das Verfahren zur Entwicklung der Basisform wurde auf einem Datenverarbeitungssystem IBM 3090 in der PLI-Sprache implementiert und erforderte die folgenden Speicherkapazitäten:
- Speicher für verborgene Markov-Modell-Statistiken: 200 kByte
- Speicherung der Marken: 10 Bytes/Marke -> 1 kByte pro Wort Für ein Vokabular von 20000 Wörtern mit 10 Sprechweisen pro Wort sind 200 MByte Speicherplatz erforderlich.
- phonemische Einzelbasisform: 1 kByte/Basisform. Für ein Vokabular mit 20000 Wörtern sind 20 MByte Speicherplatz erforderlich.
Claims (17)
1. Verfahren zum Bilden von Basisformen aus Markov-Modellen
für Wörter in einem Spracherkennungssystem mit
Markov-Modellen, das einen akustischen Prozessor aufweist, der eine
Kette von Marken erzeugt, die aufeinanderfolgenden
Zeitintervallen eines ausgesprochenen Eingangs entsprechen, wobei
jede Marke eine aus einem Alphabet von Marken ist, welches
die folgenden Schritte umfaßt:
(a) für jedes aus einem Satz von Markov-Modellen, in dem
jedes Markov-Modell einer jeweiligen Marke entspricht
und in dem jedes Markov-Modell eine Mehrzahl von
Zuständen und eine Mehrzahl von Bögen aufweist, bei
welchen sich jeder Bogen von einem Zustand zu einem
Zustand erstreckt, Berechnen und Speichern von
Bogenwahrscheinlichkeiten und
Markenausgangswahrscheinlichkeiten in einem Rechnerspeicher, bei welchen jede
Markenausgangswahrscheinlichkeit die Wahrscheinlichkeit
einer gegebenen Marke repräsentiert, die bei einem
gegebenen Bogen erzeugt wird,
(b) Erzeugen von n jeweiligen Ketten von Marken mittels
des akustischen Prozessors entsprechend jeder von n
Aussprachen eines Subjektwortes, das aus einem
Vokabular von Wörtern ausgewählt ist, wobei das Verfahren
durch die folgenden weiteren Schritte gekennzeichnet
ist:
(c) Auswählen der Kette von Marken mit einer Länge, die am
nächsten zu der Durchschnittslänge aller in Schritt
(b) erzeugten Ketten liegt, als eine Prototypkette,
(d) Verketten der Markov-Modelle der Reihe nach, welche
den aufeinanderfolgenden Marken in der Prototypkette
entsprechen und Speichern der verketteten Folge,
(e) für eine andere Kette als die Prototypkette,
Ausrichten der Kette an aufeinanderfolgenden Markov-Modellen
in der verketteten Folge auf der Grundlage des
Viterbi-Algorithmus unter Verwendung der gespeicherten
Wahrscheinlichkeiten, wodurch aufeinanderfolgende
Unterketten von Null oder mehr Marken erzeugt werden,
die mit den aufeinanderfolgenden Markov-Modellen in
der verketteten Folge ausgerichtet sind,
(f) Wiederholen des Schrittes (e) für jede erzeugte Kette
des Schrittes (b), die eine andere ist als die
Prototypkette,
(g) Gruppieren der i-ten Unterketten der erzeugten Ketten
des Schrittes (b), wobei jede eine jeweilige
Unterkette aufweist, die jedem Markov-Modell in der
verketteten Folge des Schrittes (d) entspricht und jede Gruppe
für jede i-te Kette einem gemeinsamen Wortsegment
entspricht und
(h) Bilden einer Folge aus einem oder mehr Markov-Modellen
für jedes i-te gemeinsame Segment mit der größten
Verbundwahrscheinlichkeit für das Erzeugen der i-ten
Marke der Prototypkette und der i-ten Unterketten aller
anderen Ketten und
(j) Verketten der jeweiligen gebildeten Folgen von Markov-
Modellen für die aufeinanderfolgenden gemeinsamen
Segmente des Subjektwortes, um eine Basisform für Wörter
zu bilden.
2. Verfahren nach Anspruch 1, welches den folgenden weiteren
Schritt umfaßt:
(k) Wiederholen der Schritte (a) bis (j) für jedes Wort in
dem Vokabular.
3. Verfahren nach Anspruch 2, bei welchem der Schritt (h) die
folgenden Schritte umfaßt:
(1) für jedes i-te gemeinsame Segment Lokalisieren einer
konsistenten Stelle in jeder i-ten Unterkette, die
dieser entspricht und Teilen jeder Unterkette bei der
konsistenten Stelle derselben in einen linken Teil und
einen rechten Teil.
4. Verfahren nach Anspruch 3, bei welchem der Schritt (1) die
folgenden Schritte umfaßt:
(m) Bestimmen des Markov-Modells aus den gespeicherten
Wahrscheinlichkeiten, welches die größte
Verbundwahrscheinlichkeit für das Erzeugen der i-ten Marke der
Prototypkette und der i-ten Unterketten aller anderen
Ketten aufweist,
(n) Anfügen eines Markov-Modells vor dem bestimmten
Markov-Modell, um ein geordnetes Paar von Markov-Modellen
zu bilden und Berechnen der Wahrscheinlichkeit des
geordneten Paares von Markov-Modellen, welche die i-te
Marke der Prototypkette und jede der i-ten Unterketten
der anderen Ketten erzeugen, auf der Grundlage der
gespeicherten Wahrscheinlichkeiten,
(o) Wiederholen des Schrittes (n) für jedes Markov-Modell
in dem Satz, als das angefügte Markov-Modell,
(p) Anfügen eines Markov-Modells bei dem Ende des
ausgewählten Markov-Modells, um ein geordnetes Paar von
Markov-Modellen zu bilden und Berechnen der
Wahrscheinlichkeit des geordneten Paares von
Markov-Modellen, welche die i-te Marke der Prototypkette und jede
der i-ten Unterketten der anderen Ketten erzeugen, auf
der Grundlage der gespeicherten Wahrscheinlichkeiten,
(g) Wiederholen des Schrittes (p) für jedes Markov-Modell
in dem Satz, als das angefügte Markov-Modell,
(r) Auswählen des geordneten Paares des angefügten Markov-
Modells und des ausgewählten Markov-Modells, welches
die größte Verbundwahrscheinlichkeit für das Erzeugen
der i-ten Marke der Prototypkette und jeder der i-ten
Unterketten der anderen Ketten aufweist und
(s) Durchführen eines Ausrichtverfahrens zwischen dem
ausgewählten geordneten Paar von Markov-Modellen und
jeder i-ten Unterkette, wobei die Stelle in jeder
Unterkette, wo sich die zwei Markov-Modelle begegnen, die
konsistente Stelle ist.
5. Verfahren nach Anspruch 3, welches die folgenden weiteren
Schritte umfaßt:
(t) Trennen des linken Teils von dem rechten Teil jeder i-
ten Unterkette bei der jeweiligen konsistenten Stelle
derselben,
(u) Finden des einzelnen Markov-Modells PL mit der größten
Verbundwahrscheinlichkeit für die linken Teile der i-
ten Unterketten,
(v) Finden der Zwei-Modell-Folge aus allen Zwei-Modell-
Folgen, welche das Markov-Modell PL enthalten, welches
die größte Verbundwahrscheinlichkeit für das Erzeugen
der linken Teile aufweist,
(w) falls die Zwei-Modell-Folge des Schrittes (v) mit
größter Wahrscheinlichkeit größer ist als die
Wahrscheinlichkeit, welche dem einzelnen laut PL zugeordnet
ist, Ausrichten jeder i-ten Unterkette an der
gefundenen Zwei-Modell-Folge und Abtrennen der gefundenen
Zwei-Modell-Folge bei der Stelle des Begegnens in
einen
resultierenden linken Teil und einen
resultierenden rechten Teil und
(x) Durchführen der Schritte (t) bis (w), wobei der
resultierende linke Teil und der resultierende rechte Teil
für den linken Teil beziehungsweise den rechten Teil
eingesetzt werden.
6. Verfahren nach Anspruch 5, welches die folgenden weiteren
Schritte umfaßt:
(y) Unterbrechen des Trennens, wenn ein einzelnes Markov-
Modell mit größter Wahrscheinlichkeit eine größere
Wahrscheinlichkeit aufweist als irgendeine
Zwei-Modell-Folge, welche das einzelne Markov-Modell mit
größter Wahrscheinlichkeit und ein angefügtes Markov-
Modell enthält und
(z) Verketten der nicht-getrennten einzelnen
Markov-Modelle, wobei die verketteten, nicht-getrennten Markov-
Modelle eine grundlegende Basisform für das i-te
Segment des Subjektwortes repräsentieren.
7. Verfahren nach Anspruch 6, welches die folgenden weiteren
Schritte umfaßt:
(aa) Ausrichten jeder i-ten Unterkette an der Basisform
verketteter nicht-getrennter einzelner Markov-Modelle
und
(bb) für ein Markov-Modell in der verketten Basisform,
Bestimmen der Marken, die an demselben ausgerichtet sind
und entweder Löschen des Markov-Modells aus der
verketteten Basisform, falls es keine ausgerichteten
Marken gibt oder Finden des Markov-Modells, welches die
Wahrscheinlichkeit für das Erzeugen der bestimmten
Marken maximiert, falls es ausgerichtete Marken gibt
und
(cc) Ersetzen des Markov-Modells in der verketteten
Basisform durch den gefundenen Laut, falls sie sich
unterscheiden und
(dd) Wiederholen des Schrittes (cc) für jedes Markov-Modell
in der verketteten grundlegenden Basisform des i-ten
Segments des Subjektwortes.
8. Verfahren nach Anspruch 7, welches die folgenden weiteren
Schritte umfaßt:
(ee) Wiederholen der Schritte (aa), (bb) und (cc) solange,
bis jedes Markov-Modell in der verketteten Basisform
die maximale Wahrscheinlichkeit für das Erzeugen der
mit diesen ausgerichteten Marken aufweist,
wobei die aus dem Schritt (dd) resultierende Basisform eine
verfeinerte Basisform für das Wortsegment ist.
9. Vorrichtung zum Bilden von Basisform aus Markov-Modellen
für Wörter in einem Spracherkennungssystem mit
Markov-Modellen, das einen akustischen Prozessor aufweist, der eine
Kette von Marken erzeugt, die aufeinanderfolgenden
Zeitintervallen eines ausgesprochenen Eingangs entsprechen, wobei
jede Marke eine aus einem Alphabet von Marken ist, welche
folgendes aufweist:
(a) für jedes aus einem Satz von Markov-Modellen, in dem
jedes Markov-Modell einer jeweiligen Marke entspricht
und in dem jedes Markov-Modell eine Mehrzahl von
Zuständen und eine Mehrzahl von Bögen aufweist, bei
welchen sich jeder Bogen von einem Zustand zu einem
Zustand erstreckt, Mittel zum Berechnen und zum
Speichern von Bogenwahrscheinlichkeiten und
Markenausgangswahrscheinlichkeiten in einem Rechnerspeicher,
bei welchen jede Markenausgangswahrscheinlichkeit die
Wahrscheinlichkeit einer gegebenen Marke
repräsentiert, die bei einem gegebenen Bogen erzeugt wird,
(b) Mittel zum Erzeugen von n jeweiligen Ketten von Marken
mittels des akustischen Prozessors entsprechend jeder
von n Ansprachen eines Subjektwortes, das aus einem
Vokabular von Wörtern ausgewählt ist, wobei die
Einrichtung dadurch gekennzeichnet ist, daß sie ferner
folgendes aufweist:
(c) ein Mittel zum Auswählen der Kette von Marken mit
einer Länge, die am nächsten zu der Durchschnittslänge
aller in Schritt (b) erzeugten Ketten liegt als eine
Prototypkette,
(d) Mittel zum Verketten der Markov-Modelle der Reihe
nach, welche den aufeinanderfolgenden Marken in der
Prototypkette entsprechen und zum Speichern der
verketteten Folge,
(e) für eine andere Kette als die Prototypkette, Mittel
zum Ausrichten der Kette an aufeinanderfolgenden
Markov-Modellen in der verketteten Folge auf der
Grundlage des Viterbi-Algorithmus unter Verwendung der
gespeicherten Wahrscheinlichkeiten, wodurch
aufeinanderfolgende Unterketten von Null oder mehr Marken
erzeugt werden, die mit den aufeinanderfolgenden Markov-
Modellen in der verketteten Folge ausgerichtet sind,
(f) Mittel zum Wiederholen des Schrittes (e) für jede
erzeugte Kette des Schrittes (b) die eine andere ist als
die Prototypkette,
(g) Mittel zum Gruppieren der i-ten Unterketten der
erzeugten Ketten des Schrittes (b), wobei jede eine
jeweilige Unterkette aufweist, die jedem Markov-Modell
in der verketteten Folge des Schrittes (d) entspricht
und jede Gruppe für jede i-te Kette einem gemeinsamen
Wortsegment entspricht und
(h) Mittel zum Bilden einer Folge aus einem oder mehr
Markov-Modellen für jedes i-te gemeinsame Segment mit der
größten Verbundwahrscheinlichkeit für das Erzeugen der
i-ten Marke der Prototypkette und der i-ten
Unterketten aller anderen Ketten und
(j) Mittel zum Verketten der jeweiligen gebildeten Folgen
von Markov-Modellen für die aufeinanderfolgenden
gemeinsamen Segmente des Subjektwortes, um eine
Basisform für Wörter zu bilden
10. Vorrichtung nach Anspruch 9, die ferner folgendes aufweist:
(k) Mittel zum Bilden einer einzelnen Folge von
Markov-Modellen, die auf jedes i-te Segment angewandt werden
können, das jeder Aussprache entspricht, wo 1 ≤ i ≤ N
und N die Gesamtzahl von Segmenten ist, in welche das
Subjektwort geteilt ist,
einschließlich,
(1) Mittel zum Finden einer besten ersten
Ein-Modell-Basisform PL mit einer Lautlänge 1, welche die
Verbundwahrscheinlichkeit für das Erzeugen der Unterketten
maximiert, die sich aus mehrfachen Aussprachen eines
gegebenen Wortes in einem Vokabular von Wörtern
ergeben, wo die Lautlänge der Anzahl von Markov-Modellen
der Reihe nach entspricht,
(m) Mittel zum Finden einer besten zweiten
Zwei-Modell-Basisform mit einer Lautlänge 2 und in Form von entweder
PLP&sub2; oder P&sub2;PL, die eine größere
Verbundwahrscheinlichkeit aufweist, als irgendeine andere Basisform mit
einer Länge 2,
(n) Mittel zum iterativen Vergleichen der
Verbundwahrscheinlichkeit der gefundenen besten ersten Basisform
mit der Verbundwahrscheinlichkeit der gefundenen
besten zweiten Basisform und falls die
Verbundwahrscheinlichkeit für die gefundene beste zweite
Basisform größer ist, als die Verbundwahrscheinlichkeit der
aufgefunden besten ersten Basisform, Trennen jeder
Markenkette in einen linken Teil und einen rechten
Teil bei der Stelle, welche die Wahrscheinlichkeit
maximiert, daß der linke Teil von dem linken Modell
erzeugt wird und der rechte Teil von dem rechten Teil
erzeugt wird,
(o) Mittel zum Wiederholen der Schritte (1) bis (n)
solange, bis alle Basisform eine einzelne Lautlänge
besitzen und keine gefundene beste zweite Basisform eine
größere Wahrscheinlichkeit aufweist, als ihre
jeweilige gefundene beste erste Basisform,
(p) Mittel zum Verketten der Basisform mit einer Lautlänge
1, um eine grundlegende Basisform des i-ten
Wortsegments nach dem Schritte (0) zu bilden.
11. Vorrichtung nach Anspruch 10, die folgendes aufweist:
(q) Mittel zum Ausrichten der verketteten Basisform an den
i-ten Unterketten unter Verwendung des
Viterbi-Algorithmus und zum Identifizieren einer Gruppe von Marken
in jeder i-ten Unterkette, die jedem Markov-Modell in
der verketteten Basisform für das i-te Wortsegment
entspricht und
(r) Mittel zum Ersetzen irgendeines Markov-Modells in der
verketteten Basisform in einem Speicher, welcher die
Basisform enthält, durch irgendein anderes
Markov-Modell
in dem Satz mit einer größeren
Verbundwahrscheinlichkeit für das Erzeugen der Markengruppen in
den mehrfachen i-ten Unterketten.
12. Vorrichtung nach Anspruch 11, die folgendes aufweist:
(s) Mittel zum Verketten der jeweiligen einzelnen Folgen
für aufeinanderfolgende Folgen, um eine Folge von
Markov-Modellen für das Subjektwort zu bilden und
(t) Mittel zum Wiederholen der Schritte, die mittels (a)
bis (s) für ein Wort nach dem anderen in einem
Vokabular von Wörtern durchgeführt werden.
13. Vorrichtung nach Anspruch 12, bei welcher das Mittel (d)
zum Verketten der Markov-Modelle der Reihe nach folgendes
aufweist:
(u) Mittel zum Auswählen einer der Ketten für ein
gegebenes Wort und zum Bilden einer vorläufigen Basisform
des gegebenen Wortes, das aus der Folge von fenemic
Markov-Modellen gebildet ist, welche den Marken in der
ausgewählten Kette entsprechen und
(v) Mittel zum Berechnen von Bogenwahrscheinlichkeiten und
Markenausgangswahrscheinlichkeiten für die fenemic
Markov-Modelle.
14. Vorrichtung nach Anspruch 9, bei welcher das Mittel
(d) zum Verketten der Markov-Modelle der Reihe nach
folgendes aufweist:
(w) Mittel zum Auswählen einer der Ketten für ein
gegebenes Wort und zum Bilden einer vorläufigen Basisform
des gegebenen Wortes, das aus der Folge von fenemic
Markov-Modellen gebildet ist, welche den Marken in der
ausgewählten Kette entsprechen,
(x) Mittel zum Berechnen von Bogenwahrscheinlichkeiten und
Markenausgangswahrscheinlichkeiten für fenemic Markov-
Modellen auf der Grundlage der Marken, die für alle
Ketten erzeugt werden, die andere sind, als die
ausgewählte eine Kette des Schrittes (w).
15. Vorrichtung nach Anspruch 9, bei welcher das Mittel (c) zum
Auswählen der Kette von Marken folgendes aufweist:
(y) Mittel zum Gruppieren von Unterketten, die einem
Markov-Modell in der Einzel-Basisform nach einer anderen
entsprechen, wobei jede Gruppe einem gemeinsamen
Segment des Subjektwortes entspricht,
(z) Mittel zum Bestimmen des besten einzelnen
Markov-Modells P1 zum Erzeugen der Unterketten in einer i-ten
Gruppe,
(aa) Mittel zum Bestimmen der besten Zwei-Modell-Basisform
der Form P&sub1;P&sub2; oder P&sub2;P&sub1;, zum Erzeugen der Unterketten in
der i-ten Gruppe,
(bb) Mittel zum Ausrichten der besten Zwei-Modell-Basisform
an jeder Unterkette in der i-ten Gruppe,
(cc) Mittel zum Trennen jeder Unterkette der i-ten Gruppe
in einen linken Teil und einen rechten Teil, wobei der
linke Teil dem ersten Markov-Modell der Basisform für
zwei Laute entspricht und der rechte Teil dem zweiten
Markov-Modell der Basisform für zwei Laute entspricht,
(dd) Mittel zum Identifizieren jedes linken Teils als eine
linke Unterkette und jedes rechten Teil als eine
rechte Unterkette,
(ee) Mittel zum Verarbeiten des Satzes linker Unterketten
auf dieselbe Weise, wie des Satzes von Unterketten in
der i-ten Gruppe einschließlich des weiteren Schrittes
des Verhinderns einer weiteren Trennung einer
Unterkette, wenn die Einzelmodell-Basisform derselben eine
größere Wahrscheinlichkeit für das Erzeugen der
Unterkette aufweist, als die beste Zwei-Modell-Basisform,
(ff) Mittel zum Verarbeiten des Satzes rechter Unterketten
auf dieselbe Weise wie des Satzes von Unterketten in
der i-ten Gruppe einschließlich des weiteren Schrittes
des Verhinderns einer weiteren Trennung einer
Unterkette wenn die Einzelmodell-Basisform derselben eine
größere Wahrscheinlichkeit für das Erzeugen der
Unterkette aufweist, als die beste Zwei-Modell-Basisform,
(gg) Mittel zum Verketten der nicht-getrennten
Einzel-Modelle in einer Reihenfolge, welche der Reihenfolge der
Gruppen entspricht, welchen sie entsprechen,
(hh) Mittel zum Ausrichten der verketteten Basisform an
jeder der Unterketten für die i-te Gruppe und zum
Identifizieren der Unterkette in jeder Unterkette der
i-ten Gruppe, die dieser entspricht, für jedes Modell
in der verketteten Basisform, wobei die Unterketten
einem gegebenen Modell entsprechen, das ein Satz
gemeinsamer Unterketten ist,
(jj) Mittel zum Bestimmen des Markov-Modells mit der
größten Verbundwahrscheinlichkeit für das Erzeugen der
gemeinsamen Unterketten, für jeden Satz gemeinsamer
Unterketten,
(kk) Mittel zum Ersetzen des Modells für dieses in der
verketteten Basisform durch das bestimmte Modell mit
größter Verbundwahrscheinlichkeit für jede gemeinsame
Unterkette und wobei die Einrichtung für eine
Wiederholung der Schritte (hh) bis (kk) sorgt, die von den
jeweiligen Mitteln solange durchgeführt werden, bis
keine Modelle ersetzt werden.
16. Vorrichtung nach Anspruch 9, die ferner folgendes aufweist:
Modellbildungsmittel (216) zum Bestimmen des fenemic
Markov-Modells oder der fenemic Markov-Modell-Folge mit der
größten Verbundwahrscheinlichkeit für das Erzeugen der
Marken in einer Gruppe von Unterketten, die von den
Korrelator-Mitteln gebildet werden.
17. Vorrichtung nach Anspruch 16, die ferner folgendes
aufweist:
Übungsmittel (206) zum Berechnen von
Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten für jedes
fenemic Markov-Modell, die folgendes aufweisen:
Mittel zum Wählen irgendeiner Kette von Marken, die für das
Subjektwort erzeugt werden,
Mittel, die mit den Mitteln zum Wählen von Ketten verbunden
sind, um eine vorläufige Probebasisform aus der irgendeinen
gewählten Kette zu bilden und
Mittel, die mit den Mitteln zum Bilden einer Probebasisform
und mit den Speichermitteln verbunden sind, um
Bogenwahrscheinlichkeiten und Markenausgangswahrscheinlichkeiten zu
berechnen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/133,719 US4819271A (en) | 1985-05-29 | 1987-12-16 | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3878541D1 DE3878541D1 (de) | 1993-03-25 |
DE3878541T2 true DE3878541T2 (de) | 1993-08-12 |
Family
ID=22459990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8888810855T Expired - Fee Related DE3878541T2 (de) | 1987-12-16 | 1988-12-12 | Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. |
Country Status (5)
Country | Link |
---|---|
US (1) | US4819271A (de) |
EP (1) | EP0321410B1 (de) |
JP (1) | JPH01265297A (de) |
CA (1) | CA1320274C (de) |
DE (1) | DE3878541T2 (de) |
Families Citing this family (195)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
US5274739A (en) * | 1990-05-22 | 1993-12-28 | Rockwell International Corporation | Product code memory Itakura-Saito (MIS) measure for sound recognition |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5544257A (en) * | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5909666A (en) * | 1992-11-13 | 1999-06-01 | Dragon Systems, Inc. | Speech recognition system which creates acoustic models by concatenating acoustic models of individual words |
US5455889A (en) * | 1993-02-08 | 1995-10-03 | International Business Machines Corporation | Labelling speech using context-dependent acoustic prototypes |
US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
KR950013127B1 (ko) * | 1993-03-15 | 1995-10-25 | 김진형 | 영어 문자 인식 방법 및 시스템 |
US5737490A (en) * | 1993-09-30 | 1998-04-07 | Apple Computer, Inc. | Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models |
US5528701A (en) * | 1994-09-02 | 1996-06-18 | Panasonic Technologies, Inc. | Trie based method for indexing handwritten databases |
US5884261A (en) * | 1994-07-07 | 1999-03-16 | Apple Computer, Inc. | Method and apparatus for tone-sensitive acoustic modeling |
US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
CN1130688C (zh) * | 1995-05-03 | 2003-12-10 | 皇家菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
US6061654A (en) * | 1996-12-16 | 2000-05-09 | At&T Corp. | System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6141661A (en) * | 1997-10-17 | 2000-10-31 | At&T Corp | Method and apparatus for performing a grammar-pruning operation |
US6122612A (en) * | 1997-11-20 | 2000-09-19 | At&T Corp | Check-sum based method and apparatus for performing speech recognition |
US6208965B1 (en) | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6205428B1 (en) | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
US7937260B1 (en) * | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6514201B1 (en) | 1999-01-29 | 2003-02-04 | Acuson Corporation | Voice-enhanced diagnostic medical ultrasound system and review station |
US6577999B1 (en) * | 1999-03-08 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7020587B1 (en) * | 2000-06-30 | 2006-03-28 | Microsoft Corporation | Method and apparatus for generating and managing a language model data structure |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
DE102004063552A1 (de) * | 2004-12-30 | 2006-07-13 | Siemens Ag | Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems |
CN101185115B (zh) * | 2005-05-27 | 2011-07-20 | 松下电器产业株式会社 | 语音编辑装置及方法和语音识别装置及方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070094024A1 (en) | 2005-10-22 | 2007-04-26 | International Business Machines Corporation | System and method for improving text input in a shorthand-on-keyboard interface |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8229232B2 (en) * | 2007-08-24 | 2012-07-24 | CVISION Technologies, Inc. | Computer vision-based methods for enhanced JBIG2 and generic bitonal compression |
US8010341B2 (en) | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10706373B2 (en) * | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
WO2013003772A2 (en) | 2011-06-30 | 2013-01-03 | Google Inc. | Speech recognition using variable-length context |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN111160024B (zh) * | 2019-12-30 | 2023-08-15 | 广州广电运通信息科技有限公司 | 基于统计的中文分词方法、系统、装置和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
JPS62194295A (ja) * | 1986-02-18 | 1987-08-26 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | ワード・マルコフ・モデル生成方法 |
EP0238697B1 (de) * | 1986-03-27 | 1991-08-14 | International Business Machines Corporation | Verfahren zur Erzeugung vor Wortmustern aus mehreren Äusserungen für Spracherkennung |
-
1987
- 1987-12-16 US US07/133,719 patent/US4819271A/en not_active Expired - Fee Related
-
1988
- 1988-09-16 CA CA000577724A patent/CA1320274C/en not_active Expired - Fee Related
- 1988-12-12 EP EP88810855A patent/EP0321410B1/de not_active Expired - Lifetime
- 1988-12-12 DE DE8888810855T patent/DE3878541T2/de not_active Expired - Fee Related
- 1988-12-16 JP JP63316619A patent/JPH01265297A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE3878541D1 (de) | 1993-03-25 |
JPH01265297A (ja) | 1989-10-23 |
EP0321410B1 (de) | 1993-02-17 |
US4819271A (en) | 1989-04-04 |
EP0321410A2 (de) | 1989-06-21 |
CA1320274C (en) | 1993-07-13 |
EP0321410A3 (en) | 1989-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3878541T2 (de) | Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE3874049T2 (de) | Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers. | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69225173T2 (de) | Spracherkennungsgerät | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69717899T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE102008017993B4 (de) | Sprachsuchvorrichtung | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE69416670T2 (de) | Sprachverarbeitung | |
DE69726499T2 (de) | Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69129015T2 (de) | Sprecherunabhängiges Gerät zur Markierungskodierung | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE3723078A1 (de) | Verfahren zur erkennung von zusammenhaengend gesprochenen woertern | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |