DE69010722T2 - Spracherkennungssystem. - Google Patents
Spracherkennungssystem.Info
- Publication number
- DE69010722T2 DE69010722T2 DE69010722T DE69010722T DE69010722T2 DE 69010722 T2 DE69010722 T2 DE 69010722T2 DE 69010722 T DE69010722 T DE 69010722T DE 69010722 T DE69010722 T DE 69010722T DE 69010722 T2 DE69010722 T2 DE 69010722T2
- Authority
- DE
- Germany
- Prior art keywords
- label
- word
- vector
- segment
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000013598 vector Substances 0.000 claims description 85
- 238000013139 quantization Methods 0.000 claims description 36
- 230000006978 adaptation Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem unter Verwendung von Phänonischen Markov- Modellen und spezifisch auf ein System, das seinen Vektorquantisierungscode problemlos und mit hoher Präzision anpaßt.
- Ein Spracherkennungssystem, das mit Markov-Modellen arbeitet, erkennt Spracheingabe unter dem Aspekt der Wahrscheinlichkeit. In einem derartigen System wird z.B. das Sprachmerkmal in zeitliche Perioden (die "Rahmen") unterteilt und für jede Periode eine Frequenzanalyse und anschließend eine Vektorquantisierung durchgeführt, danach erfolgt die Umwandlung in eine Label- (Symbol-)-Folge. Für jedes Label wird ein Markov- Modell definiert. Anhand der Label-Folge für die zu erkennende Spracheingabe wird für jedes Wort eine Markov-Modellfolge (Wort- Grundform) erstellt. Es werden mehrere Zustände der und Übergänge zwischen den jeweiligen Markov-Modellen festgelegt. Jedem Übergang wird die Wahrscheinlichkeit des Auftretens dieses Übergangs zugeordnet, und jedem Zustand oder Übergang wird die Wahrscheinlichkeit des Auftretens einer Label-Ausgabe in dem betreffenden Zustand oder Übergang zugeordnet. Eine unbekannte Sprachausgabe wird in die Label-Folge umgewandelt. Die Wahrscheinlichkeit, daß diese Label-Folge durch die entsprechenden Wort-Markov-Modelle, die durch die Wort-Grundform vorgegeben sind, erzeugt wird, wird anhand der vorgenannten Wahrscheinlichkeit des Auftretens eines Übergangs und der Wahrscheinlichkeit der Label-Ausgabe (im folgenden als "Parameter" bezeichnet) ermittelt und das Wort-Markov-Modell bestimmt, bei dem die höchste Wahrscheinlichkeit für das Auftreten eines Labels besteht. Auf Grundlage dieses Ergebnisses erfolgt dann die Erkennung.
- Die Zuordnung eines Markov-Modells zu jedem Label wird als "Phänonisches Markov-Modell" bezeichnet. Das Modell, für das durch dieses Label eine Entsprechung hergestellt wurde, wird in der Lern- und Erkennungsphase des Modells als das allgemeine Modell interpretiert. Ausführliche Informationen zu Phänonischen Markov-Modellen enthält die folgende Literatur:
- 1) "Acoustic Markov Models Used in the Tangora Speech Recognition System" (Tagungsunterlagen der ICASSP '88, April 1988, S11-3, L.R. Bahl, P.F. Brown, P.V. de Souza, R.L. Mercer und M.A. Picheny).
- In einem Spracherkennungssystem, das mit dem vorgenannten Markov-Modell arbeitet, wird für die Erstellung des Codebuchs für die Vektorquantisierung, die Schätzung des Markov-Modells und die Erfassung der Wort-Grundform eine große Menge an Spracheingabedaten benötigt, außerdem erfordert die Durchführung dieser Operationen einen hohen Zeitaufwand. Zahlreiche Systeme, die anhand der Sprachdaten bestimmter Sprecher erstellt wurden, ergeben keine hinreichende Erkennungsgenauigkeit für die Spracherkennung bei anderen Sprechern. Die Erkennungsgenauigkeit nimmt ab, wenn sich - aufgrund eines relativ großen zeitlichen Abstands - die Umgebung verändert, und zwar auch bei ein und demselben Sprecher. Auch durch Umgebungsgeräusche kann sich die Erkennungsgenauigkeit verschlechtern, was ein weiteres Problem darstellt.
- In Dokument (1) oben, wird zwar die Lernzeit wesentlich verkürzt, indem anhand der Aussprache eines bestimmten Sprechers die Wort-Grundformen vorgegeben werden, doch sind immer noch große Mengen von Sprachdaten und ein hoher Verarbeitungszeitaufwand erforderlich, da das Quantisierungscodebuch und die Parameter des Markov-Modells für jeden Sprecher neu bewertet werden.
- Unlängst wurde zur Lösung der Probleme vorgeschlagen, daß das Vektorquantisierungscodebuch und das Markov-Modell für den vorgegebenen Sprecher an verschiedene Sprecher und Gegebenheiten angepaßt werden sollten. Die Methoden zur Anpassung des Vektorquantisierungscodebuchs können in die zwei folgenden Kategorien eingeteilt werden.
- Bei der ersten Kategorie wird die Korrespondenz zwischen der zu erlernenden Aussprache und der Aussprache des vorgegebenen Sprechers durch Abgleich per Datenverarbeitung ermittelt und das Codebuch anhand der- Ergebnisdaten angepaßt. Dies wird erläutert in
- 2) "Speaker adaptation by vecotr quantization", Electronics and Communication Institute Technical Research Report, SP-86-65, Dezember 1986, S. 33 - 40, von Kiyohiro Shikano.
- Mit dieser Methode kann die Korrespondenz allerdings nicht exakt bestimmt werden, wenn sich die Verteilung der Merkmalmenge erheblich ändert. Außerdem stimmt die Bewertung nicht unbedingt mit derjenigen beim Markov-Modell überein, da die Korrespondenz auf dem Abstand basiert. Hinzu kommt, daß sich dadurch die Effizienz bei der Nutzung der Speicherkapazität verringert, da - zusätzlich zum Markov-Modell - Datenverarbeitungskapazität benötigt wird.
- Bei der zweiten Kategorie von Methoden wird nicht die Korrespondenz zur Zeitachse herangezogen, sondern das adaptierte Codebuch erstellt, indem die zu erlernende Sprache in Bezug zu einem Original-Codebuch in Cluster aufgeteilt wird. Diese Methode wird beschrieben in
- 3) "Speaker adaptation method without a teacher based upon clustering of spectrum space". (Japanisches Institut für Akustik, Tagungsunterlagen der nationalen Frühjahrskonferenz Showa 63, März 1988, 2-2-16, von Sadaoki Furui)
- 4) "Speaker Adaptation Method for HMM-Based Speech Recognition", (Tagungsunterlagen der ICASSP '88, April 1988, S5-7, von M. Nishimura und K. Sugawara)
- Diese beiden Methoden erfordern umfangreiche Berechnungen und beanspruchen erhebliche Mengen an Speicherkapazität, wobei die Anpassung u.U. nicht sehr genau ist, da sämtliche Korrespondenzen auf der Zeitachse außer Acht gelassen werden.
- Zusätzlich wird in Referenz (4) die Anpassungsmethode für die Parameter des Markov-Modells beschrieben.
- Gegenstand der vorliegenden Erfindung ist ein Spracherkennungssystem, das in der Lage ist, die Anpassung selbst bei drastischen Änderungen der Merkmalmenge problemlos durchzuführen und die Korrespondenz zwischen den Labels aufrecht zu erhalten.
- Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, das folgendes umfaßt: Mittel zur Durchführung einer Frequenzanalyse bei einer Spracheingabe in einer Abfolge von zeitlichen Perioden zur Erfassung von Merkmalvektoren, Mittel zur Erzeugung einer entsprechenden Label-Folge unter Verwendung eines Vektorquantisierungscodebuchs, Mittel zum Abgleich mehrerer Wort-Grundformen, ausgedrückt als eine Folge von Markov-Modellen, die jeweils Labels entsprechen, mit der Label-Folge, Mittel zur Erkennung der Spracheingabe anhand des Ergebnisses des Abgleichvorgangs und Mittel zur Durchführung einer Anpassungsoperation bei dem System, mit der dessen Fähigkeit zur Spracherkennung verbessert wird.
- Gemäß der Erfindung ist das Spracherkennungssystem dadurch gekennzeichnet, daß das Mittel zur Durchführung der Anpassungsoperation folgendes umfaßt:
- Mittel zur Aufteilung jedes einzelnen einer Mehrzahl von Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl größer oder gleich 1 ist) und zur Erzeugung eines Repräsentativwertes für den Merkmalvektor der einzelnen Segmente jedes Spracheingabewortes,
- Mittel zur Aufteilung von Wort-Grundformen in Segmente, wobei jedes einem der Spracheingabewörter entspricht, und zur Erzeugung eines Repräsentativwertes für die einzelnen Segment- Merkmalvektoren jeder Wort-Grundform anhand eines Prototypvektors des Vektorquantisierungscodebuchs,
- Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand zwischen einem Repräsentativwert für jedes Segment der einzelnen Spracheingabewörter und einem Repräsentativwert des entsprechenden Segments der entsprechenden Wort-Grundform angibt,
- Mittel zur Entwicklung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
- P(Lk i,j)=SP(Lk Ml)×P(Ml i,j)
- wobei P(Lk i,j) den Relationsgrad zwischen dem Segment j des Spracheingabewortes für das Wort i und dem Label Lk in der Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet; P(LkMl) die Ausgabewahrscheinlichkeit für das Label Lk im Markov-Modell Ml ist und P(Ml i,j) die Wahrscheinlichkeit des Auftretens des Markov-Modells Ml im Segment j des Wortes i,
- Mittel zur Speicherung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels einer Label-Gruppe im Vektorquantisierungscodebuch,
- Prototyp-Anpassungsmittel zur Korrektur eines Prototypvektors für die einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs durch die einzelnen Bewegungsvektoren entsprechend dem Relationsgrad zwischen dem Label und dem Bewegungsvektor und
- Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung der einzelnen Label-Prototypvektoren in einer Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
- wobei Fk ein Prototypvektor vor der Korrektur des Labels Lk ist, Fk' ein Prototyp-Vektor nach der Korrektur des Labels Lk, Sij ein Repräsentativwert für den Merkmalvektor im Segment j der Wort-Spracheingabe für das Wort i und Bij ein Repräsentativvektor im Segment j der Wort-Grundform für das Wort i.
- Zur Veranschaulichung der Erfindung wird nachfolgend anhand der beigefügten Zeichnungen ein Ausführungsbeispiel beschrieben.
- Fig. 1 ist eine Zeichnung, in der die Funktionsweise eines Spracherkennungssystems erläutert wird.
- Fig. 2 ist ein Blockdiagramm des Spracherkennungssystems von Fig. 1.
- Fig. 3 ist ein Flußdiagramm, in dem die Funktionsweise der Label-Vorrichtung 8 des in Fig. 2 dargestellten Systems erläutert wird.
- Fig. 4 ist ein Flußdiagramm, in dem die Funktionsweise der Anpassungsvorrichtung für das Vektorquantisierungscodebuch des in Fig. 2 dargestellten Systems erläutert wird.
- Fig. 5 ist eine Zeichnung, die die Experimentaldaten der Anwendungsergebnisse des in Fig. 1 dargestellten Spracherkennungssystems illustriert.
- Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, bei dem die Sprachwörter, die zur Anpassung des Spracherkennungssystems verwendet werden, zunächst für jede einzelne einer Reihe von vorgegebenen Perioden einer Frequenzanalyse unterzogen werden, um eine Folge von Merkmalvektoren zu erzeugen. Anschließend wird die Merkmalvektorenfolge auf einer Zeitachse in N (1úN) Segmente aufgeteilt. Eine Wort-Grundform, die zuvor für die Sprache eines bestimmten Sprechers erfaßt wurde, wird - vorzugsweise gleichmäßig - ebenfalls in N Segmente aufgeteilt und anschließend die Korrespondenz zwischen den einzelnen Segmenten der Merkmalvektorenfolge und der Wort-Grundform ermittelt. Die Grundform kann unter Bezugnahme auf ein Vektorquantisierungscodebuch als Merkmalvektorenfolge interpretiert werden, so daß das Differential zwischen einem Repräsentativmerkmalvektor (vorzugsweise Mittelwert) der einzelnen Wort-Sprachsegemente und einem entsprechenden Grundform-Segment anhand der Korrespondenz zwischen beiden ermittelt werden kann. Das Differential wird im folgenden als "Bewegungsvektor" bezeichnet.
- Die Intensität der Korrespondenz zwischen den einzelnen Labels und den einzelnen Segmenten wird andererseits ermittelt als die Wahrscheinlichkeit der Erzeugung des betreffenden Segments unter einer Bedingung für dieses Label. Anschließend wird für jedes Label ein Codevektor angepaßt, indem Bewegungsvektoren, die für die jeweiligen Segmente ermittelt wurden, und die zur Gewichtung verwendeten bedingten Wahrscheinlichkeiten addiert werden, vgl. Gleichung (1).
- Fig. 1 zeigt in der Übersicht eine Reihe von Operationen eines Spracherkennungssystems für ein Beispiel, bei dem die Anzahl der Wörter, die für die Anpassung des Systems verwendet werden, 1 beträgt, die Anzahl der Segemente, die durch Aufteilung erzeugt werden, 2 und die Anzahl der Labels ebenfalls 2. Hierbei ist i(1úiúW) eine Wortnummer, j(1újúN) die Segmentnummer, Sij ist ein Mittelwertvektor für die Merkmale der Spracheingabe, der für die Anpassung des Wortes i und des Segments j verwendet wird, Bij ist ein mittlerer Merkmalvektor, der anhand der Wort-Grundform und des Quantisierungscodebuchs geschätzt wird, Fk ist ein Codevektor für das Label mit der Nummer k, Fk' ist ein Codevektor nach der Anpassung, und P(i,j Lk) ist die Wahrscheinlichkeit der Erzeugung von Lk unter der Bedingung für das Wort i und das Segment j. Gleichung (1)
- Hier wird die Wahrscheinlichkeit P(i,j Lk) für die Erzeugung eines bestimmten Labels durch jedes Segment ermittelt, indem zunächst die Wahrscheinlichkeit für die Erzeugung dieses Labels in jedem Segment einer Wort-Grundform bestimmt wird und anschließend eine Umwandlung nach dem Bayesschen Satz durchgeführt wird. Außerdem kann die Häufigkeit der Erzeugung eines bestimmten Labels in jedem Segment nach Gleichung (2) geglättet werden, d.h. eine gemessene Häufigkeit der Erzeugung eines bestimmten Labels in jedem Segment wird mit Hilfe von Label-Ausgabewahrscheinlichkeitswerten von Phänonischen Markov- Modellen geglättet. Hierbei ist Mk ein Zustand (Phänon) eines Phänonischen Markov-Modells, der einem Label Lk entspricht; P(Lk Mi) bezeichnet die Wahrscheinlichkeit der Erzeugung einer Label-Ausgabe durch das Modell.
- P(Lk i,j)=SlP(Lk Ml)×P(Ml i,j) ... Gleichung (2)
- Ein Spracherkennungssystem, bei dem die Sprachworterkennung auf dem Phänonischen Markov-Modell basiert, wird nachfolgend anhand der Zeichnungen beschrieben. Fig. 2 zeigt das gesamte System. In Fig. 2 werden die Spracheingabedaten über ein Mikrofon 1 und einen Verstärker 2 an einen Analog-Digital-Umsetzer (ADU) angelegt und dort in digitale Daten umgewandelt. Die digitalisierten Sprachdaten werden an eine Merkmalextraktionsvorrichtung 4 weitergeleitet. In dieser Merkmalextraktionsvorrichtung 4 werden - nach diskreter Fourier-Umwandlung - die Sprachdaten als Ausgabe des kritischen Bandpaßfilters mit 20 Kanälen extrahiert, die die Gehörsinncharakteristik wiedergibt.
- Diese Ausgabe wird in der nächsten Stufe für eine Dauer von 8 ms an eine Austauschvorrichtung 5 angelegt und an eine Eingangslernvorrichtung für ein Vektorquantisierungscodebuch 6 oder eine Anpassungsvorrichtung für ein Vektorquantisierungscodebuch 7 oder eine Label-Vorrichtung 8 angelegt. Während einer Periode, während der der Eingangslernprozeß für das Vektorquantisierungscodebuch erfolgt, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Ausgangsanschluß für die Eingangslernvorrichtung für das Vektorquantisierungscodebuch 6 und legt so die Ausgabe des kritischen Bandpaßfilters von Vorrichtung 4 an die Eingangslernvorrichtung 6 an. Die Eingangslernvorrichtung 6 erstellt durch Cluster-Aufteilung das Vektorquantisierungscodebuch 9, das 128 Codevektoren umfaßt.
- Während einer Periode, in der die Anpassung an das Codebuch erfolgt, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Ausgabeanschluß für die Anpassungsvorrichtung 7, wo das Vektorquantisierungscodebuch 9 nach der Periode für den Eingangslernvorgang als Ausgangswert verwendet wird, und es wirdanhand einer Wort-Grundformtabelle 15, die weiter unten erläutert wird, die Anpassung des Codebuchs duchgeführt. Die Anpassungsvorrichtung 7 wird im Zusammenhang mit Fig. 4 ausführlich beschrieben.
- Während einer weiteren Periode, während der die Erkennung und Erfassung der Wort-Grundform sowie der Eingangslernvorgang und die Anpassung des Markov-Modells erfolgen, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Anschluß für die Label-Vorrichtung 8, in der anhand des Vektorquantisierungscodebuchs 9 die Label-Zuordnung erfolgt. Hier wird für den Eingangslernvorgang des Markov-Modells das Vektorquantisierungscodebuch nach der Periode für den Eingangslernvorgang verwendet.
- Die Label-Zuordnung wird z.B. wie in Fig. 3 durchgeführt. In Fig. 3 bezeichnet X eine Eingangs-Merkmalmenge, Yj die j-te Label-Merkmalmenge (Codevektor), M die Anzahl der Codevektoren (=128), dist(X,Y) einen euklidischen Abstand zwischen X und Yj und m den Mindestwert von dist(X,Y) bis zu jedem Zeitpunkt. Der Ausgangswert für m wird auf einen hohen Wert V gesetzt. Wie aus Fig. 3 ersichtlich, wird die Eingangs-Merkmalmenge X nacheinander mit jedem der Codevektoren verglichen und der ähnlichste Vektor, d.h. derjenige, bei dem der euklidische Abstand am geringsten ist, wird im Ausgangssignal als das ermittelte Label (Label-Nummer) L dargestellt.
- Zurück zu Fig. 2: Die Label-Folge in der Label-Vorrichtung 8 wird über die Austauschvorrichtung 10 an eine Wort-Grundform- Erfassungsvorrichtung 11, eine Markov-Modell-Eingangs- Lernvorrichtung 12, eine Markov-Modell-Anpassungsvorrichtung 13 oder eine Erkennungsvorrichtung 14 angelegt.
- Während einer Periode, in der die Erfassung der Wort-Grundform erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Wort-Grundform-Erfassungsvorrichtung 11 verbunden und die Label-Folge an die Erfassungsvorrichtung 11 übertragen. Die Erfassungsvorrichtung 11 erstellt anhand der Label-Folge eine Wort-Grundformtabelle 15.
- Während einer weiteren Periode, in der der Eingangs-Lernvorgang für das Markov-Modell erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Eingangs- Lernvorrichtung 12 verbunden und die Label-Folge an die Eingangs-Lernvorrichtung 12 übertragen. Die Eingangs-Lernvorrichtung 12 führt anhand der Label-Folge und der Grundformtabelle 15 die Modell-Lernoperation durch und bestimmt die Parameterwerte einer Parametertabelle 16.
- Während einer weiteren Periode, in der die Anpassung erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Anpassungsvorrichtung 13 verbunden, in der der Parameterwert aus der Parametertabelle 16 anhand der Korrespondenzbeziehung zwischen der Eingangs-Label-Folge und jedem einzelnen Phänonischen Markov-Modell der Wort-Grundform angepaßt wird.
- Während einer abschließenden Periode, in der die Erkennung erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Erkennungsvorrichtung 14 verbunden, in der die Spracheingabe anhand der Eingangs-Label-Folge, der Wort- Grundform und der Parametertabelle erkannt wird.
- Die Ausgabe der Erkennungsvorrichtung 14 wird an die Datenstation 17 eines Datenverarbeitungssystems übermittelt und z.B. an einem Bildschirmgerät angezeigt. In Fig. 2 sind sämtliche Vorrichtungen, mit Ausnahme des Mikrofons 1, des Verstärkers 2 und des Bildschirmgeräts 17, in Form von Software (Programmen) in der Datenstation implementiert. Als Datenstation, Betriebssystem und Sprache wurden die Verarbeitungseinheit IBM 5570 der International Business Machines Corporation mit DOS in japanischer Sprache und die Programmiersprache C sowie ein C- Makro-Assembler eingesetzt. Diese Komponenten können selbstverständlich alternativ auch in Form von Hardware implementiert werden.
- Die Funktionsweise der Anpassungsvorrichtung für das Vektorquantisierungscodebuch 7 wird anhand von Fig. 4 erläutert, die den Ablauf der Codebuchanpassung zeigt. Der Codevektor Fk für die einzelnen Labels Lk wird aus dem Vektorquantisierungscodebuch ausgelesen (Schritt 18). Anschließend werden die Sprachdaten des Anpassungslernwortes i eingegeben (Schritt 20). Diese Sprachdaten werden in N gleiche Segmente auf der Zeitachse aufgeteilt und der mittlere Merkmalvektor Sij in jedem Segment j bewertet (Schritt 21). Die Grundform für das Wort Nummer i wird für die Wort-Grundform ausgelesen (Schritt 22). Diese Wort- Grundform wird ebenfalls in eine Menge von N gleichen Segmenten auf der Zeitachse aufgeteilt und der mittlere Merkmalvektor Bij in jedem Segment j unter Bezugnahme auf den in Schritt 18 ausgelesenen Codevektor geschätzt (Schritt 23). Die Auftretensrate P(Lki,j) für das Label Lk in jedem Segment j wird anhand der Menge der N gleichen Segmente der Wort-Grundformen geschätzt (Schritt 24).
- Nach Ausführung der Operationen der Schritt 20 - 24 für das gesamte Anpassungslernvokabular wird P(Lk i,j) umgewandelt und die Wahrscheinlichkeit P(i,j Lk) für das Auftreten des Wortes mit der Label-Bedingung und dem Segment berechnet (Schritt 27). Anschließend werden entsprechend Gleichung (1) alle Codevektoren Fk angepaßt und das bestehende Vektorquantisierungscodebuch durch diesen angepaßten Codevektor ersetzt (Schritt 28).
- Für das vorstehend beschriebene Spracherkennungssystem wurde ein Bewertungsversuch durchgeführt, wobei das zu erkennende Vokabular aus 150 sehr ähnlichen japanischen Wörtern bestand (z.B. "Keihoh, Heihoh, Chokusen, Chokuzen"). Bei dem Versuch wurden als Eingangs-Sprachdaten für den Lernvorgang für das Vektorquantisierungscodebuch und das Markov-Modell 150 Wörter verwendet, die von einem männlichen Sprecher zehnmal ausgesprochen wurden; für weitere elf Sprecher (sieben Männer und vier Frauen) wurde der Anpassungseffekt ermittelt. Die Anpassungsoperation wurde für einen Teil (10, 25, 50, 100 und 150 Wörter mit je einmaliger Aussprache je Wort) des objektiven Vokabulars durchgeführt; der Erkennungsversuch wurde mit 150 Wörtern durchgeführt, die von jedem Sprecher dreimal ausgesprochen wurden. Fig. 5 zeigt ein Ergebnis des Erkennungsversuchs, wobei die horizontale Achse die Anzahl der Anpassungslernwörter bezeichnet und die vertikale Achse die mittlere Fehlererkennungsrate. Weiße Kreise bezeichnen die Ergebnisse, bei denen lediglich das Markov-Modell angepaßt wurde, während schwarze Kreise die Ergebnisse bezeichnen, bei denen die Funktion des vorstehend beschriebenen Erkennungssystems unter Anwendung der Erfindung zusammen mit der Anpassung der Markov-Modelle ausgeführt wurde. Die durchgezogene Linie bei 4% der vertikalen Achse ist das Ergebnis aus dem Erkennungsversuch für den ersten Sprecher, für den der Ausgangs- Lernvorgang durchgeführt wurde. Aus diesem Ergebnis ist ersichtlich, daß - mit Hilfe der Funktion des vorstehend beschriebenen Erkennungssystems - durch einfaches Lernen der 25 Wörter für die männlichen Sprecher die gleiche Erkennungsgenauigkeit erreicht werden kann wie für den ersten Sprecher. Außerdem wird ersichtlich, daß das beschriebene Erkennungssystem selbst wenn lediglich das Markov-Modell zwischen männlichen und weiblichen Sprechern angepaßt wird, fast die gleiche Genauigkeit ergibt wie beim ersten Sprecher, wobei eine Fehlerrate von ca. 10% entsteht, die auf die drastischen Veränderungen der Merkmalhäufigkeit zurückzuführen ist; dies gilt selbst bei 150 zu lernenden Wörtern.
- Das vorstehend beschriebene Spracherkennungssystem kann auf kleinen Datenverarbeitungseinrichtungen mit der kleinen, für die Anpassung erforderlichen Rechenfunktion und geringer Speicherkapazität implementiert werden.
Claims (3)
1. Ein Spracherkennungssystem, das folgendes umfaßt: Mittel (4)
zur Durchführung einer Frequenzanalyse bei einer
Spracheingabe in einer Abfolge von zeitlichen Perioden zur
Erfassung von Merkmalvektoren, Mittel (8) zur Erzeugung
einer entsprechenden Label-Folge unter Verwendung eines
Vektor-quantisierungscodebuchs (9), Mittel (11) zum Abgleich
mehrerer Wort-Grundformen, ausgedrückt als eine Folge von
Markov-Modellen, die jeweils Labels entsprechen, mit der
Label-Folge, Mittel (14) zur Erkennung der Spracheingabe
anhand des Ergebnisses des Abgleichvorgangs und Mittel zur
Durchführung einer Anpassungsoperation bei dem System, mit
der dessen Fähigkeit zur Spracherkennung verbessert wird,
dadurch gekennzeichnet, daß das Mittel zur Durchführung der
Anpassungsoperation folgendes umfaßt:
Mittel (4) zur Aufteilung jedes einzelnen einer Mehrzahl von
Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl
größer oder gleich 1 ist) und zur Erzeugung eines
Repräsentativwertes für den Merkmalvektor der einzelnen
Segmente jedes Spracheingabewortes,
Mittel zur Aufteilung von Wort-Grundformen in Segmente,
wobei jedes einem der Spracheingabewörter entspricht, und
zur Erzeugung eines Repräsentativwertes für die einzelnen
Segment-Merkmalvektoren jeder Wort-Grundform anhand eines
Prototypvektors des Vektorquantisierungscodebuchs,
Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand
zwischeii einem Repräsentativwert für jedes Segment der
einzelnen Spracheingabewörter und einem Repräsentativwert
des entsprechenden Segments der entsprechenden Wort-
Grundform angibt,
Mittel zur Entwicklung des Relationsgrades zwischen den
einzelnen Segmenten jedes Spracheingabewortes und den
einzelnen Labels in der Label-Gruppe des
Vektorquantisierungscodebuchs auf Basis von
P(Lk i,j)=SP(Lk Ml)×P(Ml i,j)
wobei P(Lk i,j) den Relationsgrad zwischen dem Segment j des
Spracheingabewortes für das Wort i und dem Label Lk in der
Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet;
P(LkMl) die Ausgabewahrscheinlichkeit für das Label Lk im
Markov-Modell Ml ist und P(Ml i,j) die Wahrscheinlichkeit
des Auftretens des Markov-Modells Ml im Segment j des Wortes
i.
Mittel zur Speicherung des Relationsgrades zwischen den
einzelnen Segmenten jedes Spracheingabewortes und den
einzelnen Labels einer Label-Gruppe im
Vektorquantisierungscodebuch,
Prototyp-Anpassungsmittel zur Korrektur eines
Prototypvektors für die einzelnen Labels in der Label-Gruppe des
Vektorquantisierungscodebuchs durch die einzelnen
Bewegungsvektoren entsprechend dem Relationsgrad zwischen
dem Label und dem Bewegungsvektor und
Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung
der einzelnen Label-Prototypvektoren in einer Label-Gruppe
des Vektorquantisierungscodebuchs auf Basis von
wobei Fk ein Prototypvektor vor der Korrektur des Label Lk
ist, Fk' ein Prototyp-Vektor nach der Korrektur des Label
Lk, Sij ein Repräsentativwert für den Merkmalvektor im
Segment j der Wort-Spracheingabe für das Wort i und Bij
ein
Repräsentativvektor im Segment j der Wort-Grundform für das
Wort i.
2. Ein Spracherkennungssystem nach Anspruch 1, dadurch
gekennzeichnet, daß der Repräsentativwert für jeden
Segmentmerkmalvektor jedes einzelnen Spracheingabewortes
einen Mittelwert des Merkmalvektors in dem Segment bildet.
3. Ein Spracherkennungssystem nach Anspruch 1, dadurch
gekennzeichnet, daß der Repräsentativwert für jeden
Segmentmerkmalvektor jeder einzelnen Wort-Grundform einen
Mittelwert der Prototypvektoren der Labels in dem Segment
bildet.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1057760A JPH0636156B2 (ja) | 1989-03-13 | 1989-03-13 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69010722D1 DE69010722D1 (de) | 1994-08-25 |
DE69010722T2 true DE69010722T2 (de) | 1995-03-16 |
Family
ID=13064835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69010722T Expired - Lifetime DE69010722T2 (de) | 1989-03-13 | 1990-03-07 | Spracherkennungssystem. |
Country Status (4)
Country | Link |
---|---|
US (1) | US5046099A (de) |
EP (1) | EP0388067B1 (de) |
JP (1) | JPH0636156B2 (de) |
DE (1) | DE69010722T2 (de) |
Families Citing this family (154)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5345536A (en) * | 1990-12-21 | 1994-09-06 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
US5487129A (en) * | 1991-08-01 | 1996-01-23 | The Dsp Group | Speech pattern matching in non-white noise |
JP3129778B2 (ja) * | 1991-08-30 | 2001-01-31 | 富士通株式会社 | ベクトル量子化器 |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
JPH0776878B2 (ja) * | 1991-10-31 | 1995-08-16 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識方法および装置 |
WO1993013518A1 (en) * | 1991-12-31 | 1993-07-08 | Digital Sound Corporation | Voice controlled messaging system and processing method |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US6311157B1 (en) * | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
US5483579A (en) * | 1993-02-25 | 1996-01-09 | Digital Acoustics, Inc. | Voice recognition dialing system |
US5692100A (en) * | 1994-02-02 | 1997-11-25 | Matsushita Electric Industrial Co., Ltd. | Vector quantizer |
US5615299A (en) * | 1994-06-20 | 1997-03-25 | International Business Machines Corporation | Speech recognition using dynamic features |
AUPM983094A0 (en) * | 1994-12-02 | 1995-01-05 | Australian National University, The | Method for forming a cohort for use in identification of an individual |
AU683783B2 (en) * | 1994-12-02 | 1997-11-20 | Australian National University, The | Method for forming a cohort for use in identification of an individual |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3008799B2 (ja) * | 1995-01-26 | 2000-02-14 | 日本電気株式会社 | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
JP3280825B2 (ja) * | 1995-04-26 | 2002-05-13 | 富士通株式会社 | 音声特徴分析装置 |
JP2738403B2 (ja) * | 1995-05-12 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US6081660A (en) * | 1995-12-01 | 2000-06-27 | The Australian National University | Method for forming a cohort for use in identification of an individual |
US5745872A (en) * | 1996-05-07 | 1998-04-28 | Texas Instruments Incorporated | Method and system for compensating speech signals using vector quantization codebook adaptation |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
BR9712979A (pt) | 1996-09-10 | 2000-10-31 | Siemens Ag | Processo para adaptação de um modelo acústico hidden markov em um sistema de identificação de fala |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6044343A (en) * | 1997-06-27 | 2000-03-28 | Advanced Micro Devices, Inc. | Adaptive speech recognition with selective input data to a speech classifier |
US6003003A (en) * | 1997-06-27 | 1999-12-14 | Advanced Micro Devices, Inc. | Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
US6070136A (en) * | 1997-10-27 | 2000-05-30 | Advanced Micro Devices, Inc. | Matrix quantization with vector quantization error compensation for robust speech recognition |
US6067515A (en) * | 1997-10-27 | 2000-05-23 | Advanced Micro Devices, Inc. | Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6347297B1 (en) | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
US6219642B1 (en) | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
DE69829187T2 (de) | 1998-12-17 | 2005-12-29 | Sony International (Europe) Gmbh | Halbüberwachte Sprecheradaptation |
KR100307623B1 (ko) * | 1999-10-21 | 2001-11-02 | 윤종용 | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6895376B2 (en) * | 2001-05-04 | 2005-05-17 | Matsushita Electric Industrial Co., Ltd. | Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8010341B2 (en) * | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (de) | 2013-06-09 | 2016-04-20 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
-
1989
- 1989-03-13 JP JP1057760A patent/JPH0636156B2/ja not_active Expired - Lifetime
-
1990
- 1990-02-27 US US07/485,402 patent/US5046099A/en not_active Expired - Fee Related
- 1990-03-07 DE DE69010722T patent/DE69010722T2/de not_active Expired - Lifetime
- 1990-03-07 EP EP90302404A patent/EP0388067B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0636156B2 (ja) | 1994-05-11 |
EP0388067A2 (de) | 1990-09-19 |
DE69010722D1 (de) | 1994-08-25 |
US5046099A (en) | 1991-09-03 |
EP0388067B1 (de) | 1994-07-20 |
EP0388067A3 (de) | 1991-09-04 |
JPH02238496A (ja) | 1990-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69010722T2 (de) | Spracherkennungssystem. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3878071T2 (de) | Sprachnormierung durch adaptive klassifizierung. | |
DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE60222249T2 (de) | Spracherkennungsystem mittels impliziter sprecheradaption | |
DE60124842T2 (de) | Rauschrobuste Mustererkennung | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3874049T2 (de) | Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers. | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69121145T2 (de) | Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE69333762T2 (de) | Spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8330 | Complete renunciation |