DE69010722T2 - Spracherkennungssystem. - Google Patents

Spracherkennungssystem.

Info

Publication number
DE69010722T2
DE69010722T2 DE69010722T DE69010722T DE69010722T2 DE 69010722 T2 DE69010722 T2 DE 69010722T2 DE 69010722 T DE69010722 T DE 69010722T DE 69010722 T DE69010722 T DE 69010722T DE 69010722 T2 DE69010722 T2 DE 69010722T2
Authority
DE
Germany
Prior art keywords
label
word
vector
segment
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69010722T
Other languages
English (en)
Other versions
DE69010722D1 (de
Inventor
Masafumi Yokohama-Shi Kanagawa-Ken Nishimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE69010722D1 publication Critical patent/DE69010722D1/de
Application granted granted Critical
Publication of DE69010722T2 publication Critical patent/DE69010722T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem unter Verwendung von Phänonischen Markov- Modellen und spezifisch auf ein System, das seinen Vektorquantisierungscode problemlos und mit hoher Präzision anpaßt.
  • Ein Spracherkennungssystem, das mit Markov-Modellen arbeitet, erkennt Spracheingabe unter dem Aspekt der Wahrscheinlichkeit. In einem derartigen System wird z.B. das Sprachmerkmal in zeitliche Perioden (die "Rahmen") unterteilt und für jede Periode eine Frequenzanalyse und anschließend eine Vektorquantisierung durchgeführt, danach erfolgt die Umwandlung in eine Label- (Symbol-)-Folge. Für jedes Label wird ein Markov- Modell definiert. Anhand der Label-Folge für die zu erkennende Spracheingabe wird für jedes Wort eine Markov-Modellfolge (Wort- Grundform) erstellt. Es werden mehrere Zustände der und Übergänge zwischen den jeweiligen Markov-Modellen festgelegt. Jedem Übergang wird die Wahrscheinlichkeit des Auftretens dieses Übergangs zugeordnet, und jedem Zustand oder Übergang wird die Wahrscheinlichkeit des Auftretens einer Label-Ausgabe in dem betreffenden Zustand oder Übergang zugeordnet. Eine unbekannte Sprachausgabe wird in die Label-Folge umgewandelt. Die Wahrscheinlichkeit, daß diese Label-Folge durch die entsprechenden Wort-Markov-Modelle, die durch die Wort-Grundform vorgegeben sind, erzeugt wird, wird anhand der vorgenannten Wahrscheinlichkeit des Auftretens eines Übergangs und der Wahrscheinlichkeit der Label-Ausgabe (im folgenden als "Parameter" bezeichnet) ermittelt und das Wort-Markov-Modell bestimmt, bei dem die höchste Wahrscheinlichkeit für das Auftreten eines Labels besteht. Auf Grundlage dieses Ergebnisses erfolgt dann die Erkennung.
  • Die Zuordnung eines Markov-Modells zu jedem Label wird als "Phänonisches Markov-Modell" bezeichnet. Das Modell, für das durch dieses Label eine Entsprechung hergestellt wurde, wird in der Lern- und Erkennungsphase des Modells als das allgemeine Modell interpretiert. Ausführliche Informationen zu Phänonischen Markov-Modellen enthält die folgende Literatur:
  • 1) "Acoustic Markov Models Used in the Tangora Speech Recognition System" (Tagungsunterlagen der ICASSP '88, April 1988, S11-3, L.R. Bahl, P.F. Brown, P.V. de Souza, R.L. Mercer und M.A. Picheny).
  • In einem Spracherkennungssystem, das mit dem vorgenannten Markov-Modell arbeitet, wird für die Erstellung des Codebuchs für die Vektorquantisierung, die Schätzung des Markov-Modells und die Erfassung der Wort-Grundform eine große Menge an Spracheingabedaten benötigt, außerdem erfordert die Durchführung dieser Operationen einen hohen Zeitaufwand. Zahlreiche Systeme, die anhand der Sprachdaten bestimmter Sprecher erstellt wurden, ergeben keine hinreichende Erkennungsgenauigkeit für die Spracherkennung bei anderen Sprechern. Die Erkennungsgenauigkeit nimmt ab, wenn sich - aufgrund eines relativ großen zeitlichen Abstands - die Umgebung verändert, und zwar auch bei ein und demselben Sprecher. Auch durch Umgebungsgeräusche kann sich die Erkennungsgenauigkeit verschlechtern, was ein weiteres Problem darstellt.
  • In Dokument (1) oben, wird zwar die Lernzeit wesentlich verkürzt, indem anhand der Aussprache eines bestimmten Sprechers die Wort-Grundformen vorgegeben werden, doch sind immer noch große Mengen von Sprachdaten und ein hoher Verarbeitungszeitaufwand erforderlich, da das Quantisierungscodebuch und die Parameter des Markov-Modells für jeden Sprecher neu bewertet werden.
  • Unlängst wurde zur Lösung der Probleme vorgeschlagen, daß das Vektorquantisierungscodebuch und das Markov-Modell für den vorgegebenen Sprecher an verschiedene Sprecher und Gegebenheiten angepaßt werden sollten. Die Methoden zur Anpassung des Vektorquantisierungscodebuchs können in die zwei folgenden Kategorien eingeteilt werden.
  • Bei der ersten Kategorie wird die Korrespondenz zwischen der zu erlernenden Aussprache und der Aussprache des vorgegebenen Sprechers durch Abgleich per Datenverarbeitung ermittelt und das Codebuch anhand der- Ergebnisdaten angepaßt. Dies wird erläutert in
  • 2) "Speaker adaptation by vecotr quantization", Electronics and Communication Institute Technical Research Report, SP-86-65, Dezember 1986, S. 33 - 40, von Kiyohiro Shikano.
  • Mit dieser Methode kann die Korrespondenz allerdings nicht exakt bestimmt werden, wenn sich die Verteilung der Merkmalmenge erheblich ändert. Außerdem stimmt die Bewertung nicht unbedingt mit derjenigen beim Markov-Modell überein, da die Korrespondenz auf dem Abstand basiert. Hinzu kommt, daß sich dadurch die Effizienz bei der Nutzung der Speicherkapazität verringert, da - zusätzlich zum Markov-Modell - Datenverarbeitungskapazität benötigt wird.
  • Bei der zweiten Kategorie von Methoden wird nicht die Korrespondenz zur Zeitachse herangezogen, sondern das adaptierte Codebuch erstellt, indem die zu erlernende Sprache in Bezug zu einem Original-Codebuch in Cluster aufgeteilt wird. Diese Methode wird beschrieben in
  • 3) "Speaker adaptation method without a teacher based upon clustering of spectrum space". (Japanisches Institut für Akustik, Tagungsunterlagen der nationalen Frühjahrskonferenz Showa 63, März 1988, 2-2-16, von Sadaoki Furui)
  • 4) "Speaker Adaptation Method for HMM-Based Speech Recognition", (Tagungsunterlagen der ICASSP '88, April 1988, S5-7, von M. Nishimura und K. Sugawara)
  • Diese beiden Methoden erfordern umfangreiche Berechnungen und beanspruchen erhebliche Mengen an Speicherkapazität, wobei die Anpassung u.U. nicht sehr genau ist, da sämtliche Korrespondenzen auf der Zeitachse außer Acht gelassen werden.
  • Zusätzlich wird in Referenz (4) die Anpassungsmethode für die Parameter des Markov-Modells beschrieben.
  • Gegenstand der vorliegenden Erfindung ist ein Spracherkennungssystem, das in der Lage ist, die Anpassung selbst bei drastischen Änderungen der Merkmalmenge problemlos durchzuführen und die Korrespondenz zwischen den Labels aufrecht zu erhalten.
  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, das folgendes umfaßt: Mittel zur Durchführung einer Frequenzanalyse bei einer Spracheingabe in einer Abfolge von zeitlichen Perioden zur Erfassung von Merkmalvektoren, Mittel zur Erzeugung einer entsprechenden Label-Folge unter Verwendung eines Vektorquantisierungscodebuchs, Mittel zum Abgleich mehrerer Wort-Grundformen, ausgedrückt als eine Folge von Markov-Modellen, die jeweils Labels entsprechen, mit der Label-Folge, Mittel zur Erkennung der Spracheingabe anhand des Ergebnisses des Abgleichvorgangs und Mittel zur Durchführung einer Anpassungsoperation bei dem System, mit der dessen Fähigkeit zur Spracherkennung verbessert wird.
  • Gemäß der Erfindung ist das Spracherkennungssystem dadurch gekennzeichnet, daß das Mittel zur Durchführung der Anpassungsoperation folgendes umfaßt:
  • Mittel zur Aufteilung jedes einzelnen einer Mehrzahl von Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl größer oder gleich 1 ist) und zur Erzeugung eines Repräsentativwertes für den Merkmalvektor der einzelnen Segmente jedes Spracheingabewortes,
  • Mittel zur Aufteilung von Wort-Grundformen in Segmente, wobei jedes einem der Spracheingabewörter entspricht, und zur Erzeugung eines Repräsentativwertes für die einzelnen Segment- Merkmalvektoren jeder Wort-Grundform anhand eines Prototypvektors des Vektorquantisierungscodebuchs,
  • Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand zwischen einem Repräsentativwert für jedes Segment der einzelnen Spracheingabewörter und einem Repräsentativwert des entsprechenden Segments der entsprechenden Wort-Grundform angibt,
  • Mittel zur Entwicklung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
  • P(Lk i,j)=SP(Lk Ml)×P(Ml i,j)
  • wobei P(Lk i,j) den Relationsgrad zwischen dem Segment j des Spracheingabewortes für das Wort i und dem Label Lk in der Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet; P(LkMl) die Ausgabewahrscheinlichkeit für das Label Lk im Markov-Modell Ml ist und P(Ml i,j) die Wahrscheinlichkeit des Auftretens des Markov-Modells Ml im Segment j des Wortes i,
  • Mittel zur Speicherung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels einer Label-Gruppe im Vektorquantisierungscodebuch,
  • Prototyp-Anpassungsmittel zur Korrektur eines Prototypvektors für die einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs durch die einzelnen Bewegungsvektoren entsprechend dem Relationsgrad zwischen dem Label und dem Bewegungsvektor und
  • Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung der einzelnen Label-Prototypvektoren in einer Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
  • wobei Fk ein Prototypvektor vor der Korrektur des Labels Lk ist, Fk' ein Prototyp-Vektor nach der Korrektur des Labels Lk, Sij ein Repräsentativwert für den Merkmalvektor im Segment j der Wort-Spracheingabe für das Wort i und Bij ein Repräsentativvektor im Segment j der Wort-Grundform für das Wort i.
  • Zur Veranschaulichung der Erfindung wird nachfolgend anhand der beigefügten Zeichnungen ein Ausführungsbeispiel beschrieben.
  • Fig. 1 ist eine Zeichnung, in der die Funktionsweise eines Spracherkennungssystems erläutert wird.
  • Fig. 2 ist ein Blockdiagramm des Spracherkennungssystems von Fig. 1.
  • Fig. 3 ist ein Flußdiagramm, in dem die Funktionsweise der Label-Vorrichtung 8 des in Fig. 2 dargestellten Systems erläutert wird.
  • Fig. 4 ist ein Flußdiagramm, in dem die Funktionsweise der Anpassungsvorrichtung für das Vektorquantisierungscodebuch des in Fig. 2 dargestellten Systems erläutert wird.
  • Fig. 5 ist eine Zeichnung, die die Experimentaldaten der Anwendungsergebnisse des in Fig. 1 dargestellten Spracherkennungssystems illustriert.
  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, bei dem die Sprachwörter, die zur Anpassung des Spracherkennungssystems verwendet werden, zunächst für jede einzelne einer Reihe von vorgegebenen Perioden einer Frequenzanalyse unterzogen werden, um eine Folge von Merkmalvektoren zu erzeugen. Anschließend wird die Merkmalvektorenfolge auf einer Zeitachse in N (1úN) Segmente aufgeteilt. Eine Wort-Grundform, die zuvor für die Sprache eines bestimmten Sprechers erfaßt wurde, wird - vorzugsweise gleichmäßig - ebenfalls in N Segmente aufgeteilt und anschließend die Korrespondenz zwischen den einzelnen Segmenten der Merkmalvektorenfolge und der Wort-Grundform ermittelt. Die Grundform kann unter Bezugnahme auf ein Vektorquantisierungscodebuch als Merkmalvektorenfolge interpretiert werden, so daß das Differential zwischen einem Repräsentativmerkmalvektor (vorzugsweise Mittelwert) der einzelnen Wort-Sprachsegemente und einem entsprechenden Grundform-Segment anhand der Korrespondenz zwischen beiden ermittelt werden kann. Das Differential wird im folgenden als "Bewegungsvektor" bezeichnet.
  • Die Intensität der Korrespondenz zwischen den einzelnen Labels und den einzelnen Segmenten wird andererseits ermittelt als die Wahrscheinlichkeit der Erzeugung des betreffenden Segments unter einer Bedingung für dieses Label. Anschließend wird für jedes Label ein Codevektor angepaßt, indem Bewegungsvektoren, die für die jeweiligen Segmente ermittelt wurden, und die zur Gewichtung verwendeten bedingten Wahrscheinlichkeiten addiert werden, vgl. Gleichung (1).
  • Fig. 1 zeigt in der Übersicht eine Reihe von Operationen eines Spracherkennungssystems für ein Beispiel, bei dem die Anzahl der Wörter, die für die Anpassung des Systems verwendet werden, 1 beträgt, die Anzahl der Segemente, die durch Aufteilung erzeugt werden, 2 und die Anzahl der Labels ebenfalls 2. Hierbei ist i(1úiúW) eine Wortnummer, j(1újúN) die Segmentnummer, Sij ist ein Mittelwertvektor für die Merkmale der Spracheingabe, der für die Anpassung des Wortes i und des Segments j verwendet wird, Bij ist ein mittlerer Merkmalvektor, der anhand der Wort-Grundform und des Quantisierungscodebuchs geschätzt wird, Fk ist ein Codevektor für das Label mit der Nummer k, Fk' ist ein Codevektor nach der Anpassung, und P(i,j Lk) ist die Wahrscheinlichkeit der Erzeugung von Lk unter der Bedingung für das Wort i und das Segment j. Gleichung (1)
  • Hier wird die Wahrscheinlichkeit P(i,j Lk) für die Erzeugung eines bestimmten Labels durch jedes Segment ermittelt, indem zunächst die Wahrscheinlichkeit für die Erzeugung dieses Labels in jedem Segment einer Wort-Grundform bestimmt wird und anschließend eine Umwandlung nach dem Bayesschen Satz durchgeführt wird. Außerdem kann die Häufigkeit der Erzeugung eines bestimmten Labels in jedem Segment nach Gleichung (2) geglättet werden, d.h. eine gemessene Häufigkeit der Erzeugung eines bestimmten Labels in jedem Segment wird mit Hilfe von Label-Ausgabewahrscheinlichkeitswerten von Phänonischen Markov- Modellen geglättet. Hierbei ist Mk ein Zustand (Phänon) eines Phänonischen Markov-Modells, der einem Label Lk entspricht; P(Lk Mi) bezeichnet die Wahrscheinlichkeit der Erzeugung einer Label-Ausgabe durch das Modell.
  • P(Lk i,j)=SlP(Lk Ml)×P(Ml i,j) ... Gleichung (2)
  • Ein Spracherkennungssystem, bei dem die Sprachworterkennung auf dem Phänonischen Markov-Modell basiert, wird nachfolgend anhand der Zeichnungen beschrieben. Fig. 2 zeigt das gesamte System. In Fig. 2 werden die Spracheingabedaten über ein Mikrofon 1 und einen Verstärker 2 an einen Analog-Digital-Umsetzer (ADU) angelegt und dort in digitale Daten umgewandelt. Die digitalisierten Sprachdaten werden an eine Merkmalextraktionsvorrichtung 4 weitergeleitet. In dieser Merkmalextraktionsvorrichtung 4 werden - nach diskreter Fourier-Umwandlung - die Sprachdaten als Ausgabe des kritischen Bandpaßfilters mit 20 Kanälen extrahiert, die die Gehörsinncharakteristik wiedergibt.
  • Diese Ausgabe wird in der nächsten Stufe für eine Dauer von 8 ms an eine Austauschvorrichtung 5 angelegt und an eine Eingangslernvorrichtung für ein Vektorquantisierungscodebuch 6 oder eine Anpassungsvorrichtung für ein Vektorquantisierungscodebuch 7 oder eine Label-Vorrichtung 8 angelegt. Während einer Periode, während der der Eingangslernprozeß für das Vektorquantisierungscodebuch erfolgt, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Ausgangsanschluß für die Eingangslernvorrichtung für das Vektorquantisierungscodebuch 6 und legt so die Ausgabe des kritischen Bandpaßfilters von Vorrichtung 4 an die Eingangslernvorrichtung 6 an. Die Eingangslernvorrichtung 6 erstellt durch Cluster-Aufteilung das Vektorquantisierungscodebuch 9, das 128 Codevektoren umfaßt.
  • Während einer Periode, in der die Anpassung an das Codebuch erfolgt, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Ausgabeanschluß für die Anpassungsvorrichtung 7, wo das Vektorquantisierungscodebuch 9 nach der Periode für den Eingangslernvorgang als Ausgangswert verwendet wird, und es wirdanhand einer Wort-Grundformtabelle 15, die weiter unten erläutert wird, die Anpassung des Codebuchs duchgeführt. Die Anpassungsvorrichtung 7 wird im Zusammenhang mit Fig. 4 ausführlich beschrieben.
  • Während einer weiteren Periode, während der die Erkennung und Erfassung der Wort-Grundform sowie der Eingangslernvorgang und die Anpassung des Markov-Modells erfolgen, verbindet die Austauschvorrichtung 5 ihren Eingang mit dem Anschluß für die Label-Vorrichtung 8, in der anhand des Vektorquantisierungscodebuchs 9 die Label-Zuordnung erfolgt. Hier wird für den Eingangslernvorgang des Markov-Modells das Vektorquantisierungscodebuch nach der Periode für den Eingangslernvorgang verwendet.
  • Die Label-Zuordnung wird z.B. wie in Fig. 3 durchgeführt. In Fig. 3 bezeichnet X eine Eingangs-Merkmalmenge, Yj die j-te Label-Merkmalmenge (Codevektor), M die Anzahl der Codevektoren (=128), dist(X,Y) einen euklidischen Abstand zwischen X und Yj und m den Mindestwert von dist(X,Y) bis zu jedem Zeitpunkt. Der Ausgangswert für m wird auf einen hohen Wert V gesetzt. Wie aus Fig. 3 ersichtlich, wird die Eingangs-Merkmalmenge X nacheinander mit jedem der Codevektoren verglichen und der ähnlichste Vektor, d.h. derjenige, bei dem der euklidische Abstand am geringsten ist, wird im Ausgangssignal als das ermittelte Label (Label-Nummer) L dargestellt.
  • Zurück zu Fig. 2: Die Label-Folge in der Label-Vorrichtung 8 wird über die Austauschvorrichtung 10 an eine Wort-Grundform- Erfassungsvorrichtung 11, eine Markov-Modell-Eingangs- Lernvorrichtung 12, eine Markov-Modell-Anpassungsvorrichtung 13 oder eine Erkennungsvorrichtung 14 angelegt.
  • Während einer Periode, in der die Erfassung der Wort-Grundform erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Wort-Grundform-Erfassungsvorrichtung 11 verbunden und die Label-Folge an die Erfassungsvorrichtung 11 übertragen. Die Erfassungsvorrichtung 11 erstellt anhand der Label-Folge eine Wort-Grundformtabelle 15.
  • Während einer weiteren Periode, in der der Eingangs-Lernvorgang für das Markov-Modell erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Eingangs- Lernvorrichtung 12 verbunden und die Label-Folge an die Eingangs-Lernvorrichtung 12 übertragen. Die Eingangs-Lernvorrichtung 12 führt anhand der Label-Folge und der Grundformtabelle 15 die Modell-Lernoperation durch und bestimmt die Parameterwerte einer Parametertabelle 16.
  • Während einer weiteren Periode, in der die Anpassung erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Anpassungsvorrichtung 13 verbunden, in der der Parameterwert aus der Parametertabelle 16 anhand der Korrespondenzbeziehung zwischen der Eingangs-Label-Folge und jedem einzelnen Phänonischen Markov-Modell der Wort-Grundform angepaßt wird.
  • Während einer abschließenden Periode, in der die Erkennung erfolgt, wird der Eingang der Austauschvorrichtung 10 mit dem Ausgangsanschluß für die Erkennungsvorrichtung 14 verbunden, in der die Spracheingabe anhand der Eingangs-Label-Folge, der Wort- Grundform und der Parametertabelle erkannt wird.
  • Die Ausgabe der Erkennungsvorrichtung 14 wird an die Datenstation 17 eines Datenverarbeitungssystems übermittelt und z.B. an einem Bildschirmgerät angezeigt. In Fig. 2 sind sämtliche Vorrichtungen, mit Ausnahme des Mikrofons 1, des Verstärkers 2 und des Bildschirmgeräts 17, in Form von Software (Programmen) in der Datenstation implementiert. Als Datenstation, Betriebssystem und Sprache wurden die Verarbeitungseinheit IBM 5570 der International Business Machines Corporation mit DOS in japanischer Sprache und die Programmiersprache C sowie ein C- Makro-Assembler eingesetzt. Diese Komponenten können selbstverständlich alternativ auch in Form von Hardware implementiert werden.
  • Die Funktionsweise der Anpassungsvorrichtung für das Vektorquantisierungscodebuch 7 wird anhand von Fig. 4 erläutert, die den Ablauf der Codebuchanpassung zeigt. Der Codevektor Fk für die einzelnen Labels Lk wird aus dem Vektorquantisierungscodebuch ausgelesen (Schritt 18). Anschließend werden die Sprachdaten des Anpassungslernwortes i eingegeben (Schritt 20). Diese Sprachdaten werden in N gleiche Segmente auf der Zeitachse aufgeteilt und der mittlere Merkmalvektor Sij in jedem Segment j bewertet (Schritt 21). Die Grundform für das Wort Nummer i wird für die Wort-Grundform ausgelesen (Schritt 22). Diese Wort- Grundform wird ebenfalls in eine Menge von N gleichen Segmenten auf der Zeitachse aufgeteilt und der mittlere Merkmalvektor Bij in jedem Segment j unter Bezugnahme auf den in Schritt 18 ausgelesenen Codevektor geschätzt (Schritt 23). Die Auftretensrate P(Lki,j) für das Label Lk in jedem Segment j wird anhand der Menge der N gleichen Segmente der Wort-Grundformen geschätzt (Schritt 24).
  • Nach Ausführung der Operationen der Schritt 20 - 24 für das gesamte Anpassungslernvokabular wird P(Lk i,j) umgewandelt und die Wahrscheinlichkeit P(i,j Lk) für das Auftreten des Wortes mit der Label-Bedingung und dem Segment berechnet (Schritt 27). Anschließend werden entsprechend Gleichung (1) alle Codevektoren Fk angepaßt und das bestehende Vektorquantisierungscodebuch durch diesen angepaßten Codevektor ersetzt (Schritt 28).
  • Für das vorstehend beschriebene Spracherkennungssystem wurde ein Bewertungsversuch durchgeführt, wobei das zu erkennende Vokabular aus 150 sehr ähnlichen japanischen Wörtern bestand (z.B. "Keihoh, Heihoh, Chokusen, Chokuzen"). Bei dem Versuch wurden als Eingangs-Sprachdaten für den Lernvorgang für das Vektorquantisierungscodebuch und das Markov-Modell 150 Wörter verwendet, die von einem männlichen Sprecher zehnmal ausgesprochen wurden; für weitere elf Sprecher (sieben Männer und vier Frauen) wurde der Anpassungseffekt ermittelt. Die Anpassungsoperation wurde für einen Teil (10, 25, 50, 100 und 150 Wörter mit je einmaliger Aussprache je Wort) des objektiven Vokabulars durchgeführt; der Erkennungsversuch wurde mit 150 Wörtern durchgeführt, die von jedem Sprecher dreimal ausgesprochen wurden. Fig. 5 zeigt ein Ergebnis des Erkennungsversuchs, wobei die horizontale Achse die Anzahl der Anpassungslernwörter bezeichnet und die vertikale Achse die mittlere Fehlererkennungsrate. Weiße Kreise bezeichnen die Ergebnisse, bei denen lediglich das Markov-Modell angepaßt wurde, während schwarze Kreise die Ergebnisse bezeichnen, bei denen die Funktion des vorstehend beschriebenen Erkennungssystems unter Anwendung der Erfindung zusammen mit der Anpassung der Markov-Modelle ausgeführt wurde. Die durchgezogene Linie bei 4% der vertikalen Achse ist das Ergebnis aus dem Erkennungsversuch für den ersten Sprecher, für den der Ausgangs- Lernvorgang durchgeführt wurde. Aus diesem Ergebnis ist ersichtlich, daß - mit Hilfe der Funktion des vorstehend beschriebenen Erkennungssystems - durch einfaches Lernen der 25 Wörter für die männlichen Sprecher die gleiche Erkennungsgenauigkeit erreicht werden kann wie für den ersten Sprecher. Außerdem wird ersichtlich, daß das beschriebene Erkennungssystem selbst wenn lediglich das Markov-Modell zwischen männlichen und weiblichen Sprechern angepaßt wird, fast die gleiche Genauigkeit ergibt wie beim ersten Sprecher, wobei eine Fehlerrate von ca. 10% entsteht, die auf die drastischen Veränderungen der Merkmalhäufigkeit zurückzuführen ist; dies gilt selbst bei 150 zu lernenden Wörtern.
  • Das vorstehend beschriebene Spracherkennungssystem kann auf kleinen Datenverarbeitungseinrichtungen mit der kleinen, für die Anpassung erforderlichen Rechenfunktion und geringer Speicherkapazität implementiert werden.

Claims (3)

1. Ein Spracherkennungssystem, das folgendes umfaßt: Mittel (4) zur Durchführung einer Frequenzanalyse bei einer Spracheingabe in einer Abfolge von zeitlichen Perioden zur Erfassung von Merkmalvektoren, Mittel (8) zur Erzeugung einer entsprechenden Label-Folge unter Verwendung eines Vektor-quantisierungscodebuchs (9), Mittel (11) zum Abgleich mehrerer Wort-Grundformen, ausgedrückt als eine Folge von Markov-Modellen, die jeweils Labels entsprechen, mit der Label-Folge, Mittel (14) zur Erkennung der Spracheingabe anhand des Ergebnisses des Abgleichvorgangs und Mittel zur Durchführung einer Anpassungsoperation bei dem System, mit der dessen Fähigkeit zur Spracherkennung verbessert wird,
dadurch gekennzeichnet, daß das Mittel zur Durchführung der Anpassungsoperation folgendes umfaßt:
Mittel (4) zur Aufteilung jedes einzelnen einer Mehrzahl von Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl größer oder gleich 1 ist) und zur Erzeugung eines Repräsentativwertes für den Merkmalvektor der einzelnen Segmente jedes Spracheingabewortes,
Mittel zur Aufteilung von Wort-Grundformen in Segmente, wobei jedes einem der Spracheingabewörter entspricht, und zur Erzeugung eines Repräsentativwertes für die einzelnen Segment-Merkmalvektoren jeder Wort-Grundform anhand eines Prototypvektors des Vektorquantisierungscodebuchs,
Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand zwischeii einem Repräsentativwert für jedes Segment der einzelnen Spracheingabewörter und einem Repräsentativwert des entsprechenden Segments der entsprechenden Wort- Grundform angibt,
Mittel zur Entwicklung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
P(Lk i,j)=SP(Lk Ml)×P(Ml i,j)
wobei P(Lk i,j) den Relationsgrad zwischen dem Segment j des Spracheingabewortes für das Wort i und dem Label Lk in der Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet; P(LkMl) die Ausgabewahrscheinlichkeit für das Label Lk im Markov-Modell Ml ist und P(Ml i,j) die Wahrscheinlichkeit des Auftretens des Markov-Modells Ml im Segment j des Wortes i.
Mittel zur Speicherung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels einer Label-Gruppe im Vektorquantisierungscodebuch,
Prototyp-Anpassungsmittel zur Korrektur eines Prototypvektors für die einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs durch die einzelnen Bewegungsvektoren entsprechend dem Relationsgrad zwischen dem Label und dem Bewegungsvektor und
Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung der einzelnen Label-Prototypvektoren in einer Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von
wobei Fk ein Prototypvektor vor der Korrektur des Label Lk ist, Fk' ein Prototyp-Vektor nach der Korrektur des Label Lk, Sij ein Repräsentativwert für den Merkmalvektor im Segment j der Wort-Spracheingabe für das Wort i und Bij ein Repräsentativvektor im Segment j der Wort-Grundform für das Wort i.
2. Ein Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß der Repräsentativwert für jeden Segmentmerkmalvektor jedes einzelnen Spracheingabewortes einen Mittelwert des Merkmalvektors in dem Segment bildet.
3. Ein Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß der Repräsentativwert für jeden Segmentmerkmalvektor jeder einzelnen Wort-Grundform einen Mittelwert der Prototypvektoren der Labels in dem Segment bildet.
DE69010722T 1989-03-13 1990-03-07 Spracherkennungssystem. Expired - Lifetime DE69010722T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1057760A JPH0636156B2 (ja) 1989-03-13 1989-03-13 音声認識装置

Publications (2)

Publication Number Publication Date
DE69010722D1 DE69010722D1 (de) 1994-08-25
DE69010722T2 true DE69010722T2 (de) 1995-03-16

Family

ID=13064835

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69010722T Expired - Lifetime DE69010722T2 (de) 1989-03-13 1990-03-07 Spracherkennungssystem.

Country Status (4)

Country Link
US (1) US5046099A (de)
EP (1) EP0388067B1 (de)
JP (1) JPH0636156B2 (de)
DE (1) DE69010722T2 (de)

Families Citing this family (154)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
US5487129A (en) * 1991-08-01 1996-01-23 The Dsp Group Speech pattern matching in non-white noise
JP3129778B2 (ja) * 1991-08-30 2001-01-31 富士通株式会社 ベクトル量子化器
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
JPH0776878B2 (ja) * 1991-10-31 1995-08-16 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識方法および装置
WO1993013518A1 (en) * 1991-12-31 1993-07-08 Digital Sound Corporation Voice controlled messaging system and processing method
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US5483579A (en) * 1993-02-25 1996-01-09 Digital Acoustics, Inc. Voice recognition dialing system
US5692100A (en) * 1994-02-02 1997-11-25 Matsushita Electric Industrial Co., Ltd. Vector quantizer
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual
AU683783B2 (en) * 1994-12-02 1997-11-20 Australian National University, The Method for forming a cohort for use in identification of an individual
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3008799B2 (ja) * 1995-01-26 2000-02-14 日本電気株式会社 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
JP3280825B2 (ja) * 1995-04-26 2002-05-13 富士通株式会社 音声特徴分析装置
JP2738403B2 (ja) * 1995-05-12 1998-04-08 日本電気株式会社 音声認識装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
GB2305288A (en) * 1995-09-15 1997-04-02 Ibm Speech recognition system
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6081660A (en) * 1995-12-01 2000-06-27 The Australian National University Method for forming a cohort for use in identification of an individual
US5745872A (en) * 1996-05-07 1998-04-28 Texas Instruments Incorporated Method and system for compensating speech signals using vector quantization codebook adaptation
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
BR9712979A (pt) 1996-09-10 2000-10-31 Siemens Ag Processo para adaptação de um modelo acústico hidden markov em um sistema de identificação de fala
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6003003A (en) * 1997-06-27 1999-12-14 Advanced Micro Devices, Inc. Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6070136A (en) * 1997-10-27 2000-05-30 Advanced Micro Devices, Inc. Matrix quantization with vector quantization error compensation for robust speech recognition
US6067515A (en) * 1997-10-27 2000-05-23 Advanced Micro Devices, Inc. Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6347297B1 (en) 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
DE69829187T2 (de) 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8010341B2 (en) * 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (de) 2013-06-09 2016-04-20 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence

Also Published As

Publication number Publication date
JPH0636156B2 (ja) 1994-05-11
EP0388067A2 (de) 1990-09-19
DE69010722D1 (de) 1994-08-25
US5046099A (en) 1991-09-03
EP0388067B1 (de) 1994-07-20
EP0388067A3 (de) 1991-09-04
JPH02238496A (ja) 1990-09-20

Similar Documents

Publication Publication Date Title
DE69010722T2 (de) Spracherkennungssystem.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE10030105A1 (de) Spracherkennungseinrichtung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69333762T2 (de) Spracherkennungssystem

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8330 Complete renunciation