DE69818231T2 - Verfahren zum diskriminativen training von spracherkennungsmodellen - Google Patents

Verfahren zum diskriminativen training von spracherkennungsmodellen Download PDF

Info

Publication number
DE69818231T2
DE69818231T2 DE69818231T DE69818231T DE69818231T2 DE 69818231 T2 DE69818231 T2 DE 69818231T2 DE 69818231 T DE69818231 T DE 69818231T DE 69818231 T DE69818231 T DE 69818231T DE 69818231 T2 DE69818231 T2 DE 69818231T2
Authority
DE
Germany
Prior art keywords
models
word
model
pdfs
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69818231T
Other languages
English (en)
Other versions
DE69818231D1 (de
Inventor
Vladimir Sejnoha
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lernout and Hauspie Speech Products NV
Original Assignee
Lernout and Hauspie Speech Products NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lernout and Hauspie Speech Products NV filed Critical Lernout and Hauspie Speech Products NV
Application granted granted Critical
Publication of DE69818231D1 publication Critical patent/DE69818231D1/de
Publication of DE69818231T2 publication Critical patent/DE69818231T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephone Function (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die Funktion automatischer Spracherkennungs-(ASR-)Systeme besteht darin, die lexikale Identität gesprochener Äußerungen zu bestimmen. Der Erkennungsprozess, welcher auch als Klassifikation bezeichnet wird, beginnt typischerweise mit der Umwandlung eines analogen akustischen Signals in einen Strom digital wiedergegebener Spektralvektoren oder Frames, welche wichtige Charakteristika des Signals bei aufeinander folgenden Zeitintervallen beschreiben. Der Klassifikations- oder Erkennungsprozess basiert auf der Verfügbarkeit von Referenzmodellen, welche Gesichtspunkte des Verhaltens der spektralen Frames entsprechend verschiedener Wörter beschreiben. Eine große Vielfalt von Modellen wurde entwickelt, aber sie alle haben gemeinsam, dass sie die zeitlichen Charakteristika der Spektren, welche typisch für einzelne Wörter oder Teilwortbereiche sind, beschreiben. Die Folge der spektralen Vektoren, welche von einer Eingangssprachäußerung entstehen, wird mit den Modellen verglichen, und der Erfolg, mit welchem der Modelle von unterschiedlichen Wörtern das Verhalten der Eingangsframes vorhergesagt wird, bestimmt die mutmaßliche Identität der Sprachäußerung.
  • Zurzeit nutzen die meisten Systeme eine gewisse Variante eines statistischen Modells, welches das Hidden-Markov-Modell (HMM) genannt wird. Derartige Modelle bestehen aus Folgen von Zuständen, welche mit Bögen verbunden sind, und eine Wahrscheinlichkeitsverteilungsfunktion (pdf), welche mit jedem Zustand verbunden ist, beschreibt die Wahrscheinlichkeit des Beobachtens irgendeines gegebenen Spektralvektors in diesem Zustand. Ein getrennter Satz von Wahrscheinlichkeiten kann geliefert werden, welcher die Übergänge zwischen den Zuständen bestimmt.
  • Der Vorgang des Berechnens der Wahrscheinlichkeit, dass eine unbekannte Eingangssprachäußerung einem gegebenen Modell entspricht, welcher auch als Decodieren bekannt ist, wird allgemein in einer von zwei standardisierten Vorgehensweisen ausgeführt. Die erste Vorgehensweise ist als Vorwärts-Rückwärts-Algorithmus bekannt und benutzt eine wirkungsvolle Rekursion, um die Übereinstimmungswahrscheinlichkeit als die Summe der Wahrscheinlichkeiten aller möglichen Ausrichtungen der Eingangsfolge und der Modellzustände, welche durch die Modelltopologie zugelassen sind, zu berechnen. Eine Alternative, der so genannte Viterbi-Algorithmus, approximiert die t-summierte Übereinstimmungswahrscheinlichkeit durch Finden der einzelnen Folge von m-Zuständen mit der maximalen Wahrscheinlichkeit. Der Viterbi-Algorithmus wird als simultanes Ausführen eines Ausrichtens bzw. Abgleichens zwischen der Eingangssprachäußerung und dem Modell und Berechnen der Wahrscheinlichkeit dieses Abgleichens angesehen.
  • HMMs können geschaffen werden, um gesamte Wörter zu modellieren, oder alternativ eine Vielfalt von linguistischen Teilwort-Einheiten, wie z. B. Phonemen oder Silben. HMMs mit hohem Pegel haben den Vorteil, dass ein relativ kompakter Satz von Modellen benutzt werden kann, um willkürlich neue Wörter zu bilden, welche gegeben sind, so dass deren phonetische Transkription bekannt ist. Kompliziertere Versionen reflektieren die Tatsache, dass kontextuale Effekte große Variationen verursachen können, in der Weise, dass unterschiedliche Laute realisiert werden. Derartige Modelle sind als allophonisch oder kontextabhängig bekannt. Eine allgemeine Näherung besteht darin, die Suche mit verhältnismäßig kontextunabhängigen Modellen zu initiieren und eine kleine Anzahl von versprechenden Kandidaten mit kontextabhängigen phonetischen Modellen zu reevaluieren.
  • Wie im Fall der phonetischen Modelle sind verschiedene Pegel der Modellleistung im Falle der Wahrscheinlichkeitsverteilungen erhältlich, die die beobachteten Spektren, welche mit den Zuständen des HMMs zusammenhängen, beschreiben. Es gibt zwei primäre Vorgehensweisen: die diskrete pdf und die kontinuierliche pdf. Bei der ersteren werden die spektralen Vektoren, welche der Eingangssprache entsprechen, zuerst mit einem Vektorquantisierer quantisiert, welcher jedem Eingabeframe einen Index zuordnet, welcher dem am näherten Vektor aus einem Codebuch von Prototypen entspricht. Wenn dieses Codieren des Eingangs gegeben ist, nehmen die pdfs die Form von Wahrscheinlichkeitsvektoren an, wobei jede Komponente die Wahrscheinlichkeit des Beobachtens eines einzelnen Prototypvektors repräsentiert, welcher einem einzelnen HMM-Zustand gegeben ist. Einer der Vorteile dieser Vorgehensweise besteht darin, dass sie keine Annahmen über die Natur derartiger pdfs trifft, aber dies wird durch den Informationsverlust, welcher in der Quantisierstufe erlitten wird, wieder vergeben.
  • Das Gebrauchen von kontinuierlichen pdfs eliminiert den Quantisierschritt, und die Wahrscheinlichkeitsvektoren werden durch parametrische Funktionen ersetzt, welche die Wahrscheinlichkeit jegliches willkürlichen Eingangsspektralvektors, welcher einem Zustand gegeben ist, spezifizieren. Die gebräuchlichste Klasse von Funktionen, welche für diesen Zweck angewandt wurde, ist die Mischung aus Gaußschen Funktionen, wobei die willkürlichen pdfs durch eine gewichtete Summe von Normalverteilungen modelliert werden. Ein Nachteil des Benutzens kontinuierlicher pdfs ist der, dass im Gegensatz zu dem Fall der diskreten pdf, der Designer explizite Annahmen über die Natur der pdf, welche modelliert wird, treffen muss --- etwas, was sehr schwierig sein kann, da die wahre Verteilungsform für das Sprachsignal nicht bekannt ist. Zusätzlich sind kontinuierliche pdf-Modelle von der Rechnerseite aus wesentlich teurer als diskrete pdf-Modelle, da nachfolgend zur Vektorquanti sierung das Berechnen einer diskreten Wahrscheinlichkeit nichts weiter als eine einzelne Lookup-Tabelle beinhaltet.
  • Die Wahrscheinlichkeitswerte im Falle der diskreten pdf und die Parameterwerte der kontinuierlichen pdf werden am gebräuchlichsten trainiert, indem die Methode der größten Wahrscheinlichkeit benutzt wird. Auf diese Weise werden die Modellparameter justiert bzw. abgeglichen, so dass die Wahrscheinlichkeit des Beobachtens der Trainingsdaten, welche dem Modell gegeben sind, maximiert wird. Jedoch ist bekannt, dass diese Vorgehensweise nicht notwendigerweise zur besten Erkennungsleistung führt, und diese Erkenntnis hat zur Entwicklung neuer Trainingskriterien geführt, welche als diskriminative bekannt sind, deren Aufgabe es ist, Modellparameter so zu justieren, dass die Anzahl der Erkennungsfehler eher minimiert wird als die Verteilungen den Daten anzupassen.
  • Wie ehemals benutzt, wurde diskriminatives Training sehr erfolgreich für Klein-Vokabular-Aufgaben benutzt. Zusätzlich wirft es eine Anzahl neuer Probleme auf, z. B. wie die diskriminativ ausgebildeten pdfs geeignet zu glätten sind und wie diese Systeme an einen neuen Nutzer mit relativ kleinem Aufwand an Trainingsdaten anzupassen sind.
  • Um hohe Erkennungsgenauigkeiten zu erreichen, sollte ein Erkennungssystem hochauflösende Modelle nutzen, welche vom Rechenaufwand her teuer sind (z. B. kontextabhängige, diskriminativ eingeübte Modelle mit kontinuierlicher Dichte). Um eine Echtzeiterkennung zu erreichen, wird gewöhnlich eine Vielzahl von Techniken zur Geschwindigkeitserhöhung benutzt.
  • Bei einer typischen Vorgehensweise wird die Vokabularsuche in vielen Stufen oder Durchläufen ausgeführt, wo jeder sukzessive Durchlauf von zunehmend detaillierten und teuren Modellen Gebrauch macht, angewendet auf zunehmend kleine Listen von Kandidatmodellen. Z. B. können zunächst kontextunabhängige, diskrete Modelle benutzt werden, gefolgt von kontextabhängigen Modellen mit kontinuierlicher Dichte. Wenn vielfältige Sätze von Modellen sequenziell während der Suche benutzt werden, werden ein getrenntes simultanes Justieren bzw. Abgleichen und eine pdf-Evaluierung im Wesentlichen für jeden Satz ausgeführt.
  • Bei anderen Vorgehensweisen entsprechend dem Stand der Technik wird Geschwindigkeitserhöhen beim Rechnen auf die Evaluierung der Hochauflösungs-pdfs angewendet. Z. B. werden Gaußsche Mischungsmodelle durch eine schnelle, aber angenäherte Identifikation derjenigen Mischungskomponenten evaluiert, welche am wahrscheinlichsten einen signifikanten Beitrag zur Wahrscheinlichkeit und einer nachfolgenden Auswertung dieser Komponenten im Ganzen leisten. Eine andere Vorgehensweise erhöht die Geschwindigkeit der Auswertung von Gaußschen Mischungsmodellen durch Auswerten einer geometrischen Näherung der Berechnung. Jedoch kann selbst mit Geschwindigkeitserhöhungen die Auswertung so langsam sein, dass nur eine kleine Anzahl ausgeführt werden kann.
  • In einem anderen Schema werden Näherungsmodelle zuerst benutzt, um die Zustandswahrscheinlichkeiten, welche in der Eingangssprachäußerung gegeben sind, zu berechnen. Alle Zustandswahrscheinlichkeiten, welche einen gewissen Schwellwert überschreiten, werden dann wieder bzw. erneut berechnet, indem das detaillierte Modell benutzt wird, der Rest wird beibehalten, wie er ist. Wenn der neue zusammengesetzte Satz an Wahrscheinlichkeiten gegeben ist, wird eine neue Viterbi-Suche durchgeführt, um die optimale Ausrichtung bzw. Abgleichung und Gesamtwahrscheinlichkeit zu bestimmen. Bei diesem Verfahren muss die Ausrichtung bzw. das Abgleichen wiederholt werden, und zusätzlich müssen die Näherungs- und detaillierten Wahrscheinlichkeiten ähnliche, vergleichbare Größen sein. Wenn das de taillierte Modell Wahrscheinlichkeiten erzeugt, welche signifikant höher als jene aus den Näherungsmodellen sind, wird die Kombination der beiden höchstwahrscheinlich nicht zu einer zufrieden stellenden Leistung führen. Diese Forderung zwingt das Verfahren, Näherungs- und detaillierte Modelle zu nutzen, welche ziemlich nahe verwandt sind und so Wahrscheinlichkeiten vergleichbarer Größe erzeugen. Es sollte auch beachtet werden, dass bei diesem Verfahren keine Garantie besteht, dass alle individuellen Zustandswahrscheinlichkeiten, welche die Endjustierwahrscheinlichkeit ausmachen, von detaillierten Modellen kommen. In der Veröffentlichung WO 95/09416 wird ein Spracherkennungssystem mit kontinuierlicher Referenzadaption veröffentlicht, wobei eine Referenz nur aktualisiert wird, wenn der Nutzer die richtige Erkennung bestätigt.
  • Die vorliegende Erfindung, wie sie im Anspruch 1 beansprucht wird, repräsentiert eine neue Vorgehensweise zum effizienten Nutzen hochauflösender Modelle bei der Groß-Vokabular-Erkennung. Das vorgeschlagene Verfahren hat seinen Vorteil im Gebrauchen eines Modells mit kontinuierlicher Dichte und einem diskriminativen Trainingskriterium, was zu einer hohen Erkennungsleistungsfähigkeit bezüglich einer großen Vokabularaufgabe bei nur geringfügig höheren Kosten im Berechnen gegenüber einem einfachen diskreten pdf-System führt. Eine andere neue Eigenschaft der neuen Vorgehensweise ist deren Fähigkeit, von begrenzten Mengen neuer Daten zur schnellen Adaption an einen einzelnen Sprecher Gebrauch zu machen.
  • Wie oben erwähnt, kann die Wahrscheinlichkeit, dass eine Eingangssprachäußerung mit einer gegebenen HMM korrespondiert, durch den Viterbi-Algorithmus berechnet werden, welcher die Folge von Modellzuständen findet, welche diese Wahrscheinlichkeit maximiert. Diese Optimierung kann als eine simultane Wahrscheinlichkeitsberechnung und Ausrichtung auf die Eingangssprachäußerung und das Modell betrachtet werden.
  • In Übereinstimmung mit einem Gesichtspunkt der vorliegenden Erfindung wurde bestimmt, dass die Justier- bzw. Abgleichpfade, welche mit relativ rechnerisch nicht kostspieligen, diskreten pdf-Modellen erhalten werden, von vergleichbarer Qualität gegenüber denen sein können, welche mit rechnerisch kostspieligen pdf-Modellen mit kontinuierlicher Dichte erhalten werden, obwohl sogar die Übereinstimmungswahrscheinlichkeit oder die Metrik, welche durch das diskrete pdf-Abgleichen erzeugt wird, nicht zu ausreichend hoher Genauigkeit für Groß-Vokabular-Erkennung führt.
  • Entsprechend einem anderen Gesichtspunkt der Erfindung wird ein Entkoppeln des Justierens bzw. Abgleichens und der Berechnungsaufgaben der Endwahrscheinlichkeit geliefert. Ein diskretes pdf-System wird angewendet, um Justier- bzw. Abgleichpfade einer Eingangssprachäußerung und ein Referenzmodell zu errichten, während die Endwahrscheinlichkeitsmetrik durch Nachbearbeiten von Frame-Zustandspaaren mit leistungsfähigeren, diskriminativ trainierten pdfs mit kontinuierlicher Dichte, jedoch durch Nutzen des gleichen Justier- bzw. Abgleichpfades, erhalten werden.
  • Im Gegensatz zu konventionellen Systemen, wo Modellzustände durch einen speziellen Typ des beobachteten pdfs charakterisiert sind, sind die Zustandsmodelle im vorliegenden System somit sowohl mit einer diskreten pdf (mit niedriger Auflösung) als auch mit einer diskriminativ trainierten bzw. geübten pdf mit kontinuierlicher Dichte (hoher Auflösung) verbunden. Die pdfs mit hoher Auflösung werden trainiert, indem Abgleiche von Modellen und Sprachdaten benutzt werden, welche durch Benutzen der pdfs mit niedriger Auflösung erhalten werden, und damit beinhaltet das diskriminative Training die Kenntnis der Charakteristika des diskreten pdf-Systems.
  • Kurze Beschreibung der Erfindung
  • Im Spracherkennungssystem der vorliegenden Erfindung wird jede Eingangssprachäußerung in eine Folge von Roh- oder unquantisierten Vektoren gewandelt. Für jeden Rohvektor identifiziert das System denjenigen aus einer vorgewählten Vielzahl von quantisierten Vektoren, der am besten zu dem Rohvektor passt. Die Rohvektorinformation wird jedoch für die nachfolgende Benutzung zurückgehalten. Jedes Wortmodell wird durch eine Folge von Zuständen repräsentiert, wobei die Zustände aus einer vorgewählten Gruppe von Zuständen ausgewählt werden. Jedoch wird für jeden Modellzustand sowohl eine diskrete Wahrscheinlichkeitsverteilungsfunktion (pdf) als auch eine kontinuierliche pdf, welche durch vorgewählte Abgleichparameter charakterisiert ist, geliefert. Eine gespeicherte Tabelle wird geliefert, welche distanzmetrische Werte für jede Kombination eines quantisierten Eingangsvektors mit einem Modellzustand, wie er durch die diskreten pdfs charakterisiert ist, beinhaltet.
  • Die Wortmodelle werden mit einer Eingangssprachäußerung abgeglichen, wobei die jeweiligen diskreten PDFs benutzt werden und Anfangsübereinstimmungsergebnisse erzeugt werden, indem die gespeicherte Tabelle benutzt wird. Aus den gut passenden Wortmodellen, welche von den Anfangsübereinstimmungsergebnissen identifiziert sind, wird eine geordnete Ergebnisliste dieser Modelle erzeugt, indem die jeweiligen stetigen pdfs und die Rohvektorinformation benutzt werden. Nach jeder Sprachäußerung werden die vorgewählten Parameter abgeglichen, um im kleinen Maße die Differenz zwischen den Ergebnissen des besten und des zweitbesten Modells zu erhöhen.
  • Wenn ein Nutzer vorzugsweise ein vorheriges Erkennungsergebnis durch Auswählen eines anderen Wortmodells aus der entsprechend gewählten Gruppe korrigiert, wird ein erneuter Abgleich der stetigen pdf-Parameter durch Ausführen eines Abgleichs auf dem aktuellen Zustand der Parameter im Gegensatz zu dem durchgeführt, welcher mit dem Originalerkennungsereignis ausgeführt wurde, und durch Ausführen eines Abgleichs auf dem dann aktuellen Zustand der Parameter, übereinstimmend mit dem, welcher ausgeführt worden wäre, wenn das neu identifizierte, unterschiedliche Wortmodell als das am besten abschneidende eingestuft worden wäre.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Spracherkennungssystems entsprechend der vorliegenden Erfindung;
  • 2 stellt Vokabularmodelle dar, welche in dem Spracherkennungssystem der vorliegenden Erfindung genutzt werden;
  • 3 stellt ein Rekursionsverfahren dar, welches in dem Spracherkennungssystem der vorliegenden Erfindung genutzt wird;
  • 4 stellt einen Struktursatz von Trainingsdaten dar, welcher zum Trainieren von Wortmodellen benutzt wird;
  • 5 ist ein Flussdiagramm, welches das Anfangs-Stapeltraining von Wortmodellen darstellt; und
  • 6 ist ein Flussdiagramm, welches online-adaptives Training von Wortmodellen darstellt.
  • Korrespondierende Referenzbuchstaben zeigen korrespondierende Elemente innerhalb verschiedener Ansichten der Zeichnungen an.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Wie vorher aufgezeigt, beschäftigt sich die vorliegende Erfindung speziell mit dem Zur-Verfügung-Stellen von diskriminativ trainierten Vielfachauflösungs-Vokabularmodellen, welche die Genauigkeit erhöhen und die Rechenbelastung in einem automatischen Spracherkennungs-(ASR-)System vermindern. Am Anfang ist es jedoch passend, in allgemeinen Termen den Typ des Spracherkennungssystems zu beschreiben, welcher für die vorliegende Erfindung anzuwenden ist.
  • Mit Bezug auf 1 ist das dargestellte Computersystem von dem Typ, welcher im Allgemeinen als Personalcomputer bezeichnet wird. Der Rechner läuft mit einem MS DOS- oder WINDOWS®-Betriebssystem und ist um einen Systembus angeordnet, welcher im Allgemeinen durch das Referenzzeichen 11 gekennzeichnet ist. Der Systembus kann vom so genannten EISA-Typ (Extended Industry Standards Association) sein. Das Rechnersystem nutzt einen Mikroprozessor, welcher mit dem Referenzzeichen 13 bezeichnet ist, welcher z. B. ein Intel-Pentium-Prozessor sein kann. Das System ist auch mit einer geeigneten Größe eines lokalen Speichers oder Direktzugriffsspeichers, mit z. B. 32 Megabyte, ausgestattet, welcher mit dem Referenzzeichen 15 bezeichnet ist. Zusätzliche Speicherkapazität wird durch eine Festplatte 17 und ein Diskettenlaufwerk 19 geliefert, welche in Verbindung mit einem Steuergerät 23 arbeiten, welche sie an den Systembus koppelt.
  • Der Eingang für den Nutzer zum Computersystem wird herkömmlich über ein Keyboard 25 geliefert, und die Rückkopplung für den Nutzer wird mit Hilfe eines CRT oder eines anderen Videodisplays 27 geliefert, welches vom Bus aus über ein Videosteuergerät 29 arbeitet. Externe Kommunikation kann über ein I/O- bzw. Eingabe-/Ausgabe-System, welches mit dem Referenzzeichen 31 versehen ist, geliefert werden, welches einen Serienanschluss 33 und einen Drucker 35 unterstützt. Nützlicherweise kann ein Faxmodem vorgesehen werden, wie es durch das Refe renzzeichen 37 angezeigt wird. Dies ist speziell von Nutzen für das Weiterleiten struktureller medizinischer Berichte, wie dies im mit erteilten US-Patent Nr. 5,168,548 beschrieben wird.
  • Um das Gebrauchen des Rechnersystems für die Spracherkennung zu erleichtern, ist ein digitaler Signalprozessor, wie er durch das Referenzzeichen 16 angezeigt wird, vorgesehen, wobei typischerweise dieser Prozessor als eine hinzugefügte Schaltkreiskarte konfiguriert ist, welche an das Bussystem 11 angeschlossen ist. Wie von Fachleuten verstanden wird, nimmt der digitale Signalprozessor Analogsignale von einem Mikrofon auf, gekennzeichnet durch das Referenzzeichen 18, wandelt diese Signale in eine digitale Form und bearbeitet sie z. B. durch Ausführen einer schnellen Fourier-Transformation (FFT), um eine Reihe von spektralen Frames oder Vektoren zu erhalten, welche digital die Spracheingabe in aufeinander folgenden Zeitpunkten charakterisieren. Wie hier verwendet, werden diese Eingangsvektoren als die Roheingangsvektoren bezeichnet. In der Ausführungsform, welche beschrieben wird, werden die akustischen Vektoren (Xu) mit einer Geschwindigkeit, einer pro jeweils 10 ms, erzeugt und haben 14 Ausgangsdimensionen.
  • Vorzugsweise werden die Rohvektoren einer Genus-Normallineardiskriminierenden Analyse unterzogen, wie dies in der US-A-5572624 beschrieben wird. Der Zweck dieser Analyse ist es, die spektralen Frames so zu transformieren, dass sie die Diskriminierfähigkeit verschiedener phonetischer Ereignisse erhöhen. Während die Rohvektoren für den Gebrauch beim Abgleichen und beim Anfangsauswerten quantisiert werden, werden die Daten, welche die Rohvektoren aufweisen, für den Gebrauch bei einer präziseren Endauswertung vorbehalten, wobei kontinuierliche pdfs, wie nachfolgend beschrieben, verwendet werden.
  • Somit ist Xu = (xu,t, ..., xu,t, ... xu,Tu), wobei Tu die Länge und Xu,t der t-te Vektor der Größe 14 in der u-ten Eingangssprachäußerung ist.
  • Die übertragenen akustischen Frames werden mit einem Codebuch von 1024 Standard-Vektorprototypen vektorquantisiert, und jeder originale spektrale Frame xt (auslasssend t tiefgestellte zu u) wird einer korrespondierenden Vektorquantisierer-(VQ-) Adresse νt zugeordnet. Jede Folge X erzeugt so eine VQ-Adressenfolge V 0 (νl, ..., νt, ..., νT).
  • Referenzvokabularmodelle werden aus Folgen von Zuständen Yi = (yi,l, ..., yi,m, ..., yi,Mi) aufgestellt, wobei Mi die Länge eines Modells ist und i der Modellindex ist.
  • Jeder Modellzustand yi,m ist ein Pointer bzw. Zeiger auf einen gewöhnlichen Satz von R-DTMR-Zuständen, S = (sl, ..., sr, ..., sR), wobei jeder davon umgekehrt mit zwei getrennten Typen von pdf verbunden ist, welche aus zwei gewöhnlichen pdf-Pools ausgewählt sind.
  • Der erste Typ des pdf-Pools enthält diskrete Verteilungen, welche die Wahrscheinlichkeit des Beobachtens eines quantisierten Frames νt ausdrücken, welchem ein Zustand sr gegeben ist, welcher durch yi,m bezeichnet ist, welcher an der m-ten Position in dem i-ten Modell auftritt, d. h. Pr(νt|yi,m) = Pr(νt|sr). Das Berechnen der Übereinstimmungswahrscheinlichkeit wird vereinfacht, wenn die pdfs in negative Logarithmen gewandelt werden, und damit definieren wir die Menge VQLP((νt|yi,m)) = –log(Pr(νt|yi,m)). Man beachte, dass VQLP im Wesentlichen eine Tabelle von vorberechneten log-Wahrscheinlichkeiten ist und damit die Auswertung der diskreten pdf-Modelle aus einer sehr schnellen Lookup-Tabelle besteht.
  • Der zweite Pool von pdfs auf der anderen Seite besteht aus kontinuierlichen Verteilungen, welche die Wahrscheinlichkeit des Beobachtens eines spezifischen Spektrums Xt geben, welchem ein spezieller Zustand sr gegeben ist, welcher durch yi,m bezeichnet ist, d. h. Pr(Xt|yi,m) = Pr(Xt|sr). Da dies der Fall für die diskreten pdfs ist, ist es bequemer, Wahrscheinlichkeiten kontinuierlicher Dichte in der log-Domäne zu verwenden, und damit definieren wir CDLP(Xt|yi,m) = –log(Pr(Xr|yi,m)).
  • Die kontinuierlichen pdfs sind parametrische Modelle und damit können die Wahrscheinlichkeiten nicht vorausberechnet werden. Anstatt vorberechnete Wahrscheinlichkeiten zu speichern, wie es für die diskreten pdfs der Fall ist, speichern wir die pdf-Parameter selbst und benutzen sie, um die log-Wahrscheinlichkeiten für spezifische Eingabe-Frames zu berechnen. Man beachte, dass individuelle Mäntel bzw. Einhüllende in jedem Satz durch akustisch ähnliche Zustände von unterschiedlichen Modellen geteilt werden können. 2 zeigt die Beziehung zwischen Modellzuständen und den beiden Sätzen von log-pdfs.
  • Die vektorquantisierten Eingabesprachäußerungen V werden gegenüber den Referenzmodellen Yi durch den Viterbi-Algorithmus angepasst, welcher detaillierter nachfolgend beschrieben wird, wobei das diskrete pdf-Profil der DTMR-Modelle benutzt wird. Der Algorithmus wertet –log(Pr(V|Yi)) aus, den negativen Logarithmus der Wahrscheinlichkeit des Beobachtens der Eingangsfolge, welche dem Modell, durch Finden des besten Abgleichpfades zwischen der Eingabesprachäußerung und den Modellzuständen, gegeben ist.
  • Definieren der Summe (t, m) als die akkumulierten negativen log-Wahrscheinlichkeiten.
  • Der Abgleichalgorithmus, der in dieser Arbeit benutzt wird, kann dann wie folgt zusammengefasst werden.
    Initialisierung:
    Sum(0, 0) = 0
    Auswertung:
    Figure 00140001
    Beendigung:
    return Sumi = Sum(T, M)/(T + M)
    wobei Predt(t, m) und Predm(t, m) die Indizes des besten vorausgegangenen Ergebnisses in der Position t, m sind.
  • Diese Grundrekursion wird auch in 3 der Zeichnungen dargestellt.
  • Die folgenden Strukturen werden aufgestellt, um den Abgleichpfad zwischen einer Eingangssprachäußerung und einem gegebenen Referenzmodell zu speichern: fi = (fi,l, ..., fi,p, ..., fi,Pi) (1) qi = (qi,l, ..., qi,p, ..., qi,Pi) (2)wobei fi,p der Eingangs-Frame-Index und qi,p der Zustandsindex bei der Position p auf dem Pfad für das i-te Referenzmodell und Pi die Pfadlänge ist. Der beste Abgleichpfad wird wiederhergestellt, indem die vorausgegangenen Arrays Predt(t, m) und Predm(t, m) in der folgenden, rückwärts verarbeitenden Rekursion benutzt werden:
    Initialisieren:
    p = 0, t = T, m = M,
    Rückwärtsverarbeiten:
    Figure 00150001
    Beendigung:
    Pr = p
  • Der originale akustische Vektor bei einem bestimmten Pfadpunkt p kann damit als x(fi,p) ausgewiesen werden, während der Zustandsindex in der Pfadposition p direkt durch qi,p gegeben ist. Die normierten Ergebnisse Sumi für alle Referenzmodelle, welche mit einer speziellen Eingangssprachäußerung abgeglichen sind, können sortiert werden, und nur eine kleine Anzahl von Modellen mit dem niedrigst normierten Ergebnis muss in der nächsten Erkennungsstufe wieder bzw. erneut gespeichert werden.
  • In der Wiederauswertestufe werden die Abgleichpfade für eine kleine Anzahl von Modellen mit den besten diskreten pdf-Ergebnissen durchlaufen, und neue Ergebnisse werden für die Frame-Zustandspaare berechnet, welche durch diese Pfade definiert sind, indem der Satz von diskriminativ trainierten pdfs mit kontinuierlicher Dichte benutzt wird.
  • Die pdfs mit kontinuierlicher Dichte, die in dieser Arbeit verwendet werden, sind eine vereinfachte Form von Gaußschen Mischfunktionen. Experimentell wurde augenscheinlich, dass mit dem Gebrauch des diskriminativen Trainings es keinen Vorteil ergab, die Vollmischmodelle gegenüber der vereinfachten Version zu benutzen. Zusätzlich durch das Reduzieren der Anzahl freier Parameter im Modell wurde signifikant deren Trainierbarkeit mit begrenzten Mengen von Daten verbessert.
  • Die Standard-Gauß-Misch-log-Wahrscheinlichkeitsverteilungsfunktion GMLP ist wie folgt definiert:
    Figure 00160001
    wobei a(sr, k) die Wichtung der Mischkomponente k im Zustand sr und N(x; μ; Σ) die Wahrscheinlichkeit des Beobachtens von x(t) anzeigt, welche als Gaußsche Vielfachvariante mit dem Mittelwert μ und der Kovarianz Σ gegeben ist. N(sr) ist die Anzahl der Mischkomponenten.
  • Die diskriminativ trainierte log-pdf (CDLP) mit kontinuierlicher Dichte, welche in dieser Arbeit benutzt wird, ist wie folgt:
    Figure 00160002
    wobei
  • Figure 00160003
  • Das kontinuierliche pdf-Modell für den Zustand qi,p besteht so aus N(qi,p) 14-dimensionalen Mittelwertvektoren μ. Aufgrund des Nichtvorhandenseins von normierenden Termen in der Gleichung (4) ist CDLP keine wahre log-Wahrscheinlichkeit und ist somit nicht mit den diskreten log-Wahrscheinlichkeiten VQLP austauschbar. Diese Inkompatibilität ist jedoch kein Problem, da, sobald die Abgleichpfade aufgestellt sind, die diskreten log-Wahrscheinlichkeiten nicht weiter benutzt werden. Die Fähigkeit, inkompatible pdfs zu benutzen, stellt einen Vorteil gegenüber bekannten Schemata dar.
  • Das neue Ergebnis für einen Pfad entsprechend einem Abgleichen der Eingabe-Sprachäußerung mit dem Referenzmodell i wird erhalten als
  • Figure 00170001
  • Die wieder ausgewerteten bzw. überarbeiteten Modelle werden dann entsprechend ihrer neuen Ergebnisse wieder bzw. erneut sortiert.
  • Die Rolle der diskreten Dichtekomponente der DTMR-Modelle ist zweifach: Sie wird für jede Eingabesprachäußerung benutzt, die große Mehrheit nicht korrekter Modelle herauszurastern und einen kleinen Satz von Ähnlichkeitskandidaten zu erzeugen, und sie wird auch benutzt, um genaues Abgleichen der Eingangssprachäußerung an die Referenzmodelle zu erhalten. Man ist jedoch nicht genötigt, eine feine Diskrimination zwischen hoch verwirrenden Modellen zu machen. Vielmehr ist es die Rolle des Wiederauswertens der pdfs kontinuierlicher Dichte.
  • Deshalb ist es ausreichend, sich auf das Maximal-Wahrscheinlichkeitstraining für die diskrete Dichtekomponente zu verlassen und nur ein diskriminatives Kriterium zum Trainieren der kontinuierlichen Dichtekomponente anzuwenden. Das kontinuier liche pdf-Training nutzt jedoch Abgleichpfade, welche auf der Grundlage der diskreten pdfs erstellt sind.
  • Der erste Schritt im Trainieren der pdfs mit kontinuierlicher Dichte ist das Initialisieren der Mittelwertvektoren μsr, k. Dies kann durch Trainieren einer herkömmlichen Maximalen Wahrscheinlichkeits-Gaußverteilungs-pdf für jeden Modellzustand aus den Eingangs-Sprachäußerungsframes geschehen, welche mit dem Zustand abgeglichen sind, wobei die diskrete pdf-Komponente benutzt wird. Die gesamte Anzahl von Mittelwertvektoren kann aufgestellt werden, um die Varianz der Datenframes zu reflektieren, welche mit jedem Zustand während des iterativen Trainings abgeglichen wurden. Bei Konvergenz des Anfangstrainings werden die Mittelwertvektoren mit signifikanten Wahrscheinlichkeiten wieder erhalten, während andere Parameter, welche mit einem Standardverteilungsmodell verbunden sind, verworfen werden.
  • Der nächste Schritt besteht im diskriminativen Training der Mittelwertvektoren. Dies wird durch Definieren einer geeigneten Trainingszielfunktion erreicht, welche die Erkennungsfehlerrate reflektiert und die Mittelwertparameter so optimiert, dass diese Funktion minimiert wird.
  • Eine gewöhnliche Technik, welche zum Minimieren der Zielfunktion anwendbar ist, ist die Optimierung mit abfallenden Gradienten. Bei dieser Vorgehensweise wird die Zielfunktion bezüglich der Modellparameter differenziert, und die Parameter werden dann durch Addition des skalierten Gradienten modifiziert. Ein neuer Gradient, welcher die modifizierten Parameter wiedergibt, wird berechnet, und die Parameter werden weiter abgeglichen. Die Iteration wird fortgesetzt, bis Konvergenz erhalten wird, gewöhnlicherweise bestimmt durch Überwachen der Leistungsfähigkeit aufgrund von Evaluationsdaten, unabhängig von den Trainingsdaten.
  • Eine Trainingsdatenbasis wird vorverarbeitet, indem für jede Trainingssprachäußerung eine kurze Liste von Kandidatenerkennungsmodellen erhalten wird. Jede Kandidatenliste enthält eine Anzahl von korrekten Modellen (Teilmenge C) und eine Anzahl von inkorrekten (Teilmenge I) Modellen. Jede Liste wird durch das Ergebnis Di sortiert, und eine zunehmende Abgleichspfadstruktur wird für jedes Referenzmodell in der Liste wieder erhalten. Die zusätzlich gespeicherte Pfadinformation ist wie folgt: bi = (bi,l, ..., bi,p, ..., bi,Pi) (7)bi wird benutzt, um den Index des besten Mittelwertvektors bei einem speziellen Pfadpunkt zu speichern. Zum Beispiel, wenn p den Frame x(fi,p) und den Zustand qi,p verbindet, ist
  • Figure 00190001
  • 4 zeigt den Trainingsstruktursatz für eine Eingabesprachäußerung. Eine Fehlerfunktion εu für eine spezielle Trainingssprachäußerung wird von den paarweisen Fehlerfunktionen oi,j aus berechnet:
    Figure 00190002
    wobei
    Figure 00190003
  • β ist ein skalarer Multiplikator, Di, i ∊ C ist das Abgleichergebnis des Eingangssymbols und eines korrekten Modells i, und Dj, j ∊ I ist das Ergebnis des Textelements und eines inkorrekten Modells j. Die Größen der Sätze C und I können gesteuert werden, um zu bestimmen, wie viele korrekte Modelle und inkorrekte oder potenzielle Eindringling- bzw. Störmodelle im Training benutzt werden.
  • oi,j übernimmt Werte nahe 1, wenn das korrekte Modellergebnis Di viel größer (d. h. schlechter) als das Eindringling- bzw. Störergebnis Dj ist, und nahe 0, wenn das Gegenteil zutrifft. Werte größer als 0,5 repräsentieren Erkennungsfehler, während Werte kleiner als 0,5 korrekte Erkennungen repräsentieren. Der Parameter β steuert die Höhe bzw. Größe des Einflusses, den "Nahe-zu-Fehler" auf das Training haben werden.
  • Das Ergebnis Di zwischen der Trainingssprachäußerung und dem Zielmodell i wird durch erneutes Berechnen des Abgleichpfades erhalten, wie dies in Gleichung (6) gezeigt wird. In der Praxis kann die Normierung durch die Pfadlänge Pi während des Trainings ignoriert werden. Somit ist
    Figure 00200001
    welche wieder geschrieben werden kann als:
  • Figure 00200002
  • Ein ähnlicher Ausdruck kann für Dj geschrieben werden.
  • Das Differenzieren der Fehlerfunktion bezüglich einer speziellen Komponente des Mittelwertvektors μ(s, k, l) führt zu:
    Figure 00210001
    wobei δ(a, b) das Kronecker-delta ist und zu 1 wird, wenn a = b, und in den anderen Fällen zu null wird. Der Gradient wird über alle Sprachäußerungen und korrekt-inkorrekt-Paare von gemittelt:
    Figure 00210002
    wobei NC,I,u die Anzahl der korrekt-inkorrekt-Modellpaare für die Sprachäußerung u ist. Die Mittelwertkomponenten werden durch die Addition des skalierten Gradienten modifiziert: u ^(s, k, l) = μ(s, k, l) + ωΔμ(s, k, l) (15)wobei w eine Wichtung ist, welche die Größe der Änderung bezüglich dem Parametersatz in einer Iteration bestimmt. Diese Vorgehensweise wird in dem Flussdiagramm der 5 gezeigt.
  • Anfangs werden die Kandidatmodelle ausgewählt, indem die pdfs mit diskreter Dichte benutzt werden, wie dies im Schritt 101 angezeigt wird. Beim Wiederbenutzen der diskreten pdfs werden die Eingangssprachäußerungen mit den besten Modellen abgeglichen, indem der Viterbi-Algorithmus benutzt wird, und die Rückführinformation wird gespeichert, wie dies im Block 103 gezeigt wird. Die Ergebnisse werden sortiert, wie dies im Block 105 gezeigt wird, und dann werden die sich ergebenden Modelle wieder berechnet, wie dies im Block 107 gezeigt wird, indem die pdfs mit kontinuierlicher Dichte benutzt werden, wo bei das Wiederberechnen entlang des Abgleichpfades durchgeführt wird, welcher mit den diskreten pdfs bestimmt wurde.
  • Wie im Block 109 angezeigt, werden die Modelle dann erneut sortiert, basierend auf den Ergebnissen, welche mit den pdfs mit kontinuierlicher Dichte erhalten werden.
  • Korrekte und inkorrekte Modelle werden identifiziert, wie dies im Block 111 angezeigt wird, und für jedes Paar korrekter und inkorrekter Modelle wird eine Fehlerfunktion berechnet, wie dies im Block 113 angezeigt wird. Da vielfältige Modelle für jedes Vokabularwort benutzt werden können, sorgt die Vorgehensweise eher für Teilmengen als für gerade individuell korrekte und inkorrekte Beispiele.
  • Wie im Block 115 angezeigt, wird ein Gradient für jedes Paar, welches entlang der korrekten und inkorrekten Pfade rückverfolgt wurde, akkumuliert. Ein akkumulierter Gradient wird an die pdf-Parameter kontinuierlicher Dichte angelegt, wie dies im Block 119 gezeigt ist. Ein Test für das Konvergieren wird angewendet, wie dies im Block 121 angezeigt ist, und die Prozedur, welche im Block 117 beginnt, wird so lange wiederholt, bis die Modelle konvergiert sind.
  • Bei jeder Iteration des Stapelmodustrainings der CTMR-Modelle, welche im vorhergehenden Abschnitt dargestellt wurden, werden alle Trainingssprachäußerungen bearbeitet, bevor die Modellparameter aktualisiert werden. Es ist jedoch auch möglich, die Modelle mit einem online-adaptiven Algorithmus zu trainieren, wobei die Modelle, nachdem jede Trainingsaussprachäußerung bearbeitet wurde, aktualisiert werden. Das Online-Training macht es möglich, schnell die DTMR-Modelle mit beschränkten Sprachbeiträgen von einem neuen Nutzer auf das Erkennungssystem zu adaptieren, und idealerweise kann dies in einer Weise getan werden, die für den Anwender unsichtbar ist, mit einer Spra che, die im Laufe des Verrichtens nutzvoller Arbeit mit dem Erkennungssystem produziert wird.
  • Ähnlich dem Stapeltraining erfordert das Online-Training das Berechnen des Fehlerfunktionsgradienten für alle laufenden Modellparameter, welche durch die korrekten und inkorrekten Abgleichpfade im Kandidatensatz für eine spezielle Eingabesprachäußerung u spezifiziert wurden. Im Gegensatz zum Stapeltrainingfall wird der Gradient nicht akkumuliert, sondern wird sofort auf die Modellparameter angewandt: u ^(s, k, l) = μ(s, k, l)u–1 + ω'Δuμ(s, k, l)u–1 (16)
  • Die Bezeichnung Δu bedeutet, dass die Sprachäußerung u benutzt wird, um den Gradienten zu berechnen, und die Operation wird am laufenden Modell μ(s, k, l)u–1 durchgeführt (welches voraussichtlich auch an die vorherige Sprachäußerung u – 1 angepasst wurde).
  • Das bei der Online-Adaption ω' benutzte Wichten wird viel kleiner gesetzt als das Wichten, welches im Stapel-Modus-Training benutzt wurde, da die Zuverlässigkeit des Wechsels, welcher von einer einzelnen Sprachäußerung abgeschätzt wird, beträchtlich niedriger ist als die Abschätzung von einem kompletten Trainingssatz. Mit anderen Worten, ω' << ω.
  • Ein schwieriger Faktor in der Online-Adaption ist der, dass die Identität der Eingangssprachäußerungen nicht mit Sicherheit bekannt ist. Ein „Sich-Verlassen" auf das Erkennungssystem, um die Eingangssprachäußerungen zu identifizieren, wird unvermeidlich zu Fehlern und Misadaptionen der Modelle führen. Das Verzögern der Adaption, um dem Benutzer eine Chance zu geben, Korrekturen durchzuführen, ist nicht wünschenswert, da, wenn unterschiedliche Korrekturstrategien, welche durch ver schiedene Benutzer favorisiert werden, gegeben sind, es schwierig ist, vorherzusagen, wie lange die Verzögerung sein muss.
  • Die Lösung dieses Problems, welche durch die vorliegende Erfindung geliefert wird, besteht darin, mit der Annahme zu beginnen, dass der beste Erkennungskandidat tatsächlich die korrekte Antwort ist und sofort die Modelle zu aktualisieren. Wenn jedoch der Nutzer eine Korrektur zu einem nachfolgenden Zeitpunkt durchführt, wird die originale Misadaptierung ausgelöscht, und eine neue Modifikation der Modellparameter wird basierend auf der korrekten Information durchgeführt.
  • Um die inkorrekte Adaption zu einer späteren Zeit zu löschen, muss die Original-Eingangssprachäußerung, welche jedem Kandidatensatz entspricht, erneuert werden, obwohl die Kandidatenabgleichpfade nicht aufbewahrt werden müssen. Wenn der Nutzer die korrekte Antwort spezifiziert, werden die Kandidatenabgleichpfade regeneriert und der Sprachäußerungsgradiententerm wird wieder berechnet. Der gewichtete Gradient wird von den betroffenen Modellparametern subtrahiert. Ein neuer Gradiententerm, welcher das korrekte Zielmodell wiedergibt, wird berechnet und an den DTMR-Parametern angewendet. Diese Folge von Operationen löscht nicht vollständig den Originalfehler, denn ein derartiges Vorgehen würde bedeuten, all die anderen Aktualisierungen zu löschen, welche inzwischen zwischen der Originalerkennung und der Korrekturaktion aufgetreten sein können. Jedoch hat sich in der Praxis herausgestellt, dass die verzögerte Korrektur ebenso effektiv wie die überwachte Adaption ist, d. h. wo die korrekte Antwort vor der Gradientenberechnung identifiziert wird.
  • Der verzögerte Korrekturalgorithmus ist wie folgt:
    für u:= 1 bis U führe aus
    Erhalte Kanidatenliste für u indem μu–1 benutzt wird
    Identifiziere Teilsätze Ibeste Wahl (inkorrekte Modelle vorausgesetzt) Und Cbeste Wahl (korrekte Modelle vorausgesetzt).
    Berechne Δuμ(s, k, l)u–1 für alle s, k, l spezifiziert durch Abgleichpfade für alle Paare in Ibeste Wahl and Cbeste Wahl
    Aktualisiere μ(s, k, l)u = μ(s, k, l)u–1 + ω'Δvμ(s, k, l)u–1.
    Sichere Kandidatenliste (Abgleichpfade eingeschlossen) für
    Wenn Nutzer das Ergebnis für die Sprachäußerung ν, [l <= ν <= u] korrigiert, dann
    Wiederbehandle die Sprachäußerung ν
    Wiederbehandle die Kandidatenliste und Abgleichpfade für ν
    Identifiziere die Teilsätze Ibeste Wahl und Cbeste Wahl
    Berechne Δvμ(s, k, l)u = für alle s, k, l spezifiziert durch Abgleichpfade für alle Paare in Ibeste Wahl und Cbeste Wahl
    Aktualisiere μ(s, k, l)u = μ(s, k, l)u – ω'Δvμ(s, k, l)u
    Identifiziere Teilsätze Ikorrigiert und Ckorrigiert
    Berechne Δvμ(s, k, l)u für alle s, k, l spezifiziert durch Abgleichpfade für alle Paare in Ikorrigiert und Ckorrigiert
    Aktualisiere μ(s, k, l)u = μ(s, k, l)u – ω'Δvμ(s, k, l)u
    Ende
    Ende
  • Wie vorher aufgezeigt, wird die Adaption als Erkennung auf jeder Sprachäußerung angewandt, basierend auf der Annahme, dass die Erkennung korrekt ist und ein Wiederabgleichen nur durchgeführt wird, wenn der Nutzer eine Korrektur durchführt, auch wenn diese Korrektur gemacht werden kann, wenn der Nutzer einige dazwischen liegende Sprachäußerungen von sich gegeben hat. Diese Vorgehensweise wird im Flussdiagramm der 6 gezeigt. Nachdem eine Kandidatenliste erhalten ist, wie dies im Block 151 angezeigt ist, werden korrekte (C) und inkorrekte (I) Teilsätze bzw. Teilmengen identifiziert, wie dies im Block 153 angezeigt wird. Korrekturen an den Modellparametern werden für alle Paare C und I berechnet, wie dies im Block 155 angezeigt wird, und die Korrekturen werden zu den laufenden Modellparametern addiert, wie dies im Block 157 angezeigt wird, wobei eine verhältnismäßig niedrige Wichtung benutzt wird. Die Kandidatenliste und die Abgleichpfade werden gespeichert, wie dies im Block 159 angezeigt wird. Wenn der Benutzer keine Korrektur durchführt, wird der Sprachäußerungspfad inkrementiert, wie dies im Block 163 angezeigt wird, und wenn keine ausstehenden Sprachäußerungen vorliegen, wie dies im Block 165 getestet wird, kehrt die Prozedur zum Anfangspunkt zurück, um eine neue Sprachäußerung zu erwarten.
  • Wenn im Block 161 der Nutzer eine frühere Sprachäußerung korrigiert, werden die gespeicherten Daten, welche dem Begriff, der zu korrigieren ist, entsprechen, wieder ausgelesen, wie dies im Block 171 angezeigt ist. In ähnlicher Weise wird der Kandidatensatz und werden die Abgleichpfade für die Sprachäußerung, welche zu korrigieren ist, wieder ausgelesen, wie dies im Block 173 angezeigt ist. Die korrekten und inkorrekten Teilsätze werden identifiziert, wie dies im Block 175 angezeigt ist, und der Korrekturterm wird für alle Paare in I und C berechnet, wie dies im Block 179 angezeigt ist. Die Information kann entweder zur Zeit der Korrektur berechnet werden oder von der Anfangserkennung gespeichert werden. Der entsprechende Korrekturfaktor wird von den dann existierenden Modellparametern abgezogen, ohne zu versuchen, alle dazwischen liegenden Korrekturen zu löschen, welche möglicherweise angewandt wurden. Die Teilmenge für C (nach der Korrektur) und für I (nach der Korrektur) wird identifiziert, wie im Block 183 angezeigt ist, und Korrekturterme werden für alle Paare von I und C berechnet, wie dies im Block 183 angezeigt ist. Dieser Korrekturfaktor wird dann zu den Modellparametern addiert, wie dies im Block 191 angezeigt ist. Wie aufgezeigt, wird ein relativ niedriger Wichtungsfaktor bei diesem Abgleichen benutzt, da er auf einem einzelnen Beispiel beruht und nicht auf einem Stapel von Beispielen, wie dies der Fall für die Abgleiche war, welche während des Anfangs- oder Stapeltrainings durchgeführt wurden, wie dies in 5 dargestellt wird.
  • In Anbetracht des Vorausgehenden kann gesehen werden, dass verschiedene Aufgaben der vorliegenden Erfindung gelöst werden und andere vorteilhafte Ergebnisse erzielt wurden.
  • Da verschiedene Änderungen bezüglich der obigen Konstruktionen gemacht werden können, ohne vom Umfang der Erfindung abzuweichen, wie sie in den Patentansprüchen definiert sind, ist davon auszugehen, dass jeglicher Inhalt, der in obiger Beschreibung enthalten oder in den beigefügten Zeichnungen gezeigt ist, der Erläuterung und nicht der Eingrenzung dienen soll.

Claims (3)

  1. Verfahren für ein Spracherkennungssystem, in dem ein Text aus einer Abfolge von Eingangssprachäußerungen erzeugt wird, und in dem jede Eingangssprachäußerung in eine Abfolge von Rohvektoren konvertiert wird, zur Identifizierung derjeniger Wortmodelle aus einem Wortschatz von Wortmodellen, die am besten der Sprachäußerung entsprechen und zur Verbesserung der Wortmodelle, basierend auf durch den Benutzer gemachte Korrekturen, wobei das Verfahren aufweist: – Bereitstellen einer stetigen Wahrscheinlichkeitsverteilungsfunktion (PDF) für jeden Wortzustand, die durch vorausgewählte Parameter gekennzeichnet ist, – Berechnen einer geordneten Ergebnisliste für eine Gruppe von Wortmodellen unter Benutzung der jeweiligen stetigen PDFs, – Einsetzen des Wortes in den zu erstellenden Text, welches dem Modell mit dem besten Ergebnis entspricht, – Abgleichen der vorgewählten Parameter nach jeder Sprachäußerung, um die Differenz zwischen den Ergebnissen des besten und zweitbesten Modells zu erhöhen, – Speichern der Rohvektoren zu jeder Sprachäußerung aus einer Abfolge mit vorgewählter Anzahl, Speichern der Identität der Wortmodelle in der jeweiligen gewählten Gruppe und dadurch Erstellen einer chronologischen Aufzeichnung von Erkennungsereignissen, – falls ein Nutzer ein vorheriges Erkennungsereignis im benannten Text durch Auswahl eines anderen Wortmodells aus der entsprechend gewählten Gruppe korrigiert, – Durchführen eines Abgleichs der aktuellen Zustände der Parameter gegenüber dem Abgleichen mit dem Originalerkennungsereignis, – Durchführen eines Abgleichs der dann aktuellen Parameterzustände, der äquivalent zu dem, was ausgeführt würde, wenn das veränderte Wortmodell als das Beste abschneidende eingestuft worden wäre.
  2. Verfahren nach Anspruch 1, das weiter auweist: – Identifizieren eines quantisierten Vektors aus einer ausgewählten Menge von quantisierten Vektoren für jeden Rohvektor einer Sprachäußerung, die am besten mit dem Rohvektor übereinstimmt, – Bereitstellen einer Abfolge von Zuständen für jedes Modell, die aus einer vorausgewählten Gruppe von Zuständen ausgewählt werden, die das jeweilige Wort aus dem Wortschatz repräsentieren, – Bereitstellen sowohl einer diskreten Wahrscheinlichkeitsverteilungsfunktion (PDF) und der stetigen PDF für jeden Wortmodellzustand, – Bereitstellen einer gespeicherten Tabelle, die die Werte des metrischen Abstands der Übereinstimmungsgrade für jede Kombination von quantisierten Vektoren mit dem Modellzustand, der durch die diskrete PDFs charakterisiert ist, – Durchführen eines Abgleichs der am wenigsten Ausgewählten aus den vorgenannten Wortmodelle mit einer Sprachäußerung unter Benutzung der jeweiligen diskreten PDFs und Erzeugung von Anfangsübereinstimmungswerten mittels der Tabelle und den Abgleichen, – Auswählen einer Gruppe von gut übereinstimmenden Wortmodellen basierend auf den Anfangsübereinstimmungswerten zum Erzielen weiterer Werte basierend auf den genannten stetigen PDFs.
  3. Verfahren nach Anspruch 2, wobei das Erzielen von Werten basierend auf den stetigen PDFs auf den Abgleich folgen, der aus den diskreten PDFs hergeleitet ist.
DE69818231T 1997-03-14 1998-03-13 Verfahren zum diskriminativen training von spracherkennungsmodellen Expired - Fee Related DE69818231T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/818,072 US6260013B1 (en) 1997-03-14 1997-03-14 Speech recognition system employing discriminatively trained models
US818072 1997-03-14
PCT/US1998/004992 WO1998040876A1 (en) 1997-03-14 1998-03-13 Speech recognition system employing discriminatively trained models

Publications (2)

Publication Number Publication Date
DE69818231D1 DE69818231D1 (de) 2003-10-23
DE69818231T2 true DE69818231T2 (de) 2004-06-24

Family

ID=25224595

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69818231T Expired - Fee Related DE69818231T2 (de) 1997-03-14 1998-03-13 Verfahren zum diskriminativen training von spracherkennungsmodellen

Country Status (8)

Country Link
US (1) US6260013B1 (de)
EP (1) EP0966736B1 (de)
JP (1) JP2002500779A (de)
AT (1) ATE250269T1 (de)
AU (1) AU751310B2 (de)
CA (1) CA2275712A1 (de)
DE (1) DE69818231T2 (de)
WO (1) WO1998040876A1 (de)

Families Citing this family (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043426B2 (en) 1998-04-01 2006-05-09 Cyberpulse, L.L.C. Structured speech recognition
DE69829187T2 (de) * 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6678658B1 (en) * 1999-07-09 2004-01-13 The Regents Of The University Of California Speech processing using conditional observable maximum likelihood continuity mapping
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
JP4067716B2 (ja) * 1999-09-13 2008-03-26 三菱電機株式会社 標準パターン作成装置と方法および記録媒体
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US7216079B1 (en) * 1999-11-02 2007-05-08 Speechworks International, Inc. Method and apparatus for discriminative training of acoustic models of a speech recognition system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
DE10030105A1 (de) * 2000-06-19 2002-01-03 Bosch Gmbh Robert Spracherkennungseinrichtung
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
EP1205906B1 (de) * 2000-11-07 2003-05-07 Telefonaktiebolaget L M Ericsson (Publ) Anwendung von Referenzdaten für Spracherkennung
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
US8959019B2 (en) * 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US6823493B2 (en) 2003-01-23 2004-11-23 Aurilab, Llc Word recognition consistency check and error correction system and method
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20040193412A1 (en) * 2003-03-18 2004-09-30 Aurilab, Llc Non-linear score scrunching for more efficient comparison of hypotheses
US20040186819A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Telephone directory information retrieval system and method
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US20040210437A1 (en) * 2003-04-15 2004-10-21 Aurilab, Llc Semi-discrete utterance recognizer for carefully articulated speech
JP4349216B2 (ja) * 2004-06-21 2009-10-21 富士ゼロックス株式会社 分布適合度検定装置、消耗品補給タイミング判定装置、画像形成装置、分布適合度検定方法及びプログラム
US7689520B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Machine learning system and method for ranking sets of data using a pairing cost function
US7689615B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
GB2428853A (en) * 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
US7472096B2 (en) * 2005-07-18 2008-12-30 Microsoft Corporation Training a learning system with arbitrary cost functions
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7707032B2 (en) * 2005-10-20 2010-04-27 National Cheng Kung University Method and system for matching speech data
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US20080005067A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8949124B1 (en) 2008-09-11 2015-02-03 Next It Corporation Automated learning for speech-based applications
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8661030B2 (en) 2009-04-09 2014-02-25 Microsoft Corporation Re-ranking top search results
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8515750B1 (en) * 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9653070B2 (en) 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (de) 2013-06-09 2016-04-20 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9779724B2 (en) 2013-11-04 2017-10-03 Google Inc. Selecting alternates in speech recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0833739B2 (ja) * 1990-09-13 1996-03-29 三菱電機株式会社 パターン表現モデル学習装置
US5280563A (en) 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert
EP0559349B1 (de) 1992-03-02 1999-01-07 AT&T Corp. Lernverfahren und Gerät zur Spracherkennung
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5546499A (en) * 1994-05-27 1996-08-13 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing pre-calculated similarity measurements
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5420335A (en) 1993-09-30 1995-05-30 Birkhahn; Ronald H. Parenteral nutrients based on watersoluble glycerol bisacetoacetates
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
JP3948747B2 (ja) * 1995-08-28 2007-07-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ツリー構成確率密度に基づくパターン認識の方法及びシステム
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US5781887A (en) * 1996-10-09 1998-07-14 Lucent Technologies Inc. Speech recognition method with error reset commands
US5899976A (en) * 1996-10-31 1999-05-04 Microsoft Corporation Method and system for buffering recognized words during speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system

Also Published As

Publication number Publication date
AU6463698A (en) 1998-09-29
WO1998040876A1 (en) 1998-09-17
JP2002500779A (ja) 2002-01-08
ATE250269T1 (de) 2003-10-15
DE69818231D1 (de) 2003-10-23
EP0966736B1 (de) 2003-09-17
US6260013B1 (en) 2001-07-10
AU751310B2 (en) 2002-08-15
EP0966736A1 (de) 1999-12-29
CA2275712A1 (en) 1998-09-17

Similar Documents

Publication Publication Date Title
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69029188T2 (de) Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE68928097T2 (de) Spracherkennungssystem
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60201262T2 (de) Hierarchische sprachmodelle
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60126722T2 (de) Aussprache von neuen Wörtern zur Sprachverarbeitung
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE102008017993B4 (de) Sprachsuchvorrichtung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE3786822T2 (de) Spracherkennungssystem.
DE112021002160T5 (de) Schulung eines modells zum verarbeiten von sequenzdaten
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee