DE69818231T2

DE69818231T2 - Verfahren zum diskriminativen training von spracherkennungsmodellen

Info

Publication number: DE69818231T2
Application number: DE69818231T
Authority: DE
Inventors: Vladimir Sejnoha
Original assignee: Lernout and Hauspie Speech Products NV
Current assignee: Lernout and Hauspie Speech Products NV
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 2004-06-24
Anticipated expiration: 2018-03-14
Also published as: AU6463698A; WO1998040876A1; JP2002500779A; ATE250269T1; DE69818231D1; EP0966736B1; US6260013B1; AU751310B2; EP0966736A1; CA2275712A1

Description

HINTERGRUND DER ERFINDUNG
Die Funktion automatischer Spracherkennungs-(ASR-)Systeme besteht darin, die lexikale Identität gesprochener Äußerungen zu bestimmen. Der Erkennungsprozess, welcher auch als Klassifikation bezeichnet wird, beginnt typischerweise mit der Umwandlung eines analogen akustischen Signals in einen Strom digital wiedergegebener Spektralvektoren oder Frames, welche wichtige Charakteristika des Signals bei aufeinander folgenden Zeitintervallen beschreiben. Der Klassifikations- oder Erkennungsprozess basiert auf der Verfügbarkeit von Referenzmodellen, welche Gesichtspunkte des Verhaltens der spektralen Frames entsprechend verschiedener Wörter beschreiben. Eine große Vielfalt von Modellen wurde entwickelt, aber sie alle haben gemeinsam, dass sie die zeitlichen Charakteristika der Spektren, welche typisch für einzelne Wörter oder Teilwortbereiche sind, beschreiben. Die Folge der spektralen Vektoren, welche von einer Eingangssprachäußerung entstehen, wird mit den Modellen verglichen, und der Erfolg, mit welchem der Modelle von unterschiedlichen Wörtern das Verhalten der Eingangsframes vorhergesagt wird, bestimmt die mutmaßliche Identität der Sprachäußerung.
Zurzeit nutzen die meisten Systeme eine gewisse Variante eines statistischen Modells, welches das Hidden-Markov-Modell (HMM) genannt wird. Derartige Modelle bestehen aus Folgen von Zuständen, welche mit Bögen verbunden sind, und eine Wahrscheinlichkeitsverteilungsfunktion (pdf), welche mit jedem Zustand verbunden ist, beschreibt die Wahrscheinlichkeit des Beobachtens irgendeines gegebenen Spektralvektors in diesem Zustand. Ein getrennter Satz von Wahrscheinlichkeiten kann geliefert werden, welcher die Übergänge zwischen den Zuständen bestimmt.
Der Vorgang des Berechnens der Wahrscheinlichkeit, dass eine unbekannte Eingangssprachäußerung einem gegebenen Modell entspricht, welcher auch als Decodieren bekannt ist, wird allgemein in einer von zwei standardisierten Vorgehensweisen ausgeführt. Die erste Vorgehensweise ist als Vorwärts-Rückwärts-Algorithmus bekannt und benutzt eine wirkungsvolle Rekursion, um die Übereinstimmungswahrscheinlichkeit als die Summe der Wahrscheinlichkeiten aller möglichen Ausrichtungen der Eingangsfolge und der Modellzustände, welche durch die Modelltopologie zugelassen sind, zu berechnen. Eine Alternative, der so genannte Viterbi-Algorithmus, approximiert die t-summierte Übereinstimmungswahrscheinlichkeit durch Finden der einzelnen Folge von m-Zuständen mit der maximalen Wahrscheinlichkeit. Der Viterbi-Algorithmus wird als simultanes Ausführen eines Ausrichtens bzw. Abgleichens zwischen der Eingangssprachäußerung und dem Modell und Berechnen der Wahrscheinlichkeit dieses Abgleichens angesehen.
HMMs können geschaffen werden, um gesamte Wörter zu modellieren, oder alternativ eine Vielfalt von linguistischen Teilwort-Einheiten, wie z. B. Phonemen oder Silben. HMMs mit hohem Pegel haben den Vorteil, dass ein relativ kompakter Satz von Modellen benutzt werden kann, um willkürlich neue Wörter zu bilden, welche gegeben sind, so dass deren phonetische Transkription bekannt ist. Kompliziertere Versionen reflektieren die Tatsache, dass kontextuale Effekte große Variationen verursachen können, in der Weise, dass unterschiedliche Laute realisiert werden. Derartige Modelle sind als allophonisch oder kontextabhängig bekannt. Eine allgemeine Näherung besteht darin, die Suche mit verhältnismäßig kontextunabhängigen Modellen zu initiieren und eine kleine Anzahl von versprechenden Kandidaten mit kontextabhängigen phonetischen Modellen zu reevaluieren.
Wie im Fall der phonetischen Modelle sind verschiedene Pegel der Modellleistung im Falle der Wahrscheinlichkeitsverteilungen erhältlich, die die beobachteten Spektren, welche mit den Zuständen des HMMs zusammenhängen, beschreiben. Es gibt zwei primäre Vorgehensweisen: die diskrete pdf und die kontinuierliche pdf. Bei der ersteren werden die spektralen Vektoren, welche der Eingangssprache entsprechen, zuerst mit einem Vektorquantisierer quantisiert, welcher jedem Eingabeframe einen Index zuordnet, welcher dem am näherten Vektor aus einem Codebuch von Prototypen entspricht. Wenn dieses Codieren des Eingangs gegeben ist, nehmen die pdfs die Form von Wahrscheinlichkeitsvektoren an, wobei jede Komponente die Wahrscheinlichkeit des Beobachtens eines einzelnen Prototypvektors repräsentiert, welcher einem einzelnen HMM-Zustand gegeben ist. Einer der Vorteile dieser Vorgehensweise besteht darin, dass sie keine Annahmen über die Natur derartiger pdfs trifft, aber dies wird durch den Informationsverlust, welcher in der Quantisierstufe erlitten wird, wieder vergeben.
Das Gebrauchen von kontinuierlichen pdfs eliminiert den Quantisierschritt, und die Wahrscheinlichkeitsvektoren werden durch parametrische Funktionen ersetzt, welche die Wahrscheinlichkeit jegliches willkürlichen Eingangsspektralvektors, welcher einem Zustand gegeben ist, spezifizieren. Die gebräuchlichste Klasse von Funktionen, welche für diesen Zweck angewandt wurde, ist die Mischung aus Gaußschen Funktionen, wobei die willkürlichen pdfs durch eine gewichtete Summe von Normalverteilungen modelliert werden. Ein Nachteil des Benutzens kontinuierlicher pdfs ist der, dass im Gegensatz zu dem Fall der diskreten pdf, der Designer explizite Annahmen über die Natur der pdf, welche modelliert wird, treffen muss --- etwas, was sehr schwierig sein kann, da die wahre Verteilungsform für das Sprachsignal nicht bekannt ist. Zusätzlich sind kontinuierliche pdf-Modelle von der Rechnerseite aus wesentlich teurer als diskrete pdf-Modelle, da nachfolgend zur Vektorquanti sierung das Berechnen einer diskreten Wahrscheinlichkeit nichts weiter als eine einzelne Lookup-Tabelle beinhaltet.
Die Wahrscheinlichkeitswerte im Falle der diskreten pdf und die Parameterwerte der kontinuierlichen pdf werden am gebräuchlichsten trainiert, indem die Methode der größten Wahrscheinlichkeit benutzt wird. Auf diese Weise werden die Modellparameter justiert bzw. abgeglichen, so dass die Wahrscheinlichkeit des Beobachtens der Trainingsdaten, welche dem Modell gegeben sind, maximiert wird. Jedoch ist bekannt, dass diese Vorgehensweise nicht notwendigerweise zur besten Erkennungsleistung führt, und diese Erkenntnis hat zur Entwicklung neuer Trainingskriterien geführt, welche als diskriminative bekannt sind, deren Aufgabe es ist, Modellparameter so zu justieren, dass die Anzahl der Erkennungsfehler eher minimiert wird als die Verteilungen den Daten anzupassen.
Wie ehemals benutzt, wurde diskriminatives Training sehr erfolgreich für Klein-Vokabular-Aufgaben benutzt. Zusätzlich wirft es eine Anzahl neuer Probleme auf, z. B. wie die diskriminativ ausgebildeten pdfs geeignet zu glätten sind und wie diese Systeme an einen neuen Nutzer mit relativ kleinem Aufwand an Trainingsdaten anzupassen sind.
Um hohe Erkennungsgenauigkeiten zu erreichen, sollte ein Erkennungssystem hochauflösende Modelle nutzen, welche vom Rechenaufwand her teuer sind (z. B. kontextabhängige, diskriminativ eingeübte Modelle mit kontinuierlicher Dichte). Um eine Echtzeiterkennung zu erreichen, wird gewöhnlich eine Vielzahl von Techniken zur Geschwindigkeitserhöhung benutzt.
Bei einer typischen Vorgehensweise wird die Vokabularsuche in vielen Stufen oder Durchläufen ausgeführt, wo jeder sukzessive Durchlauf von zunehmend detaillierten und teuren Modellen Gebrauch macht, angewendet auf zunehmend kleine Listen von Kandidatmodellen. Z. B. können zunächst kontextunabhängige, diskrete Modelle benutzt werden, gefolgt von kontextabhängigen Modellen mit kontinuierlicher Dichte. Wenn vielfältige Sätze von Modellen sequenziell während der Suche benutzt werden, werden ein getrenntes simultanes Justieren bzw. Abgleichen und eine pdf-Evaluierung im Wesentlichen für jeden Satz ausgeführt.
Bei anderen Vorgehensweisen entsprechend dem Stand der Technik wird Geschwindigkeitserhöhen beim Rechnen auf die Evaluierung der Hochauflösungs-pdfs angewendet. Z. B. werden Gaußsche Mischungsmodelle durch eine schnelle, aber angenäherte Identifikation derjenigen Mischungskomponenten evaluiert, welche am wahrscheinlichsten einen signifikanten Beitrag zur Wahrscheinlichkeit und einer nachfolgenden Auswertung dieser Komponenten im Ganzen leisten. Eine andere Vorgehensweise erhöht die Geschwindigkeit der Auswertung von Gaußschen Mischungsmodellen durch Auswerten einer geometrischen Näherung der Berechnung. Jedoch kann selbst mit Geschwindigkeitserhöhungen die Auswertung so langsam sein, dass nur eine kleine Anzahl ausgeführt werden kann.
In einem anderen Schema werden Näherungsmodelle zuerst benutzt, um die Zustandswahrscheinlichkeiten, welche in der Eingangssprachäußerung gegeben sind, zu berechnen. Alle Zustandswahrscheinlichkeiten, welche einen gewissen Schwellwert überschreiten, werden dann wieder bzw. erneut berechnet, indem das detaillierte Modell benutzt wird, der Rest wird beibehalten, wie er ist. Wenn der neue zusammengesetzte Satz an Wahrscheinlichkeiten gegeben ist, wird eine neue Viterbi-Suche durchgeführt, um die optimale Ausrichtung bzw. Abgleichung und Gesamtwahrscheinlichkeit zu bestimmen. Bei diesem Verfahren muss die Ausrichtung bzw. das Abgleichen wiederholt werden, und zusätzlich müssen die Näherungs- und detaillierten Wahrscheinlichkeiten ähnliche, vergleichbare Größen sein. Wenn das de taillierte Modell Wahrscheinlichkeiten erzeugt, welche signifikant höher als jene aus den Näherungsmodellen sind, wird die Kombination der beiden höchstwahrscheinlich nicht zu einer zufrieden stellenden Leistung führen. Diese Forderung zwingt das Verfahren, Näherungs- und detaillierte Modelle zu nutzen, welche ziemlich nahe verwandt sind und so Wahrscheinlichkeiten vergleichbarer Größe erzeugen. Es sollte auch beachtet werden, dass bei diesem Verfahren keine Garantie besteht, dass alle individuellen Zustandswahrscheinlichkeiten, welche die Endjustierwahrscheinlichkeit ausmachen, von detaillierten Modellen kommen. In der Veröffentlichung WO 95/09416 wird ein Spracherkennungssystem mit kontinuierlicher Referenzadaption veröffentlicht, wobei eine Referenz nur aktualisiert wird, wenn der Nutzer die richtige Erkennung bestätigt.
Die vorliegende Erfindung, wie sie im Anspruch 1 beansprucht wird, repräsentiert eine neue Vorgehensweise zum effizienten Nutzen hochauflösender Modelle bei der Groß-Vokabular-Erkennung. Das vorgeschlagene Verfahren hat seinen Vorteil im Gebrauchen eines Modells mit kontinuierlicher Dichte und einem diskriminativen Trainingskriterium, was zu einer hohen Erkennungsleistungsfähigkeit bezüglich einer großen Vokabularaufgabe bei nur geringfügig höheren Kosten im Berechnen gegenüber einem einfachen diskreten pdf-System führt. Eine andere neue Eigenschaft der neuen Vorgehensweise ist deren Fähigkeit, von begrenzten Mengen neuer Daten zur schnellen Adaption an einen einzelnen Sprecher Gebrauch zu machen.
Wie oben erwähnt, kann die Wahrscheinlichkeit, dass eine Eingangssprachäußerung mit einer gegebenen HMM korrespondiert, durch den Viterbi-Algorithmus berechnet werden, welcher die Folge von Modellzuständen findet, welche diese Wahrscheinlichkeit maximiert. Diese Optimierung kann als eine simultane Wahrscheinlichkeitsberechnung und Ausrichtung auf die Eingangssprachäußerung und das Modell betrachtet werden.
In Übereinstimmung mit einem Gesichtspunkt der vorliegenden Erfindung wurde bestimmt, dass die Justier- bzw. Abgleichpfade, welche mit relativ rechnerisch nicht kostspieligen, diskreten pdf-Modellen erhalten werden, von vergleichbarer Qualität gegenüber denen sein können, welche mit rechnerisch kostspieligen pdf-Modellen mit kontinuierlicher Dichte erhalten werden, obwohl sogar die Übereinstimmungswahrscheinlichkeit oder die Metrik, welche durch das diskrete pdf-Abgleichen erzeugt wird, nicht zu ausreichend hoher Genauigkeit für Groß-Vokabular-Erkennung führt.
Entsprechend einem anderen Gesichtspunkt der Erfindung wird ein Entkoppeln des Justierens bzw. Abgleichens und der Berechnungsaufgaben der Endwahrscheinlichkeit geliefert. Ein diskretes pdf-System wird angewendet, um Justier- bzw. Abgleichpfade einer Eingangssprachäußerung und ein Referenzmodell zu errichten, während die Endwahrscheinlichkeitsmetrik durch Nachbearbeiten von Frame-Zustandspaaren mit leistungsfähigeren, diskriminativ trainierten pdfs mit kontinuierlicher Dichte, jedoch durch Nutzen des gleichen Justier- bzw. Abgleichpfades, erhalten werden.
Im Gegensatz zu konventionellen Systemen, wo Modellzustände durch einen speziellen Typ des beobachteten pdfs charakterisiert sind, sind die Zustandsmodelle im vorliegenden System somit sowohl mit einer diskreten pdf (mit niedriger Auflösung) als auch mit einer diskriminativ trainierten bzw. geübten pdf mit kontinuierlicher Dichte (hoher Auflösung) verbunden. Die pdfs mit hoher Auflösung werden trainiert, indem Abgleiche von Modellen und Sprachdaten benutzt werden, welche durch Benutzen der pdfs mit niedriger Auflösung erhalten werden, und damit beinhaltet das diskriminative Training die Kenntnis der Charakteristika des diskreten pdf-Systems.
Kurze Beschreibung der Erfindung
Im Spracherkennungssystem der vorliegenden Erfindung wird jede Eingangssprachäußerung in eine Folge von Roh- oder unquantisierten Vektoren gewandelt. Für jeden Rohvektor identifiziert das System denjenigen aus einer vorgewählten Vielzahl von quantisierten Vektoren, der am besten zu dem Rohvektor passt. Die Rohvektorinformation wird jedoch für die nachfolgende Benutzung zurückgehalten. Jedes Wortmodell wird durch eine Folge von Zuständen repräsentiert, wobei die Zustände aus einer vorgewählten Gruppe von Zuständen ausgewählt werden. Jedoch wird für jeden Modellzustand sowohl eine diskrete Wahrscheinlichkeitsverteilungsfunktion (pdf) als auch eine kontinuierliche pdf, welche durch vorgewählte Abgleichparameter charakterisiert ist, geliefert. Eine gespeicherte Tabelle wird geliefert, welche distanzmetrische Werte für jede Kombination eines quantisierten Eingangsvektors mit einem Modellzustand, wie er durch die diskreten pdfs charakterisiert ist, beinhaltet.
Die Wortmodelle werden mit einer Eingangssprachäußerung abgeglichen, wobei die jeweiligen diskreten PDFs benutzt werden und Anfangsübereinstimmungsergebnisse erzeugt werden, indem die gespeicherte Tabelle benutzt wird. Aus den gut passenden Wortmodellen, welche von den Anfangsübereinstimmungsergebnissen identifiziert sind, wird eine geordnete Ergebnisliste dieser Modelle erzeugt, indem die jeweiligen stetigen pdfs und die Rohvektorinformation benutzt werden. Nach jeder Sprachäußerung werden die vorgewählten Parameter abgeglichen, um im kleinen Maße die Differenz zwischen den Ergebnissen des besten und des zweitbesten Modells zu erhöhen.
Wenn ein Nutzer vorzugsweise ein vorheriges Erkennungsergebnis durch Auswählen eines anderen Wortmodells aus der entsprechend gewählten Gruppe korrigiert, wird ein erneuter Abgleich der stetigen pdf-Parameter durch Ausführen eines Abgleichs auf dem aktuellen Zustand der Parameter im Gegensatz zu dem durchgeführt, welcher mit dem Originalerkennungsereignis ausgeführt wurde, und durch Ausführen eines Abgleichs auf dem dann aktuellen Zustand der Parameter, übereinstimmend mit dem, welcher ausgeführt worden wäre, wenn das neu identifizierte, unterschiedliche Wortmodell als das am besten abschneidende eingestuft worden wäre.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm eines Spracherkennungssystems entsprechend der vorliegenden Erfindung;
2 stellt Vokabularmodelle dar, welche in dem Spracherkennungssystem der vorliegenden Erfindung genutzt werden;
3 stellt ein Rekursionsverfahren dar, welches in dem Spracherkennungssystem der vorliegenden Erfindung genutzt wird;
4 stellt einen Struktursatz von Trainingsdaten dar, welcher zum Trainieren von Wortmodellen benutzt wird;
5 ist ein Flussdiagramm, welches das Anfangs-Stapeltraining von Wortmodellen darstellt; und
6 ist ein Flussdiagramm, welches online-adaptives Training von Wortmodellen darstellt.
Korrespondierende Referenzbuchstaben zeigen korrespondierende Elemente innerhalb verschiedener Ansichten der Zeichnungen an.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
Wie vorher aufgezeigt, beschäftigt sich die vorliegende Erfindung speziell mit dem Zur-Verfügung-Stellen von diskriminativ trainierten Vielfachauflösungs-Vokabularmodellen, welche die Genauigkeit erhöhen und die Rechenbelastung in einem automatischen Spracherkennungs-(ASR-)System vermindern. Am Anfang ist es jedoch passend, in allgemeinen Termen den Typ des Spracherkennungssystems zu beschreiben, welcher für die vorliegende Erfindung anzuwenden ist.
Mit Bezug auf 1 ist das dargestellte Computersystem von dem Typ, welcher im Allgemeinen als Personalcomputer bezeichnet wird. Der Rechner läuft mit einem MS DOS- oder WINDOWS^®-Betriebssystem und ist um einen Systembus angeordnet, welcher im Allgemeinen durch das Referenzzeichen 11 gekennzeichnet ist. Der Systembus kann vom so genannten EISA-Typ (Extended Industry Standards Association) sein. Das Rechnersystem nutzt einen Mikroprozessor, welcher mit dem Referenzzeichen 13 bezeichnet ist, welcher z. B. ein Intel-Pentium-Prozessor sein kann. Das System ist auch mit einer geeigneten Größe eines lokalen Speichers oder Direktzugriffsspeichers, mit z. B. 32 Megabyte, ausgestattet, welcher mit dem Referenzzeichen 15 bezeichnet ist. Zusätzliche Speicherkapazität wird durch eine Festplatte 17 und ein Diskettenlaufwerk 19 geliefert, welche in Verbindung mit einem Steuergerät 23 arbeiten, welche sie an den Systembus koppelt.
Der Eingang für den Nutzer zum Computersystem wird herkömmlich über ein Keyboard 25 geliefert, und die Rückkopplung für den Nutzer wird mit Hilfe eines CRT oder eines anderen Videodisplays 27 geliefert, welches vom Bus aus über ein Videosteuergerät 29 arbeitet. Externe Kommunikation kann über ein I/O- bzw. Eingabe-/Ausgabe-System, welches mit dem Referenzzeichen 31 versehen ist, geliefert werden, welches einen Serienanschluss 33 und einen Drucker 35 unterstützt. Nützlicherweise kann ein Faxmodem vorgesehen werden, wie es durch das Refe renzzeichen 37 angezeigt wird. Dies ist speziell von Nutzen für das Weiterleiten struktureller medizinischer Berichte, wie dies im mit erteilten US-Patent Nr. 5,168,548 beschrieben wird.
Um das Gebrauchen des Rechnersystems für die Spracherkennung zu erleichtern, ist ein digitaler Signalprozessor, wie er durch das Referenzzeichen 16 angezeigt wird, vorgesehen, wobei typischerweise dieser Prozessor als eine hinzugefügte Schaltkreiskarte konfiguriert ist, welche an das Bussystem 11 angeschlossen ist. Wie von Fachleuten verstanden wird, nimmt der digitale Signalprozessor Analogsignale von einem Mikrofon auf, gekennzeichnet durch das Referenzzeichen 18, wandelt diese Signale in eine digitale Form und bearbeitet sie z. B. durch Ausführen einer schnellen Fourier-Transformation (FFT), um eine Reihe von spektralen Frames oder Vektoren zu erhalten, welche digital die Spracheingabe in aufeinander folgenden Zeitpunkten charakterisieren. Wie hier verwendet, werden diese Eingangsvektoren als die Roheingangsvektoren bezeichnet. In der Ausführungsform, welche beschrieben wird, werden die akustischen Vektoren (X_u) mit einer Geschwindigkeit, einer pro jeweils 10 ms, erzeugt und haben 14 Ausgangsdimensionen.
Vorzugsweise werden die Rohvektoren einer Genus-Normallineardiskriminierenden Analyse unterzogen, wie dies in der US-A-5572624 beschrieben wird. Der Zweck dieser Analyse ist es, die spektralen Frames so zu transformieren, dass sie die Diskriminierfähigkeit verschiedener phonetischer Ereignisse erhöhen. Während die Rohvektoren für den Gebrauch beim Abgleichen und beim Anfangsauswerten quantisiert werden, werden die Daten, welche die Rohvektoren aufweisen, für den Gebrauch bei einer präziseren Endauswertung vorbehalten, wobei kontinuierliche pdfs, wie nachfolgend beschrieben, verwendet werden.
Somit ist X_u = (x_u,t, ..., x_u,t, ... x_u,Tu), wobei T_u die Länge und X_u,t der t-te Vektor der Größe 14 in der u-ten Eingangssprachäußerung ist.
Die übertragenen akustischen Frames werden mit einem Codebuch von 1024 Standard-Vektorprototypen vektorquantisiert, und jeder originale spektrale Frame x_t (auslasssend t tiefgestellte zu u) wird einer korrespondierenden Vektorquantisierer-(VQ-) Adresse ν_t zugeordnet. Jede Folge X erzeugt so eine VQ-Adressenfolge V 0 (ν_l, ..., ν_t, ..., ν_T).
Referenzvokabularmodelle werden aus Folgen von Zuständen Y_i = (y_i,l, ..., y_i,m, ..., y_i,Mi) aufgestellt, wobei M_i die Länge eines Modells ist und i der Modellindex ist.
Jeder Modellzustand y_i,m ist ein Pointer bzw. Zeiger auf einen gewöhnlichen Satz von R-DTMR-Zuständen, S = (s_l, ..., s_r, ..., s_R), wobei jeder davon umgekehrt mit zwei getrennten Typen von pdf verbunden ist, welche aus zwei gewöhnlichen pdf-Pools ausgewählt sind.
Der erste Typ des pdf-Pools enthält diskrete Verteilungen, welche die Wahrscheinlichkeit des Beobachtens eines quantisierten Frames ν_t ausdrücken, welchem ein Zustand s_r gegeben ist, welcher durch y_i,m bezeichnet ist, welcher an der m-ten Position in dem i-ten Modell auftritt, d. h. Pr(ν_t|y_i,m) = Pr(ν_t|s_r). Das Berechnen der Übereinstimmungswahrscheinlichkeit wird vereinfacht, wenn die pdfs in negative Logarithmen gewandelt werden, und damit definieren wir die Menge VQLP((ν_t|y_i,m)) = –log(Pr(ν_t|y_i,m)). Man beachte, dass VQLP im Wesentlichen eine Tabelle von vorberechneten log-Wahrscheinlichkeiten ist und damit die Auswertung der diskreten pdf-Modelle aus einer sehr schnellen Lookup-Tabelle besteht.
Der zweite Pool von pdfs auf der anderen Seite besteht aus kontinuierlichen Verteilungen, welche die Wahrscheinlichkeit des Beobachtens eines spezifischen Spektrums Xt geben, welchem ein spezieller Zustand s_r gegeben ist, welcher durch y_i,m bezeichnet ist, d. h. Pr(X_t|y_i,m) = Pr(X_t|s_r). Da dies der Fall für die diskreten pdfs ist, ist es bequemer, Wahrscheinlichkeiten kontinuierlicher Dichte in der log-Domäne zu verwenden, und damit definieren wir CDLP(X_t|y_i,m) = –log(Pr(X_r|y_i,m)).
Die kontinuierlichen pdfs sind parametrische Modelle und damit können die Wahrscheinlichkeiten nicht vorausberechnet werden. Anstatt vorberechnete Wahrscheinlichkeiten zu speichern, wie es für die diskreten pdfs der Fall ist, speichern wir die pdf-Parameter selbst und benutzen sie, um die log-Wahrscheinlichkeiten für spezifische Eingabe-Frames zu berechnen. Man beachte, dass individuelle Mäntel bzw. Einhüllende in jedem Satz durch akustisch ähnliche Zustände von unterschiedlichen Modellen geteilt werden können. 2 zeigt die Beziehung zwischen Modellzuständen und den beiden Sätzen von log-pdfs.
Die vektorquantisierten Eingabesprachäußerungen V werden gegenüber den Referenzmodellen Y_i durch den Viterbi-Algorithmus angepasst, welcher detaillierter nachfolgend beschrieben wird, wobei das diskrete pdf-Profil der DTMR-Modelle benutzt wird. Der Algorithmus wertet –log(Pr(V|Y_i)) aus, den negativen Logarithmus der Wahrscheinlichkeit des Beobachtens der Eingangsfolge, welche dem Modell, durch Finden des besten Abgleichpfades zwischen der Eingabesprachäußerung und den Modellzuständen, gegeben ist.
Definieren der Summe (t, m) als die akkumulierten negativen log-Wahrscheinlichkeiten.
Der Abgleichalgorithmus, der in dieser Arbeit benutzt wird, kann dann wie folgt zusammengefasst werden.
Initialisierung:
Sum(0, 0) = 0
Auswertung:
Beendigung:
return Sum_i = Sum(T, M)/(T + M)
wobei Pred_t(t, m) und Pred_m(t, m) die Indizes des besten vorausgegangenen Ergebnisses in der Position t, m sind.
Diese Grundrekursion wird auch in 3 der Zeichnungen dargestellt.
Die folgenden Strukturen werden aufgestellt, um den Abgleichpfad zwischen einer Eingangssprachäußerung und einem gegebenen Referenzmodell zu speichern: fi = (fi,l, ..., fi,p, ..., fi,Pi) (1) qi = (qi,l, ..., qi,p, ..., qi,Pi) (2)wobei f_i,p der Eingangs-Frame-Index und q_i,p der Zustandsindex bei der Position p auf dem Pfad für das i-te Referenzmodell und P_i die Pfadlänge ist. Der beste Abgleichpfad wird wiederhergestellt, indem die vorausgegangenen Arrays Pred_t(t, m) und Pred_m(t, m) in der folgenden, rückwärts verarbeitenden Rekursion benutzt werden:
Initialisieren:
p = 0, t = T, m = M,
Rückwärtsverarbeiten:
Beendigung:
P_r = p
Der originale akustische Vektor bei einem bestimmten Pfadpunkt p kann damit als x(f_i,p) ausgewiesen werden, während der Zustandsindex in der Pfadposition p direkt durch q_i,p gegeben ist. Die normierten Ergebnisse Sum_i für alle Referenzmodelle, welche mit einer speziellen Eingangssprachäußerung abgeglichen sind, können sortiert werden, und nur eine kleine Anzahl von Modellen mit dem niedrigst normierten Ergebnis muss in der nächsten Erkennungsstufe wieder bzw. erneut gespeichert werden.
In der Wiederauswertestufe werden die Abgleichpfade für eine kleine Anzahl von Modellen mit den besten diskreten pdf-Ergebnissen durchlaufen, und neue Ergebnisse werden für die Frame-Zustandspaare berechnet, welche durch diese Pfade definiert sind, indem der Satz von diskriminativ trainierten pdfs mit kontinuierlicher Dichte benutzt wird.
Die pdfs mit kontinuierlicher Dichte, die in dieser Arbeit verwendet werden, sind eine vereinfachte Form von Gaußschen Mischfunktionen. Experimentell wurde augenscheinlich, dass mit dem Gebrauch des diskriminativen Trainings es keinen Vorteil ergab, die Vollmischmodelle gegenüber der vereinfachten Version zu benutzen. Zusätzlich durch das Reduzieren der Anzahl freier Parameter im Modell wurde signifikant deren Trainierbarkeit mit begrenzten Mengen von Daten verbessert.
Die Standard-Gauß-Misch-log-Wahrscheinlichkeitsverteilungsfunktion GMLP ist wie folgt definiert:
wobei a(s_r, k) die Wichtung der Mischkomponente k im Zustand s_r und N(x; μ; Σ) die Wahrscheinlichkeit des Beobachtens von x(t) anzeigt, welche als Gaußsche Vielfachvariante mit dem Mittelwert μ und der Kovarianz Σ gegeben ist. N(s_r) ist die Anzahl der Mischkomponenten.
Die diskriminativ trainierte log-pdf (CDLP) mit kontinuierlicher Dichte, welche in dieser Arbeit benutzt wird, ist wie folgt:
wobei
Das kontinuierliche pdf-Modell für den Zustand q_i,p besteht so aus N(q_i,p) 14-dimensionalen Mittelwertvektoren μ. Aufgrund des Nichtvorhandenseins von normierenden Termen in der Gleichung (4) ist CDLP keine wahre log-Wahrscheinlichkeit und ist somit nicht mit den diskreten log-Wahrscheinlichkeiten VQLP austauschbar. Diese Inkompatibilität ist jedoch kein Problem, da, sobald die Abgleichpfade aufgestellt sind, die diskreten log-Wahrscheinlichkeiten nicht weiter benutzt werden. Die Fähigkeit, inkompatible pdfs zu benutzen, stellt einen Vorteil gegenüber bekannten Schemata dar.
Das neue Ergebnis für einen Pfad entsprechend einem Abgleichen der Eingabe-Sprachäußerung mit dem Referenzmodell i wird erhalten als
Die wieder ausgewerteten bzw. überarbeiteten Modelle werden dann entsprechend ihrer neuen Ergebnisse wieder bzw. erneut sortiert.
Die Rolle der diskreten Dichtekomponente der DTMR-Modelle ist zweifach: Sie wird für jede Eingabesprachäußerung benutzt, die große Mehrheit nicht korrekter Modelle herauszurastern und einen kleinen Satz von Ähnlichkeitskandidaten zu erzeugen, und sie wird auch benutzt, um genaues Abgleichen der Eingangssprachäußerung an die Referenzmodelle zu erhalten. Man ist jedoch nicht genötigt, eine feine Diskrimination zwischen hoch verwirrenden Modellen zu machen. Vielmehr ist es die Rolle des Wiederauswertens der pdfs kontinuierlicher Dichte.
Deshalb ist es ausreichend, sich auf das Maximal-Wahrscheinlichkeitstraining für die diskrete Dichtekomponente zu verlassen und nur ein diskriminatives Kriterium zum Trainieren der kontinuierlichen Dichtekomponente anzuwenden. Das kontinuier liche pdf-Training nutzt jedoch Abgleichpfade, welche auf der Grundlage der diskreten pdfs erstellt sind.
Der erste Schritt im Trainieren der pdfs mit kontinuierlicher Dichte ist das Initialisieren der Mittelwertvektoren μs_r, k. Dies kann durch Trainieren einer herkömmlichen Maximalen Wahrscheinlichkeits-Gaußverteilungs-pdf für jeden Modellzustand aus den Eingangs-Sprachäußerungsframes geschehen, welche mit dem Zustand abgeglichen sind, wobei die diskrete pdf-Komponente benutzt wird. Die gesamte Anzahl von Mittelwertvektoren kann aufgestellt werden, um die Varianz der Datenframes zu reflektieren, welche mit jedem Zustand während des iterativen Trainings abgeglichen wurden. Bei Konvergenz des Anfangstrainings werden die Mittelwertvektoren mit signifikanten Wahrscheinlichkeiten wieder erhalten, während andere Parameter, welche mit einem Standardverteilungsmodell verbunden sind, verworfen werden.
Der nächste Schritt besteht im diskriminativen Training der Mittelwertvektoren. Dies wird durch Definieren einer geeigneten Trainingszielfunktion erreicht, welche die Erkennungsfehlerrate reflektiert und die Mittelwertparameter so optimiert, dass diese Funktion minimiert wird.
Eine gewöhnliche Technik, welche zum Minimieren der Zielfunktion anwendbar ist, ist die Optimierung mit abfallenden Gradienten. Bei dieser Vorgehensweise wird die Zielfunktion bezüglich der Modellparameter differenziert, und die Parameter werden dann durch Addition des skalierten Gradienten modifiziert. Ein neuer Gradient, welcher die modifizierten Parameter wiedergibt, wird berechnet, und die Parameter werden weiter abgeglichen. Die Iteration wird fortgesetzt, bis Konvergenz erhalten wird, gewöhnlicherweise bestimmt durch Überwachen der Leistungsfähigkeit aufgrund von Evaluationsdaten, unabhängig von den Trainingsdaten.
Eine Trainingsdatenbasis wird vorverarbeitet, indem für jede Trainingssprachäußerung eine kurze Liste von Kandidatenerkennungsmodellen erhalten wird. Jede Kandidatenliste enthält eine Anzahl von korrekten Modellen (Teilmenge C) und eine Anzahl von inkorrekten (Teilmenge I) Modellen. Jede Liste wird durch das Ergebnis D_i sortiert, und eine zunehmende Abgleichspfadstruktur wird für jedes Referenzmodell in der Liste wieder erhalten. Die zusätzlich gespeicherte Pfadinformation ist wie folgt: bi = (bi,l, ..., bi,p, ..., bi,Pi) (7)b_i wird benutzt, um den Index des besten Mittelwertvektors bei einem speziellen Pfadpunkt zu speichern. Zum Beispiel, wenn p den Frame x(f_i,p) und den Zustand q_i,p verbindet, ist
4 zeigt den Trainingsstruktursatz für eine Eingabesprachäußerung. Eine Fehlerfunktion ε_u für eine spezielle Trainingssprachäußerung wird von den paarweisen Fehlerfunktionen o_i,j aus berechnet:
wobei
β ist ein skalarer Multiplikator, D_i, i ∊ C ist das Abgleichergebnis des Eingangssymbols und eines korrekten Modells i, und D_j, j ∊ I ist das Ergebnis des Textelements und eines inkorrekten Modells j. Die Größen der Sätze C und I können gesteuert werden, um zu bestimmen, wie viele korrekte Modelle und inkorrekte oder potenzielle Eindringling- bzw. Störmodelle im Training benutzt werden.
o_i,j übernimmt Werte nahe 1, wenn das korrekte Modellergebnis D_i viel größer (d. h. schlechter) als das Eindringling- bzw. Störergebnis D_j ist, und nahe 0, wenn das Gegenteil zutrifft. Werte größer als 0,5 repräsentieren Erkennungsfehler, während Werte kleiner als 0,5 korrekte Erkennungen repräsentieren. Der Parameter β steuert die Höhe bzw. Größe des Einflusses, den "Nahe-zu-Fehler" auf das Training haben werden.
Das Ergebnis D_i zwischen der Trainingssprachäußerung und dem Zielmodell i wird durch erneutes Berechnen des Abgleichpfades erhalten, wie dies in Gleichung (6) gezeigt wird. In der Praxis kann die Normierung durch die Pfadlänge Pi während des Trainings ignoriert werden. Somit ist
welche wieder geschrieben werden kann als:
Ein ähnlicher Ausdruck kann für D_j geschrieben werden.
Das Differenzieren der Fehlerfunktion bezüglich einer speziellen Komponente des Mittelwertvektors μ(s, k, l) führt zu:
wobei δ(a, b) das Kronecker-delta ist und zu 1 wird, wenn a = b, und in den anderen Fällen zu null wird. Der Gradient wird über alle Sprachäußerungen und korrekt-inkorrekt-Paare von gemittelt:
wobei N_C,I,u die Anzahl der korrekt-inkorrekt-Modellpaare für die Sprachäußerung u ist. Die Mittelwertkomponenten werden durch die Addition des skalierten Gradienten modifiziert: u ^(s, k, l) = μ(s, k, l) + ωΔμ(s, k, l) (15)wobei w eine Wichtung ist, welche die Größe der Änderung bezüglich dem Parametersatz in einer Iteration bestimmt. Diese Vorgehensweise wird in dem Flussdiagramm der 5 gezeigt.
Anfangs werden die Kandidatmodelle ausgewählt, indem die pdfs mit diskreter Dichte benutzt werden, wie dies im Schritt 101 angezeigt wird. Beim Wiederbenutzen der diskreten pdfs werden die Eingangssprachäußerungen mit den besten Modellen abgeglichen, indem der Viterbi-Algorithmus benutzt wird, und die Rückführinformation wird gespeichert, wie dies im Block 103 gezeigt wird. Die Ergebnisse werden sortiert, wie dies im Block 105 gezeigt wird, und dann werden die sich ergebenden Modelle wieder berechnet, wie dies im Block 107 gezeigt wird, indem die pdfs mit kontinuierlicher Dichte benutzt werden, wo bei das Wiederberechnen entlang des Abgleichpfades durchgeführt wird, welcher mit den diskreten pdfs bestimmt wurde.
Wie im Block 109 angezeigt, werden die Modelle dann erneut sortiert, basierend auf den Ergebnissen, welche mit den pdfs mit kontinuierlicher Dichte erhalten werden.
Korrekte und inkorrekte Modelle werden identifiziert, wie dies im Block 111 angezeigt wird, und für jedes Paar korrekter und inkorrekter Modelle wird eine Fehlerfunktion berechnet, wie dies im Block 113 angezeigt wird. Da vielfältige Modelle für jedes Vokabularwort benutzt werden können, sorgt die Vorgehensweise eher für Teilmengen als für gerade individuell korrekte und inkorrekte Beispiele.
Wie im Block 115 angezeigt, wird ein Gradient für jedes Paar, welches entlang der korrekten und inkorrekten Pfade rückverfolgt wurde, akkumuliert. Ein akkumulierter Gradient wird an die pdf-Parameter kontinuierlicher Dichte angelegt, wie dies im Block 119 gezeigt ist. Ein Test für das Konvergieren wird angewendet, wie dies im Block 121 angezeigt ist, und die Prozedur, welche im Block 117 beginnt, wird so lange wiederholt, bis die Modelle konvergiert sind.
Bei jeder Iteration des Stapelmodustrainings der CTMR-Modelle, welche im vorhergehenden Abschnitt dargestellt wurden, werden alle Trainingssprachäußerungen bearbeitet, bevor die Modellparameter aktualisiert werden. Es ist jedoch auch möglich, die Modelle mit einem online-adaptiven Algorithmus zu trainieren, wobei die Modelle, nachdem jede Trainingsaussprachäußerung bearbeitet wurde, aktualisiert werden. Das Online-Training macht es möglich, schnell die DTMR-Modelle mit beschränkten Sprachbeiträgen von einem neuen Nutzer auf das Erkennungssystem zu adaptieren, und idealerweise kann dies in einer Weise getan werden, die für den Anwender unsichtbar ist, mit einer Spra che, die im Laufe des Verrichtens nutzvoller Arbeit mit dem Erkennungssystem produziert wird.
Ähnlich dem Stapeltraining erfordert das Online-Training das Berechnen des Fehlerfunktionsgradienten für alle laufenden Modellparameter, welche durch die korrekten und inkorrekten Abgleichpfade im Kandidatensatz für eine spezielle Eingabesprachäußerung u spezifiziert wurden. Im Gegensatz zum Stapeltrainingfall wird der Gradient nicht akkumuliert, sondern wird sofort auf die Modellparameter angewandt: u ^(s, k, l) = μ(s, k, l)u–1 + ω'Δuμ(s, k, l)u–1 (16)
Die Bezeichnung Δu bedeutet, dass die Sprachäußerung u benutzt wird, um den Gradienten zu berechnen, und die Operation wird am laufenden Modell μ(s, k, l)_u–1 durchgeführt (welches voraussichtlich auch an die vorherige Sprachäußerung u – 1 angepasst wurde).
Das bei der Online-Adaption ω' benutzte Wichten wird viel kleiner gesetzt als das Wichten, welches im Stapel-Modus-Training benutzt wurde, da die Zuverlässigkeit des Wechsels, welcher von einer einzelnen Sprachäußerung abgeschätzt wird, beträchtlich niedriger ist als die Abschätzung von einem kompletten Trainingssatz. Mit anderen Worten, ω' << ω.
Ein schwieriger Faktor in der Online-Adaption ist der, dass die Identität der Eingangssprachäußerungen nicht mit Sicherheit bekannt ist. Ein „Sich-Verlassen" auf das Erkennungssystem, um die Eingangssprachäußerungen zu identifizieren, wird unvermeidlich zu Fehlern und Misadaptionen der Modelle führen. Das Verzögern der Adaption, um dem Benutzer eine Chance zu geben, Korrekturen durchzuführen, ist nicht wünschenswert, da, wenn unterschiedliche Korrekturstrategien, welche durch ver schiedene Benutzer favorisiert werden, gegeben sind, es schwierig ist, vorherzusagen, wie lange die Verzögerung sein muss.
Die Lösung dieses Problems, welche durch die vorliegende Erfindung geliefert wird, besteht darin, mit der Annahme zu beginnen, dass der beste Erkennungskandidat tatsächlich die korrekte Antwort ist und sofort die Modelle zu aktualisieren. Wenn jedoch der Nutzer eine Korrektur zu einem nachfolgenden Zeitpunkt durchführt, wird die originale Misadaptierung ausgelöscht, und eine neue Modifikation der Modellparameter wird basierend auf der korrekten Information durchgeführt.
Um die inkorrekte Adaption zu einer späteren Zeit zu löschen, muss die Original-Eingangssprachäußerung, welche jedem Kandidatensatz entspricht, erneuert werden, obwohl die Kandidatenabgleichpfade nicht aufbewahrt werden müssen. Wenn der Nutzer die korrekte Antwort spezifiziert, werden die Kandidatenabgleichpfade regeneriert und der Sprachäußerungsgradiententerm wird wieder berechnet. Der gewichtete Gradient wird von den betroffenen Modellparametern subtrahiert. Ein neuer Gradiententerm, welcher das korrekte Zielmodell wiedergibt, wird berechnet und an den DTMR-Parametern angewendet. Diese Folge von Operationen löscht nicht vollständig den Originalfehler, denn ein derartiges Vorgehen würde bedeuten, all die anderen Aktualisierungen zu löschen, welche inzwischen zwischen der Originalerkennung und der Korrekturaktion aufgetreten sein können. Jedoch hat sich in der Praxis herausgestellt, dass die verzögerte Korrektur ebenso effektiv wie die überwachte Adaption ist, d. h. wo die korrekte Antwort vor der Gradientenberechnung identifiziert wird.
Der verzögerte Korrekturalgorithmus ist wie folgt:
für u:= 1 bis U führe aus
Erhalte Kanidatenliste für u indem μ_u–1 benutzt wird
Identifiziere Teilsätze I_{beste Wahl} (inkorrekte Modelle vorausgesetzt) Und C_{beste Wahl} (korrekte Modelle vorausgesetzt).
Berechne Δ_uμ(s, k, l)_u–1 für alle s, k, l spezifiziert durch Abgleichpfade für alle Paare in I_beste
Wahl and C_{beste Wahl}
Aktualisiere μ(s, k, l)_u = μ(s, k, l)_u–1 + ω'Δ_vμ(s, k, l)_u–1.
Sichere Kandidatenliste (Abgleichpfade eingeschlossen) für
Wenn Nutzer das Ergebnis für die Sprachäußerung ν, [l <= ν <= u] korrigiert, dann
Wiederbehandle die Sprachäußerung ν
Wiederbehandle die Kandidatenliste und Abgleichpfade für ν
Identifiziere die Teilsätze I_{beste Wahl} und C_beste
Wahl
Berechne Δ_vμ(s, k, l)_u = für alle s, k, l spezifiziert durch Abgleichpfade für alle Paare in I_{beste Wahl} und C_beste
Wahl
Aktualisiere μ(s, k, l)_u = μ(s, k, l)_u – ω'Δ_vμ(s, k, l)_u
Identifiziere Teilsätze I_korrigiert und C_korrigiert
Berechne Δ_vμ(s, k, l)_u für alle s, k, l spezifiziert durch Abgleichpfade für alle Paare in I_korrigiert und C_korrigiert
Aktualisiere μ(s, k, l)_u = μ(s, k, l)_u – ω'Δ_vμ(s, k, l)_u
Ende
Ende
Wie vorher aufgezeigt, wird die Adaption als Erkennung auf jeder Sprachäußerung angewandt, basierend auf der Annahme, dass die Erkennung korrekt ist und ein Wiederabgleichen nur durchgeführt wird, wenn der Nutzer eine Korrektur durchführt, auch wenn diese Korrektur gemacht werden kann, wenn der Nutzer einige dazwischen liegende Sprachäußerungen von sich gegeben hat. Diese Vorgehensweise wird im Flussdiagramm der 6 gezeigt. Nachdem eine Kandidatenliste erhalten ist, wie dies im Block 151 angezeigt ist, werden korrekte (C) und inkorrekte (I) Teilsätze bzw. Teilmengen identifiziert, wie dies im Block 153 angezeigt wird. Korrekturen an den Modellparametern werden für alle Paare C und I berechnet, wie dies im Block 155 angezeigt wird, und die Korrekturen werden zu den laufenden Modellparametern addiert, wie dies im Block 157 angezeigt wird, wobei eine verhältnismäßig niedrige Wichtung benutzt wird. Die Kandidatenliste und die Abgleichpfade werden gespeichert, wie dies im Block 159 angezeigt wird. Wenn der Benutzer keine Korrektur durchführt, wird der Sprachäußerungspfad inkrementiert, wie dies im Block 163 angezeigt wird, und wenn keine ausstehenden Sprachäußerungen vorliegen, wie dies im Block 165 getestet wird, kehrt die Prozedur zum Anfangspunkt zurück, um eine neue Sprachäußerung zu erwarten.
Wenn im Block 161 der Nutzer eine frühere Sprachäußerung korrigiert, werden die gespeicherten Daten, welche dem Begriff, der zu korrigieren ist, entsprechen, wieder ausgelesen, wie dies im Block 171 angezeigt ist. In ähnlicher Weise wird der Kandidatensatz und werden die Abgleichpfade für die Sprachäußerung, welche zu korrigieren ist, wieder ausgelesen, wie dies im Block 173 angezeigt ist. Die korrekten und inkorrekten Teilsätze werden identifiziert, wie dies im Block 175 angezeigt ist, und der Korrekturterm wird für alle Paare in I und C berechnet, wie dies im Block 179 angezeigt ist. Die Information kann entweder zur Zeit der Korrektur berechnet werden oder von der Anfangserkennung gespeichert werden. Der entsprechende Korrekturfaktor wird von den dann existierenden Modellparametern abgezogen, ohne zu versuchen, alle dazwischen liegenden Korrekturen zu löschen, welche möglicherweise angewandt wurden. Die Teilmenge für C (nach der Korrektur) und für I (nach der Korrektur) wird identifiziert, wie im Block 183 angezeigt ist, und Korrekturterme werden für alle Paare von I und C berechnet, wie dies im Block 183 angezeigt ist. Dieser Korrekturfaktor wird dann zu den Modellparametern addiert, wie dies im Block 191 angezeigt ist. Wie aufgezeigt, wird ein relativ niedriger Wichtungsfaktor bei diesem Abgleichen benutzt, da er auf einem einzelnen Beispiel beruht und nicht auf einem Stapel von Beispielen, wie dies der Fall für die Abgleiche war, welche während des Anfangs- oder Stapeltrainings durchgeführt wurden, wie dies in 5 dargestellt wird.
In Anbetracht des Vorausgehenden kann gesehen werden, dass verschiedene Aufgaben der vorliegenden Erfindung gelöst werden und andere vorteilhafte Ergebnisse erzielt wurden.
Da verschiedene Änderungen bezüglich der obigen Konstruktionen gemacht werden können, ohne vom Umfang der Erfindung abzuweichen, wie sie in den Patentansprüchen definiert sind, ist davon auszugehen, dass jeglicher Inhalt, der in obiger Beschreibung enthalten oder in den beigefügten Zeichnungen gezeigt ist, der Erläuterung und nicht der Eingrenzung dienen soll.

Claims

Verfahren für ein Spracherkennungssystem, in dem ein Text aus einer Abfolge von Eingangssprachäußerungen erzeugt wird, und in dem jede Eingangssprachäußerung in eine Abfolge von Rohvektoren konvertiert wird, zur Identifizierung derjeniger Wortmodelle aus einem Wortschatz von Wortmodellen, die am besten der Sprachäußerung entsprechen und zur Verbesserung der Wortmodelle, basierend auf durch den Benutzer gemachte Korrekturen, wobei das Verfahren aufweist: – Bereitstellen einer stetigen Wahrscheinlichkeitsverteilungsfunktion (PDF) für jeden Wortzustand, die durch vorausgewählte Parameter gekennzeichnet ist, – Berechnen einer geordneten Ergebnisliste für eine Gruppe von Wortmodellen unter Benutzung der jeweiligen stetigen PDFs, – Einsetzen des Wortes in den zu erstellenden Text, welches dem Modell mit dem besten Ergebnis entspricht, – Abgleichen der vorgewählten Parameter nach jeder Sprachäußerung, um die Differenz zwischen den Ergebnissen des besten und zweitbesten Modells zu erhöhen, – Speichern der Rohvektoren zu jeder Sprachäußerung aus einer Abfolge mit vorgewählter Anzahl, Speichern der Identität der Wortmodelle in der jeweiligen gewählten Gruppe und dadurch Erstellen einer chronologischen Aufzeichnung von Erkennungsereignissen, – falls ein Nutzer ein vorheriges Erkennungsereignis im benannten Text durch Auswahl eines anderen Wortmodells aus der entsprechend gewählten Gruppe korrigiert, – Durchführen eines Abgleichs der aktuellen Zustände der Parameter gegenüber dem Abgleichen mit dem Originalerkennungsereignis, – Durchführen eines Abgleichs der dann aktuellen Parameterzustände, der äquivalent zu dem, was ausgeführt würde, wenn das veränderte Wortmodell als das Beste abschneidende eingestuft worden wäre.
Verfahren nach Anspruch 1, das weiter auweist: – Identifizieren eines quantisierten Vektors aus einer ausgewählten Menge von quantisierten Vektoren für jeden Rohvektor einer Sprachäußerung, die am besten mit dem Rohvektor übereinstimmt, – Bereitstellen einer Abfolge von Zuständen für jedes Modell, die aus einer vorausgewählten Gruppe von Zuständen ausgewählt werden, die das jeweilige Wort aus dem Wortschatz repräsentieren, – Bereitstellen sowohl einer diskreten Wahrscheinlichkeitsverteilungsfunktion (PDF) und der stetigen PDF für jeden Wortmodellzustand, – Bereitstellen einer gespeicherten Tabelle, die die Werte des metrischen Abstands der Übereinstimmungsgrade für jede Kombination von quantisierten Vektoren mit dem Modellzustand, der durch die diskrete PDFs charakterisiert ist, – Durchführen eines Abgleichs der am wenigsten Ausgewählten aus den vorgenannten Wortmodelle mit einer Sprachäußerung unter Benutzung der jeweiligen diskreten PDFs und Erzeugung von Anfangsübereinstimmungswerten mittels der Tabelle und den Abgleichen, – Auswählen einer Gruppe von gut übereinstimmenden Wortmodellen basierend auf den Anfangsübereinstimmungswerten zum Erzielen weiterer Werte basierend auf den genannten stetigen PDFs.
Verfahren nach Anspruch 2, wobei das Erzielen von Werten basierend auf den stetigen PDFs auf den Abgleich folgen, der aus den diskreten PDFs hergeleitet ist.