-
Die
Erfindung betrifft ein Verfahren zur Adaption und/oder Erzeugung
statistischer Sprachmodelle für automatische
Spracherkennungssysteme.
-
Bekannte
automatische Spracherkennungssysteme werden in den verschiedensten
Umgebungen eingesetzt. Beispielsweise werden sie als Teile von Dialogsystemen
in Kraftfahrzeugen zur Steuerung von Informations- oder Unterhaltungssystemen
(Navigationssystem, Telefon, Radio oder dergleichen) über Spracheingaben
verwendet. Heutzutage ist die Spracherkennung noch weitgehend auf
bestimmte vorgegebene Kommandos beschränkt, jedoch wird in Zukunft
ein freieres Sprechen der Benutzer bzw. Fahrer angestrebt.
-
Die
Spracherkennung wird insbesondere mittels statistischer Modelle
durchgeführt.
Es werden sowohl akustische Modelle, die auf sogenannten HMM-Modellen
("Hidden Markov
Model") fußen, als
auch linguistische Sprachmodelle, die Auftrittswahrscheinlichkeiten
von Sprachelementen semantischer und syntaktischer Natur repräsentieren,
eingesetzt.
-
Häufig besteht
gerade bei Dialogsystemen das Problem, dass für das vor der Inbetriebnahme
durchzuführende
Training der für
die Spracherkennung verwendeten statistischen Sprachmodelle – zur Schätzung der
Wahrscheinlichkeiten bestimmter Wortfolgen als Spracheingabe – nicht
genügend
Trainingsmaterial zur Verfügung
steht. Das Trainingsmaterial besteht zu meist aus einer großen Menge
von Textdaten. Insbesondere im Hinblick auf das oben erwähnte Ziel,
eine freiere Spracheingabe zu erlauben, wären derartige umfangreiche Trainingsdaten
dringend notwendig.
-
Darüber hinaus
besteht häufig
das Problem, dass Sprachaufnahmen unter realistischen Bedingungen sehr
kostenintensiv sind.
-
Üblicherweise
sind Sprachmodelle nicht an bestimmte akustische Situationen angepasst.
Wie vorstehend beschrieben werden dazu separate Modelle verwendet,
was eine freie Spracheingabe zusätzlich
erschwert.
-
Aus
der
DE 198 42 151
A1 ist ein Verfahren zur Adaption linguistischer Sprachmodelle
in Systemen mit automatischer Spracherkennung bekannt.
-
Ebenfalls
aus dem Stand der Technik bekannt ist das sogenannte "Discriminative Training", bei dem das Sprachmodell
und das akustische Modell zusammen trainiert werden. Hierfür werden
jedoch große
Mengen an akustischen Trainingsdaten benötigt, die im Sprachbereich
des korrespondierenden Sprachmodells liegen müssen und ebenfalls oft nicht
zur Verfügung
stehen.
-
Der
vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren
zur Anpassung und/oder Erzeugung statistischer Sprachmodelle der
eingangs erwähnten
Art zu schaffen, das die Nachteile des Standes der Technik vermeidet
und insbesondere mit einer geringen Menge an Textdaten als Trainingsmaterial
auskommt.
-
Diese
Aufgabe wird erfindungsgemäß durch
Anspruch 1 gelöst.
-
Durch
diese Maßnahmen
können
in vorteilhafter Weise Wahrscheinlichkeiten für statistische Sprachmodelle
erzeugt bzw. angepasst werden, ohne dass dabei große Mengen
an Textdaten als Trainingsmaterial zur Verfügung stehen müssen. Gleichzeitig
werden bestimmte akustische Verhältnisse
bei der Anpassung bzw. Erzeugung berücksichtigt. Das Verfahren kommt
mit einer geringen Datenmenge aus, welche aus vorhandenen aktuellen
Spracherkennungsergebnissen extrahiert werden kann. Das Sprachmodell
ist somit einfach anpassbar. Darüber
hinaus besteht insbesondere die Möglichkeit, soweit akustische
Daten vorliegen, die den gesamten Zielbereich des Sprachmodells
abdecken, ein gänzlich
neues statistisches Sprachmodell aufzubauen.
-
Vorteilhafte
Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus
den Unteransprüchen.
Nachfolgend sind anhand der Zeichnung prinzipmäßig Ausführungsbeispiele der Erfindung
beschrieben.
-
Dabei
zeigen:
-
1 eine
Darstellung der Struktur des erfindungsgemäßen Verfahrens;
-
2 eine
Darstellung der Distanzwerte einer Sprachäußerung;
-
3 eine Übersichtsdarstellung über eine
Berücksichtigung
von Seiteneffekten;
-
4 eine
vereinfachte Darstellung eines neuronalen Netzwerks; und
-
5 eine
Darstellung eines dynamischen Schwellwerts.
-
Die
einzelnen Wahrscheinlichkeiten eines bekannten statistischen Sprachmodells
werden als Uni-Gramme, Bi-Gramme, Tri-Gramme oder N-Gramme bezeichnet, welche
die entsprechende Auftrittswahrscheinlichkeit für ein Wort darstellen, wenn
kein, eins, zwei oder N-1 Wörter
bereits vorangegangen sind.
-
Wenn
ein Spracherkennungssystem zwischen alternativen erkannten Sätzen entscheiden
muss, berücksichtigt
es dabei sowohl das Sprachmodell als auch die akustischen Bewertungen
eines HMM-Modells. Die Wortergebnisse der Spracherkennung weichen
zuweilen von den gesprochenen Wörtern
ab. Diese Abweichungen werden als Wortfehler (Ersetzungen, Einfügungen und
Löschungen)
bezüglich
einer Referenzverschriftung (korrekter Pfad) gewertet. Dabei generiert
das Spracherkennungssystem zuerst einen internen übergeordneten
Wortgraphen (Jumbo-Graph), welcher eine große Anzahl an alternativen Folgen
(Pfaden) von Worthypothesen bzw. Sätzen mit jeweiligen Pfadbewertungen
aufgrund der entsprechenden Auftrittswahrscheinlichkeiten aufweist.
Das Spracherkennungssystem liefert nach Anwendung des Sprachmodells
auf diesen übergeordneten
Wortgraphen als Ausgabe entweder einen bestimmten Satz, den sogenannten
besten Pfad, oder einen reduzierten Wortgraphen. Ein derartiger
Wortgraph ist in der
DE
198 42 151 A1 beispielhaft dargestellt (siehe dort
3).
-
Es
ist nun wünschenswert,
falls irgendein Pfad des übergeordneten
Graphen der korrekte Satz/Pfad (d.h. der Referenzpfad) ist, dieser
aber nach der Anwendung des Sprachmodells auf den übergeordneten
Graphen nicht als bester Pfad identifiziert wurde, d.h. dass der
korrekte Pfad nicht in der Ausgabe des Spracherkennungssystems erscheint,
dann sollte das Sprachmodell bzw. dessen Wahrscheinlichkeiten derart
verändert werden,
dass dieser Satz das nächste
Mal in der Ausgabe erscheint.
-
Dementsprechend
werden als Ausführungsform
der Erfindung folgende Verfahrensschritte vorgeschlagen:
- – Pfadbewertungen
in einem Worthypothesengraphen des Sprachmodells werden insbesondere
durch eine Bildung von Distanzwerten zwischen wenigstens zwei Pfaden
des Worthypothesengraphen verglichen;
- – wenigstens
ein bester Pfad in dem Wordhypothesengraphen bezüglich des Spracherkennungsprozesses wird
identifiziert;
- – wenigstens
ein korrekter Pfad oder ein als korrekter Pfad geltender Pfad mit
einer minimalen Wortfehleranzahl wird in dem Wordhypothesengraphen
markiert;
- – der
Vergleich der Distanzwerte bei den besten und bei den korrekten
Pfaden wird derart durchgeführt, dass
eine Anpassung des Sprachmodells erzielbar ist, welche zu einer
geringeren Anzahl an Wortfehlern in dem besten Pfad führt, wenn
dieselbe Spracheingabe erneut während
des Spracherkennungsprozesses eingegeben wird.
-
Schranken
ergeben sich diesbezüglich
durch sogenannte Seiteneffekte der Änderungen. Falls ein erkannter
Satz geändert
wird, kann dies in anderen Sätzen
Fehler verursachen. Es ist dementsprechend vorteilhaft, dass ein
Seiteneffekt bezüglich
Wortfehlern in anderen Pfaden ermittelt wird, wenn die Wahrscheinlichkeiten
verändert
werden sollen.
-
1 zeigt
die Grobstruktur eines erfindungsgemäßen Verfahrens 1 zur
Anpassung und/oder Erzeugung eines statistischen Sprachmodells 2 für automatische
Spracherkennungssysteme (nicht dargestellt). Aus akustischen Sprachdaten 3 werden
dazu in einem Schritt 4 Worthypothesengraphen erstellt,
welche als übergeordnete
Wortgraphen (Jumbo-Graphen) in internen Daten 5 des Spracherkennungssystems
abgelegt werden. Um von den übergeordneten
Wortgraphen zu einer Ausgabe 6 des Spracherkennungssystems
zu kommen, wird das statistische Sprachmodell 2 angewendet.
In einem Schritt 7 werden die Wortgraphen bewertet. Um
den besten Satz ausgeben zu können,
werden die Pfadbewertungen für
jeden möglichen
Pfad der Wortgraphen verglichen. Die übergeordneten Wortgraphen der
internen Daten 5 des Spracherkennungssystems werden als
aktuelle Spracherkennungsergebnisse 8 gespeichert, anachließend wird
daraus eine Anpassung des Sprachmodells 2 ermittelt.
-
Die
Anwendung des Sprachmodells
2 bei der Bewertung der übergeordneten
Wortgraphen wird anhand eines Vergleichs alternativer Pfade des
Wortgraphen durchgeführt
(
1: Schritt
7). Dabei wird jeder Pfad
mit der nachfolgenden Gleichung bewertet, wobei nur der Pfad mit
der besten Pfadbewertung als der erkannte Satz ausgewählt und
ausgegeben wird.
wobei:
- – aci logarithmische, akustische Bewertungen
der Wörter,
- – ν ein globales
Sprachmodellgewicht (gegenüber
akustischen Bewertungen)
- – p(wj|wj–2, wj–1)
logarithmische Tri-Gramm-Wahrscheinlichkeiten,
- – N
die Anzahl der Wörter
des berechneten Pfads,
- – pen
einen Strafwert für
eine höhere
oder niedrigere Zahl von Worthypothesen pro Pfad,
- – Np
eine Anzahl von Pausen innerhalb eines Pfades, und
- – PWeight
ein empirisch eingestelltes Pausengewicht darstellen.
-
Erfindungsgemäß müssen Pfadbewertungen
für jeweils
mehrere Pfade aus mehreren Wortgraphen berechnet werden. Diese Daten
werden abgespeichert. So wird ein Vergleich zwischen Pfadbewertungen übergreifend über mehrere
Wortgraphen durch eine Berechnung von Differenz bzw. Distanzwerten
ermöglicht. Aufgrund
ihres Wertebereichs ist es günstig,
den Pfadbewertungen ein negatives logarithmisches Format zu geben.
Für jeden
Satz, der in Betracht gezogen wird, wird ein Distanzwert gespeichert.
Diese werden wie folgt berechnet:
- 1. Wenn der
beste Satz der korrekte Satz ist, ergibt sich der Distanzwert des
besten Satzes aus dem Absolutwert der Differenz zwischen der Pfadbewertung
des besten Satzes und der des zweitbesten Satzes. Bei den restlichen
Sätzen des
Wortgraphen ergibt sich der jeweilige Distanzwert aus dem Absolutwert
der Differenz zwischen der Pfadbewertung des jeweiligen Satzes und
der Pfadbewertung des besten Satzes.
- 2. Wenn der beste Satz nicht der korrekte Satz ist, ergibt sich
der Distanzwert des besten Satzes aus dem Absolutwert der Differenz
zwischen seiner Pfadbewertung und der des korrekten Satzes. Falls
mehrere korrekte Sätze
ermittelt wurden, wird die Pfadbewertung, die der des besten Pfades
am nächsten
kommt, betrachtet, denn je näher
die Pfadbewertung an die des besten Satzes kommt, je einfacher ist
es, aus ihr die beste zu machen. Bei den restlichen Sätzen des
Wortgraphen ergibt sich der jeweilige Distanzwert aus dem Absolutwert
der Differenz zwischen der Pfadbewertung des besten Satzes und der
Pfadbewertung des jeweiligen Satzes.
-
2 zeigt
die verschiedenen Fälle
bei der Bestimmung der Distanzwerte für eine Sprachäußerung mit
der eindeutigen Bezeichnung KILW047. Jeder Kreis stellt eine Pfadbewertung
eines Pfades dar, wobei die Distanzwerte als Pfeile dargestellt
sind. Die beiden schraffierten Kreise stellen fehlerhafte Pfade
dar, während die
unschraffierten korrekte Pfade darstellen.
-
In
vorteilhafter Weise werden die notwendigen Daten zusammen in einer
Distanzdatei abgelegt. Die erste Zeile der nachfolgenden Tabelle
1 beinhaltet den (eindeutigen) Namen des übergeordneten Graphen. Darunter
werden die generierten Sätze
wie folgt abgespeichert: Distanzwert, Pfadbewertung, Name des übergeordneten
Graphen, ein erstes Flag (=B= oder =S=), welches anzeigt, ob es
sich um den besten Satz (=B=) oder nicht (=S=) handelt, ein zweites
Flag (=C= oder =E=), welches anzeigt, ob es sich um den Referenzsatz, d.h.
um den korrekten Satz handelt (=C=) oder ob ein Fehler enthalten
ist (=E=), und schließlich
die zugehörige Wortfolge. <s> und </s> kennzeichnen den Anfang
und das Ende des jeweiligen Satzes.
-
Tabelle 1:
-
- KILW047
- 173.704 744.355 KILW047 =B= =C= <s> #PAUSE#
neues Ziel eingeben #PAUSE# </s>;
- 75.241 819.596 KILW047 =S= =C= <s> #NOISE#
neues Ziel eingeben #PAUSE# </s>;
- 449.679 1194.034 KILW047 =S= =E= <s> #PAUSE# <zahl> ist <hotel> mir eingeben #PAUSE# </s>;
- 173.704 918.059 KILW047 =S= =E= <s> #PAUSE#
neues <zahl> eingeben #PAUSE# </s>;
-
Nun
kann eine Berechnung hinsichtlich der Änderungen der Wahrscheinlichkeiten
des Sprachmodells gemäß der Gleichung
(1) durchgeführt
werden, die notwendig sind, um die Fehler zu korrigieren. Dazu folgendes
Beispiel:
- Korrekter Pfad: "<s> Zeig mir die letzte
Nummer noch einmal an </s>"
- Bester Pfad: "<s> Fahrzeug mir die letzte
Nummer noch einmal an </s>"
-
Das
Ziel ist nun, die Pfadbewertung des besten Satzes geringer als die
des Referenzsatzes zu machen. Mit anderen Worten sollte das Spracherkennungssystem
aufgrund der durchzuführenden Änderungen den
korrekten als besten Satz auswählen.
Die Wahrscheinlichkeiten derjenigen N-Gramme werden erhöht, welche
nur im korrekten Pfad und nicht im besten Pfad auftreten und die
Wahrscheinlichkeiten derjenigen N-Gramme werden verringert, welche
nur im besten Pfad und nicht im korrekten Pfad auftreten.
-
Vorliegend
sollte die Distanz sozusagen zwischen den Tri-Grammen verteilt werden, die den Fehler verursachten.
Dazu gibt es vorliegend zwei Möglichkeiten:
entweder werden die Pfadbewertungen der korrekten Sätze erhöht oder
die der fehlerhaften verringert. Im ersten Fall sind zwei Tri-Gramme
in den Fehler verwickelt, daher können diese zur Korrektur erhöht werden.
Es ist möglich,
das Bi-Gramm "<s> Zeig", das Tri-Gramm "<s> Zeig
mir" oder sogar
alle zu erhöhen.
Die letzte Möglichkeit
ist die bequemste, da sie nur kleine Änderungen an den Tri-Grammen
erfordert, um die Differenz zwischen den Pfadbewertungen zu reduzieren,
wodurch andere Sätze
weniger beeinflusst werden. Eine weitere Möglichkeit besteht darin, die
Tri-Gramme des besten Satzes zu verringern. Vorliegend wird eine
Kombination von Erhöhung
und Verringerung der Tri-Gramme benutzt. Die Distanz wird unter
allen möglichen
Tri-Grammen verteilt, um sie zu Null zu reduzieren. Dadurch sollte
der Fehler korrigiert werden, soweit natürlich keine anderen Sätze durch
Seiteneffekte betroffen werden. Derartigen Fehlern kann durch eine
Analyse der gespeicherten Daten vorgebeugt werden. Dies wird durch
eine Definition von Einschränkungen
erreicht, welche festlegen, wann N-Gramme verändert werden sollen. Man stelle
sich vor, ein Tri-Gramm soll erhöht
werden. Anschließend
wird das Tri-Gramm unter allen Sätzen
in der Distanzdatei gesucht. Dabei können pro aufgefundenem Satz
vier verschiedene Situationen in Abhängigkeit der jeweiligen gespeicherten
Flags auftreten:
- 1. BE: falls der Satz, der
das zu erhöhende
Tri-Gramm enthält,
zwar der beste eines übergeordneten
Graphen ist, jedoch einen Fehler aufweist, kann das Tri-Gramm nicht
erhöht
werden, denn sonst würde
die Pfadbewertung des fehlerhaften Pfads auch erhöht werden.
Dadurch wird die Korrektur erschwert. Nichtsdestotrotz gibt es dabei
eine Ausnahme, wenn der Referenzsatz des übergeordneten Graphen das Tri-Gramm
ebenfalls aufweist, dann wird es wie gewünscht erhöht. Dadurch bleibt die Distanz
zwischen dem besten und dem korrekten Satz erhalten.
- 2. SE: in diesem Fall ist der Satz, der das Tri-Gramm ent hält, weder
der erkannte noch der korrekte. Demzufolge kann das Tri-Gramm erhöht werden,
jedoch nicht höher
als die Distanz zur Pfadbewertung des besten Satzes. Sonst würde dieser
Satz zum besten Satz werden, was zu einem weiteren Fehler führen würde. Hier
gibt es jedoch ebenfalls eine Ausnahme. Wenn der korrekte Satz des übergeordneten
Graphen dasselbe Tri-Gramm enthält,
wird es wie gewünscht
erhöht.
- 3. BC: in einem solchen Fall wird das Tri-Gramm erhöht, da der
Satz korrekt ist. Falls die Pfadbewertung des Satzes verbessert
wird, werden Fehlerkennungen reduziert.
- 4. SC: auch in diesem Fall wird das Tri-Gramm erhöht, auch
wenn es nicht der erkannte Satz ist. Nebenbei bemerkt wird es erleichtert,
den korrekten Satz zu erkennen, wenn dessen Pfadbewertung erhöht wird.
-
Bisher
wurde lediglich die Erhöhung
eines Tri-Gramms eines korrekten Satzes betrachtet. Jedoch ist es
auch möglich,
die Tri-Gramme des besten Satzes zu verringern, wenn dieser einen
Fehler aufweist. In obigem Beispiel sind die Tri-Gramme, "<s> Fahrzeug
mir" und "Fahrzeug mir die" in den Fehler verwickelt.
Bei der Verringerung werden ähnliche
Beschränkungen
verwendet. Lediglich die Bedingungen für eine Änderung verändern sich.
- 1.
BE: falls das Tri-Gramm verringert wird, wird die Pfadbewertung
des besten Satzes, nicht die des korrekten Satzes, verschlechtert.
Daher gibt es hier keine Einschränkung.
- 2. SE: Hier gibt es ebenfalls keine Einschränkung bei der Verringerung.
- 3. BC: in diesem Fall kann das Tri-Gramm solange verringert
werden, solange die Pfadbewertung des besten Satzes noch höher als
die des zweitbesten Satzes ist. Mit anderen Wor ten kann die Verringerung
des Tri-Gramms keine Verschlechterung der Pfadbewertung herbeiführen, die
größer ist
als der Distanzwert.
- 4. SC: falls das Tri-Gramm in einem Satz gefunden wurde, der
nicht der beste Satz, jedoch der korrekte Satz ist, darf es nicht
verringert werden.
-
3 zeigt
eine Übersicht über die
Berücksichtigung
der Seiteneffekte, wenn Änderungen
an den Tri-Grammen durchzuführen
sind.
-
Oft
ist es wünschenswert,
für den
Benutzer relevantere Sätze
zu bevorzugen. Mit anderen Worten ist es weniger problematisch,
Sätze mit
höherer
Priorität
zu korrigieren, auch wenn Sätze
mit geringerer Priorität durch
Seiteneffekte davon betroffen sind. Beispielsweise kann Sätzen, die
kritische Wörter
enthalten, welche für
einen anschließenden
Dialog oder dergleichen elementar wichtig sind, eine höhere Priorität zugewiesen werden.
Diese Ausgestaltung wird wie folgt verwirklicht: Zuerst muss eine
Liste von priorisierten Sätzen
bereitgestellt werden. Anschließend
ist die Art der Bevorzugung durch die Einschränkungen festzulegen. Bei Sätzen ohne
Priorität
arbeitet das Verfahren gemäß den oben
erwähnten
Einschränkungen
nach 3. Falls ein Satz mit Priorität jedoch einen Fehler aufweist,
wird das Verfahren abgewandelt. Bei einem Seiteneffekt können zwei
Möglichkeiten
auftreten. Falls der Fehler in einem Satz mit Priorität erzeugt
wurde, arbeitet das Verfahren wie zuvor. Die Änderung kann jedoch durchgeführt werden,
falls die Einschränkung
einen Satz ohne Priorität betrifft.
Durch diese Maßnahmen
kann jedoch die generelle Fehlerrate erhöht werden, da die Sätze ohne
Priorität
verschlechtert werden.
-
Das
vorliegende Ausführungsbeispiel
betrifft zwar nur Tri-Gramme,
eine entsprechende Anwendung bei anderen N-Grammen ist jedoch analog
möglich.
-
Falls
ein Tri-Gramm nicht im Sprachmodell gefunden wurde, entspricht dies
einem sogenannten Back-Off-Fall. Dabei kann ein neues Tri-Gramm
als normales Tri-Gramm in das optimierte Sprachmodell eingeführt werden
oder die Änderung
kann unter den Werten, welche der Berechnung der Back-Off-Wahrscheinlichkeit
dienen, verteilt werden (üblicherweise
eine niedrigere N-Gramm-Wahrscheinlichkeit und ein Back-Off-Gewicht).
-
Bisher
werden die Pfadbewertungen nach einer Änderung einer Sprachmodellwahrscheinlichkeit
nicht neu berechnet. Daher ist die Kontrolle der Seiteneffekte unvollständig, wenn
mehrere Wahrscheinlichkeiten auf einmal verändert werden. Im Gegensatz
dazu berechnet die nachfolgend skizzierte Ausführungsform des erfindungsgemäßen Verfahrens
alle Pfadbewertungen (und Distanzwerte) iterativ neu, was in vorteilhafter
Weise zu einer Verbesserung der Behandlung von Seiteneffekten führt. Die
Kernidee besteht darin, mit einem Klassifikator einen Vergleich
von Pfadbewertungen für
verschieden Pfade des übergeordneten
Graphen zu reproduzieren (siehe 4). Die
Parameter des Klassifikators sollten in Wahrscheinlichkeiten des
Sprachmodells überwandelbar
sein. Unterschiedliche Klassifikatorarchitekturen haben gemeinsam,
dass sie viele numerische Werte als Eingaben benötigen und eine Art von Schwellwertfunktion
aufweisen, um eine Ausgabe, wie beispielsweise "0" oder "1", zu liefern. Des weiteren existieren
lernende Klassifikatoren, welche einige ihrer Parameter als Antwort
auf eine Vorgabe von Ein-/Ausgabepaaren zusammen mit einem Lernsignal
anpassen. Ein derartiger lernender Klassifikator wird hier verwendet.
Er basiert auf der Beobachtung, dass die Pfadbewertungsberechnung
im logarithmischen Bereich mit einer gewichteten Summe korrespondiert,
welche vielen Klassifikatoren gemein ist (als Teil einer sogenannten
Neuron-Funktion). Neben der Darstellung der Pfadbewertungsformel
als Klassifikator (4) muss auf die Darstellung
der Daten geachtet werden und wie ein dynamischer Schwellwert angewendet
wird.
-
Die
folgenden Bedingungen müssen
in Ein-/Ausgabepaare eines Klassifikators übersetzt werden. Der Satz mit
der besten Pfadbewertung entspricht der Ausgabe des Spracherkennungssystems.
Wenn der erkannte Satz nicht der Referenzsatz ist und ein Fehler
auftrat, werden die Wahrscheinlichkeiten des Sprachmodells 2,
die in den Fehler verwickelt waren, nach einer Lernregel geändert. Wenn
kein Fehler vorlag, wird auch das Sprachmodell nicht verändert. Diese
Prozedur wird für
jeden übergeordneten
Graphen (Jumbo-Graphen) durchgeführt.
Anschließend
erfolgt eine iterative Bearbeitung. Mit anderen Worten wird der
Vorgang mehrfach an den übergeordneten
Graphen durchgeführt.
Mit einer geeigneten Wahl der Lernregel des Klassifikators verringert
sich die Fehlerzahl immer weiter, so lange das Verfahren angewendet
wird.
-
Die
Korrekturen werden entsprechend einer sogenannten Kreuzentropie-Lernregel
(Cross Entropy) durchgeführt.
Das Verhalten dieser Lernregel ist wünschenswert, da erwiesen ist,
dass sie die Fehleranzahl minimiert, anstatt den quadratischen Fehler
wie die Gradienten-Lernregel (Gradient Descent) zu minimieren, denn
hier kommt es wesentlich auf die Fehlerhäufigkeit an.
-
Die Übergabe
der Daten an ein neuronales Netz 9 als Klassifikator ist
in 4 dargestellt. Für jedes Tri-Gramm des Sprachmodells 2 ist
ein Eingang vorgesehen. Der Eingabewert gibt die Anzahl der Tri-Gramme in
diesem Pfad wieder. Die Übergabe
eines Pfades auf diese Weise wird als Lernmuster bezeichnet. Diese Lernmuster
werden der Auswertung des Pfades entsprechend in zwei Zielwerte
eingeteilt: korrekt ("1") und nicht korrekt
("0"). Der Ausgabewert
des Lernmusters mit dem Zielwert "1" sollte
größer als
Null sein. Der Ausgabewert der Lernmuster mit dem Zielwert "0" sollte kleiner als Null sein. Die von
demselben übergeordneten Graphen
stammenden Daten sollten zusammen als eine Gruppe behandelt werden.
Der Grund dafür
ist, dass der Vergleich der Pfadbewertungen in eine dy namische Schwellwertfunktion
des neuronalen Netzwerkklassifikatora 9 übersetzt
werden muss. Die Lösung
besteht darin, einen dynamischen Schwellwert derart einzustellen,
dass er die Entscheidung, welches die höchste Pfadbewertung ist, imitiert.
Der dynamische Schwellwert wird bei jedem Durchgang berechnet und
ist für
jede Gruppe (d.h. für
jeden übergeordneten
Graphen) verschieden. Das Ziel ist, dass das nur das Anlegen des
besten Pfades dazuführt,
dass der Schwellwert der Aktivierungsfunktion überschritten wird. Demzufolge
ist die Aktivierungsfunktion nur bei dem besten Pfad aktiv. Das
Einstellen des dynamischen Schwellwerts erfordert die vorherige
Eingabe aller Lernmuster einer Gruppe. Somit läuft die Übergabe wie folgt ab. Zuerst
erfolgt die Übergabe
aller Lernmuster, um den dynamischen Schwellwert zu bestimmen. Anschließend wird
der berechnete Wert von allen Pfadbewertungen subtrahiert und die
neuen Werte abgespeichert. Diese neuen Werte können sowohl über als
auch unter dem Schwellwert liegen. Diese Ausgabe wird mit den Zielwerten
verglichen, die anzeigen, ob ein Pfad korrekt ist oder nicht. Das Lernen
wird bei denjenigen Lernmustern durchgeführt, deren Ausgabe nicht identisch
mit dem Zielwert ist. Die Lernregel modifiziert die Gewichte, die
später
wieder zurück
in das Sprachmodell übersetzt
werden. Zur Berechnung der dynamischen Schwelle ist ein erster Weg,
einen Mittelwert zwischen dem besten Pfad und dem zweitbesten Pfad
zu bilden. Jedoch sollte die Möglichkeit
in Betracht gezogen werden, dass es mehr als einen korrekten Pfad
gibt. Deshalb wird der dynamische Schwellwert als Mittelwert zwischen
der besten Pfadbewertung aller korrekten Sätze und der besten Pfadbewertung
aller fehlerhaften Sätze
berechnet. Diese Berechnung ist in 5 dargestellt.
-
Es
ist ebenfalls vorteilhaft zwei Schranken zu definieren, damit der
Fehler mit einer höheren
Zuverlässigkeit
beseitigt werden kann. Der Zweck der Schranken besteht darin, die
fehlerhaften Sätze
zu zwingen, nicht nur über
dem Schwellwert, sondern auch über
dem Schwellwert und einer vorgegebenen Schranke zu liegen. Dasselbe
geschieht mit dem korrekten Satz. Er muss ebenfalls über einer
bestimmten Schranke liegen. Diese Schranken werden empirisch festgelegt.
In der Praxis werden sie auf –0,1
und +0,1 gesetzt, da sich die Ausgabe innerhalb [–1,1] bewegt.
Wie auf 5 ersichtlich, muss der unschraffierte
Kreis (korrekter Satz) über der
hohen Schranke und die schraffierten Kreise (fehlerhafte Sätze) unter
der niedrigen Schranke liegen. Dadurch wird ein Vertrauensintervall
definiert. Falls sich die Kreise innerhalb des Intervalls befinden,
ist nicht sicher, ob der Fehler korrigiert wird.