DE102004048348A1 - Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle - Google Patents

Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle Download PDF

Info

Publication number
DE102004048348A1
DE102004048348A1 DE200410048348 DE102004048348A DE102004048348A1 DE 102004048348 A1 DE102004048348 A1 DE 102004048348A1 DE 200410048348 DE200410048348 DE 200410048348 DE 102004048348 A DE102004048348 A DE 102004048348A DE 102004048348 A1 DE102004048348 A1 DE 102004048348A1
Authority
DE
Germany
Prior art keywords
path
word
correct
language model
probabilities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE200410048348
Other languages
English (en)
Other versions
DE102004048348B4 (de
Inventor
Albert Dipl.-Ing. Fabregat Subirá
Udo Dr. Haiber
Harald Dr.-Ing. Hüning
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Priority to DE200410048348 priority Critical patent/DE102004048348B4/de
Priority to PCT/EP2005/009973 priority patent/WO2006037446A1/de
Publication of DE102004048348A1 publication Critical patent/DE102004048348A1/de
Application granted granted Critical
Publication of DE102004048348B4 publication Critical patent/DE102004048348B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle für automatische Spracherkennungssysteme, wobei aktuelle Spracherkennungsergebnisse und bestimmte akustische Verhältnisse berücksichtigt werden.

Description

  • Die Erfindung betrifft ein Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle für automatische Spracherkennungssysteme.
  • Bekannte automatische Spracherkennungssysteme werden in den verschiedensten Umgebungen eingesetzt. Beispielsweise werden sie als Teile von Dialogsystemen in Kraftfahrzeugen zur Steuerung von Informations- oder Unterhaltungssystemen (Navigationssystem, Telefon, Radio oder dergleichen) über Spracheingaben verwendet. Heutzutage ist die Spracherkennung noch weitgehend auf bestimmte vorgegebene Kommandos beschränkt, jedoch wird in Zukunft ein freieres Sprechen der Benutzer bzw. Fahrer angestrebt.
  • Die Spracherkennung wird insbesondere mittels statistischer Modelle durchgeführt. Es werden sowohl akustische Modelle, die auf sogenannten HMM-Modellen ("Hidden Markov Model") fußen, als auch linguistische Sprachmodelle, die Auftrittswahrscheinlichkeiten von Sprachelementen semantischer und syntaktischer Natur repräsentieren, eingesetzt.
  • Häufig besteht gerade bei Dialogsystemen das Problem, dass für das vor der Inbetriebnahme durchzuführende Training der für die Spracherkennung verwendeten statistischen Sprachmodelle – zur Schätzung der Wahrscheinlichkeiten bestimmter Wortfolgen als Spracheingabe – nicht genügend Trainingsmaterial zur Verfügung steht. Das Trainingsmaterial besteht zu meist aus einer großen Menge von Textdaten. Insbesondere im Hinblick auf das oben erwähnte Ziel, eine freiere Spracheingabe zu erlauben, wären derartige umfangreiche Trainingsdaten dringend notwendig.
  • Darüber hinaus besteht häufig das Problem, dass Sprachaufnahmen unter realistischen Bedingungen sehr kostenintensiv sind.
  • Üblicherweise sind Sprachmodelle nicht an bestimmte akustische Situationen angepasst. Wie vorstehend beschrieben werden dazu separate Modelle verwendet, was eine freie Spracheingabe zusätzlich erschwert.
  • Aus der DE 198 42 151 A1 ist ein Verfahren zur Adaption linguistischer Sprachmodelle in Systemen mit automatischer Spracherkennung bekannt.
  • Ebenfalls aus dem Stand der Technik bekannt ist das sogenannte "Discriminative Training", bei dem das Sprachmodell und das akustische Modell zusammen trainiert werden. Hierfür werden jedoch große Mengen an akustischen Trainingsdaten benötigt, die im Sprachbereich des korrespondierenden Sprachmodells liegen müssen und ebenfalls oft nicht zur Verfügung stehen.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Anpassung und/oder Erzeugung statistischer Sprachmodelle der eingangs erwähnten Art zu schaffen, das die Nachteile des Standes der Technik vermeidet und insbesondere mit einer geringen Menge an Textdaten als Trainingsmaterial auskommt.
  • Diese Aufgabe wird erfindungsgemäß durch Anspruch 1 gelöst.
  • Durch diese Maßnahmen können in vorteilhafter Weise Wahrscheinlichkeiten für statistische Sprachmodelle erzeugt bzw. angepasst werden, ohne dass dabei große Mengen an Textdaten als Trainingsmaterial zur Verfügung stehen müssen. Gleichzeitig werden bestimmte akustische Verhältnisse bei der Anpassung bzw. Erzeugung berücksichtigt. Das Verfahren kommt mit einer geringen Datenmenge aus, welche aus vorhandenen aktuellen Spracherkennungsergebnissen extrahiert werden kann. Das Sprachmodell ist somit einfach anpassbar. Darüber hinaus besteht insbesondere die Möglichkeit, soweit akustische Daten vorliegen, die den gesamten Zielbereich des Sprachmodells abdecken, ein gänzlich neues statistisches Sprachmodell aufzubauen.
  • Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen. Nachfolgend sind anhand der Zeichnung prinzipmäßig Ausführungsbeispiele der Erfindung beschrieben.
  • Dabei zeigen:
  • 1 eine Darstellung der Struktur des erfindungsgemäßen Verfahrens;
  • 2 eine Darstellung der Distanzwerte einer Sprachäußerung;
  • 3 eine Übersichtsdarstellung über eine Berücksichtigung von Seiteneffekten;
  • 4 eine vereinfachte Darstellung eines neuronalen Netzwerks; und
  • 5 eine Darstellung eines dynamischen Schwellwerts.
  • Die einzelnen Wahrscheinlichkeiten eines bekannten statistischen Sprachmodells werden als Uni-Gramme, Bi-Gramme, Tri-Gramme oder N-Gramme bezeichnet, welche die entsprechende Auftrittswahrscheinlichkeit für ein Wort darstellen, wenn kein, eins, zwei oder N-1 Wörter bereits vorangegangen sind.
  • Wenn ein Spracherkennungssystem zwischen alternativen erkannten Sätzen entscheiden muss, berücksichtigt es dabei sowohl das Sprachmodell als auch die akustischen Bewertungen eines HMM-Modells. Die Wortergebnisse der Spracherkennung weichen zuweilen von den gesprochenen Wörtern ab. Diese Abweichungen werden als Wortfehler (Ersetzungen, Einfügungen und Löschungen) bezüglich einer Referenzverschriftung (korrekter Pfad) gewertet. Dabei generiert das Spracherkennungssystem zuerst einen internen übergeordneten Wortgraphen (Jumbo-Graph), welcher eine große Anzahl an alternativen Folgen (Pfaden) von Worthypothesen bzw. Sätzen mit jeweiligen Pfadbewertungen aufgrund der entsprechenden Auftrittswahrscheinlichkeiten aufweist. Das Spracherkennungssystem liefert nach Anwendung des Sprachmodells auf diesen übergeordneten Wortgraphen als Ausgabe entweder einen bestimmten Satz, den sogenannten besten Pfad, oder einen reduzierten Wortgraphen. Ein derartiger Wortgraph ist in der DE 198 42 151 A1 beispielhaft dargestellt (siehe dort 3).
  • Es ist nun wünschenswert, falls irgendein Pfad des übergeordneten Graphen der korrekte Satz/Pfad (d.h. der Referenzpfad) ist, dieser aber nach der Anwendung des Sprachmodells auf den übergeordneten Graphen nicht als bester Pfad identifiziert wurde, d.h. dass der korrekte Pfad nicht in der Ausgabe des Spracherkennungssystems erscheint, dann sollte das Sprachmodell bzw. dessen Wahrscheinlichkeiten derart verändert werden, dass dieser Satz das nächste Mal in der Ausgabe erscheint.
  • Dementsprechend werden als Ausführungsform der Erfindung folgende Verfahrensschritte vorgeschlagen:
    • – Pfadbewertungen in einem Worthypothesengraphen des Sprachmodells werden insbesondere durch eine Bildung von Distanzwerten zwischen wenigstens zwei Pfaden des Worthypothesengraphen verglichen;
    • – wenigstens ein bester Pfad in dem Wordhypothesengraphen bezüglich des Spracherkennungsprozesses wird identifiziert;
    • – wenigstens ein korrekter Pfad oder ein als korrekter Pfad geltender Pfad mit einer minimalen Wortfehleranzahl wird in dem Wordhypothesengraphen markiert;
    • – der Vergleich der Distanzwerte bei den besten und bei den korrekten Pfaden wird derart durchgeführt, dass eine Anpassung des Sprachmodells erzielbar ist, welche zu einer geringeren Anzahl an Wortfehlern in dem besten Pfad führt, wenn dieselbe Spracheingabe erneut während des Spracherkennungsprozesses eingegeben wird.
  • Schranken ergeben sich diesbezüglich durch sogenannte Seiteneffekte der Änderungen. Falls ein erkannter Satz geändert wird, kann dies in anderen Sätzen Fehler verursachen. Es ist dementsprechend vorteilhaft, dass ein Seiteneffekt bezüglich Wortfehlern in anderen Pfaden ermittelt wird, wenn die Wahrscheinlichkeiten verändert werden sollen.
  • 1 zeigt die Grobstruktur eines erfindungsgemäßen Verfahrens 1 zur Anpassung und/oder Erzeugung eines statistischen Sprachmodells 2 für automatische Spracherkennungssysteme (nicht dargestellt). Aus akustischen Sprachdaten 3 werden dazu in einem Schritt 4 Worthypothesengraphen erstellt, welche als übergeordnete Wortgraphen (Jumbo-Graphen) in internen Daten 5 des Spracherkennungssystems abgelegt werden. Um von den übergeordneten Wortgraphen zu einer Ausgabe 6 des Spracherkennungssystems zu kommen, wird das statistische Sprachmodell 2 angewendet. In einem Schritt 7 werden die Wortgraphen bewertet. Um den besten Satz ausgeben zu können, werden die Pfadbewertungen für jeden möglichen Pfad der Wortgraphen verglichen. Die übergeordneten Wortgraphen der internen Daten 5 des Spracherkennungssystems werden als aktuelle Spracherkennungsergebnisse 8 gespeichert, anachließend wird daraus eine Anpassung des Sprachmodells 2 ermittelt.
  • Die Anwendung des Sprachmodells 2 bei der Bewertung der übergeordneten Wortgraphen wird anhand eines Vergleichs alternativer Pfade des Wortgraphen durchgeführt (1: Schritt 7). Dabei wird jeder Pfad mit der nachfolgenden Gleichung bewertet, wobei nur der Pfad mit der besten Pfadbewertung als der erkannte Satz ausgewählt und ausgegeben wird.
    Figure 00060001
    wobei:
    • – aci logarithmische, akustische Bewertungen der Wörter,
    • – ν ein globales Sprachmodellgewicht (gegenüber akustischen Bewertungen)
    • – p(wj|wj–2, wj–1) logarithmische Tri-Gramm-Wahrscheinlichkeiten,
    • – N die Anzahl der Wörter des berechneten Pfads,
    • – pen einen Strafwert für eine höhere oder niedrigere Zahl von Worthypothesen pro Pfad,
    • – Np eine Anzahl von Pausen innerhalb eines Pfades, und
    • – PWeight ein empirisch eingestelltes Pausengewicht darstellen.
  • Erfindungsgemäß müssen Pfadbewertungen für jeweils mehrere Pfade aus mehreren Wortgraphen berechnet werden. Diese Daten werden abgespeichert. So wird ein Vergleich zwischen Pfadbewertungen übergreifend über mehrere Wortgraphen durch eine Berechnung von Differenz bzw. Distanzwerten ermöglicht. Aufgrund ihres Wertebereichs ist es günstig, den Pfadbewertungen ein negatives logarithmisches Format zu geben. Für jeden Satz, der in Betracht gezogen wird, wird ein Distanzwert gespeichert. Diese werden wie folgt berechnet:
    • 1. Wenn der beste Satz der korrekte Satz ist, ergibt sich der Distanzwert des besten Satzes aus dem Absolutwert der Differenz zwischen der Pfadbewertung des besten Satzes und der des zweitbesten Satzes. Bei den restlichen Sätzen des Wortgraphen ergibt sich der jeweilige Distanzwert aus dem Absolutwert der Differenz zwischen der Pfadbewertung des jeweiligen Satzes und der Pfadbewertung des besten Satzes.
    • 2. Wenn der beste Satz nicht der korrekte Satz ist, ergibt sich der Distanzwert des besten Satzes aus dem Absolutwert der Differenz zwischen seiner Pfadbewertung und der des korrekten Satzes. Falls mehrere korrekte Sätze ermittelt wurden, wird die Pfadbewertung, die der des besten Pfades am nächsten kommt, betrachtet, denn je näher die Pfadbewertung an die des besten Satzes kommt, je einfacher ist es, aus ihr die beste zu machen. Bei den restlichen Sätzen des Wortgraphen ergibt sich der jeweilige Distanzwert aus dem Absolutwert der Differenz zwischen der Pfadbewertung des besten Satzes und der Pfadbewertung des jeweiligen Satzes.
  • 2 zeigt die verschiedenen Fälle bei der Bestimmung der Distanzwerte für eine Sprachäußerung mit der eindeutigen Bezeichnung KILW047. Jeder Kreis stellt eine Pfadbewertung eines Pfades dar, wobei die Distanzwerte als Pfeile dargestellt sind. Die beiden schraffierten Kreise stellen fehlerhafte Pfade dar, während die unschraffierten korrekte Pfade darstellen.
  • In vorteilhafter Weise werden die notwendigen Daten zusammen in einer Distanzdatei abgelegt. Die erste Zeile der nachfolgenden Tabelle 1 beinhaltet den (eindeutigen) Namen des übergeordneten Graphen. Darunter werden die generierten Sätze wie folgt abgespeichert: Distanzwert, Pfadbewertung, Name des übergeordneten Graphen, ein erstes Flag (=B= oder =S=), welches anzeigt, ob es sich um den besten Satz (=B=) oder nicht (=S=) handelt, ein zweites Flag (=C= oder =E=), welches anzeigt, ob es sich um den Referenzsatz, d.h. um den korrekten Satz handelt (=C=) oder ob ein Fehler enthalten ist (=E=), und schließlich die zugehörige Wortfolge. <s> und </s> kennzeichnen den Anfang und das Ende des jeweiligen Satzes.
  • Tabelle 1:
    • KILW047
    • 173.704 744.355 KILW047 =B= =C= <s> #PAUSE# neues Ziel eingeben #PAUSE# </s>;
    • 75.241 819.596 KILW047 =S= =C= <s> #NOISE# neues Ziel eingeben #PAUSE# </s>;
    • 449.679 1194.034 KILW047 =S= =E= <s> #PAUSE# <zahl> ist <hotel> mir eingeben #PAUSE# </s>;
    • 173.704 918.059 KILW047 =S= =E= <s> #PAUSE# neues <zahl> eingeben #PAUSE# </s>;
  • Nun kann eine Berechnung hinsichtlich der Änderungen der Wahrscheinlichkeiten des Sprachmodells gemäß der Gleichung (1) durchgeführt werden, die notwendig sind, um die Fehler zu korrigieren. Dazu folgendes Beispiel:
    • Korrekter Pfad: "<s> Zeig mir die letzte Nummer noch einmal an </s>"
    • Bester Pfad: "<s> Fahrzeug mir die letzte Nummer noch einmal an </s>"
  • Das Ziel ist nun, die Pfadbewertung des besten Satzes geringer als die des Referenzsatzes zu machen. Mit anderen Worten sollte das Spracherkennungssystem aufgrund der durchzuführenden Änderungen den korrekten als besten Satz auswählen. Die Wahrscheinlichkeiten derjenigen N-Gramme werden erhöht, welche nur im korrekten Pfad und nicht im besten Pfad auftreten und die Wahrscheinlichkeiten derjenigen N-Gramme werden verringert, welche nur im besten Pfad und nicht im korrekten Pfad auftreten.
  • Vorliegend sollte die Distanz sozusagen zwischen den Tri-Grammen verteilt werden, die den Fehler verursachten. Dazu gibt es vorliegend zwei Möglichkeiten: entweder werden die Pfadbewertungen der korrekten Sätze erhöht oder die der fehlerhaften verringert. Im ersten Fall sind zwei Tri-Gramme in den Fehler verwickelt, daher können diese zur Korrektur erhöht werden. Es ist möglich, das Bi-Gramm "<s> Zeig", das Tri-Gramm "<s> Zeig mir" oder sogar alle zu erhöhen. Die letzte Möglichkeit ist die bequemste, da sie nur kleine Änderungen an den Tri-Grammen erfordert, um die Differenz zwischen den Pfadbewertungen zu reduzieren, wodurch andere Sätze weniger beeinflusst werden. Eine weitere Möglichkeit besteht darin, die Tri-Gramme des besten Satzes zu verringern. Vorliegend wird eine Kombination von Erhöhung und Verringerung der Tri-Gramme benutzt. Die Distanz wird unter allen möglichen Tri-Grammen verteilt, um sie zu Null zu reduzieren. Dadurch sollte der Fehler korrigiert werden, soweit natürlich keine anderen Sätze durch Seiteneffekte betroffen werden. Derartigen Fehlern kann durch eine Analyse der gespeicherten Daten vorgebeugt werden. Dies wird durch eine Definition von Einschränkungen erreicht, welche festlegen, wann N-Gramme verändert werden sollen. Man stelle sich vor, ein Tri-Gramm soll erhöht werden. Anschließend wird das Tri-Gramm unter allen Sätzen in der Distanzdatei gesucht. Dabei können pro aufgefundenem Satz vier verschiedene Situationen in Abhängigkeit der jeweiligen gespeicherten Flags auftreten:
    • 1. BE: falls der Satz, der das zu erhöhende Tri-Gramm enthält, zwar der beste eines übergeordneten Graphen ist, jedoch einen Fehler aufweist, kann das Tri-Gramm nicht erhöht werden, denn sonst würde die Pfadbewertung des fehlerhaften Pfads auch erhöht werden. Dadurch wird die Korrektur erschwert. Nichtsdestotrotz gibt es dabei eine Ausnahme, wenn der Referenzsatz des übergeordneten Graphen das Tri-Gramm ebenfalls aufweist, dann wird es wie gewünscht erhöht. Dadurch bleibt die Distanz zwischen dem besten und dem korrekten Satz erhalten.
    • 2. SE: in diesem Fall ist der Satz, der das Tri-Gramm ent hält, weder der erkannte noch der korrekte. Demzufolge kann das Tri-Gramm erhöht werden, jedoch nicht höher als die Distanz zur Pfadbewertung des besten Satzes. Sonst würde dieser Satz zum besten Satz werden, was zu einem weiteren Fehler führen würde. Hier gibt es jedoch ebenfalls eine Ausnahme. Wenn der korrekte Satz des übergeordneten Graphen dasselbe Tri-Gramm enthält, wird es wie gewünscht erhöht.
    • 3. BC: in einem solchen Fall wird das Tri-Gramm erhöht, da der Satz korrekt ist. Falls die Pfadbewertung des Satzes verbessert wird, werden Fehlerkennungen reduziert.
    • 4. SC: auch in diesem Fall wird das Tri-Gramm erhöht, auch wenn es nicht der erkannte Satz ist. Nebenbei bemerkt wird es erleichtert, den korrekten Satz zu erkennen, wenn dessen Pfadbewertung erhöht wird.
  • Bisher wurde lediglich die Erhöhung eines Tri-Gramms eines korrekten Satzes betrachtet. Jedoch ist es auch möglich, die Tri-Gramme des besten Satzes zu verringern, wenn dieser einen Fehler aufweist. In obigem Beispiel sind die Tri-Gramme, "<s> Fahrzeug mir" und "Fahrzeug mir die" in den Fehler verwickelt. Bei der Verringerung werden ähnliche Beschränkungen verwendet. Lediglich die Bedingungen für eine Änderung verändern sich.
    • 1. BE: falls das Tri-Gramm verringert wird, wird die Pfadbewertung des besten Satzes, nicht die des korrekten Satzes, verschlechtert. Daher gibt es hier keine Einschränkung.
    • 2. SE: Hier gibt es ebenfalls keine Einschränkung bei der Verringerung.
    • 3. BC: in diesem Fall kann das Tri-Gramm solange verringert werden, solange die Pfadbewertung des besten Satzes noch höher als die des zweitbesten Satzes ist. Mit anderen Wor ten kann die Verringerung des Tri-Gramms keine Verschlechterung der Pfadbewertung herbeiführen, die größer ist als der Distanzwert.
    • 4. SC: falls das Tri-Gramm in einem Satz gefunden wurde, der nicht der beste Satz, jedoch der korrekte Satz ist, darf es nicht verringert werden.
  • 3 zeigt eine Übersicht über die Berücksichtigung der Seiteneffekte, wenn Änderungen an den Tri-Grammen durchzuführen sind.
  • Oft ist es wünschenswert, für den Benutzer relevantere Sätze zu bevorzugen. Mit anderen Worten ist es weniger problematisch, Sätze mit höherer Priorität zu korrigieren, auch wenn Sätze mit geringerer Priorität durch Seiteneffekte davon betroffen sind. Beispielsweise kann Sätzen, die kritische Wörter enthalten, welche für einen anschließenden Dialog oder dergleichen elementar wichtig sind, eine höhere Priorität zugewiesen werden. Diese Ausgestaltung wird wie folgt verwirklicht: Zuerst muss eine Liste von priorisierten Sätzen bereitgestellt werden. Anschließend ist die Art der Bevorzugung durch die Einschränkungen festzulegen. Bei Sätzen ohne Priorität arbeitet das Verfahren gemäß den oben erwähnten Einschränkungen nach 3. Falls ein Satz mit Priorität jedoch einen Fehler aufweist, wird das Verfahren abgewandelt. Bei einem Seiteneffekt können zwei Möglichkeiten auftreten. Falls der Fehler in einem Satz mit Priorität erzeugt wurde, arbeitet das Verfahren wie zuvor. Die Änderung kann jedoch durchgeführt werden, falls die Einschränkung einen Satz ohne Priorität betrifft. Durch diese Maßnahmen kann jedoch die generelle Fehlerrate erhöht werden, da die Sätze ohne Priorität verschlechtert werden.
  • Das vorliegende Ausführungsbeispiel betrifft zwar nur Tri-Gramme, eine entsprechende Anwendung bei anderen N-Grammen ist jedoch analog möglich.
  • Falls ein Tri-Gramm nicht im Sprachmodell gefunden wurde, entspricht dies einem sogenannten Back-Off-Fall. Dabei kann ein neues Tri-Gramm als normales Tri-Gramm in das optimierte Sprachmodell eingeführt werden oder die Änderung kann unter den Werten, welche der Berechnung der Back-Off-Wahrscheinlichkeit dienen, verteilt werden (üblicherweise eine niedrigere N-Gramm-Wahrscheinlichkeit und ein Back-Off-Gewicht).
  • Bisher werden die Pfadbewertungen nach einer Änderung einer Sprachmodellwahrscheinlichkeit nicht neu berechnet. Daher ist die Kontrolle der Seiteneffekte unvollständig, wenn mehrere Wahrscheinlichkeiten auf einmal verändert werden. Im Gegensatz dazu berechnet die nachfolgend skizzierte Ausführungsform des erfindungsgemäßen Verfahrens alle Pfadbewertungen (und Distanzwerte) iterativ neu, was in vorteilhafter Weise zu einer Verbesserung der Behandlung von Seiteneffekten führt. Die Kernidee besteht darin, mit einem Klassifikator einen Vergleich von Pfadbewertungen für verschieden Pfade des übergeordneten Graphen zu reproduzieren (siehe 4). Die Parameter des Klassifikators sollten in Wahrscheinlichkeiten des Sprachmodells überwandelbar sein. Unterschiedliche Klassifikatorarchitekturen haben gemeinsam, dass sie viele numerische Werte als Eingaben benötigen und eine Art von Schwellwertfunktion aufweisen, um eine Ausgabe, wie beispielsweise "0" oder "1", zu liefern. Des weiteren existieren lernende Klassifikatoren, welche einige ihrer Parameter als Antwort auf eine Vorgabe von Ein-/Ausgabepaaren zusammen mit einem Lernsignal anpassen. Ein derartiger lernender Klassifikator wird hier verwendet. Er basiert auf der Beobachtung, dass die Pfadbewertungsberechnung im logarithmischen Bereich mit einer gewichteten Summe korrespondiert, welche vielen Klassifikatoren gemein ist (als Teil einer sogenannten Neuron-Funktion). Neben der Darstellung der Pfadbewertungsformel als Klassifikator (4) muss auf die Darstellung der Daten geachtet werden und wie ein dynamischer Schwellwert angewendet wird.
  • Die folgenden Bedingungen müssen in Ein-/Ausgabepaare eines Klassifikators übersetzt werden. Der Satz mit der besten Pfadbewertung entspricht der Ausgabe des Spracherkennungssystems. Wenn der erkannte Satz nicht der Referenzsatz ist und ein Fehler auftrat, werden die Wahrscheinlichkeiten des Sprachmodells 2, die in den Fehler verwickelt waren, nach einer Lernregel geändert. Wenn kein Fehler vorlag, wird auch das Sprachmodell nicht verändert. Diese Prozedur wird für jeden übergeordneten Graphen (Jumbo-Graphen) durchgeführt. Anschließend erfolgt eine iterative Bearbeitung. Mit anderen Worten wird der Vorgang mehrfach an den übergeordneten Graphen durchgeführt. Mit einer geeigneten Wahl der Lernregel des Klassifikators verringert sich die Fehlerzahl immer weiter, so lange das Verfahren angewendet wird.
  • Die Korrekturen werden entsprechend einer sogenannten Kreuzentropie-Lernregel (Cross Entropy) durchgeführt. Das Verhalten dieser Lernregel ist wünschenswert, da erwiesen ist, dass sie die Fehleranzahl minimiert, anstatt den quadratischen Fehler wie die Gradienten-Lernregel (Gradient Descent) zu minimieren, denn hier kommt es wesentlich auf die Fehlerhäufigkeit an.
  • Die Übergabe der Daten an ein neuronales Netz 9 als Klassifikator ist in 4 dargestellt. Für jedes Tri-Gramm des Sprachmodells 2 ist ein Eingang vorgesehen. Der Eingabewert gibt die Anzahl der Tri-Gramme in diesem Pfad wieder. Die Übergabe eines Pfades auf diese Weise wird als Lernmuster bezeichnet. Diese Lernmuster werden der Auswertung des Pfades entsprechend in zwei Zielwerte eingeteilt: korrekt ("1") und nicht korrekt ("0"). Der Ausgabewert des Lernmusters mit dem Zielwert "1" sollte größer als Null sein. Der Ausgabewert der Lernmuster mit dem Zielwert "0" sollte kleiner als Null sein. Die von demselben übergeordneten Graphen stammenden Daten sollten zusammen als eine Gruppe behandelt werden. Der Grund dafür ist, dass der Vergleich der Pfadbewertungen in eine dy namische Schwellwertfunktion des neuronalen Netzwerkklassifikatora 9 übersetzt werden muss. Die Lösung besteht darin, einen dynamischen Schwellwert derart einzustellen, dass er die Entscheidung, welches die höchste Pfadbewertung ist, imitiert. Der dynamische Schwellwert wird bei jedem Durchgang berechnet und ist für jede Gruppe (d.h. für jeden übergeordneten Graphen) verschieden. Das Ziel ist, dass das nur das Anlegen des besten Pfades dazuführt, dass der Schwellwert der Aktivierungsfunktion überschritten wird. Demzufolge ist die Aktivierungsfunktion nur bei dem besten Pfad aktiv. Das Einstellen des dynamischen Schwellwerts erfordert die vorherige Eingabe aller Lernmuster einer Gruppe. Somit läuft die Übergabe wie folgt ab. Zuerst erfolgt die Übergabe aller Lernmuster, um den dynamischen Schwellwert zu bestimmen. Anschließend wird der berechnete Wert von allen Pfadbewertungen subtrahiert und die neuen Werte abgespeichert. Diese neuen Werte können sowohl über als auch unter dem Schwellwert liegen. Diese Ausgabe wird mit den Zielwerten verglichen, die anzeigen, ob ein Pfad korrekt ist oder nicht. Das Lernen wird bei denjenigen Lernmustern durchgeführt, deren Ausgabe nicht identisch mit dem Zielwert ist. Die Lernregel modifiziert die Gewichte, die später wieder zurück in das Sprachmodell übersetzt werden. Zur Berechnung der dynamischen Schwelle ist ein erster Weg, einen Mittelwert zwischen dem besten Pfad und dem zweitbesten Pfad zu bilden. Jedoch sollte die Möglichkeit in Betracht gezogen werden, dass es mehr als einen korrekten Pfad gibt. Deshalb wird der dynamische Schwellwert als Mittelwert zwischen der besten Pfadbewertung aller korrekten Sätze und der besten Pfadbewertung aller fehlerhaften Sätze berechnet. Diese Berechnung ist in 5 dargestellt.
  • Es ist ebenfalls vorteilhaft zwei Schranken zu definieren, damit der Fehler mit einer höheren Zuverlässigkeit beseitigt werden kann. Der Zweck der Schranken besteht darin, die fehlerhaften Sätze zu zwingen, nicht nur über dem Schwellwert, sondern auch über dem Schwellwert und einer vorgegebenen Schranke zu liegen. Dasselbe geschieht mit dem korrekten Satz. Er muss ebenfalls über einer bestimmten Schranke liegen. Diese Schranken werden empirisch festgelegt. In der Praxis werden sie auf –0,1 und +0,1 gesetzt, da sich die Ausgabe innerhalb [–1,1] bewegt. Wie auf 5 ersichtlich, muss der unschraffierte Kreis (korrekter Satz) über der hohen Schranke und die schraffierten Kreise (fehlerhafte Sätze) unter der niedrigen Schranke liegen. Dadurch wird ein Vertrauensintervall definiert. Falls sich die Kreise innerhalb des Intervalls befinden, ist nicht sicher, ob der Fehler korrigiert wird.

Claims (10)

  1. Verfahren (1) zur Adaption und/oder Erzeugung statistischer Sprachmodelle (2) für automatische Spracherkennungssysteme, wobei aktuelle vorhandene Spracherkennungsergebnisse (8) und bestimmte akustische Verhältnisse berücksichtigt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet dass: – Pfadbewertungen in einem Worthypothesengraphen des Sprachmodells (2), insbesondere durch eine Bildung von Distanzwerten, zwischen wenigstens zwei Pfaden des Worthypothesengraphen verglichen werden, wobei – wenigstens ein bester Pfad in dem Wordhypothesengraphen bezüglich des Spracherkennungsprozesses identifiziert wird, wobei – wenigstens ein korrekter Pfad oder ein als korrekter Pfad geltender Pfad mit einer minimalen Wortfehleranzahl in dem Wordhypothesengraphen markiert wird, wobei – der Vergleich der Distanzwerte bei den besten und bei den korrekten Pfaden derart durchgeführt wird, dass eine Anpassung des Sprachmodells (2) erzielbar ist, welche zu einer geringeren Anzahl an Wortfehlern in dem besten Pfad führt, wenn dieselbe Spracheingabe erneut während des Spracherkennungsprozesses eingegeben wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das Sprachmodell als N-Gramm-Sprachmodell (2) ausge bildet ist, wobei für jedes N-Gramm eine separate und veränderbare Wahrscheinlichkeit gespeichert wird.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Wahrscheinlichkeiten derjenigen N-Gramme erhöht werden, welche nur im korrekten Pfad und nicht im besten Pfad auftreten und dass die Wahrscheinlichkeiten derjenigen N-Gramme verringert werden, welche nur im besten Pfad und nicht im korrekten Pfad auftreten.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass ein Seiteneffekt bezüglich Wortfehlern in anderen Pfaden ermittelt wird, wenn die Wahrscheinlichkeiten verändert werden.
  6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Distanzwerte durch Berechnung der Absolutwerte der Differenz zwischen logarithmischen Pfadbewertungen bestimmt werden.
  7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass nach der Veränderung von Wahrscheinlichkeiten eine, insbesondere iterative, Neuberechnung der Pfadbewertungen und der Distanzwerte durchgeführt wird.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass bei der Berechnung ein Klassifikator verwendet wird, welcher bezüglich einer Gruppe von Pfaden des Wortgraphen aufgrund eines Schwellwerts entscheidet, ob Wahrscheinlichkeiten geändert werden müssen.
  9. verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Entscheidungen des Klassifikators Lernregeln für ein neuronales Netz (9) bilden.
  10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass als Klassifikator ein neuronales Netz (9) verwendet wird, wobei die Gewichtsparameter des neuronalen Netzes (9) in Wahrscheinlichkeitswerte für das Sprachmodell (2) umwandelbar sind.
DE200410048348 2004-10-01 2004-10-01 Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle Expired - Fee Related DE102004048348B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE200410048348 DE102004048348B4 (de) 2004-10-01 2004-10-01 Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
PCT/EP2005/009973 WO2006037446A1 (de) 2004-10-01 2005-09-16 Verfahren zur adaption und/oder erzeugung statistischer sprachmodelle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410048348 DE102004048348B4 (de) 2004-10-01 2004-10-01 Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle

Publications (2)

Publication Number Publication Date
DE102004048348A1 true DE102004048348A1 (de) 2006-04-13
DE102004048348B4 DE102004048348B4 (de) 2006-07-13

Family

ID=35717648

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200410048348 Expired - Fee Related DE102004048348B4 (de) 2004-10-01 2004-10-01 Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle

Country Status (2)

Country Link
DE (1) DE102004048348B4 (de)
WO (1) WO2006037446A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10923117B2 (en) * 2019-02-19 2021-02-16 Tencent America LLC Best path change rate for unsupervised language model weight selection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4317372C2 (de) * 1992-05-26 1997-03-20 Ricoh Kk Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
WO1999014740A1 (de) * 1997-09-17 1999-03-25 Siemens Aktiengesellschaft Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung
DE69324428T2 (de) * 1992-09-29 1999-11-25 International Business Machines Corp., Armonk Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
DE69714880T2 (de) * 1996-02-09 2003-04-10 Canon Kk Mustervergleichsverfahren und Vorrichtung dafür

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19708184A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4317372C2 (de) * 1992-05-26 1997-03-20 Ricoh Kk Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
DE69324428T2 (de) * 1992-09-29 1999-11-25 International Business Machines Corp., Armonk Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE69714880T2 (de) * 1996-02-09 2003-04-10 Canon Kk Mustervergleichsverfahren und Vorrichtung dafür
WO1999014740A1 (de) * 1997-09-17 1999-03-25 Siemens Aktiengesellschaft Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及系统

Also Published As

Publication number Publication date
WO2006037446A1 (de) 2006-04-13
DE102004048348B4 (de) 2006-07-13

Similar Documents

Publication Publication Date Title
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
EP0299572B1 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP0702353B1 (de) System und Verfahren zum Ausgeben von Sprachinformation in Reaktion auf eingegebene Sprachsignale
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
DE4130631A1 (de) Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
EP1812930B1 (de) Verfahren zur spracherkennung aus einem aufgeteilten vokabular
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
WO1996022593A1 (de) Verfahren zur spracherkennung
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1231596A1 (de) Trainingsmethode von den freien Parameten eines Maximum-Entropie-Sprachmodells
DE102004048348B4 (de) Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
EP1039447B1 (de) Bestimmung einer Regressionsklassen-Baumstruktur für einen Spracherkenner
EP1038293B1 (de) Vefahren zur spracherkennung unter verwendung von einer grammatik
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
DE102006006305A1 (de) Verfahren zur Aufbereitung von Informationen für ein Sprachdialogsystem
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10131157C1 (de) Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme
DE102020107619B4 (de) Verfahren, Vorrichtung sowie Computerprogramm zur Spracherkennung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE

8327 Change in the person/name/address of the patent owner

Owner name: DAIMLER AG, 70327 STUTTGART, DE

8339 Ceased/non-payment of the annual fee