DE10042943A1 - Zuordnen von Phonemen zu den sie erzeugenden Graphemen - Google Patents

Zuordnen von Phonemen zu den sie erzeugenden Graphemen

Info

Publication number
DE10042943A1
DE10042943A1 DE10042943A DE10042943A DE10042943A1 DE 10042943 A1 DE10042943 A1 DE 10042943A1 DE 10042943 A DE10042943 A DE 10042943A DE 10042943 A DE10042943 A DE 10042943A DE 10042943 A1 DE10042943 A1 DE 10042943A1
Authority
DE
Germany
Prior art keywords
phoneme
grapheme
graphemes
matrix
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10042943A
Other languages
English (en)
Other versions
DE10042943C2 (de
Inventor
Horst-Udo Hain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corp
Original Assignee
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corp filed Critical Siemens Corp
Priority to DE10042943A priority Critical patent/DE10042943C2/de
Priority to DE50106180T priority patent/DE50106180D1/de
Priority to EP01120155A priority patent/EP1187095B1/de
Priority to US09/943,091 priority patent/US7171362B2/en
Publication of DE10042943A1 publication Critical patent/DE10042943A1/de
Application granted granted Critical
Publication of DE10042943C2 publication Critical patent/DE10042943C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Das Zuordnen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen) für die Vorbereitung von Mustern für das Training von Neuronalen Netzen zur Graphem-Phonem-Konvertierung wird mit einer Variante der dynamischen Programmierung durchgeführt, die auch als dynamic time warping (DTW, dynamische Zeitanpassung) bekannt ist.

Description

Die Erfindung betrifft ein Verfahren, ein Computerprogramm­ produkt, einen Datenträger und ein Computersystem zum Zuord­ nen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen).
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135, US 5 732 388, DE 196 36 739 C1 und DE 197 19 381 C1 bekannt. Für automatisches Vorlesen oder die Erweiterung des Wortschatzes von Diktiersystemen bzw. von automatischen Spracherkennungssystemen werden Routinen zur Graphem-Phonem- Konvertierung benötigt, d. h. zur Umwandlung geschriebener Wörter in gesprochene Laute. Dazu werden häufig Neuronale Netze eingesetzt.
Das Training dieser Neuronalen Netze erfolgt mit Hilfe von Mustern. Ein Muster besteht aus einer Anzahl von Buchstaben aus einem Wort, mit denen die Eingangsknoten des Neuronalen Netzes beaufschlagt werden, und dem zugehörigen Phonem, ent­ sprechend dem Ausgangsknoten. Häufig wird jedem Phonem auch noch ein sog. Gruppierungswert zugeordnet. Der Gruppierungs­ wert gibt die Anzahl der Grapheme an, die das zugehörige Pho­ nem erzeugen.
Die Muster werden aus sogenannten Trainingslexika gewonnen. Ein Trainingslexikon enthält Zuordnungen von Graphemen, in der Regel Wörter, Ziffern etc., also all dem, was konvertiert werden soll, zu Phonemen und Phonemfolgen, also Graphem- Phonem-Transkriptionen auf der Ebene von Wörtern. Die Phonemfolgen werden im Trainingslexikon durch eine geeignete Art von Lautschrift wiedergegeben. Im Bereich der automatischen Spracherkennung werden häufig die Lautschriften SAMPA oder Spicos-Inventar verwendet, die auf ASCII-Zeichen beruhen. Beispielhaft seien einige deutsche Wörter aufgeführt mit der zugehörigen Lautschrift in SAMPA:
Quatsch kv'atS
spät SpE:t
Schutz SUts
schwer Sve:6
Sprache Spra:x
Der Laut "sch" wird z. B. durch [S] dargestellt, Dehnungen durch einen Doppelpunkt. Dabei werden Phoneme in eckigen Klammern [] dargestellt, Grapheme im spitzen Klammern <<. Sämtliche Lautschrift-Beispiele der Beschreibung werden in SAMPA wiedergegeben.
Diese Trainingslexika enthalten zwar die Lautschrift, jedoch nicht die eindeutige Zuordnung von Phonemen und die sie er­ zeugenden Grapheme, wie sie für die Muster notwendig sind. Zum Beispiel für das Wort <Sprache< wäre die folgende Zuord­ nung wünschenswert:
aus der sich leicht die Muster für das Training des Neurona­ len Netzes ableiten lassen. Bei einem Eingangsfenster mit 7 Buchstaben ergeben sich aus der eindeutigen Zuordnung unmit­ telbar die folgenden 6 Muster:
Der Graphemfolge aus 3 Leerzeichen, <S<, <p<, <r< und <a<, wobei <S< sich zentral im Eingangsfenster befindet, wird der Laut [S] mit dem Gruppierungswert 1 zugeordnet. Entsprechend erhält man als weitere Muster:
Dem Ach-Laut oder stimmlosen velaren Frikativ "ch" ist gemäß den Segmentierungsregeln ein Gruppierungswert von 2 zugeord­ net, da ihm die beiden Buchstaben <c< und <h< zugeordnet sind. Daher kann im folgenden Muster das Buchstabenfenster um 2 Buchstaben verschoben werden:
Die Zuordnung von Buchstaben zu Phonemen ergibt sich aus der Lautschrift des Lexikons jedoch nicht eindeutig. Das Wort <Sprache< besteht aus 7 Buchstaben, aber nur aus 6 Phonemen. Es stellt sich die Frage, welches der Phoneme durch 2 Buchstaben erzeugt wird. Da auch 2 Phoneme durch einen Buchstaben erzeugt werden können, z. B. [ks] durch <x<, ist die Unsicher­ heit in der Graphem-Phonem-Zuordnung für die Muster ein all­ gemeines Problem.
Bisher wurde die Graphem-Phonem-Zuordnung halbautomatisch durchgeführt, ausgehend von für einen Muttersprachler eviden­ ten Erfahrungsregeln, was jedoch insbesondere beim mehrspra­ chigen Systemen fehleranfällig ist und einen erheblichen Auf­ wand darstellt.
Aufgabe der Erfindung ist es, die Zuordnung von Phonemen zu den sie erzeugenden Graphemen für Muster für das Training ei­ nes Neuronalen Netzes für die Graphem-Phonem-Konvertierung automatisch zu erzeugen.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren, ein Computerprogrammprodukt, einen Datenträger und ein Computer­ system gemäß den unabhängigen Ansprüchen gelöst.
Unter einem Computerprogrammprodukt wird dabei das Computer­ programm als handelbares Produkt verstanden, in welcher Form auch immer, z. B. auf Papier, auf einem computerlesbaren Da­ tenträger, über ein Netz verteilt etc.
Erfindungsgemäß wird das Zuordnen von Phonemen zu den sie er­ zeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfol­ gen) und deren zugehöriger Lautschrift (Phonemfolgen) mit Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW, Dynamic Time Warping) durchgeführt.
DTW-Algorithmen sind eine Variante der dynamische Programmie­ rung. Sie sind z. B. beschrieben in:
  • 1. Hoffmann, R.: "Signalanalyse und -erkennung." Springer Verlag, Berlin, Heidelberg, 1998, S. 390-393.
  • 2. Rabiner, L. R.; Juang, B.-H.: "Fundamentals of speech re­ cognition." Englewood Cliffs: Prentice Hall 1993 (Prentice Hall Signal Processing Series).
  • 3. Besling, S.: "Heuristical and Statistical methods of Gra­ pheme-to-Phoneme Conversion"; Proceedings KONVENS 94, Wien, S. 23-31.
Vorzugsweise werden in einem ersten Schritt Wörter ausge­ wählt, bei denen die Anzahl der Grapheme und die Anzahl der Phoneme übereinstimmen. Bei diesen Wörtern werden die Graphe­ me und Phoneme in der Reihenfolge der Angabe ihrer Grapheme und Phoneme im Lexikon einander zugeordnet. Aus diesen Zuord­ nungen wird die relative Häufigkeit ermittelt, mit der ein Phonem durch ein Graphem erzeugt wird. Alternativ kann auch die relative Häufigkeit bestimmt werden, mit der ein Graphem einem Phonem zugeordnet wird.
In einem zweiten Schritt wird für jedes Wort des Lexikons ei­ ne zweidimensionale Matrix erstellt, die sog. Inzidenzmatrix, deren einer Index durch die Grapheme des Worts und deren zweiter Index durch die Phoneme des Worts gegeben ist. Als Einträge der Matrix werden die zu dem jeweiligen Phonem- Graphem-Paar gehörenden, im ersten Schritt bestimmten, rela­ tiven Häufigkeiten gewählt.
In einem dritten Schritt wird jeder Matrixeintrag durch eine mathematische Operation, insbesondere eine Multiplikation, mit dem Extremalwert, der vorzugsweise der Maximalwert ist, der folgenden drei vorhergehenden Matrixeinträge verknüpft: dem Eintrag für dasselbe Phonem und das vorhergehende Graphem im Wort, dem Eintrag für das vorhergehende Phonem und dasselbe Graphem im Wort und dem Eintrag für das vorhergehende Pho­ nem und das vorhergehende Graphem im Wort. Statt der Multi­ plikation sind auch andere Rechenoperationen denkbar, etwa eine Addition der Kehrwerte der Matrixeinträge oder andere, in der dynamischen Programmierung bewährte Operationen.
Bei der Multiplikation wird mit dem ersten Graphem und dem ersten Phonem des Worts begonnen, wobei bei der Bestimmung der Maximalwerte die sich jeweils aus den Multiplikationen ergebenen geänderten Einträge der Matrix herangezogen werden. Durch das Bestimmen, welcher der drei vorhergehenden Matrix­ einträge eines Matrixeintrags maximal war, wird eine Schritt­ richtung für diesen Matrixeintrag ermittelt.
In einem vierten Schritt wird ausgehend vom Matrixeintrag für das letzte Phonem und das letzte Graphem jeweils die für den Matrixeintrag ermittelte Schrittrichtung entlang ein Weg durch die Matrix definiert bis zum Matrixeintrag für das ers­ te Phonem und das erste Graphem. Die zu dem Weg gehörenden Matrixelemente definieren die Zuordnung von Graphemen zu Pho­ nemen des Worts.
Das Lexikon ist danach konsistent aufbereitet. Das erfin­ dungsgemäße Verfahren kann für das Erzeugen von Mustern zum Training von Neuronalen Netzen angepasst werden.
Nach Ausführen der Zuordnung von Graphemen zu Phonemen für jedes Wort des Lexikons, wird aus diesen Zuordnungen die po­ sitionsabhängige relative Häufigkeit ermittelt, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird oder zwei oder mehr Phoneme durch ein Graphem erzeugt werden oder zwei oder mehr Grapheme einem Phonem zugeordnet werden oder ein Graphem zwei oder mehr Phonemen zugeordnet wird. Dies ermöglicht es, in einem weiteren Schritt Korrekturen an den Zuord­ nungen vorzunehmen.
Diese korrigierten Zuordnungen können zum iterativen Verbes­ sern der relativen Häufigkeiten und damit der Zuordnungen eingesetzt werden. Dazu werden nach dem Korrigieren der Zu­ ordnungen für jedes Wort des Lexikons aus diesen korrigierten Zuordnungen erneut die positionsabhängigen relativen Häufig­ keiten ermittelt. Diese werden bei weiteren Zuordnungen ver­ wendet.
Beim Bestimmen der relativen Häufigkeiten ist es vorteilhaft, nur solche Zuordnungen zu berücksichtigen, bei denen der Mat­ rixeintrag für das letzte Phonem und das letzte Graphem nach Ausführen der Multiplikationen einen vorgegebenen Schwellwert überschreitet. Auf diese Weise werden lange Wörter ausgefil­ tert, bei denen die Zuordnung unsicher ist, ebenso wie sehr seltene und damit unsichere Zuordnungen.
Vorteilhafterweise wird für die Matrixeinträge eindeutiges Vorwissen genutzt, um stabile Fixpunkte zu schaffen. So wird z. B. der Matrixeintrag für das erste Phonem und das erste Graphem jedes Worts auf 1 gesetzt, ebenso wie der Matrixein­ trag für das letzte Phonem und das letzte Graphem jedes Worts. Diese beiden Einträge bilden den Startpunkt bzw. End­ punkt des zu bestimmenden Weges und müssen auf jeden Fall durchlaufen werden. Andererseits werden der Matrixeintrag für das erste Phonem und das letzte Graphem jedes Worts sowie der Matrixeintrag für das letzte Phonem und das erste Graphem je­ des Worts auf 0 gesetzt, denn diese Zuordnungen sind grund­ sätzlich ausgeschlossen.
Bei der Bestimmung des Maximums im Zusammenhang mit der Mul­ tiplikation wird die Diagonale als der wahrscheinlichste Weg bevorzugt. D. h., dass, falls bei der Bestimmung des Maximal­ werts der drei vorhergehenden Matrixeinträge der Matrixein­ trag für das vorhergehende Phonem und das vorhergehende Gra­ phem im Wort und einer der anderen beiden Einträge gleich groß sind, der Matrixeintrag für das vorhergehende Phonem und das vorhergehende Graphem im Wort als maximal betrachtet wird.
Weitere vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.
Im folgenden wird die Erfindung anhand von Ausführungsbei­ spielen näher erläutert, die in den Figuren schematisch dar­ gestellt sind. Im einzelnen zeigt:
Fig. 1 ein zum Zuordnen von Phonemen zu den sie erzeugen­ den Graphemen in einem Lexikon geeignetes Compu­ tersystem;
Fig. 2 eine Matrix mit einer 1-zu-1 Zuordnung von Graphe­ men und Phonemen für das Wort <haben<;
Fig. 3 eine Matrix der Zuordnung von Graphemen und Phone­ men für das Wort <textlich<;
Fig. 4 die Matrix der Übergangshäufigkeiten für die Zu­ ordnung von Graphemen und Phonemen für das Wort <können<;
Fig. 5 die Matrix gemäß Fig. 4 nach Ausführen von Multi­ plikationen; und
Fig. 6A eine Matrix gemäß Fig. 5 für das Wort <yield<; und
Fig. 6B die Matrix gemäß Fig. 6A nach einer Korrektur der Zuordnung von Graphemen und Phonemen.
Fig. 1 zeigt ein zum Zuordnen von Phonemen zu den sie erzeu­ genden Graphemen geeignetes Computersystem. Dieses weist ei­ nen Prozessor (processor, CPU) 20, einen Arbeitsspeicher (RAM) 21, einen Programmspeicher (programm memory, ROM) 22, einen Festplatten-Controller (hard disc controller, HDC) 23, der eine Festplatte (hard disk) 30 steuert, und einen Schnittstellen-Controller (I/O controller) 24 auf. Prozessor 20, Arbeitsspeicher 21, Programmspeicher 22, Festplatten- Controller 23 und Schnittstellen-Controller 24 sind über ei­ nen Bus, den CPU-Bus 25, zum Austausch von Daten und Befehlen miteinander gekoppelt. Ferner weist der Computer einen Ein- /Ausgabe-Bus (I/O Bus) 26 auf, der verschiedene Ein- und Aus­ gabeeinrichtungen mit dem Schnittstellen-Controller 24 kop­ pelt. Zu den Ein- und Ausgabeeinrichtungen zählen z. B. eine allgemeine Ein- und Ausgabe-Schnittstelle (I/O interface) 27, eine Anzeigeeinrichtung (display) 28, eine Tastatur (key­ board) 29 und eine Maus 31.
Im Folgenden wird beschrieben, wie die Zuordnung von Phonemen zu sie erzeugenden Graphemen für ein Wort durchgeführt wird.
In der folgenden Beschreibung werden verschiedene relative Häufigkeiten zur Berechnung der besten Zuordnung verwendet, die im Folgenden in der Regel kurz mit Häufigkeiten bezeich­ net werden. Die Häufigkeit, mit der das Graphem g dem Phonem p zugeordnet wird, auch Übergangshäufigkeit genannt, berech­ net sich aus
Dabei ist Z(g → p) die Anzahl der Zuordnungen des Graphems g, im Folgenden durch <g< bezeichnet, zu dem Phonem p, im Folgenden durch [p] bezeichnet, und N(p) die Anzahl aller Zuord­ nungen sämtlicher Grapheme zu diesem Phonem [p].
Es werden noch weitere Häufigkeiten benötigt, da zur endgül­ tigen Entscheidung über die Zuordnungen die relative Häufig­ keit der direkten Zuordnung eines Graphems zu einem Phonem nicht ausreicht. Daher werden noch positionsabhängige Häufig­ keiten in Graphemgruppen <G< sowie die Vorgänger- und Nach­ folgerhäufigkeiten bestimmt, die die Abhängigkeiten der Zu­ ordnung zu Phonemen von den vorhergehenden und nachfolgenden Graphemen widerspiegeln.
Unter einer positionsabhängigen Häufigkeit Hpos versteht man die Häufigkeit, mit der das Graphem an einer bestimmten Posi­ tion innerhalb einer Graphemgruppe <G< einem Phonem zugeord­ net wird. So findet sich z. B. bei der Zuordnung der Graphem­ gruppe <ch< zum Phonem [C] das Graphem <c< an erster und das Graphem <h< an zweiter Position. Dabei ist [C] der stimmlose palatale Frikativ oder Ich-Laut, wie in <Sicht<.
Die Häufigkeit Hpos berechnet sich aus
Zur Initialisierung der Übergangshäufigkeiten werden die Ein­ träge in einem Lexikon mit Wörtern und deren Lautschrift ver­ wendet, bei denen die Anzahl der Grapheme mit der Anzahl der Phoneme übereinstimmt. Es wird angenommen, dass jedes Graphem dem entsprechenden Phonem zugeordnet ist. Dies ist in Fig. 2 durch die diagonal verlaufende Linie dargestellt.
Diese direkte Zuordnung ist nicht immer korrekt, wie etwa das Beispiel <textlich< aus Fig. 3 zeigt, in der die Linie für die Zuordnungen nicht einfach diagonal verläuft. Die Anzahl der Grapheme im Wort <textlich< stimmt mit der Anzahl der Phoneme überein. Es sind jeweils 8. Jedoch wird der Buchstabe <x< auf zwei Phoneme [ks] abgebildet und die Buchstabengruppe <ch< auf nur ein Phonem [C]. Da derartige Ausnahmen jedoch relativ selten auftreten, werden sie bei der Anwendung der relativen Häufigkeiten entsprechend gering gewichtet. Außer­ dem werden alle Häufigkeiten, die einen bestimmten Schwell­ wert unterschreiten, in einem späteren Korrekturschritt ent­ fernt.
Die Zuordnungen werden gezählt, und aus ihnen werden die re­ lativen Häufigkeiten bzw. Übergangshäufigkeiten bestimmt.
Mit den im vorhergehenden Schritt gewonnenen relativen Häu­ figkeiten oder Übergangshäufigkeiten wird für jedes Wort im Lexikon eine Matrix mit Übergangshäufigkeiten aufgestellt, wie sie in Fig. 4 für das Wort <können< gezeigt ist.
Dabei werden vier Einträge fest vorgegeben. Die Einträge links unten und rechts oben müssen immer durchlaufen werden, da sie Start- bzw. Endpunkt sind. Sie werden deswegen auf 1 gesetzt. Dagegen können die Felder links oben und rechts un­ ten niemals durchlaufen werden. Sie werden daher auf 0 ge­ setzt. Alle anderen Felder enthalten die entsprechenden Über­ gangshäufigkeiten H(g → p).
Bei dieser initialen Zuordnung wurde <n< dem Phonem [9] (ge­ rundeter halboffener vorderer Vokal "ö") zugeordnet. Daher steht in den entsprechenden Feldern keine 0, sondern 0.013. Man sieht aber, dass diese Häufigkeit viel kleiner ist als die übrigen Häufigkeiten. Sie fällt demnach kaum ins Gewicht.
Für die Berechnung des Wegs werden nun die einzelnen Matrix­ einträge jeweils mit dem Maximum der Nachbareinträge multip­ liziert. Da nur die Bewegungen nach oben, nach rechts oder nach oben rechts erlaubt sind, werden nur die Werte links, unten und links unten vom jeweiligen Matrixeintrag aus für die Bestimmung des Maximums betrachtet.
Falls bei der Bestimmung des Maximalwerts der Matrixeintrag links unten (diagonal) vom jeweiligen Matrixeintrag aus und einer der anderen beiden Einträge gleich groß sind, wird der diagonal liegende Matrixeintrag als maximal betrachtet.
Bei der Multiplikation wird mit dem ersten Eintrag unten links begonnen, wobei bei der Bestimmung der Maximalwerte die sich jeweils aus den Multiplikationen ergebenen geänderten Einträge der Matrix herangezogen werden.
Die erste Spalte und die unterste Zeile stellen Sonderfälle dar, da es keinen linken bzw. unteren Nachbarn gibt. Hier wird der aktuelle Eintrag stets mit dem unteren bzw. dem lin­ ken Eintrag multipliziert. Die einzelnen sich ergebenden Pro­ dukte sind in Fig. 5 dargestellt.
Die akkumulierte Häufigkeit am Endpunkt oben rechts ist somit das Produkt der Einträge bzw. Häufigkeiten auf dem optimalen Weg vom Startpunkt zum Endpunkt.
Durch das Bestimmen, welcher der drei vorhergehenden Matrix­ einträge maximal war, wird eine Schrittrichtung von Matrix­ eintrag zu Matrixeintrag ermittelt. Ausgehend vom Matrixein­ trag für das letzte Phonem und das letzte Graphem (oben rechts) wird jeweils entlang der ermittelten Schrittrichtung ein Weg durch die Matrix definiert bis zum Matrixeintrag unten links. Die zu dem Weg gehörenden Matrixelemente definie­ ren die Zuordnung von Graphemen zu Phonemen des Worts.
Anschließend erfolgt eine Nachbehandlung zu weiteren Verbes­ serung der Zuordnung. Die Nachbehandlung dient zum Überprüfen der getroffenen Entscheidungen unter Berücksichtigung des Graphem- und Phonem-Kontextes.
Zunächst wird nach Ausführen der beschriebenen Zuordnung von Graphemen zu Phonemen für jedes Wort des Lexikons aus diesen Zuordnungen die relative Häufigkeit ermittelt, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei oder mehr Phoneme durch ein Graphem erzeugt werden, d. h. die positionsabhängige Häufigkeit Hpos.
Anschließend wird die Zuordnung von Graphemen zu Phonemen in­ nerhalb eines Worts mit Hilfe der positionsabhängigen Häufig­ keiten korrigiert. Dazu betrachte man Fig. 6A, die im Aufbau Fig. 5 entspricht. Das bisher beschriebene Verfahren liefert z. B. für das englische Wort <yield< die Zuordnung
da die Häufigkeit der Zuordnung des Graphems <i< zum Phonem [j] höher ist (hier 0,04) als die Häufigkeit der Zuordnung zum Phonem [i:] (hier 0,03).
Die positionsabhängigen Häufigkeiten zeigen jedoch, daß die Häufigkeit der Zuordnung von <i< zum Phonem [j] klein ist, wenn <i< sich an zweiter Position der Graphemgruppe <yi< be­ findet. Hingegen ist die Häufigkeit der Zuordnung von <i< zum Phonem [i:] groß, wenn <i< sich an erster Position der Gra­ phemgruppe <ie< befindet.
Unterstützt wird diese korrigierte Zuordnung auch durch die Betrachtung der positionsabhängigen Häufigkeit von <e<. Die Häufigkeit der Zuordnung von <e< zum Phonem [i:] ist klein, wenn <e< sich vor <l< befindet. Hingegen ist die Häufigkeit der Zuordnung von <e< zum Phonem [i:] groß, wenn <e< sich an zweiter Position der Graphemgruppe <ie< befindet.
Entsprechend Fig. 6B kann somit die Zuordnung korrigiert wer­ den.
Nach Ausführen der korrigierten Zuordnung für jedes Wort des Lexikons werden aus diesen korrigierten Zuordnungen die Über­ gangshäufigkeiten und die positionsabhängigen Häufigkeiten ermittelt. Diese werden bei weiteren Zuordnungen verwendet.
Zum Bestimmen der relativen Häufigkeiten werden nur solche Zuordnungen berücksichtigt, bei denen der Matrixeintrag für das letzte Phonem und das letzte Graphem (oben rechts) nach Ausführen der geschilderten Multiplikationen einen vorgegebe­ nen Schwellwert überschreitet. Dieser Matrixeintrag ent­ spricht dem Produkt der Übergangshäufigkeiten entlang des besten Wegs. Die Größe dieses Produkts wird somit als Krite­ rium verwendet, ob dieser Weg akzeptiert werden soll oder nicht.
Das Verfahren wird in mehreren Iterationen ausgeführt. Dabei ist der Schwellwert am Anfang hoch und wird nach jeder Itera­ tion verkleinert. Dadurch werden am Anfang nur solche Zuord­ nungen akzeptiert, die relativ sicher richtig sind. Da alle Häufigkeiten kleiner gleich 1 sind, fließt indirekt in das Produkt auch die Länge des Wortes ein. Je mehr Faktoren das Produkt hat, desto kleiner wird es. Somit werden anfangs vor­ wiegend die Zuordnungen von kurzen Wörtern akzeptiert. Bei kurzen Wörtern ist die Wahrscheinlichkeit, eine falsche Zu­ ordnung zu finden, kleiner als bei langen.
Die Zuordnungen, bei denen das Produkt der Übergangshäufig­ keiten den Schwellwert überschritten hat, werden zur Gewin­ nung der neuen Statistik herangezogen. Schon bei der ersten Auswertung der so gewonnenen Statistik sind die meisten Feh­ ler verschwunden, die sich durch die eins zu eins Initiali­ sierung der Häufigkeiten ergaben. Außerdem wird noch über­ prüft, wie häufig jede Graphem-Phonem-Zuordnung auftrat. Wenn das Verhältnis einen Schwellwert unterschreitet, wird diese Zuordnung ignoriert und somit beim nächsten Auffüllen der Matrizen nicht weiter verwendet.
Im Ergebnis erhält man eine Zuordnung der Grapheme zu den Phonemen für das gesamte Lexikon. Ferner erhält man eine Auf­ stellung, welches Phonem bzw. welche Phonemgruppe durch wel­ che Grapheme erzeugt werden kann, z. B. [tS] im Englischen durch <ch<, <cz<, <c<, <tch<, <cc<, <t< und <che<.

Claims (13)

1. Verfahren zum Zuordnen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen), dadurch gekennzeichnet, dass die Zuordnung mit Hilfe eines Algorithmus der dynami­ schen Zeitanpassung (DTW, Dynamic Time Warping) durchgeführt wird.
2. Verfahren zum Zuordnen von Phonemen zu ihnen zuzuordnenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen)
  • a) In einem ersten Schritt wird für jede Zuordnung von Phone­ men und Graphemen eine relative Häufigkeit ermittelt, mit der Phoneme und Grapheme einander zugeordnet werden,
  • b) in einem zweiten Schritt wird für jedes Wort des Lexikons eine zweidimensionale Matrix (Inzidenzmatrix) erstellt, deren einer Index durch die Grapheme des Worts und deren zweiter Index durch die Phoneme des Worts gegeben ist,
  • c) als Einträge der Matrix werden die zu dem jeweiligen Pho­ nem-Graphem-Paar gehörenden, im ersten Schritt bestimmten, relativen Häufigkeiten gewählt,
  • d) in einem dritten Schritt wird jeder Matrixeintrag mit ei­ ner mathematischen Operation mit dem Extremalwert der fol­ genden drei vorhergehenden Matrixeinträge verknüpft:
  • - dem Eintrag für dasselbe Phonem und das vorhergehende Graphem im Wort,
  • - dem Eintrag für das vorhergehende Phonem und dasselbe Graphem im Wort und
  • - dem Eintrag für das vorhergehende Phonem und das vor­ hergehende Graphem im Wort,
  • a) bei der mathematischen Operation wird mit dem ersten Gra­ phem und dem ersten Phonem des Worts begonnen, wobei bei der Bestimmung der Extremalwerte die sich jeweils aus den mathematischen Operationen ergebenden geänderten Einträge der Matrix herangezogen werden,
  • b) durch das Bestimmen, welcher der drei vorhergehenden Mat­ rixeinträge eines Matrixeintrags extremal war, wird eine Schrittrichtung für diesen Matrixeintrag ermittelt,
  • c) in einem vierten Schritt wird ausgehend vom Matrixeintrag für das letzte Phonem und das letzte Graphem jeweils die für den Matrixeintrag ermittelte Schrittrichtung entlang ein Weg durch die Matrix definiert bis zum Matrixeintrag für das erste Phonem und das erste Graphem,
  • d) die zu dem Weg gehörenden Matrixelemente definieren die Zuordnung von Graphemen zu Phonemen des Worts.
3. Verfahren nach mindestens einem der vorhergehenden Ansprü­ che, dadurch gekennzeichnet, dass die relativen Häufigkeiten im ersten Schritt dadurch er­ mittelt werden, dass Wörter aus dem Lexikon gewählt werden, bei denen die Anzahl der Grapheme und die Anzahl der Phoneme übereinstimmen, und dass bei diesen Wörtern die Grapheme und Phoneme in der Reihenfolge der Angabe ihrer Grapheme und Pho­ neme im Lexikon einander zugeordnet werden.
4. Verfahren nach mindestens einem der vorhergehenden Ansprü­ che, dadurch gekennzeichnet, dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen gemäß dem Verfahren nach Anspruch 1 für jedes Wort des Lexi­ kons, aus diesen Zuordnungen die positionsabhängige relative Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird oder zwei oder mehr Phoneme durch ein Graphem erzeugt werden oder zwei oder mehr Grapheme einem Phonem zugeordnet werden oder ein Graphem zwei oder mehr Pho­ nemen zugeordnet wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Zuordnung von Graphemen zu Phonemen innerhalb eines Worts gemäß Anspruch 1 mit Hilfe der positionsabhängigen re­ lativen Häufigkeiten korrigiert werden.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet,
dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen gemäß dem Verfahren nach Anspruch 3 für jedes Wort des Lexi­ kons, aus diesen korrigierten Zuordnungen die positionsabhän­ gige relative Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei oder mehr Phoneme durch ein Graphem erzeugt werden; und
dass in Anspruch 3 anschließend die neu berechneten relativen Häufigkeiten verwendet werden.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass zum Bestimmen der relativen Häufigkeiten nur solche Zu­ ordnungen berücksichtigt werden, bei denen der Matrixeintrag für das letzte Phonem und das letzte Graphem nach Ausführen der Multiplikationen einen vorgegebenen Schwellwert über­ schreitet.
8. Verfahren nach mindestens einem der vorhergehenden Ansprü­ che, dadurch gekennzeichnet,
dass der Matrixeintrag für das erste Phonem und das erste Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das letzte Phonem und das letzte Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das erste Phonem und das letzte Graphem jedes Worts auf 0 gesetzt wird; und
dass der Matrixeintrag für das letzte Phonem und das erste Graphem jedes Worts auf 0 gesetzt wird.
9. Verfahren nach mindestens einem der vorhergehenden Ansprü­ che, dadurch gekennzeichnet, dass, falls bei der Bestimmung des Maximalwerts der drei vor­ hergehenden Matrixeinträge der Matrixeintrag für das vorher­ gehende Phonem und das vorhergehende Graphem im Wort und ei­ ner der anderen beiden Einträge gleich groß sind, der Matrix­ eintrag für das vorhergehende Phonem und das vorhergehende Graphem im Wort als maximal betrachtet wird.
10. Computerprogrammprodukt, das durch einen Computer aus­ führbar ist und dabei die Schritte nach einem der Ansprüche 1 bis 9 ausführt.
11. Computerprogrammprodukt, das auf einem computergeeigneten Medium gespeichert ist und computerlesbare Programmmittel um­ fasst, die es einem Computer ermöglichen, das Verfahren nach einem der Ansprüche 1 bis 9 auszuführen.
12. Datenträger, auf dem ein Computerprogramm gespeichert ist, das es einem Computer ermöglicht, durch einen Ladepro­ zess das Verfahren nach einem der Ansprüche 1 bis 9 auszufüh­ ren.
13. Computersystem zum Zuordnen von Phonemen zu den sie er­ zeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfol­ gen) und deren zugehöriger Lautschrift (Phonemfolgen)
mit einer Speichereinrichtung (22, 30) zum Speichern eines Computerprogramms auf einem Speichermedium;
mit einer Verarbeitungseinheit (20) zum Laden des Computer­ programms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Durchführen der Zuordnung mit Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW, Dynamic Time Warping).
DE10042943A 2000-08-31 2000-08-31 Zuordnen von Phonemen zu den sie erzeugenden Graphemen Expired - Fee Related DE10042943C2 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE10042943A DE10042943C2 (de) 2000-08-31 2000-08-31 Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE50106180T DE50106180D1 (de) 2000-08-31 2001-08-22 Graphem-Phonem-Zuordnung
EP01120155A EP1187095B1 (de) 2000-08-31 2001-08-22 Graphem-Phonem-Zuordnung
US09/943,091 US7171362B2 (en) 2000-08-31 2001-08-31 Assignment of phonemes to the graphemes producing them

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10042943A DE10042943C2 (de) 2000-08-31 2000-08-31 Zuordnen von Phonemen zu den sie erzeugenden Graphemen

Publications (2)

Publication Number Publication Date
DE10042943A1 true DE10042943A1 (de) 2002-03-14
DE10042943C2 DE10042943C2 (de) 2003-03-06

Family

ID=7654522

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10042943A Expired - Fee Related DE10042943C2 (de) 2000-08-31 2000-08-31 Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE50106180T Expired - Lifetime DE50106180D1 (de) 2000-08-31 2001-08-22 Graphem-Phonem-Zuordnung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50106180T Expired - Lifetime DE50106180D1 (de) 2000-08-31 2001-08-22 Graphem-Phonem-Zuordnung

Country Status (3)

Country Link
US (1) US7171362B2 (de)
EP (1) EP1187095B1 (de)
DE (2) DE10042943C2 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
JP2004303148A (ja) * 2003-04-01 2004-10-28 Canon Inc 情報処理装置
EP1618556A1 (de) * 2003-04-30 2006-01-25 Loquendo S.p.A. Verfahren zur graphem-phonem zuordnung und system zur erzeugung eines regelsatzes
FR2864281A1 (fr) * 2003-12-18 2005-06-24 France Telecom Procede de correspondance automatique entre des elements graphiques et elements phonetiques
EP1669886A1 (de) * 2004-12-08 2006-06-14 France Telecom Konstruktion eines Automaten, der Regeln zur Transkription von Graphem/Phonem für einen Phonetisierer kompiliert
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US9728185B2 (en) * 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
US10275704B2 (en) * 2014-06-06 2019-04-30 Google Llc Generating representations of input sequences using neural networks
US10387543B2 (en) * 2015-10-15 2019-08-20 Vkidz, Inc. Phoneme-to-grapheme mapping systems and methods
US10102203B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US10102189B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
US9910836B2 (en) * 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US9947311B2 (en) 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384273A (en) * 1981-03-20 1983-05-17 Bell Telephone Laboratories, Incorporated Time warp signal recognition processor for matching signal patterns
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner
US5732388A (en) * 1995-01-10 1998-03-24 Siemens Aktiengesellschaft Feature extraction method for a speech signal
US6029135A (en) * 1994-11-14 2000-02-22 Siemens Aktiengesellschaft Hypertext navigation system controlled by spoken words
DE69420955T2 (de) * 1993-03-26 2000-07-13 British Telecommunications P.L.C., London Umwandlung von text in signalformen

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384273A (en) * 1981-03-20 1983-05-17 Bell Telephone Laboratories, Incorporated Time warp signal recognition processor for matching signal patterns
DE69420955T2 (de) * 1993-03-26 2000-07-13 British Telecommunications P.L.C., London Umwandlung von text in signalformen
US6029135A (en) * 1994-11-14 2000-02-22 Siemens Aktiengesellschaft Hypertext navigation system controlled by spoken words
US5732388A (en) * 1995-01-10 1998-03-24 Siemens Aktiengesellschaft Feature extraction method for a speech signal
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner

Also Published As

Publication number Publication date
DE10042943C2 (de) 2003-03-06
DE50106180D1 (de) 2005-06-16
EP1187095A2 (de) 2002-03-13
US20020049591A1 (en) 2002-04-25
EP1187095B1 (de) 2005-05-11
US7171362B2 (en) 2007-01-30
EP1187095A3 (de) 2003-03-12

Similar Documents

Publication Publication Date Title
DE10042943C2 (de) Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60010106T2 (de) Verfahren und vorrichtung zum unterscheidenden training von akustischen modellen in einem spracherkennungssystem
DE69829235T2 (de) Registrierung für die Spracherkennung
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE3783154T2 (de) Spracherkennungssystem.
DE69330427T2 (de) Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
AT390685B (de) System zur textverarbeitung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE102008017993A1 (de) Sprachsuchvorrichtung
EP0618566A1 (de) Geräuschreduktion zur Spracherkennung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE4010028A1 (de) Spracherkennungsverfahren
DE102010040553A1 (de) Spracherkennungsverfahren
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
EP1039447B1 (de) Bestimmung einer Regressionsklassen-Baumstruktur für einen Spracherkenner

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8304 Grant after examination procedure
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee