DE10042943A1

DE10042943A1 - Zuordnen von Phonemen zu den sie erzeugenden Graphemen

Info

Publication number: DE10042943A1
Application number: DE10042943A
Authority: DE
Inventors: Horst-Udo Hain
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 2000-08-31
Filing date: 2000-08-31
Publication date: 2002-03-14
Anticipated expiration: 2020-09-01
Also published as: DE10042943C2; DE50106180D1; EP1187095A2; US20020049591A1; EP1187095B1; US7171362B2; EP1187095A3

Abstract

Das Zuordnen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen) für die Vorbereitung von Mustern für das Training von Neuronalen Netzen zur Graphem-Phonem-Konvertierung wird mit einer Variante der dynamischen Programmierung durchgeführt, die auch als dynamic time warping (DTW, dynamische Zeitanpassung) bekannt ist.

Description

Die Erfindung betrifft ein Verfahren, ein Computerprogramm produkt, einen Datenträger und ein Computersystem zum Zuord nen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen).

Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135, US 5 732 388, DE 196 36 739 C1 und DE 197 19 381 C1 bekannt. Für automatisches Vorlesen oder die Erweiterung des Wortschatzes von Diktiersystemen bzw. von automatischen Spracherkennungssystemen werden Routinen zur Graphem-Phonem- Konvertierung benötigt, d. h. zur Umwandlung geschriebener Wörter in gesprochene Laute. Dazu werden häufig Neuronale Netze eingesetzt.

Das Training dieser Neuronalen Netze erfolgt mit Hilfe von Mustern. Ein Muster besteht aus einer Anzahl von Buchstaben aus einem Wort, mit denen die Eingangsknoten des Neuronalen Netzes beaufschlagt werden, und dem zugehörigen Phonem, ent sprechend dem Ausgangsknoten. Häufig wird jedem Phonem auch noch ein sog. Gruppierungswert zugeordnet. Der Gruppierungs wert gibt die Anzahl der Grapheme an, die das zugehörige Pho nem erzeugen.

Die Muster werden aus sogenannten Trainingslexika gewonnen. Ein Trainingslexikon enthält Zuordnungen von Graphemen, in der Regel Wörter, Ziffern etc., also all dem, was konvertiert werden soll, zu Phonemen und Phonemfolgen, also Graphem- Phonem-Transkriptionen auf der Ebene von Wörtern. Die Phonemfolgen werden im Trainingslexikon durch eine geeignete Art von Lautschrift wiedergegeben. Im Bereich der automatischen Spracherkennung werden häufig die Lautschriften SAMPA oder Spicos-Inventar verwendet, die auf ASCII-Zeichen beruhen. Beispielhaft seien einige deutsche Wörter aufgeführt mit der zugehörigen Lautschrift in SAMPA:

Quatsch	kv'atS
spät	SpE:t
Schutz	SUts
schwer	Sve:6
Sprache	Spra:x

Der Laut "sch" wird z. B. durch [S] dargestellt, Dehnungen durch einen Doppelpunkt. Dabei werden Phoneme in eckigen Klammern [] dargestellt, Grapheme im spitzen Klammern <<. Sämtliche Lautschrift-Beispiele der Beschreibung werden in SAMPA wiedergegeben.

Diese Trainingslexika enthalten zwar die Lautschrift, jedoch nicht die eindeutige Zuordnung von Phonemen und die sie er zeugenden Grapheme, wie sie für die Muster notwendig sind. Zum Beispiel für das Wort <Sprache< wäre die folgende Zuord nung wünschenswert:

aus der sich leicht die Muster für das Training des Neurona len Netzes ableiten lassen. Bei einem Eingangsfenster mit 7 Buchstaben ergeben sich aus der eindeutigen Zuordnung unmit telbar die folgenden 6 Muster:

Der Graphemfolge aus 3 Leerzeichen, <S<, <p<, <r< und <a<, wobei <S< sich zentral im Eingangsfenster befindet, wird der Laut [S] mit dem Gruppierungswert 1 zugeordnet. Entsprechend erhält man als weitere Muster:

Dem Ach-Laut oder stimmlosen velaren Frikativ "ch" ist gemäß den Segmentierungsregeln ein Gruppierungswert von 2 zugeord net, da ihm die beiden Buchstaben <c< und <h< zugeordnet sind. Daher kann im folgenden Muster das Buchstabenfenster um 2 Buchstaben verschoben werden:

Die Zuordnung von Buchstaben zu Phonemen ergibt sich aus der Lautschrift des Lexikons jedoch nicht eindeutig. Das Wort <Sprache< besteht aus 7 Buchstaben, aber nur aus 6 Phonemen. Es stellt sich die Frage, welches der Phoneme durch 2 Buchstaben erzeugt wird. Da auch 2 Phoneme durch einen Buchstaben erzeugt werden können, z. B. [ks] durch <x<, ist die Unsicher heit in der Graphem-Phonem-Zuordnung für die Muster ein all gemeines Problem.

Bisher wurde die Graphem-Phonem-Zuordnung halbautomatisch durchgeführt, ausgehend von für einen Muttersprachler eviden ten Erfahrungsregeln, was jedoch insbesondere beim mehrspra chigen Systemen fehleranfällig ist und einen erheblichen Auf wand darstellt.

Aufgabe der Erfindung ist es, die Zuordnung von Phonemen zu den sie erzeugenden Graphemen für Muster für das Training ei nes Neuronalen Netzes für die Graphem-Phonem-Konvertierung automatisch zu erzeugen.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren, ein Computerprogrammprodukt, einen Datenträger und ein Computer system gemäß den unabhängigen Ansprüchen gelöst.

Unter einem Computerprogrammprodukt wird dabei das Computer programm als handelbares Produkt verstanden, in welcher Form auch immer, z. B. auf Papier, auf einem computerlesbaren Da tenträger, über ein Netz verteilt etc.

Erfindungsgemäß wird das Zuordnen von Phonemen zu den sie er zeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfol gen) und deren zugehöriger Lautschrift (Phonemfolgen) mit Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW, Dynamic Time Warping) durchgeführt.

DTW-Algorithmen sind eine Variante der dynamische Programmie rung. Sie sind z. B. beschrieben in:

1. Hoffmann, R.: "Signalanalyse und -erkennung." Springer Verlag, Berlin, Heidelberg, 1998, S. 390-393.
2. Rabiner, L. R.; Juang, B.-H.: "Fundamentals of speech re cognition." Englewood Cliffs: Prentice Hall 1993 (Prentice Hall Signal Processing Series).
3. Besling, S.: "Heuristical and Statistical methods of Gra pheme-to-Phoneme Conversion"; Proceedings KONVENS 94, Wien, S. 23-31.

Vorzugsweise werden in einem ersten Schritt Wörter ausge wählt, bei denen die Anzahl der Grapheme und die Anzahl der Phoneme übereinstimmen. Bei diesen Wörtern werden die Graphe me und Phoneme in der Reihenfolge der Angabe ihrer Grapheme und Phoneme im Lexikon einander zugeordnet. Aus diesen Zuord nungen wird die relative Häufigkeit ermittelt, mit der ein Phonem durch ein Graphem erzeugt wird. Alternativ kann auch die relative Häufigkeit bestimmt werden, mit der ein Graphem einem Phonem zugeordnet wird.

In einem zweiten Schritt wird für jedes Wort des Lexikons ei ne zweidimensionale Matrix erstellt, die sog. Inzidenzmatrix, deren einer Index durch die Grapheme des Worts und deren zweiter Index durch die Phoneme des Worts gegeben ist. Als Einträge der Matrix werden die zu dem jeweiligen Phonem- Graphem-Paar gehörenden, im ersten Schritt bestimmten, rela tiven Häufigkeiten gewählt.

In einem dritten Schritt wird jeder Matrixeintrag durch eine mathematische Operation, insbesondere eine Multiplikation, mit dem Extremalwert, der vorzugsweise der Maximalwert ist, der folgenden drei vorhergehenden Matrixeinträge verknüpft: dem Eintrag für dasselbe Phonem und das vorhergehende Graphem im Wort, dem Eintrag für das vorhergehende Phonem und dasselbe Graphem im Wort und dem Eintrag für das vorhergehende Pho nem und das vorhergehende Graphem im Wort. Statt der Multi plikation sind auch andere Rechenoperationen denkbar, etwa eine Addition der Kehrwerte der Matrixeinträge oder andere, in der dynamischen Programmierung bewährte Operationen.

Bei der Multiplikation wird mit dem ersten Graphem und dem ersten Phonem des Worts begonnen, wobei bei der Bestimmung der Maximalwerte die sich jeweils aus den Multiplikationen ergebenen geänderten Einträge der Matrix herangezogen werden. Durch das Bestimmen, welcher der drei vorhergehenden Matrix einträge eines Matrixeintrags maximal war, wird eine Schritt richtung für diesen Matrixeintrag ermittelt.

In einem vierten Schritt wird ausgehend vom Matrixeintrag für das letzte Phonem und das letzte Graphem jeweils die für den Matrixeintrag ermittelte Schrittrichtung entlang ein Weg durch die Matrix definiert bis zum Matrixeintrag für das ers te Phonem und das erste Graphem. Die zu dem Weg gehörenden Matrixelemente definieren die Zuordnung von Graphemen zu Pho nemen des Worts.

Das Lexikon ist danach konsistent aufbereitet. Das erfin dungsgemäße Verfahren kann für das Erzeugen von Mustern zum Training von Neuronalen Netzen angepasst werden.

Nach Ausführen der Zuordnung von Graphemen zu Phonemen für jedes Wort des Lexikons, wird aus diesen Zuordnungen die po sitionsabhängige relative Häufigkeit ermittelt, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird oder zwei oder mehr Phoneme durch ein Graphem erzeugt werden oder zwei oder mehr Grapheme einem Phonem zugeordnet werden oder ein Graphem zwei oder mehr Phonemen zugeordnet wird. Dies ermöglicht es, in einem weiteren Schritt Korrekturen an den Zuord nungen vorzunehmen.

Diese korrigierten Zuordnungen können zum iterativen Verbes sern der relativen Häufigkeiten und damit der Zuordnungen eingesetzt werden. Dazu werden nach dem Korrigieren der Zu ordnungen für jedes Wort des Lexikons aus diesen korrigierten Zuordnungen erneut die positionsabhängigen relativen Häufig keiten ermittelt. Diese werden bei weiteren Zuordnungen ver wendet.

Beim Bestimmen der relativen Häufigkeiten ist es vorteilhaft, nur solche Zuordnungen zu berücksichtigen, bei denen der Mat rixeintrag für das letzte Phonem und das letzte Graphem nach Ausführen der Multiplikationen einen vorgegebenen Schwellwert überschreitet. Auf diese Weise werden lange Wörter ausgefil tert, bei denen die Zuordnung unsicher ist, ebenso wie sehr seltene und damit unsichere Zuordnungen.

Vorteilhafterweise wird für die Matrixeinträge eindeutiges Vorwissen genutzt, um stabile Fixpunkte zu schaffen. So wird z. B. der Matrixeintrag für das erste Phonem und das erste Graphem jedes Worts auf 1 gesetzt, ebenso wie der Matrixein trag für das letzte Phonem und das letzte Graphem jedes Worts. Diese beiden Einträge bilden den Startpunkt bzw. End punkt des zu bestimmenden Weges und müssen auf jeden Fall durchlaufen werden. Andererseits werden der Matrixeintrag für das erste Phonem und das letzte Graphem jedes Worts sowie der Matrixeintrag für das letzte Phonem und das erste Graphem je des Worts auf 0 gesetzt, denn diese Zuordnungen sind grund sätzlich ausgeschlossen.

Bei der Bestimmung des Maximums im Zusammenhang mit der Mul tiplikation wird die Diagonale als der wahrscheinlichste Weg bevorzugt. D. h., dass, falls bei der Bestimmung des Maximal werts der drei vorhergehenden Matrixeinträge der Matrixein trag für das vorhergehende Phonem und das vorhergehende Gra phem im Wort und einer der anderen beiden Einträge gleich groß sind, der Matrixeintrag für das vorhergehende Phonem und das vorhergehende Graphem im Wort als maximal betrachtet wird.

Weitere vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Im folgenden wird die Erfindung anhand von Ausführungsbei spielen näher erläutert, die in den Figuren schematisch dar gestellt sind. Im einzelnen zeigt:

Fig. 1 ein zum Zuordnen von Phonemen zu den sie erzeugen den Graphemen in einem Lexikon geeignetes Compu tersystem;

Fig. 2 eine Matrix mit einer 1-zu-1 Zuordnung von Graphe men und Phonemen für das Wort <haben<;

Fig. 3 eine Matrix der Zuordnung von Graphemen und Phone men für das Wort <textlich<;

Fig. 4 die Matrix der Übergangshäufigkeiten für die Zu ordnung von Graphemen und Phonemen für das Wort <können<;

Fig. 5 die Matrix gemäß Fig. 4 nach Ausführen von Multi plikationen; und

Fig. 6A eine Matrix gemäß Fig. 5 für das Wort <yield<; und

Fig. 6B die Matrix gemäß Fig. 6A nach einer Korrektur der Zuordnung von Graphemen und Phonemen.

Fig. 1 zeigt ein zum Zuordnen von Phonemen zu den sie erzeu genden Graphemen geeignetes Computersystem. Dieses weist ei nen Prozessor (processor, CPU) 20, einen Arbeitsspeicher (RAM) 21, einen Programmspeicher (programm memory, ROM) 22, einen Festplatten-Controller (hard disc controller, HDC) 23, der eine Festplatte (hard disk) 30 steuert, und einen Schnittstellen-Controller (I/O controller) 24 auf. Prozessor 20, Arbeitsspeicher 21, Programmspeicher 22, Festplatten- Controller 23 und Schnittstellen-Controller 24 sind über ei nen Bus, den CPU-Bus 25, zum Austausch von Daten und Befehlen miteinander gekoppelt. Ferner weist der Computer einen Ein- /Ausgabe-Bus (I/O Bus) 26 auf, der verschiedene Ein- und Aus gabeeinrichtungen mit dem Schnittstellen-Controller 24 kop pelt. Zu den Ein- und Ausgabeeinrichtungen zählen z. B. eine allgemeine Ein- und Ausgabe-Schnittstelle (I/O interface) 27, eine Anzeigeeinrichtung (display) 28, eine Tastatur (key board) 29 und eine Maus 31.

Im Folgenden wird beschrieben, wie die Zuordnung von Phonemen zu sie erzeugenden Graphemen für ein Wort durchgeführt wird.

In der folgenden Beschreibung werden verschiedene relative Häufigkeiten zur Berechnung der besten Zuordnung verwendet, die im Folgenden in der Regel kurz mit Häufigkeiten bezeich net werden. Die Häufigkeit, mit der das Graphem g dem Phonem p zugeordnet wird, auch Übergangshäufigkeit genannt, berech net sich aus

Dabei ist Z(g → p) die Anzahl der Zuordnungen des Graphems g, im Folgenden durch <g< bezeichnet, zu dem Phonem p, im Folgenden durch [p] bezeichnet, und N(p) die Anzahl aller Zuord nungen sämtlicher Grapheme zu diesem Phonem [p].

Es werden noch weitere Häufigkeiten benötigt, da zur endgül tigen Entscheidung über die Zuordnungen die relative Häufig keit der direkten Zuordnung eines Graphems zu einem Phonem nicht ausreicht. Daher werden noch positionsabhängige Häufig keiten in Graphemgruppen <G< sowie die Vorgänger- und Nach folgerhäufigkeiten bestimmt, die die Abhängigkeiten der Zu ordnung zu Phonemen von den vorhergehenden und nachfolgenden Graphemen widerspiegeln.

Unter einer positionsabhängigen Häufigkeit H^pos versteht man die Häufigkeit, mit der das Graphem an einer bestimmten Posi tion innerhalb einer Graphemgruppe <G< einem Phonem zugeord net wird. So findet sich z. B. bei der Zuordnung der Graphem gruppe <ch< zum Phonem [C] das Graphem <c< an erster und das Graphem <h< an zweiter Position. Dabei ist [C] der stimmlose palatale Frikativ oder Ich-Laut, wie in <Sicht<.

Die Häufigkeit H^pos berechnet sich aus

Zur Initialisierung der Übergangshäufigkeiten werden die Ein träge in einem Lexikon mit Wörtern und deren Lautschrift ver wendet, bei denen die Anzahl der Grapheme mit der Anzahl der Phoneme übereinstimmt. Es wird angenommen, dass jedes Graphem dem entsprechenden Phonem zugeordnet ist. Dies ist in Fig. 2 durch die diagonal verlaufende Linie dargestellt.

Diese direkte Zuordnung ist nicht immer korrekt, wie etwa das Beispiel <textlich< aus Fig. 3 zeigt, in der die Linie für die Zuordnungen nicht einfach diagonal verläuft. Die Anzahl der Grapheme im Wort <textlich< stimmt mit der Anzahl der Phoneme überein. Es sind jeweils 8. Jedoch wird der Buchstabe <x< auf zwei Phoneme [ks] abgebildet und die Buchstabengruppe <ch< auf nur ein Phonem [C]. Da derartige Ausnahmen jedoch relativ selten auftreten, werden sie bei der Anwendung der relativen Häufigkeiten entsprechend gering gewichtet. Außer dem werden alle Häufigkeiten, die einen bestimmten Schwell wert unterschreiten, in einem späteren Korrekturschritt ent fernt.

Die Zuordnungen werden gezählt, und aus ihnen werden die re lativen Häufigkeiten bzw. Übergangshäufigkeiten bestimmt.

Mit den im vorhergehenden Schritt gewonnenen relativen Häu figkeiten oder Übergangshäufigkeiten wird für jedes Wort im Lexikon eine Matrix mit Übergangshäufigkeiten aufgestellt, wie sie in Fig. 4 für das Wort <können< gezeigt ist.

Dabei werden vier Einträge fest vorgegeben. Die Einträge links unten und rechts oben müssen immer durchlaufen werden, da sie Start- bzw. Endpunkt sind. Sie werden deswegen auf 1 gesetzt. Dagegen können die Felder links oben und rechts un ten niemals durchlaufen werden. Sie werden daher auf 0 ge setzt. Alle anderen Felder enthalten die entsprechenden Über gangshäufigkeiten H(g → p).

Bei dieser initialen Zuordnung wurde <n< dem Phonem [9] (ge rundeter halboffener vorderer Vokal "ö") zugeordnet. Daher steht in den entsprechenden Feldern keine 0, sondern 0.013. Man sieht aber, dass diese Häufigkeit viel kleiner ist als die übrigen Häufigkeiten. Sie fällt demnach kaum ins Gewicht.

Für die Berechnung des Wegs werden nun die einzelnen Matrix einträge jeweils mit dem Maximum der Nachbareinträge multip liziert. Da nur die Bewegungen nach oben, nach rechts oder nach oben rechts erlaubt sind, werden nur die Werte links, unten und links unten vom jeweiligen Matrixeintrag aus für die Bestimmung des Maximums betrachtet.

Falls bei der Bestimmung des Maximalwerts der Matrixeintrag links unten (diagonal) vom jeweiligen Matrixeintrag aus und einer der anderen beiden Einträge gleich groß sind, wird der diagonal liegende Matrixeintrag als maximal betrachtet.

Bei der Multiplikation wird mit dem ersten Eintrag unten links begonnen, wobei bei der Bestimmung der Maximalwerte die sich jeweils aus den Multiplikationen ergebenen geänderten Einträge der Matrix herangezogen werden.

Die erste Spalte und die unterste Zeile stellen Sonderfälle dar, da es keinen linken bzw. unteren Nachbarn gibt. Hier wird der aktuelle Eintrag stets mit dem unteren bzw. dem lin ken Eintrag multipliziert. Die einzelnen sich ergebenden Pro dukte sind in Fig. 5 dargestellt.

Die akkumulierte Häufigkeit am Endpunkt oben rechts ist somit das Produkt der Einträge bzw. Häufigkeiten auf dem optimalen Weg vom Startpunkt zum Endpunkt.

Durch das Bestimmen, welcher der drei vorhergehenden Matrix einträge maximal war, wird eine Schrittrichtung von Matrix eintrag zu Matrixeintrag ermittelt. Ausgehend vom Matrixein trag für das letzte Phonem und das letzte Graphem (oben rechts) wird jeweils entlang der ermittelten Schrittrichtung ein Weg durch die Matrix definiert bis zum Matrixeintrag unten links. Die zu dem Weg gehörenden Matrixelemente definie ren die Zuordnung von Graphemen zu Phonemen des Worts.

Anschließend erfolgt eine Nachbehandlung zu weiteren Verbes serung der Zuordnung. Die Nachbehandlung dient zum Überprüfen der getroffenen Entscheidungen unter Berücksichtigung des Graphem- und Phonem-Kontextes.

Zunächst wird nach Ausführen der beschriebenen Zuordnung von Graphemen zu Phonemen für jedes Wort des Lexikons aus diesen Zuordnungen die relative Häufigkeit ermittelt, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei oder mehr Phoneme durch ein Graphem erzeugt werden, d. h. die positionsabhängige Häufigkeit H^pos.

Anschließend wird die Zuordnung von Graphemen zu Phonemen in nerhalb eines Worts mit Hilfe der positionsabhängigen Häufig keiten korrigiert. Dazu betrachte man Fig. 6A, die im Aufbau Fig. 5 entspricht. Das bisher beschriebene Verfahren liefert z. B. für das englische Wort <yield< die Zuordnung

da die Häufigkeit der Zuordnung des Graphems <i< zum Phonem [j] höher ist (hier 0,04) als die Häufigkeit der Zuordnung zum Phonem [i:] (hier 0,03).

Die positionsabhängigen Häufigkeiten zeigen jedoch, daß die Häufigkeit der Zuordnung von <i< zum Phonem [j] klein ist, wenn <i< sich an zweiter Position der Graphemgruppe <yi< be findet. Hingegen ist die Häufigkeit der Zuordnung von <i< zum Phonem [i:] groß, wenn <i< sich an erster Position der Gra phemgruppe <ie< befindet.

Unterstützt wird diese korrigierte Zuordnung auch durch die Betrachtung der positionsabhängigen Häufigkeit von <e<. Die Häufigkeit der Zuordnung von <e< zum Phonem [i:] ist klein, wenn <e< sich vor <l< befindet. Hingegen ist die Häufigkeit der Zuordnung von <e< zum Phonem [i:] groß, wenn <e< sich an zweiter Position der Graphemgruppe <ie< befindet.

Entsprechend Fig. 6B kann somit die Zuordnung korrigiert wer den.

Nach Ausführen der korrigierten Zuordnung für jedes Wort des Lexikons werden aus diesen korrigierten Zuordnungen die Über gangshäufigkeiten und die positionsabhängigen Häufigkeiten ermittelt. Diese werden bei weiteren Zuordnungen verwendet.

Zum Bestimmen der relativen Häufigkeiten werden nur solche Zuordnungen berücksichtigt, bei denen der Matrixeintrag für das letzte Phonem und das letzte Graphem (oben rechts) nach Ausführen der geschilderten Multiplikationen einen vorgegebe nen Schwellwert überschreitet. Dieser Matrixeintrag ent spricht dem Produkt der Übergangshäufigkeiten entlang des besten Wegs. Die Größe dieses Produkts wird somit als Krite rium verwendet, ob dieser Weg akzeptiert werden soll oder nicht.

Das Verfahren wird in mehreren Iterationen ausgeführt. Dabei ist der Schwellwert am Anfang hoch und wird nach jeder Itera tion verkleinert. Dadurch werden am Anfang nur solche Zuord nungen akzeptiert, die relativ sicher richtig sind. Da alle Häufigkeiten kleiner gleich 1 sind, fließt indirekt in das Produkt auch die Länge des Wortes ein. Je mehr Faktoren das Produkt hat, desto kleiner wird es. Somit werden anfangs vor wiegend die Zuordnungen von kurzen Wörtern akzeptiert. Bei kurzen Wörtern ist die Wahrscheinlichkeit, eine falsche Zu ordnung zu finden, kleiner als bei langen.

Die Zuordnungen, bei denen das Produkt der Übergangshäufig keiten den Schwellwert überschritten hat, werden zur Gewin nung der neuen Statistik herangezogen. Schon bei der ersten Auswertung der so gewonnenen Statistik sind die meisten Feh ler verschwunden, die sich durch die eins zu eins Initiali sierung der Häufigkeiten ergaben. Außerdem wird noch über prüft, wie häufig jede Graphem-Phonem-Zuordnung auftrat. Wenn das Verhältnis einen Schwellwert unterschreitet, wird diese Zuordnung ignoriert und somit beim nächsten Auffüllen der Matrizen nicht weiter verwendet.

Im Ergebnis erhält man eine Zuordnung der Grapheme zu den Phonemen für das gesamte Lexikon. Ferner erhält man eine Auf stellung, welches Phonem bzw. welche Phonemgruppe durch wel che Grapheme erzeugt werden kann, z. B. [tS] im Englischen durch <ch<, <cz<, <c<, <tch<, <cc<, <t< und <che<.

Claims

1. Verfahren zum Zuordnen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen), dadurch gekennzeichnet, dass die Zuordnung mit Hilfe eines Algorithmus der dynami schen Zeitanpassung (DTW, Dynamic Time Warping) durchgeführt wird.

2. Verfahren zum Zuordnen von Phonemen zu ihnen zuzuordnenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen)

a) In einem ersten Schritt wird für jede Zuordnung von Phone men und Graphemen eine relative Häufigkeit ermittelt, mit der Phoneme und Grapheme einander zugeordnet werden,
b) in einem zweiten Schritt wird für jedes Wort des Lexikons eine zweidimensionale Matrix (Inzidenzmatrix) erstellt, deren einer Index durch die Grapheme des Worts und deren zweiter Index durch die Phoneme des Worts gegeben ist,
c) als Einträge der Matrix werden die zu dem jeweiligen Pho nem-Graphem-Paar gehörenden, im ersten Schritt bestimmten, relativen Häufigkeiten gewählt,
d) in einem dritten Schritt wird jeder Matrixeintrag mit ei ner mathematischen Operation mit dem Extremalwert der fol genden drei vorhergehenden Matrixeinträge verknüpft:

- dem Eintrag für dasselbe Phonem und das vorhergehende Graphem im Wort,
- dem Eintrag für das vorhergehende Phonem und dasselbe Graphem im Wort und
- dem Eintrag für das vorhergehende Phonem und das vor hergehende Graphem im Wort,

a) bei der mathematischen Operation wird mit dem ersten Gra phem und dem ersten Phonem des Worts begonnen, wobei bei der Bestimmung der Extremalwerte die sich jeweils aus den mathematischen Operationen ergebenden geänderten Einträge der Matrix herangezogen werden,
b) durch das Bestimmen, welcher der drei vorhergehenden Mat rixeinträge eines Matrixeintrags extremal war, wird eine Schrittrichtung für diesen Matrixeintrag ermittelt,
c) in einem vierten Schritt wird ausgehend vom Matrixeintrag für das letzte Phonem und das letzte Graphem jeweils die für den Matrixeintrag ermittelte Schrittrichtung entlang ein Weg durch die Matrix definiert bis zum Matrixeintrag für das erste Phonem und das erste Graphem,
d) die zu dem Weg gehörenden Matrixelemente definieren die Zuordnung von Graphemen zu Phonemen des Worts.

3. Verfahren nach mindestens einem der vorhergehenden Ansprü che, dadurch gekennzeichnet, dass die relativen Häufigkeiten im ersten Schritt dadurch er mittelt werden, dass Wörter aus dem Lexikon gewählt werden, bei denen die Anzahl der Grapheme und die Anzahl der Phoneme übereinstimmen, und dass bei diesen Wörtern die Grapheme und Phoneme in der Reihenfolge der Angabe ihrer Grapheme und Pho neme im Lexikon einander zugeordnet werden.

4. Verfahren nach mindestens einem der vorhergehenden Ansprü che, dadurch gekennzeichnet, dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen gemäß dem Verfahren nach Anspruch 1 für jedes Wort des Lexi kons, aus diesen Zuordnungen die positionsabhängige relative Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird oder zwei oder mehr Phoneme durch ein Graphem erzeugt werden oder zwei oder mehr Grapheme einem Phonem zugeordnet werden oder ein Graphem zwei oder mehr Pho nemen zugeordnet wird.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Zuordnung von Graphemen zu Phonemen innerhalb eines Worts gemäß Anspruch 1 mit Hilfe der positionsabhängigen re lativen Häufigkeiten korrigiert werden.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet,
dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen gemäß dem Verfahren nach Anspruch 3 für jedes Wort des Lexi kons, aus diesen korrigierten Zuordnungen die positionsabhän gige relative Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei oder mehr Phoneme durch ein Graphem erzeugt werden; und
dass in Anspruch 3 anschließend die neu berechneten relativen Häufigkeiten verwendet werden.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass zum Bestimmen der relativen Häufigkeiten nur solche Zu ordnungen berücksichtigt werden, bei denen der Matrixeintrag für das letzte Phonem und das letzte Graphem nach Ausführen der Multiplikationen einen vorgegebenen Schwellwert über schreitet.

8. Verfahren nach mindestens einem der vorhergehenden Ansprü che, dadurch gekennzeichnet,
dass der Matrixeintrag für das erste Phonem und das erste Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das letzte Phonem und das letzte Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das erste Phonem und das letzte Graphem jedes Worts auf 0 gesetzt wird; und
dass der Matrixeintrag für das letzte Phonem und das erste Graphem jedes Worts auf 0 gesetzt wird.

9. Verfahren nach mindestens einem der vorhergehenden Ansprü che, dadurch gekennzeichnet, dass, falls bei der Bestimmung des Maximalwerts der drei vor hergehenden Matrixeinträge der Matrixeintrag für das vorher gehende Phonem und das vorhergehende Graphem im Wort und ei ner der anderen beiden Einträge gleich groß sind, der Matrix eintrag für das vorhergehende Phonem und das vorhergehende Graphem im Wort als maximal betrachtet wird.

10. Computerprogrammprodukt, das durch einen Computer aus führbar ist und dabei die Schritte nach einem der Ansprüche 1 bis 9 ausführt.

11. Computerprogrammprodukt, das auf einem computergeeigneten Medium gespeichert ist und computerlesbare Programmmittel um fasst, die es einem Computer ermöglichen, das Verfahren nach einem der Ansprüche 1 bis 9 auszuführen.

12. Datenträger, auf dem ein Computerprogramm gespeichert ist, das es einem Computer ermöglicht, durch einen Ladepro zess das Verfahren nach einem der Ansprüche 1 bis 9 auszufüh ren.

13. Computersystem zum Zuordnen von Phonemen zu den sie er zeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfol gen) und deren zugehöriger Lautschrift (Phonemfolgen)
mit einer Speichereinrichtung (22, 30) zum Speichern eines Computerprogramms auf einem Speichermedium;
mit einer Verarbeitungseinheit (20) zum Laden des Computer programms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Durchführen der Zuordnung mit Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW, Dynamic Time Warping).