DE10042943A1 - Zuordnen von Phonemen zu den sie erzeugenden Graphemen - Google Patents
Zuordnen von Phonemen zu den sie erzeugenden GraphemenInfo
- Publication number
- DE10042943A1 DE10042943A1 DE10042943A DE10042943A DE10042943A1 DE 10042943 A1 DE10042943 A1 DE 10042943A1 DE 10042943 A DE10042943 A DE 10042943A DE 10042943 A DE10042943 A DE 10042943A DE 10042943 A1 DE10042943 A1 DE 10042943A1
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- grapheme
- graphemes
- matrix
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 claims abstract description 13
- 230000035897 transcription Effects 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 19
- 230000001419 dependent effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 9
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000007704 transition Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 3
- 206010073150 Multiple endocrine neoplasia Type 1 Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Das Zuordnen von Phonemen zu den sie erzeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger Lautschrift (Phonemfolgen) für die Vorbereitung von Mustern für das Training von Neuronalen Netzen zur Graphem-Phonem-Konvertierung wird mit einer Variante der dynamischen Programmierung durchgeführt, die auch als dynamic time warping (DTW, dynamische Zeitanpassung) bekannt ist.
Description
Die Erfindung betrifft ein Verfahren, ein Computerprogramm
produkt, einen Datenträger und ein Computersystem zum Zuord
nen von Phonemen zu den sie erzeugenden Graphemen in einem
Lexikon mit Wörtern (Graphemfolgen) und deren zugehöriger
Lautschrift (Phonemfolgen).
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135,
US 5 732 388, DE 196 36 739 C1 und DE 197 19 381 C1
bekannt. Für automatisches Vorlesen oder die Erweiterung des
Wortschatzes von Diktiersystemen bzw. von automatischen
Spracherkennungssystemen werden Routinen zur Graphem-Phonem-
Konvertierung benötigt, d. h. zur Umwandlung geschriebener
Wörter in gesprochene Laute. Dazu werden häufig Neuronale
Netze eingesetzt.
Das Training dieser Neuronalen Netze erfolgt mit Hilfe von
Mustern. Ein Muster besteht aus einer Anzahl von Buchstaben
aus einem Wort, mit denen die Eingangsknoten des Neuronalen
Netzes beaufschlagt werden, und dem zugehörigen Phonem, ent
sprechend dem Ausgangsknoten. Häufig wird jedem Phonem auch
noch ein sog. Gruppierungswert zugeordnet. Der Gruppierungs
wert gibt die Anzahl der Grapheme an, die das zugehörige Pho
nem erzeugen.
Die Muster werden aus sogenannten Trainingslexika gewonnen.
Ein Trainingslexikon enthält Zuordnungen von Graphemen, in
der Regel Wörter, Ziffern etc., also all dem, was konvertiert
werden soll, zu Phonemen und Phonemfolgen, also Graphem-
Phonem-Transkriptionen auf der Ebene von Wörtern. Die Phonemfolgen
werden im Trainingslexikon durch eine geeignete Art
von Lautschrift wiedergegeben. Im Bereich der automatischen
Spracherkennung werden häufig die Lautschriften SAMPA oder
Spicos-Inventar verwendet, die auf ASCII-Zeichen beruhen.
Beispielhaft seien einige deutsche Wörter aufgeführt mit der
zugehörigen Lautschrift in SAMPA:
Quatsch | kv'atS |
spät | SpE:t |
Schutz | SUts |
schwer | Sve:6 |
Sprache | Spra:x |
Der Laut "sch" wird z. B. durch [S] dargestellt, Dehnungen
durch einen Doppelpunkt. Dabei werden Phoneme in eckigen
Klammern [] dargestellt, Grapheme im spitzen Klammern <<.
Sämtliche Lautschrift-Beispiele der Beschreibung werden in
SAMPA wiedergegeben.
Diese Trainingslexika enthalten zwar die Lautschrift, jedoch
nicht die eindeutige Zuordnung von Phonemen und die sie er
zeugenden Grapheme, wie sie für die Muster notwendig sind.
Zum Beispiel für das Wort <Sprache< wäre die folgende Zuord
nung wünschenswert:
aus der sich leicht die Muster für das Training des Neurona
len Netzes ableiten lassen. Bei einem Eingangsfenster mit 7
Buchstaben ergeben sich aus der eindeutigen Zuordnung unmit
telbar die folgenden 6 Muster:
Der Graphemfolge aus 3 Leerzeichen, <S<, <p<, <r< und <a<,
wobei <S< sich zentral im Eingangsfenster befindet, wird der
Laut [S] mit dem Gruppierungswert 1 zugeordnet. Entsprechend
erhält man als weitere Muster:
Dem Ach-Laut oder stimmlosen velaren Frikativ "ch" ist gemäß
den Segmentierungsregeln ein Gruppierungswert von 2 zugeord
net, da ihm die beiden Buchstaben <c< und <h< zugeordnet
sind. Daher kann im folgenden Muster das Buchstabenfenster um
2 Buchstaben verschoben werden:
Die Zuordnung von Buchstaben zu Phonemen ergibt sich aus der
Lautschrift des Lexikons jedoch nicht eindeutig. Das Wort
<Sprache< besteht aus 7 Buchstaben, aber nur aus 6 Phonemen.
Es stellt sich die Frage, welches der Phoneme durch 2 Buchstaben
erzeugt wird. Da auch 2 Phoneme durch einen Buchstaben
erzeugt werden können, z. B. [ks] durch <x<, ist die Unsicher
heit in der Graphem-Phonem-Zuordnung für die Muster ein all
gemeines Problem.
Bisher wurde die Graphem-Phonem-Zuordnung halbautomatisch
durchgeführt, ausgehend von für einen Muttersprachler eviden
ten Erfahrungsregeln, was jedoch insbesondere beim mehrspra
chigen Systemen fehleranfällig ist und einen erheblichen Auf
wand darstellt.
Aufgabe der Erfindung ist es, die Zuordnung von Phonemen zu
den sie erzeugenden Graphemen für Muster für das Training ei
nes Neuronalen Netzes für die Graphem-Phonem-Konvertierung
automatisch zu erzeugen.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren, ein
Computerprogrammprodukt, einen Datenträger und ein Computer
system gemäß den unabhängigen Ansprüchen gelöst.
Unter einem Computerprogrammprodukt wird dabei das Computer
programm als handelbares Produkt verstanden, in welcher Form
auch immer, z. B. auf Papier, auf einem computerlesbaren Da
tenträger, über ein Netz verteilt etc.
Erfindungsgemäß wird das Zuordnen von Phonemen zu den sie er
zeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfol
gen) und deren zugehöriger Lautschrift (Phonemfolgen) mit
Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW,
Dynamic Time Warping) durchgeführt.
DTW-Algorithmen sind eine Variante der dynamische Programmie
rung. Sie sind z. B. beschrieben in:
- 1. Hoffmann, R.: "Signalanalyse und -erkennung." Springer Verlag, Berlin, Heidelberg, 1998, S. 390-393.
- 2. Rabiner, L. R.; Juang, B.-H.: "Fundamentals of speech re cognition." Englewood Cliffs: Prentice Hall 1993 (Prentice Hall Signal Processing Series).
- 3. Besling, S.: "Heuristical and Statistical methods of Gra pheme-to-Phoneme Conversion"; Proceedings KONVENS 94, Wien, S. 23-31.
Vorzugsweise werden in einem ersten Schritt Wörter ausge
wählt, bei denen die Anzahl der Grapheme und die Anzahl der
Phoneme übereinstimmen. Bei diesen Wörtern werden die Graphe
me und Phoneme in der Reihenfolge der Angabe ihrer Grapheme
und Phoneme im Lexikon einander zugeordnet. Aus diesen Zuord
nungen wird die relative Häufigkeit ermittelt, mit der ein
Phonem durch ein Graphem erzeugt wird. Alternativ kann auch
die relative Häufigkeit bestimmt werden, mit der ein Graphem
einem Phonem zugeordnet wird.
In einem zweiten Schritt wird für jedes Wort des Lexikons ei
ne zweidimensionale Matrix erstellt, die sog. Inzidenzmatrix,
deren einer Index durch die Grapheme des Worts und deren
zweiter Index durch die Phoneme des Worts gegeben ist. Als
Einträge der Matrix werden die zu dem jeweiligen Phonem-
Graphem-Paar gehörenden, im ersten Schritt bestimmten, rela
tiven Häufigkeiten gewählt.
In einem dritten Schritt wird jeder Matrixeintrag durch eine
mathematische Operation, insbesondere eine Multiplikation,
mit dem Extremalwert, der vorzugsweise der Maximalwert ist,
der folgenden drei vorhergehenden Matrixeinträge verknüpft:
dem Eintrag für dasselbe Phonem und das vorhergehende Graphem
im Wort, dem Eintrag für das vorhergehende Phonem und dasselbe
Graphem im Wort und dem Eintrag für das vorhergehende Pho
nem und das vorhergehende Graphem im Wort. Statt der Multi
plikation sind auch andere Rechenoperationen denkbar, etwa
eine Addition der Kehrwerte der Matrixeinträge oder andere,
in der dynamischen Programmierung bewährte Operationen.
Bei der Multiplikation wird mit dem ersten Graphem und dem
ersten Phonem des Worts begonnen, wobei bei der Bestimmung
der Maximalwerte die sich jeweils aus den Multiplikationen
ergebenen geänderten Einträge der Matrix herangezogen werden.
Durch das Bestimmen, welcher der drei vorhergehenden Matrix
einträge eines Matrixeintrags maximal war, wird eine Schritt
richtung für diesen Matrixeintrag ermittelt.
In einem vierten Schritt wird ausgehend vom Matrixeintrag für
das letzte Phonem und das letzte Graphem jeweils die für den
Matrixeintrag ermittelte Schrittrichtung entlang ein Weg
durch die Matrix definiert bis zum Matrixeintrag für das ers
te Phonem und das erste Graphem. Die zu dem Weg gehörenden
Matrixelemente definieren die Zuordnung von Graphemen zu Pho
nemen des Worts.
Das Lexikon ist danach konsistent aufbereitet. Das erfin
dungsgemäße Verfahren kann für das Erzeugen von Mustern zum
Training von Neuronalen Netzen angepasst werden.
Nach Ausführen der Zuordnung von Graphemen zu Phonemen für
jedes Wort des Lexikons, wird aus diesen Zuordnungen die po
sitionsabhängige relative Häufigkeit ermittelt, mit der ein
Phonem durch zwei oder mehr Grapheme erzeugt wird oder zwei
oder mehr Phoneme durch ein Graphem erzeugt werden oder zwei
oder mehr Grapheme einem Phonem zugeordnet werden oder ein
Graphem zwei oder mehr Phonemen zugeordnet wird. Dies ermöglicht
es, in einem weiteren Schritt Korrekturen an den Zuord
nungen vorzunehmen.
Diese korrigierten Zuordnungen können zum iterativen Verbes
sern der relativen Häufigkeiten und damit der Zuordnungen
eingesetzt werden. Dazu werden nach dem Korrigieren der Zu
ordnungen für jedes Wort des Lexikons aus diesen korrigierten
Zuordnungen erneut die positionsabhängigen relativen Häufig
keiten ermittelt. Diese werden bei weiteren Zuordnungen ver
wendet.
Beim Bestimmen der relativen Häufigkeiten ist es vorteilhaft,
nur solche Zuordnungen zu berücksichtigen, bei denen der Mat
rixeintrag für das letzte Phonem und das letzte Graphem nach
Ausführen der Multiplikationen einen vorgegebenen Schwellwert
überschreitet. Auf diese Weise werden lange Wörter ausgefil
tert, bei denen die Zuordnung unsicher ist, ebenso wie sehr
seltene und damit unsichere Zuordnungen.
Vorteilhafterweise wird für die Matrixeinträge eindeutiges
Vorwissen genutzt, um stabile Fixpunkte zu schaffen. So wird
z. B. der Matrixeintrag für das erste Phonem und das erste
Graphem jedes Worts auf 1 gesetzt, ebenso wie der Matrixein
trag für das letzte Phonem und das letzte Graphem jedes
Worts. Diese beiden Einträge bilden den Startpunkt bzw. End
punkt des zu bestimmenden Weges und müssen auf jeden Fall
durchlaufen werden. Andererseits werden der Matrixeintrag für
das erste Phonem und das letzte Graphem jedes Worts sowie der
Matrixeintrag für das letzte Phonem und das erste Graphem je
des Worts auf 0 gesetzt, denn diese Zuordnungen sind grund
sätzlich ausgeschlossen.
Bei der Bestimmung des Maximums im Zusammenhang mit der Mul
tiplikation wird die Diagonale als der wahrscheinlichste Weg
bevorzugt. D. h., dass, falls bei der Bestimmung des Maximal
werts der drei vorhergehenden Matrixeinträge der Matrixein
trag für das vorhergehende Phonem und das vorhergehende Gra
phem im Wort und einer der anderen beiden Einträge gleich
groß sind, der Matrixeintrag für das vorhergehende Phonem und
das vorhergehende Graphem im Wort als maximal betrachtet
wird.
Weitere vorteilhafte Weiterbildungen der Erfindung sind in
den Unteransprüchen gekennzeichnet.
Im folgenden wird die Erfindung anhand von Ausführungsbei
spielen näher erläutert, die in den Figuren schematisch dar
gestellt sind. Im einzelnen zeigt:
Fig. 1 ein zum Zuordnen von Phonemen zu den sie erzeugen
den Graphemen in einem Lexikon geeignetes Compu
tersystem;
Fig. 2 eine Matrix mit einer 1-zu-1 Zuordnung von Graphe
men und Phonemen für das Wort <haben<;
Fig. 3 eine Matrix der Zuordnung von Graphemen und Phone
men für das Wort <textlich<;
Fig. 4 die Matrix der Übergangshäufigkeiten für die Zu
ordnung von Graphemen und Phonemen für das Wort
<können<;
Fig. 5 die Matrix gemäß Fig. 4 nach Ausführen von Multi
plikationen; und
Fig. 6A eine Matrix gemäß Fig. 5 für das Wort <yield<;
und
Fig. 6B die Matrix gemäß Fig. 6A nach einer Korrektur der
Zuordnung von Graphemen und Phonemen.
Fig. 1 zeigt ein zum Zuordnen von Phonemen zu den sie erzeu
genden Graphemen geeignetes Computersystem. Dieses weist ei
nen Prozessor (processor, CPU) 20, einen Arbeitsspeicher
(RAM) 21, einen Programmspeicher (programm memory, ROM) 22,
einen Festplatten-Controller (hard disc controller, HDC) 23,
der eine Festplatte (hard disk) 30 steuert, und einen
Schnittstellen-Controller (I/O controller) 24 auf. Prozessor
20, Arbeitsspeicher 21, Programmspeicher 22, Festplatten-
Controller 23 und Schnittstellen-Controller 24 sind über ei
nen Bus, den CPU-Bus 25, zum Austausch von Daten und Befehlen
miteinander gekoppelt. Ferner weist der Computer einen Ein-
/Ausgabe-Bus (I/O Bus) 26 auf, der verschiedene Ein- und Aus
gabeeinrichtungen mit dem Schnittstellen-Controller 24 kop
pelt. Zu den Ein- und Ausgabeeinrichtungen zählen z. B. eine
allgemeine Ein- und Ausgabe-Schnittstelle (I/O interface) 27,
eine Anzeigeeinrichtung (display) 28, eine Tastatur (key
board) 29 und eine Maus 31.
Im Folgenden wird beschrieben, wie die Zuordnung von Phonemen
zu sie erzeugenden Graphemen für ein Wort durchgeführt wird.
In der folgenden Beschreibung werden verschiedene relative
Häufigkeiten zur Berechnung der besten Zuordnung verwendet,
die im Folgenden in der Regel kurz mit Häufigkeiten bezeich
net werden. Die Häufigkeit, mit der das Graphem g dem Phonem
p zugeordnet wird, auch Übergangshäufigkeit genannt, berech
net sich aus
Dabei ist Z(g → p) die Anzahl der Zuordnungen des Graphems g,
im Folgenden durch <g< bezeichnet, zu dem Phonem p, im Folgenden
durch [p] bezeichnet, und N(p) die Anzahl aller Zuord
nungen sämtlicher Grapheme zu diesem Phonem [p].
Es werden noch weitere Häufigkeiten benötigt, da zur endgül
tigen Entscheidung über die Zuordnungen die relative Häufig
keit der direkten Zuordnung eines Graphems zu einem Phonem
nicht ausreicht. Daher werden noch positionsabhängige Häufig
keiten in Graphemgruppen <G< sowie die Vorgänger- und Nach
folgerhäufigkeiten bestimmt, die die Abhängigkeiten der Zu
ordnung zu Phonemen von den vorhergehenden und nachfolgenden
Graphemen widerspiegeln.
Unter einer positionsabhängigen Häufigkeit Hpos versteht man
die Häufigkeit, mit der das Graphem an einer bestimmten Posi
tion innerhalb einer Graphemgruppe <G< einem Phonem zugeord
net wird. So findet sich z. B. bei der Zuordnung der Graphem
gruppe <ch< zum Phonem [C] das Graphem <c< an erster und das
Graphem <h< an zweiter Position. Dabei ist [C] der stimmlose
palatale Frikativ oder Ich-Laut, wie in <Sicht<.
Die Häufigkeit Hpos berechnet sich aus
Zur Initialisierung der Übergangshäufigkeiten werden die Ein
träge in einem Lexikon mit Wörtern und deren Lautschrift ver
wendet, bei denen die Anzahl der Grapheme mit der Anzahl der
Phoneme übereinstimmt. Es wird angenommen, dass jedes Graphem
dem entsprechenden Phonem zugeordnet ist. Dies ist in Fig. 2
durch die diagonal verlaufende Linie dargestellt.
Diese direkte Zuordnung ist nicht immer korrekt, wie etwa das
Beispiel <textlich< aus Fig. 3 zeigt, in der die Linie für
die Zuordnungen nicht einfach diagonal verläuft. Die Anzahl
der Grapheme im Wort <textlich< stimmt mit der Anzahl der
Phoneme überein. Es sind jeweils 8. Jedoch wird der Buchstabe
<x< auf zwei Phoneme [ks] abgebildet und die Buchstabengruppe
<ch< auf nur ein Phonem [C]. Da derartige Ausnahmen jedoch
relativ selten auftreten, werden sie bei der Anwendung der
relativen Häufigkeiten entsprechend gering gewichtet. Außer
dem werden alle Häufigkeiten, die einen bestimmten Schwell
wert unterschreiten, in einem späteren Korrekturschritt ent
fernt.
Die Zuordnungen werden gezählt, und aus ihnen werden die re
lativen Häufigkeiten bzw. Übergangshäufigkeiten bestimmt.
Mit den im vorhergehenden Schritt gewonnenen relativen Häu
figkeiten oder Übergangshäufigkeiten wird für jedes Wort im
Lexikon eine Matrix mit Übergangshäufigkeiten aufgestellt,
wie sie in Fig. 4 für das Wort <können< gezeigt ist.
Dabei werden vier Einträge fest vorgegeben. Die Einträge
links unten und rechts oben müssen immer durchlaufen werden,
da sie Start- bzw. Endpunkt sind. Sie werden deswegen auf 1
gesetzt. Dagegen können die Felder links oben und rechts un
ten niemals durchlaufen werden. Sie werden daher auf 0 ge
setzt. Alle anderen Felder enthalten die entsprechenden Über
gangshäufigkeiten H(g → p).
Bei dieser initialen Zuordnung wurde <n< dem Phonem [9] (ge
rundeter halboffener vorderer Vokal "ö") zugeordnet. Daher
steht in den entsprechenden Feldern keine 0, sondern 0.013.
Man sieht aber, dass diese Häufigkeit viel kleiner ist als
die übrigen Häufigkeiten. Sie fällt demnach kaum ins Gewicht.
Für die Berechnung des Wegs werden nun die einzelnen Matrix
einträge jeweils mit dem Maximum der Nachbareinträge multip
liziert. Da nur die Bewegungen nach oben, nach rechts oder
nach oben rechts erlaubt sind, werden nur die Werte links,
unten und links unten vom jeweiligen Matrixeintrag aus für
die Bestimmung des Maximums betrachtet.
Falls bei der Bestimmung des Maximalwerts der Matrixeintrag
links unten (diagonal) vom jeweiligen Matrixeintrag aus und
einer der anderen beiden Einträge gleich groß sind, wird der
diagonal liegende Matrixeintrag als maximal betrachtet.
Bei der Multiplikation wird mit dem ersten Eintrag unten
links begonnen, wobei bei der Bestimmung der Maximalwerte die
sich jeweils aus den Multiplikationen ergebenen geänderten
Einträge der Matrix herangezogen werden.
Die erste Spalte und die unterste Zeile stellen Sonderfälle
dar, da es keinen linken bzw. unteren Nachbarn gibt. Hier
wird der aktuelle Eintrag stets mit dem unteren bzw. dem lin
ken Eintrag multipliziert. Die einzelnen sich ergebenden Pro
dukte sind in Fig. 5 dargestellt.
Die akkumulierte Häufigkeit am Endpunkt oben rechts ist somit
das Produkt der Einträge bzw. Häufigkeiten auf dem optimalen
Weg vom Startpunkt zum Endpunkt.
Durch das Bestimmen, welcher der drei vorhergehenden Matrix
einträge maximal war, wird eine Schrittrichtung von Matrix
eintrag zu Matrixeintrag ermittelt. Ausgehend vom Matrixein
trag für das letzte Phonem und das letzte Graphem (oben
rechts) wird jeweils entlang der ermittelten Schrittrichtung
ein Weg durch die Matrix definiert bis zum Matrixeintrag unten
links. Die zu dem Weg gehörenden Matrixelemente definie
ren die Zuordnung von Graphemen zu Phonemen des Worts.
Anschließend erfolgt eine Nachbehandlung zu weiteren Verbes
serung der Zuordnung. Die Nachbehandlung dient zum Überprüfen
der getroffenen Entscheidungen unter Berücksichtigung des
Graphem- und Phonem-Kontextes.
Zunächst wird nach Ausführen der beschriebenen Zuordnung von
Graphemen zu Phonemen für jedes Wort des Lexikons aus diesen
Zuordnungen die relative Häufigkeit ermittelt, mit der ein
Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei
oder mehr Phoneme durch ein Graphem erzeugt werden, d. h. die
positionsabhängige Häufigkeit Hpos.
Anschließend wird die Zuordnung von Graphemen zu Phonemen in
nerhalb eines Worts mit Hilfe der positionsabhängigen Häufig
keiten korrigiert. Dazu betrachte man Fig. 6A, die im Aufbau
Fig. 5 entspricht. Das bisher beschriebene Verfahren liefert
z. B. für das englische Wort <yield< die Zuordnung
da die Häufigkeit der Zuordnung des Graphems <i< zum Phonem
[j] höher ist (hier 0,04) als die Häufigkeit der Zuordnung
zum Phonem [i:] (hier 0,03).
Die positionsabhängigen Häufigkeiten zeigen jedoch, daß die
Häufigkeit der Zuordnung von <i< zum Phonem [j] klein ist,
wenn <i< sich an zweiter Position der Graphemgruppe <yi< be
findet. Hingegen ist die Häufigkeit der Zuordnung von <i< zum
Phonem [i:] groß, wenn <i< sich an erster Position der Gra
phemgruppe <ie< befindet.
Unterstützt wird diese korrigierte Zuordnung auch durch die
Betrachtung der positionsabhängigen Häufigkeit von <e<. Die
Häufigkeit der Zuordnung von <e< zum Phonem [i:] ist klein,
wenn <e< sich vor <l< befindet. Hingegen ist die Häufigkeit
der Zuordnung von <e< zum Phonem [i:] groß, wenn <e< sich an
zweiter Position der Graphemgruppe <ie< befindet.
Entsprechend Fig. 6B kann somit die Zuordnung korrigiert wer
den.
Nach Ausführen der korrigierten Zuordnung für jedes Wort des
Lexikons werden aus diesen korrigierten Zuordnungen die Über
gangshäufigkeiten und die positionsabhängigen Häufigkeiten
ermittelt. Diese werden bei weiteren Zuordnungen verwendet.
Zum Bestimmen der relativen Häufigkeiten werden nur solche
Zuordnungen berücksichtigt, bei denen der Matrixeintrag für
das letzte Phonem und das letzte Graphem (oben rechts) nach
Ausführen der geschilderten Multiplikationen einen vorgegebe
nen Schwellwert überschreitet. Dieser Matrixeintrag ent
spricht dem Produkt der Übergangshäufigkeiten entlang des
besten Wegs. Die Größe dieses Produkts wird somit als Krite
rium verwendet, ob dieser Weg akzeptiert werden soll oder
nicht.
Das Verfahren wird in mehreren Iterationen ausgeführt. Dabei
ist der Schwellwert am Anfang hoch und wird nach jeder Itera
tion verkleinert. Dadurch werden am Anfang nur solche Zuord
nungen akzeptiert, die relativ sicher richtig sind. Da alle
Häufigkeiten kleiner gleich 1 sind, fließt indirekt in das
Produkt auch die Länge des Wortes ein. Je mehr Faktoren das
Produkt hat, desto kleiner wird es. Somit werden anfangs vor
wiegend die Zuordnungen von kurzen Wörtern akzeptiert. Bei
kurzen Wörtern ist die Wahrscheinlichkeit, eine falsche Zu
ordnung zu finden, kleiner als bei langen.
Die Zuordnungen, bei denen das Produkt der Übergangshäufig
keiten den Schwellwert überschritten hat, werden zur Gewin
nung der neuen Statistik herangezogen. Schon bei der ersten
Auswertung der so gewonnenen Statistik sind die meisten Feh
ler verschwunden, die sich durch die eins zu eins Initiali
sierung der Häufigkeiten ergaben. Außerdem wird noch über
prüft, wie häufig jede Graphem-Phonem-Zuordnung auftrat. Wenn
das Verhältnis einen Schwellwert unterschreitet, wird diese
Zuordnung ignoriert und somit beim nächsten Auffüllen der
Matrizen nicht weiter verwendet.
Im Ergebnis erhält man eine Zuordnung der Grapheme zu den
Phonemen für das gesamte Lexikon. Ferner erhält man eine Auf
stellung, welches Phonem bzw. welche Phonemgruppe durch wel
che Grapheme erzeugt werden kann, z. B. [tS] im Englischen
durch <ch<, <cz<, <c<, <tch<, <cc<, <t< und <che<.
Claims (13)
1. Verfahren zum Zuordnen von Phonemen zu den sie erzeugenden
Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und
deren zugehöriger Lautschrift (Phonemfolgen),
dadurch gekennzeichnet,
dass die Zuordnung mit Hilfe eines Algorithmus der dynami
schen Zeitanpassung (DTW, Dynamic Time Warping) durchgeführt
wird.
2. Verfahren zum Zuordnen von Phonemen zu ihnen zuzuordnenden
Graphemen in einem Lexikon mit Wörtern (Graphemfolgen) und
deren zugehöriger Lautschrift (Phonemfolgen)
- a) In einem ersten Schritt wird für jede Zuordnung von Phone men und Graphemen eine relative Häufigkeit ermittelt, mit der Phoneme und Grapheme einander zugeordnet werden,
- b) in einem zweiten Schritt wird für jedes Wort des Lexikons eine zweidimensionale Matrix (Inzidenzmatrix) erstellt, deren einer Index durch die Grapheme des Worts und deren zweiter Index durch die Phoneme des Worts gegeben ist,
- c) als Einträge der Matrix werden die zu dem jeweiligen Pho nem-Graphem-Paar gehörenden, im ersten Schritt bestimmten, relativen Häufigkeiten gewählt,
- d) in einem dritten Schritt wird jeder Matrixeintrag mit ei ner mathematischen Operation mit dem Extremalwert der fol genden drei vorhergehenden Matrixeinträge verknüpft:
- - dem Eintrag für dasselbe Phonem und das vorhergehende Graphem im Wort,
- - dem Eintrag für das vorhergehende Phonem und dasselbe Graphem im Wort und
- - dem Eintrag für das vorhergehende Phonem und das vor hergehende Graphem im Wort,
- a) bei der mathematischen Operation wird mit dem ersten Gra phem und dem ersten Phonem des Worts begonnen, wobei bei der Bestimmung der Extremalwerte die sich jeweils aus den mathematischen Operationen ergebenden geänderten Einträge der Matrix herangezogen werden,
- b) durch das Bestimmen, welcher der drei vorhergehenden Mat rixeinträge eines Matrixeintrags extremal war, wird eine Schrittrichtung für diesen Matrixeintrag ermittelt,
- c) in einem vierten Schritt wird ausgehend vom Matrixeintrag für das letzte Phonem und das letzte Graphem jeweils die für den Matrixeintrag ermittelte Schrittrichtung entlang ein Weg durch die Matrix definiert bis zum Matrixeintrag für das erste Phonem und das erste Graphem,
- d) die zu dem Weg gehörenden Matrixelemente definieren die Zuordnung von Graphemen zu Phonemen des Worts.
3. Verfahren nach mindestens einem der vorhergehenden Ansprü
che,
dadurch gekennzeichnet,
dass die relativen Häufigkeiten im ersten Schritt dadurch er
mittelt werden, dass Wörter aus dem Lexikon gewählt werden,
bei denen die Anzahl der Grapheme und die Anzahl der Phoneme
übereinstimmen, und dass bei diesen Wörtern die Grapheme und
Phoneme in der Reihenfolge der Angabe ihrer Grapheme und Pho
neme im Lexikon einander zugeordnet werden.
4. Verfahren nach mindestens einem der vorhergehenden Ansprü
che,
dadurch gekennzeichnet,
dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen
gemäß dem Verfahren nach Anspruch 1 für jedes Wort des Lexi
kons, aus diesen Zuordnungen die positionsabhängige relative
Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder
mehr Grapheme erzeugt wird oder zwei oder mehr Phoneme durch
ein Graphem erzeugt werden oder zwei oder mehr Grapheme einem
Phonem zugeordnet werden oder ein Graphem zwei oder mehr Pho
nemen zugeordnet wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet,
dass die Zuordnung von Graphemen zu Phonemen innerhalb eines
Worts gemäß Anspruch 1 mit Hilfe der positionsabhängigen re
lativen Häufigkeiten korrigiert werden.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet,
dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen gemäß dem Verfahren nach Anspruch 3 für jedes Wort des Lexi kons, aus diesen korrigierten Zuordnungen die positionsabhän gige relative Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei oder mehr Phoneme durch ein Graphem erzeugt werden; und
dass in Anspruch 3 anschließend die neu berechneten relativen Häufigkeiten verwendet werden.
dass, nach Ausführen der Zuordnung von Graphemen zu Phonemen gemäß dem Verfahren nach Anspruch 3 für jedes Wort des Lexi kons, aus diesen korrigierten Zuordnungen die positionsabhän gige relative Häufigkeit ermittelt wird, mit der ein Phonem durch zwei oder mehr Grapheme erzeugt wird bzw. zwei oder mehr Phoneme durch ein Graphem erzeugt werden; und
dass in Anspruch 3 anschließend die neu berechneten relativen Häufigkeiten verwendet werden.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet,
dass zum Bestimmen der relativen Häufigkeiten nur solche Zu
ordnungen berücksichtigt werden, bei denen der Matrixeintrag
für das letzte Phonem und das letzte Graphem nach Ausführen
der Multiplikationen einen vorgegebenen Schwellwert über
schreitet.
8. Verfahren nach mindestens einem der vorhergehenden Ansprü
che,
dadurch gekennzeichnet,
dass der Matrixeintrag für das erste Phonem und das erste Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das letzte Phonem und das letzte Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das erste Phonem und das letzte Graphem jedes Worts auf 0 gesetzt wird; und
dass der Matrixeintrag für das letzte Phonem und das erste Graphem jedes Worts auf 0 gesetzt wird.
dass der Matrixeintrag für das erste Phonem und das erste Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das letzte Phonem und das letzte Graphem jedes Worts auf 1 gesetzt wird;
dass der Matrixeintrag für das erste Phonem und das letzte Graphem jedes Worts auf 0 gesetzt wird; und
dass der Matrixeintrag für das letzte Phonem und das erste Graphem jedes Worts auf 0 gesetzt wird.
9. Verfahren nach mindestens einem der vorhergehenden Ansprü
che,
dadurch gekennzeichnet,
dass, falls bei der Bestimmung des Maximalwerts der drei vor
hergehenden Matrixeinträge der Matrixeintrag für das vorher
gehende Phonem und das vorhergehende Graphem im Wort und ei
ner der anderen beiden Einträge gleich groß sind, der Matrix
eintrag für das vorhergehende Phonem und das vorhergehende
Graphem im Wort als maximal betrachtet wird.
10. Computerprogrammprodukt, das durch einen Computer aus
führbar ist und dabei die Schritte nach einem der Ansprüche 1
bis 9 ausführt.
11. Computerprogrammprodukt, das auf einem computergeeigneten
Medium gespeichert ist und computerlesbare Programmmittel um
fasst, die es einem Computer ermöglichen, das Verfahren nach
einem der Ansprüche 1 bis 9 auszuführen.
12. Datenträger, auf dem ein Computerprogramm gespeichert
ist, das es einem Computer ermöglicht, durch einen Ladepro
zess das Verfahren nach einem der Ansprüche 1 bis 9 auszufüh
ren.
13. Computersystem zum Zuordnen von Phonemen zu den sie er
zeugenden Graphemen in einem Lexikon mit Wörtern (Graphemfol
gen) und deren zugehöriger Lautschrift (Phonemfolgen)
mit einer Speichereinrichtung (22, 30) zum Speichern eines Computerprogramms auf einem Speichermedium;
mit einer Verarbeitungseinheit (20) zum Laden des Computer programms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Durchführen der Zuordnung mit Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW, Dynamic Time Warping).
mit einer Speichereinrichtung (22, 30) zum Speichern eines Computerprogramms auf einem Speichermedium;
mit einer Verarbeitungseinheit (20) zum Laden des Computer programms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Durchführen der Zuordnung mit Hilfe eines Algorithmus der dynamischen Zeitanpassung (DTW, Dynamic Time Warping).
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042943A DE10042943C2 (de) | 2000-08-31 | 2000-08-31 | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
DE50106180T DE50106180D1 (de) | 2000-08-31 | 2001-08-22 | Graphem-Phonem-Zuordnung |
EP01120155A EP1187095B1 (de) | 2000-08-31 | 2001-08-22 | Graphem-Phonem-Zuordnung |
US09/943,091 US7171362B2 (en) | 2000-08-31 | 2001-08-31 | Assignment of phonemes to the graphemes producing them |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042943A DE10042943C2 (de) | 2000-08-31 | 2000-08-31 | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10042943A1 true DE10042943A1 (de) | 2002-03-14 |
DE10042943C2 DE10042943C2 (de) | 2003-03-06 |
Family
ID=7654522
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10042943A Expired - Fee Related DE10042943C2 (de) | 2000-08-31 | 2000-08-31 | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
DE50106180T Expired - Lifetime DE50106180D1 (de) | 2000-08-31 | 2001-08-22 | Graphem-Phonem-Zuordnung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50106180T Expired - Lifetime DE50106180D1 (de) | 2000-08-31 | 2001-08-22 | Graphem-Phonem-Zuordnung |
Country Status (3)
Country | Link |
---|---|
US (1) | US7171362B2 (de) |
EP (1) | EP1187095B1 (de) |
DE (2) | DE10042943C2 (de) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
JP2004303148A (ja) * | 2003-04-01 | 2004-10-28 | Canon Inc | 情報処理装置 |
EP1618556A1 (de) * | 2003-04-30 | 2006-01-25 | Loquendo S.p.A. | Verfahren zur graphem-phonem zuordnung und system zur erzeugung eines regelsatzes |
FR2864281A1 (fr) * | 2003-12-18 | 2005-06-24 | France Telecom | Procede de correspondance automatique entre des elements graphiques et elements phonetiques |
EP1669886A1 (de) * | 2004-12-08 | 2006-06-14 | France Telecom | Konstruktion eines Automaten, der Regeln zur Transkription von Graphem/Phonem für einen Phonetisierer kompiliert |
US8255216B2 (en) * | 2006-10-30 | 2012-08-28 | Nuance Communications, Inc. | Speech recognition of character sequences |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
DE102012202407B4 (de) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle |
DE102012202391A1 (de) * | 2012-02-16 | 2013-08-22 | Continental Automotive Gmbh | Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen |
US9728185B2 (en) * | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
US10275704B2 (en) * | 2014-06-06 | 2019-04-30 | Google Llc | Generating representations of input sequences using neural networks |
US10387543B2 (en) * | 2015-10-15 | 2019-08-20 | Vkidz, Inc. | Phoneme-to-grapheme mapping systems and methods |
US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US10102189B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US9910836B2 (en) * | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4384273A (en) * | 1981-03-20 | 1983-05-17 | Bell Telephone Laboratories, Incorporated | Time warp signal recognition processor for matching signal patterns |
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
DE69420955T2 (de) * | 1993-03-26 | 2000-07-13 | British Telecommunications P.L.C., London | Umwandlung von text in signalformen |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076059A (en) * | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
KR100277694B1 (ko) * | 1998-11-11 | 2001-01-15 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
-
2000
- 2000-08-31 DE DE10042943A patent/DE10042943C2/de not_active Expired - Fee Related
-
2001
- 2001-08-22 EP EP01120155A patent/EP1187095B1/de not_active Expired - Lifetime
- 2001-08-22 DE DE50106180T patent/DE50106180D1/de not_active Expired - Lifetime
- 2001-08-31 US US09/943,091 patent/US7171362B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4384273A (en) * | 1981-03-20 | 1983-05-17 | Bell Telephone Laboratories, Incorporated | Time warp signal recognition processor for matching signal patterns |
DE69420955T2 (de) * | 1993-03-26 | 2000-07-13 | British Telecommunications P.L.C., London | Umwandlung von text in signalformen |
US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
Also Published As
Publication number | Publication date |
---|---|
DE10042943C2 (de) | 2003-03-06 |
DE50106180D1 (de) | 2005-06-16 |
EP1187095A2 (de) | 2002-03-13 |
US20020049591A1 (en) | 2002-04-25 |
EP1187095B1 (de) | 2005-05-11 |
US7171362B2 (en) | 2007-01-30 |
EP1187095A3 (de) | 2003-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10042943C2 (de) | Zuordnen von Phonemen zu den sie erzeugenden Graphemen | |
DE60302407T2 (de) | Umgebungs- und sprecheradaptierte Spracherkennung | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE60010106T2 (de) | Verfahren und vorrichtung zum unterscheidenden training von akustischen modellen in einem spracherkennungssystem | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69330427T2 (de) | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern | |
AT390685B (de) | System zur textverarbeitung | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE102008017993A1 (de) | Sprachsuchvorrichtung | |
EP0618566A1 (de) | Geräuschreduktion zur Spracherkennung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
DE602005000308T2 (de) | Vorrichtung für sprachgesteuerte Anwendungen | |
DE4010028A1 (de) | Spracherkennungsverfahren | |
DE102010040553A1 (de) | Spracherkennungsverfahren | |
DE102004017486A1 (de) | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal | |
EP1039447B1 (de) | Bestimmung einer Regressionsklassen-Baumstruktur für einen Spracherkenner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |