DE19825205A1 - Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz - Google Patents
Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen NetzInfo
- Publication number
- DE19825205A1 DE19825205A1 DE19825205A DE19825205A DE19825205A1 DE 19825205 A1 DE19825205 A1 DE 19825205A1 DE 19825205 A DE19825205 A DE 19825205A DE 19825205 A DE19825205 A DE 19825205A DE 19825205 A1 DE19825205 A1 DE 19825205A1
- Authority
- DE
- Germany
- Prior art keywords
- lexical
- neural network
- sounds
- postlexical
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 172
- 238000000034 method Methods 0.000 title claims description 26
- 238000012549 training Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 19
- 230000001537 neural effect Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 238000013518 transcription Methods 0.000 description 8
- 230000035897 transcription Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 241000408659 Darpa Species 0.000 description 1
- 240000008415 Lactuca sativa Species 0.000 description 1
- 235000009037 Panicum miliaceum subsp. ruderale Nutrition 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 244000022185 broomcorn panic Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 235000012045 salad Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Description
Die vorliegende Erfindung bezieht sich auf das Erzeugen von
postlexikalischen Aussprachen aus lexikalischen Aussprachen mit
besonderer Anwendung im Bereich der Spracherzeugung.
Wie in Fig. 1, Ziffer 100 gezeigt, erfordert die Erzeugung
von Sprache aus Text die Umwandlung eines geschriebenen oder
gedruckten Textes (102) in gesprochene Sprache (110). Es ist
viel günstiger, aus Text erzeugte Sprache auszugeben als Sprache
aufzunehmen und wieder abzuspielen. Die Erzeugung von Sprache
wird oft dann verwendet, wenn der Text voraussichtlich oft vari
iert und er vorher nicht ohne weiteres aufgenommen werden kann.
Bei einer Sprache wie Englisch, bei der die Aussprache ei
nes Wortes oft nicht klar aus der Schreibweise der Wörter er
sichtlich ist, ist es wichtig, die Schreibweise (102) in einem
sprachlichen Modul (104) in eindeutige phonetische Darstellungen
(106) umzuwandeln, bevor die Schreibweise an ein akustisches
Modul (108) zur Erzeugung von Sprachsignalverläufen (110) wei
tergeleitet werden. Um eine phonetische Darstellung einer
Schreibweise zu erzeugen, kann ein auf Regeln basierendes Sy
stem, können Aussprachewörterbücher oder auf solche Aussprache
wörterbücher trainierte automatische Verfahren zur Umwandlung
der Schreibweise in Aussprache verwendet werden.
Aussprachelexika und daher auch auf Aussprachelexika trai
nierte automatische Verfahren verwenden lexikalische Ausspra
chen. Lexikalische Aussprachen sind unterspezifizierte, verall
gemeinerte Aussprachen, die veränderte postlexikalische Ausspra
chen in natürlicher Sprache ergeben können aber nicht müssen.
Zum Beispiel kann das englische Wort "foot" in einem Aussprache
wörterbuch als /fuht/ aufgeführt werden. Aussprachen werden in
der TIMIT- (Texas Instrument-Massachusetts Institut of Technolo
gie-) Notation angegeben, die in "The Structure and Format of
the DARPA TIMIT CD-ROM Prototype" von John S. Garofolo beschrie
ben wird. In natürlicher Sprache könnte das letzte /t/ als [t]
auftauchen, wenn zum Beispiel foot einen Satz beendet, oder als
flap [dx], wenn foot vor einem anderen Wort kommt, das im selben
Satz mit einem Vokal beginnt, wie in "my foot is . . .".
Wörterbüchern statt der lexikalischen Aussprache postlexi
kalische Aussprachen hinzuzufügen, ist aus zwei Gründen keine
brauchbare Lösung dieses Problems. Der erste Grund ist, daß die
Aussprachewörterbücher sich dramatisch vergrößern würden. Der
zweite Grund ist, daß Aussprachewörterbücher verwendet werden,
um die Aussprachen für isolierter Worte zu bestimmen, während
die postlexikalischen Phänomene bei Worten in Sätzen auftreten.
Wenn daher ein Lexikon verwendet wird, kann die Information zum
Bestimmen der geeigneten postlexikalischen Aussprache genügen,
sie muß aber nicht.
In neuronalen Netzen und anderen von Daten gesteuerten Ver
fahren zur Spracherzeugung wird ein Lernverfahren verwendet, um
zu lernen, wie aus phonetischer Information spektrale Sprachin
formationen erzeugt wird. Auf diese Art werden die akustischen
Parameter des neuronalen Netzes trainiert. Dabei werden Sprach
signalverläufe mit phonetischen Informationen gekennzeichnet,
und dann wird zum Beispiel ein neuronales Netz oder ein anderes
von Daten gesteuertes System trainiert, um die spektralen Cha
rakteristiken zu lernen, die mit den Zeitabschnitten verbunden
sind, die mit den bestimmten Lauten markiert wurden.
Wenn das neuronale Netzsystem tatsächlich eingesetzt wird,
muß das neuronale Netz geeignete spektrale Informationen aus
bestimmten phonetischen Information erzeugen. Wie oben erwähnt,
werden die phonetische Information aus einem Text mittels eines
Schreibweise-Phonetik-Lexikons oder mit einem automatischem Ver
fahren, das mit solch einem Lexikon trainiert wurde, abgeleitet.
Da von Daten gesteuerte Verfahren zur Erzeugung von Sprache
Testdaten erzeugen sollen, die den Trainingsdaten entsprechen
und die damit natürlicher Sprache ähneln, ist es ist wichtig,
daß die in der Testphase entwickelten phonetischen Darstellungen
im wesentlichen zu jenen passen, die in die Trainingsphase ver
wendet wurden. So ist sichergestellt, daß die höchste Zuverläs
sigkeit erreicht wird.
Leider sind zwischen den in Wörterbüchern gefundenen lexi
kalischen Aussprachen und den Aussprachen, die verwendet werden,
um Sprache zu kennzeichnen, immer Abweichungen möglich. Diese
Abweichungen können mindestens vier verschiedene Ursachen haben:
Eigenarten des Sprechers, Eigenarten des Wörterbuchs, Eigenarten
der Markierung und Unterschiede zwischen lexikalischen und post
lexikalischen Aussprachen.
Während auf Regeln basierende Ansätze zum Erzeugen postle
xikalischer Aussprachen aus lexikalischen Aussprachen für eine
bestimmte Sprache erfolgreich sein könnten, werden auf Regeln
basierende Ansätze nicht in der Lage sein, automatisch gleich
zeitig Eigenarten des Wörterbuchs und der Markierung zu behan
deln. Das heißt, für jede mögliche Kombination von Sprecher,
Markierung und Wörterbuch müßte eine neue Regelgruppe entwickelt
werden, was zu einer sehr komplexen Situation führen würde.
Es besteht daher ein Bedarf nach einem automatischen Ver
fahren zum Erzeugen von postlexikalischen Aussprachen aus lexi
kalischen Aussprachen, bei dem die synthetische Sprache natürli
cher klingt und der Aufwand und die Zeit, die nötig sind, ein
System zur Erzeugung von Sprache mit hoher Qualität zu entwic
keln, verringert wird. Es wird ein Verfahren, eine Vorrichtung
und ein Erzeugnis zum auf einem neuronalen Netz basierenden Er
zeugen von postlexikalischen Aussprachen aus lexikalischen Aus
sprachen benötigt.
Fig. 1 ist eine schematische Darstellung einer in der
Technik bekannten Umwandlung eines Texts in Sprache.
Fig. 2 ist eine schematische Darstellung einer Ausfüh
rungsform des zum Training des Lexikalisch-Postlexikalisch-
Wandlers mit neuronalem Netz von verwendeten Trainingsverfahrens
entsprechend der vorliegenden Erfindung.
Fig. 3 ist eine schematische Darstellung einer Ausfüh
rungsform der Umwandlung von Text in Sprache, die den Lexika
lisch-Postlexikalisch-Wandler mit neuronalem Netz entsprechend
der vorliegenden Erfindung verwendet.
Fig. 4 ist eine schematische Darstellung einer postlexika
lisch markierten Sprachdatenbank entsprechend der vorliegenden
Erfindung.
Fig. 5 ist eine schematische Darstellung einer Ausfüh
rungsform des Betriebs des Lexikalisch-Postlexikalisch-Wandlers
mit neuronalem Netz entsprechend der vorliegenden Erfindung.
Fig. 6 ist eine schematische Darstellung der Ausrichtung
einer lexikalischen Aussprache und einer postlexikalischen Aus
sprache, wobei entsprechend der vorliegenden Erfindung die Zahl
der Laute in der lexikalischen Aussprache gleich der Zahl der
Laute in der postlexikalischen Aussprache ist.
Fig. 7 ist eine schematische Darstellung der Ausrichtung
einer lexikalischen Aussprache und einer postlexikalischen Aus
sprache, wobei entsprechend der vorliegenden Erfindung die Zahl
der Laute in der lexikalischen Aussprache größer als die Zahl
der Laute in der postlexikalischen Aussprache ist.
Fig. 8 ist eine schematische Darstellung der Ausrichtung
einer lexikalischen Aussprache und einer postlexikalischen Aus
sprache, wobei die postlexikalische Aussprache entsprechend der
vorliegenden Erfindung einen zusammengezogenen Laut verwendet.
Fig. 9 ist eine schematische Darstellung einer Ausfüh
rungsform der zum Testen verwendeten Architektur eines neurona
len Lexikalisch-Postlexikalisch-Netzes entsprechend der vorlie
genden Erfindung.
Fig. 10 ist eine schematische Darstellung der Kodierung
von Folge 1 aus Fig. 15 und Folge 2 aus Fig. 15 zum Trainieren
des neuronalen Lexikalisch-Postlexikalisch-Netzes entsprechend
der vorliegenden Erfindung.
Fig. 11 ist eine schematische Darstellung der Kodierung
der Folge 3 aus Fig. 15 zum Trainieren und Testen des neurona
len Lexikalisch-Postlexikalisch-Netzes entsprechend der vorlie
genden Erfindung
Fig. 12 ist eine schematische Darstellung der Dekodierung
von Folge 1 aus Fig. 15 zum Testen des neuronalen Lexikalisch-
Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 13 ist eine schematische Darstellung der Kodierung
der Folge 2 aus Fig. 9 zum Testen des neuronalen Lexikalisch-
Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 14 ist eine schematische Darstellung eines gleitenden
Fensters zum Training des neuronalen Lexikalisch-Postlexika
lisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 15 ist eine schematische Darstellung einer Ausfüh
rungsform der Architektur des neuronalen Lexikalisch-
Postlexikalisch-Netzes zum Training entsprechend der vorliegen
den Erfindung.
Fig. 16 ist eine schematische Darstellung einer Ausfüh
rungsform des neuronalen Lexikalisch-Postlexikalisch-Netzes, das
die Anzahl der verwendeten PE entsprechend der vorliegenden Er
findung darstellt.
Fig. 17 ist eine schematische Darstellung, die das eukli
dische Fehlermaß mit dem entsprechend der vorliegenden Erfindung
verwendeten merkmalsgerichteten Fehlermaß vergleicht.
Fig. 18 ist eine schematische Darstellung der in der Tech
nik bekannten Berechnung des euklidischen Fehlermaßes.
Fig. 19 ist eine schematische Darstellung der Berechnung
des merkmalsgerichteten Fehlermaßes entsprechend der vorliegen
den Erfindung.
Fig. 20 ist ein Flußdiagramm einer Ausführungsform der
Schritte zum Bestimmen lexikalischer Information aus Text und
zum Erzeugen einer postlexikalischen Aussprache entsprechend der
vorliegenden Erfindung.
Fig. 21 ist ein Flußdiagramm einer Ausführungsform der
Schritte zum Umwandeln lexikalischer Aussprache in postlexikali
sche Aussprache mit einem neuronalen Netz entsprechend der vor
liegenden Erfindung.
Fig. 22 ist eine schematische Darstellung eines Mikropro
zessors/einer anwendungsspezifischen integrierten Schaltung/einer
Kombination aus einem Mikroprozessor und einer anwendungs
spezifischen integrierten Schaltung zum Erzeugen postlexikali
scher Aussprachen aus lexikalischen Aussprachen entsprechend der
vorliegenden Erfindung.
Fig. 23 ist eine schematische Darstellung eines Erzeugnis
ses zum Erzeugen postlexikalischer Aussprachen aus lexikalischen
Aussprachen entsprechend der vorliegenden Erfindung.
Die vorliegende Erfindung liefert ein Verfahren, eine Vor
richtung und ein Erzeugnis zum automatischen Umwandeln lexikali
scher Aussprache in postlexikalische Aussprache mit Hilfe eines
neuronalen Netzes, das mittels einer Sprachdatenbank trainiert
wurde, in der die postlexikalische Ebene mit lexikalischen, aus
einem Aussprachelexikon abgeleiteten Wortaussprachen markiert
wurde. Das Training ergibt ein neuronales Netz mit Gewichtsfak
toren, die die Übergangsfunktionen darstellen, die benötigt wer
den, um die postlexikalischen Aussprachen aus den lexikalischen
Aussprachen zu erzeugen. Fig. 2, Ziffer 200 stellt das Trai
ningsverfahren für das neuronale Netz dar, während Fig. 3, Zif
fer 300, darstellt, wie der lexikalisch-postlexikalisch-Wandler
mit dem trainierten neuronalen Netz 312 in einer bevorzugten
Ausführungsform in das Sprachmodul eines Sprachgenerators einge
fügt wird. Mit dem Verfahren, der Vorrichtung und dem Erzeugnis
zur Erzeugung von postlexikalischen Aussprachen aus lexikali
schen Aussprachen mit einem neuronalen Netz können Systeme zur
Umwandlung von Text in Sprache besser natürliche Sprache erzeu
gen, als es sonst möglich wäre. Außerdem bietet die auf neurona
len Netzen basierende Erzeugung von postlexikalischen Ausspra
chen aus lexikalischen Aussprachen einen finanziellen Vorteil
gegenüber dem Stand der Technik, da das System automatisch trai
nierbar ist und an eine Sprache leicht angepaßt werden kann.
Die Tabelle 1 stellt die TIMIT-Laute, die bei lexikalischen
Aussprachen verwendet werden, zusammen mit typischen orthogra
phischen Wörtern, die den Klang der Laute verdeutlichen, dar.
Die Schriftzeichen in den Schreibweisen, die spezielle
TIMIT-Laute darstellen, sind fett. Lexikalische Aussprachen sind
in Querstriche // eingeschlossen. Tabelle 2 stellt die TIMIT
Laute dar, die bei postlexikalischer Aussprache verwendet wer
den. Postlexikalische Aussprachen sind in eckige Klammern []
eingeschlossen.
Es sollte beachtet werden, daß die Bedeutung eines Zeichens
davon abhängt, ob es als lexikalischer oder ein postlexikali
scher Laut interpretiert wird. Zum Beispiel verweist [t] auf der
postlexikalischen Ebene auf die Verschlußöffnung eines t, wäh
rend auf der lexikalischen Ebene sich /t/ auf einen Verschluß
und ein Öffnen beziehen kann.
Um ein neuronales Netz auf das Erlernen des Umsetzens von
lexikalisch nach postlexikalisch zu trainieren, wird eine post
lexikalisch markierte Sprachdatenbank, Ziffer 202 in Fig. 2,
verwendet. Fig. 4, Ziffer 400 zeigt einen Auszug aus solch ei
ner postlexikalisch markierten Sprachdatenbank.
Um die markierte Sprachdatenbank zu bilden, werden norma
lerweise mehrere hundert Sätze in amerikanischem Englisch von
einer Person aufgezeichnet. Mit den Aufnahmen wird versucht, die
meisten Lautkombinationen hervorzurufen, die es im Englischen
gibt. Die Aufnahmen werden digitalisiert und von den verwendeten
Spracheanalyseprogrammen graphisch dargestellt. Fig. 4 zeigt
einen Signalverlauf (402), der sich bei der Digitalisierung und
der Analyse eines kurzen Auszugs aus der Sprachdatenbank ergibt.
Die Sprache wird mit einem dreistufigen Bezeichnungssystem no
tiert. Auf der ersten Stufe, der orthographischen Stufe (406),
ist die Sprache in Worteinheiten unterteilt, wobei die Enden
jedes Wortes zu einem speziellen Zeitpunkt im Verlauf der Äuße
rung gehören. Jedes Wortende ist mit einer orthographischen
Transkription des Wortes verbunden. Auf der zweiten Stufe, der
Lautstufe (408), wird die Sprache in Lauteinheiten unterteilt,
wobei die Enden jeden Lautes zu dem speziellen Zeitpunkt im Ver
lauf der Äußerung gehören. Jedes Lautende wird mit Hilfe der in
Tabelle 2 gezeigten postlexikalischen TIMIT-Laute mit einer
Transkription des Lautes verbunden. Auf der dritte Stufe, der
Begrenzungsstufe (410), werden die Enden von Silben, Wörtern,
Ausdrücken, Satzteilen und Sätzen mit ihren speziellen Zeitpunk
ten im Verlauf der Äußerung verbunden. Jede dieser Begrenzungen
wird mit einem der in Tabelle 3 gezeigten Begrenzungszeichen
aufgelistet.
Um die mit den orthographischen Wörtern in der ersten mar
kierten Stufe (406) der Sprachdatenbank verbundenen lexikali
schen Aussprachen zu bestimmen, wird ein Wörterbuch von Schreib
weise und lexikalischer Aussprache benötigt. Tabelle 4 zeigt
einen Auszug aus einem Wörterbuch von Schreibweise zu lexikali
scher Aussprache.
Das Wörterbuch speichert paarweise die Schreibweise mit der
zugehörigen Aussprache. Im Wörterbuch werden die Aussprachen mit
den in Tabelle 1 gezeigten TIMIT-Laute für die lexikalische Aus
sprache dargestellt.
Um die postlexikalische Aussprache in der markierten
Sprachdatenbank (Fig. 4) mit der lexikalischen Aussprache in
der Wörterbuchdatenbank (Tabelle 4) zu verbinden, wird eine Da
tenbankverknüpfung zwischen den zwei Datenbanken eingefügt, wo
bei die orthographische Darstellung der Wörter als Verknüpfungs
bereich dient, da beide Datenbanken orthographische Information
enthalten. Das Ergebnis der Verknüpfung ist eine Tabelle, die
für alle Wörter in der aufgezeichneten Datenbank orthographi
sche, lexikalische und postlexikalische Information enthält.
Diese Information ist wie in Tabelle 5 gezeigt organisiert, wo
bei Laut- und Begrenzungsinformation eingeschoben sind, während
sie die Reihenfolge, in der die Wörter in die Datenbank aufge
nommen wurden, bewahrt.
Die Begrenzungsinformation wird in der dritten Stufe der
markierten Sprachdatenbank wie in Tabelle 5 gezeigt genau wie
die Schreibweise, die lexikalische und die postlexikalische Aus
sprache aufgelistet.
Das neuronale Netz wird mit einer numerisch kodierten Form
der in Tabelle 5 gezeigten Datenbank trainiert, die Schreibwei
se, lexikalische und postlexikalische Aussprache verbindet.
Die zum Trainieren eingegebene Kodierung besteht aus den
folgenden Bestandteilen: der Ausrichtung (alignment) der lexika
lischen und der postlexikalischen Laute, der Extraktion der le
xikalischen Lautmerkmale, der Extraktion der Begrenzungsabstand
sinformationen, der Extraktion der Grenznachbarschaftsinforma
tionen, der Umwandlung der Eingabelaute in Zahlen und dem Laden
der Eingabe in ein gleitendes Fenster. Die Eingabekodierung zum
Trainieren erfordert die Erzeugung von fünf Eingabefolgen für
den Simulator des neuronalen Netzes: Folge 1 enthält postlexika
lische Laute einschließlich der Trennzeichen zur Ausrichtung.
Folge 2 enthält die lexikalischen Laute. Folge 3 enthält die mit
den lexikalischen Lauten verbundenen Merkmale. Folge 4 enthält
die Begrenzungsabstandsinformationen und Folge 5 enthält die
Grenznachbarschaftsinformationen.
Die Ausrichtung der Laute ist notwendig, damit das neurona
le Netz erkennen kann, welcher lexikalische Laut welchem postle
xikalischen Laut entspricht. Die Ausrichtung der Laute bedeutet,
daß spezielle lexikalische Laute in der Abfolge der Position mit
bestimmten postlexikalischen Lauten verbunden werden.
Fig. 6, Ziffer 600 veranschaulicht die Ausrichtung lexika
lischer und postlexikalischer Laute in einem Wort, wobei die
Anzahl lexikalischer und postlexikalischer Laute gleich ist.
Fig. 7, Ziffer 700 veranschaulicht die Ausrichtung lexika
lischer und postlexikalischer Laute in einem Wort, wobei die
Anzahl lexikalischer Laute die Anzahl postlexikalischer Laute
übersteigt. In diesem Fall wurde das letzte /d/ fortgelassen,
wenn dieses Merkmal des Wortes geäußert wurde. Dieses Löschen
wird auf der postlexikalischen Stufe mit einem Ausrich
tungstrennzeichen '+' gegenüber dem /d/ auf der lexikalischen
Stufe markiert.
Da die postlexikalischen Laute letztlich die Ausgabe des
Umwandlungsverfahrens von lexikalisch in postlexikalisch sind,
werden die Trennzeichen zur Ausrichtung vor der Ausgabe ge
löscht. Trennzeichen zur Ausrichtung sind auf der lexikalischen
Lautstufe nicht zulässig. Der Grund dafür ist, daß während des
Betriebs des Lexikalisch-Postlexikalisch-Wandlers Trennzeichen
zur Ausrichtung in die eingegebenen lexikalischen Laute einge
fügt werden müßten, wofür es jedoch kein grundsätzliches Verfah
ren gäbe.
Oft enthalten postlexikalische Aussprachen weniger Laute
als lexikalische Aussprachen. Dies rührt daher, weil Löschungen
und Reduktionen bei Sprachen übliche postlexikalische Phänomene
sind, und solche Phänomene können durch das Entfernen der Laute
aus der Transkriptionen beschrieben werden. In diesen Fällen
können Trennzeichen zur Ausrichtung in die postlexikalische
Transkription eingefügt werden, wo eigentlich lexikalische Laute
stünden, wären sie nicht gelöscht worden.
In manchen Fällen verwenden postlexikalische Transkriptio
nen mehr Laute als die entsprechenden lexikalischen Transkrip
tionen. Dies rührt daher, daß postlexikalische Transkriptionen
zusätzliche Einzelheiten umfassen. Zum Beispiel umfassen postle
xikalische Transkriptionen Verschluß- und Öffnungsinformation
für Verschlußlaute mit einem Grad an Genauigkeit, der bei lexi
kalischen Transkriptionen nicht angegeben wird.
Fig. 8, Ziffer 800 ist ein Beispiel für die Ausrichtung
einer postlexikalischen Aussprache mit mehr Lauten als die zuge
hörige lexikalische Aussprache. Das Problem wird durch ein Zu
sammenziehen von bestimmten Kombinationen postlexikalischer Lau
te zu einem einzigen Zeichen gelöst. In Fig. 8 ist die postle
xikalische Kombination bcl+b durch einen zusammengezogenen Laut
b ersetzt.
Tabelle 6 zeigt die postlexikalischen Kombinationen und die
zusammengezogenen Zeichen, durch die sie zur Ausrichtung und zur
Eingabekodierung ersetzt werden.
Die zusammengezogenen Laute erfassen die Tatsache, daß die
zusammengezogenen postlexikalischen Laute mit gerade einem lexi
kalischen Laut verbunden werden, wodurch das neuronale Netz für
jedes Lautfenster eine bessere Wahl treffen kann.
Es wurde eine neue Variation des in der Technik bekannten
dynamischen Programmieralgorithmus verwendet, um lexikalische
und postlexikalische Aussprachen auszurichten. Die Version der
in der Technik bekannten dynamischen Programmierung wird in be
zug auf das Ausrichten von Wörtern, die dasselbe Alphabet ver
wenden, beschrieben. Das Einfügen, das Löschen und das Ersetzen
von Zeichen bedeutet Aufwand. Ersetzungen erfordern nur dann
keinen Aufwand, wenn in jeder Folge dasselbe Zeichen auf dersel
ben Position steht.
Um Folgen aus verschiedenen Alphabeten wie etwa der postle
xikalischen Laute und der lexikalischen Laute auszurichten, wur
de ein neues Verfahren für das Berechnen des Ersetzungsaufwands
entworfen.
Zu beachten ist, daß die in Tabelle 1 und Tabelle 2 gezeig
ten, lexikalischen und postlexikalischen Lautzeichengruppen,
nicht sehr verschieden sind. Aber außer bei einigen Zeichen, die
ausschließlich zu der einen oder der anderen Symbolgruppe gehö
ren, ist in den beiden Alphabeten die Bedeutung einiger Symbole
tatsächlich anders. Der lexikalische Laut /b/ kann beispielswei
se ein /b/ anzeigen, das mit oder ohne Öffnen artikuliert wird,
wohingegen der postlexikalische Laut [b] nur das Öffnen von b
anzeigt.
Es wurde eine kundenspezifisch angefertigte Tabelle ange
legt, die die Wahrscheinlichkeit darstellt, mit der jeder lexi
kalische Laut gegenüber jedem postlexikalischen Laut ausgerich
tet wird. Tabelle 7 veranschaulicht die Tabelle für den Aufwand
bei lexikalisch-postlexikalischen Lauten für amerikanisches Eng
lisch.
Während mancher Aufwand Beziehungen widerspiegelt, die für
alle Sprachen gelten, gilt dies manchmal nur für amerikanisches
Englisch. Für Ersetzungen, die nicht von Tabelle 7 abgedeckt
sind, für Einfügungen und für Löschen wird der in der Technik
der Spracherkennungsbewertung gängige Aufwand angesetzt: Einfü
gung entspricht 3, Löschen 3 und Ersetzung 4.
In Bezug auf Tabelle 7 sollte der Aufwand beim Zulassen ei
ner besonderen Entsprechung geringer sein als der feste Aufwand
beim Einfügen oder Löschen, anderenfalls sollte er größer sein.
Je wahrscheinlicher es ist, daß ein vorgegebener Laut und ein
Schriftzeichen in einer besonderen Position einander entspre
chen, desto niedriger ist der Aufwand, den Laut und das Schrift
zeichen zu ersetzen.
Fig. 10, Ziffer 1000 veranschaulicht die Kodierung der
Folgen 1 (1008) und 2 (1010) in die zum Trainieren kodierte Ein
gabe des neuronalen Netzes. Eine eingegebene lexikalische Aus
sprache (1002) /aend/ und eine eingegebene postlexikalische Aus
sprache (1004) [aen] werden einem Ausrichtungsverfahren unter
worfen. Das Ausrichtungsverfahren setzt in die postlexikalische
Aussprache ein Trennzeichen '+' zur Ausrichtung ein, was
[aen+] (1006) ergibt. Der numerische Code für '+' ist 60. Die
postlexikalische Aussprache (1006) mit den Trennzeichen zur Aus
richtung wird gemäß Tabelle 2 in Zahlen umgewandelt und für die
Folge 1 in einen Speicherpuffer (1008) geladen. Die lexikalische
Aussprache wird gemäß Tabelle 1 in Zahlen umgewandelt und für
Folge 2 in einen Speicherpuffer (1010) geladen.
Die Fig. 11, Ziffer 1100 veranschaulicht die Kodierung der
Folge 3 der zum Trainieren kodierten Eingabe in das neuronale
Netz. Jeder Laut der lexikalischen Aussprache ist mit seinen
akustischen und seinen Artikulationsmerkmalen verbunden.
Um dem neuronalen Netz mehr Informationen zu geben, mit de
nen es über die Trainingsmenge hinaus verallgemeinern kann, wer
den in der eingegebenen Kodierung für jeden Laut akustische und
Artikulationsmerkmale bereitgestellt. Akustische und Artikulati
onsmerkmale für phonetische Segmente sind ein in der Technik
verbreitetes Konzept. Jeder Laut kann dementsprechend durch meh
rere phonetische Merkmale beschrieben werden. Tabelle 8 stellt
die Merkmale dar, die mit jedem lexikalischen Laut verbunden
sind, die in dieser Ausführungsform verwendet werden. Für jeden
Laut kann ein Merkmal entweder aktiviert '+', deaktiviert '-'
oder unspezifiziert 'O' sein.
In Fig. 11 werden die Merkmale jedes Lautes von /aend/,
der /ae/ (1102) ist, /n/ (1104) und /d/ (1106) gemäß Tabelle 8
nachgeschlagen. Die aktivierten Merkmalen sind für jeden Laut in
(1108), (1112), und (1116) aufgeführt.
Die Merkmale für jeden lexikalischen Laut werden dann gemäß
der Merkmalszahltabelle nach Tabelle 9 in Zahlen umgewandelt.
Die numerischen Kodierungen dienen dann als Folge 3 für /ae/(1110),
/n/ (1114) und /d/ (1118).
Um dem neuronalen Netz zusätzliche Information bereitzu
stellen, auf die sich die ausgegebenen postlexikalischen Laut
vorschläge gründen sollen, die den lexikalischen Lauten und den
lexikalischen Lautmerkmalen entsprechen, wird eine Gruppe von
Abständen zu verschiedenen kritischen Begrenzungen in das Netz
eingegeben.
Es wurde nachgewiesen, daß postlexikalische Phänomene bei
Sprachen von Begrenzungen durch Silben, Worte, Ausdrücke, Satz
teile und Sätze beeinflußt werden. Um dem neuronalen Netz diese
Art der Information zur Verfügung zu stellen, werden Informatio
nen über die Begrenzung von der größten bis zur kleinsten der
folgenden sprachlichen Formen gegeben: Satz, Satzteil, Ausdruck,
Wort und Silbe. Für jede Form werden die folgenden Informatio
nen: 1/(Anzahl der Laute am Beginn der Form), 1/(Anzahl der Lau
te am Ende der Form) und 1/(Länge der Form in Lauten). Formen
dienen als Begrenzung für sich selbst und für alle kleineren
Formen. Das heißt, ein Satz begrenzt einen Satzteil, einen Aus
druck, ein Wort und die Silben bezüglich der Begrenzungsab
standsmaße. Die Tabelle 10 stellt die numerische Eingabe für die
Folge 4 der lexikalischen Eingabe: /dhiy seyl kaht axwey/ dar.
Damit das Netz Informationen bezüglich der Nachbarschaft zu
verschiedenen Begrenzungen bekommt, wird eine Gruppe von logi
schen Werten in das Netz eingegeben, wobei 1 = wahr und 0 =
falsch ist. Für alle Silben, Worte, Ausdrücke, Satzteile und
Sätze werden dem Netz die folgenden logischen Werte bereitge
stellt: ob der Laut auf der linken Seite an eine Begrenzung
grenzt und ob der Laut an eine Begrenzung auf der rechten Seite
grenzt. Für einen Laut, der auf der linken Seite an eine Begren
zung angrenzt, werden die logischen Werte aller kleineren Formen
für die linke Begrenzung wahr gesetzt. Für einen Laut, der auf
der rechten Seite an eine Begrenzung angrenzt, werden die logi
schen Werte aller kleineren Formen für die rechte Begrenzung
wahr gesetzt. Die Tabelle 11 stellt die numerische Eingabe für
die Folge 5 für die lexikalische Eingabe: /dhiy seyl kaht axwey/
dar.
Um dem neuronalen Netz zum Lernen ausreichende Informatio
nen über den Kontext zur Verfügung zu stellen, wird für die Le
xikalisch-Postlexikalisch-Umwandlung ein gleitendes Fenster von
neun Lauten verwendet, um dem Netz die Folgen 2 und 3 darzustel
len. In den Folgen 4 und 5 sind bereits Informationen über den
Kontext kodiert, so daß sie nicht mit ins Fenster aufgenommen
werden. Zwischen den Sätzen werden 10 in den Figuren als Block
markierte Auffüll-Stufen (PAD) eingefügt, damit die Daten von
verschiedenen Sätzen nicht im selben Fenster erscheinen.
Fig. 14, Ziffer 1400 zeigt, welche lexikalischen Laute für
jeden postlexikalischen Laut von einem Fenster angezeigt werden.
Die Fig. 15, Ziffer 1500 zeigt die Architektur des neuronalen
Netzes beim Trainieren. Von der Folge 2 (1502) werden 9 lexika
lische Eingabelaute, die die postlexikalischen Ausgabelaute von
Folge 1 (1504) umgeben, von der Eingangsstufe 2 (1506) an die
neuronale Netzstufe 6 (1508) weitergegeben. Wenn in Fig. 14 zum
Beispiel die Folge 1 aus dem postlexikalischen Laut [dh] (1402)
besteht wird ein Fenster (1404) mit neun Lauten, das aus PAD,
PAD, PAD, /dh/, /iyl/, ]w, /hh/ und /w/ besteht, von der Ein
gangsstufe 2 (1506) zur Eingangsstufe 6 (1508) weitergegeben.
Das gleitende Fenster zeigt nicht nur Details des Kontexts
an, es hindert das Netz auch daran, zu stark zu reagieren, wenn
es einen bestimmten Laut in einer bestimmten Wortposition er
kennt.
Das neuronale Netz erzeugt basierend auf den Eingangsvekto
ren, den Folgen 2, 3, 4 und 5 und den internen Übertragungsfunk
tionen, die von den Verarbeitungselementen (PE) verwendet wer
den, einen Ausgangsvektor. Die von den Übertragungsfunktionen
verwendeten Koeffizienten werden beim Trainingsprozeß variiert,
um den Ausgangsvektor zu variieren. Die Übertragungsfunktionen
und die Koeffizienten heißen zusammen die Gewichtsfaktoren des
neuronalen Netzes, und die Gewichtsfaktoren werden beim Trai
ningsverfahren variiert, um den von bestimmten Eingangsvektoren
erzeugten Ausgangsvektor zu variieren. Die Gewichtsfaktoren wer
den anfangs auf kleine Zufallswerte gesetzt. Am Beginn des Trai
nings ist die zugehörige postlexikalische Darstellung ohne Be
deutung, da die Gewichtsfaktoren des neuronalen Netzes Zufalls
werte sind. Um die Entfernung zwischen der anvisierten phoneti
schen Darstellung und der zugewiesenen phonetischen Darstellung,
Folge 1 zu bezeichnen, wird ein Fehlersignalvektor erzeugt.
Im Gegensatz zu früheren Ansätzen wird das Fehlersignal
nicht einfach als grobe Entfernung zwischen der zugehörigen pho
netischen Darstellung und der anvisierten phonetische Darstel
lung beispielsweise durch Verwenden eines euklidischen Abstands
maßes nach Gleichung 1 berechnet. Der Abstand ist vielmehr eine
Funktion, wie dicht die zugehörige phonetische Darstellung der
anvisierten phonetische Darstellung im Merkmalsraum kommt. Es
wird angenommen, daß die Nähe im Merkmalsraum einer Nähe im
Wahrnehmungsraum entspricht, wenn die phonetischen Darstellungen
ausgegeben werden.
Fig. 17, Ziffer 1700 vergleicht das euklidische Abstands
fehlermaß mit dem merkmalsgerichteten Fehlermaß. Die anvisierte
postlexikalische Aussprache (1702) ist [saelihd] für die
Schreibweise "salad". Es werden zwei mögliche zugehörige Aus
sprachen dargestellt: [saelaxd] (1704) und [saelbd] (1706).
[saelaxd] (1704) wird ähnlich wie die anvisierte Aussprache
wahrgenommen, während [saelbd] (1706) ziemlich weit davon ent
fernt ist, abgesehen davon, daß es praktisch nicht ausgesprochen
werden kann. Das euklidische Abstandsmaß zählt lediglich die
Anzahl der Einzelheiten, die im anvisierten und im zugeordneten
Vektor aufgeführt sind. Bei diesem Maß bekommen sowohl [saelaxd]
(1704) als auch [saelbd] (1706) in bezug auf die Zielaussprache
einen Fehlerwert von 2. Die zwei identischen Werte verdeutlichen
den wahrgenommenen Unterschied zwischen den zwei Aussprachen
nicht.
Im Gegensatz dazu erkennt das merkmalsgerichtete Fehlermaß,
daß [ih] und [ax] sehr ähnlich wahrgenommen werden, und gewich
tet daher, wenn [ax] für [ih] genommen wird, den lokalen Fehler
entsprechend. Es wird eine Skala von 0 bei Übereinstimmung und 1
bei einem maximalen Unterschied eingerichtet, und den verschie
denen Lautvergleichen wird auf dieser Skala ein Wert zugeordnet.
Die Tabelle 12 liefert eine Gruppe von merkmalsgerichteten Feh
ler- bzw. Gewichtsfaktoren, die für amerikanisches Englisch ver
wendet werden. In dieser Tabelle sind die Faktoren die gleichen,
egal ob die besonderen Laute Teil des Ziels oder Teil der Vor
schlag sind. Dies muß aber nicht immer der Fall sein. Es wird
angenommen, daß eine Kombinationen von Ziel- und vorgeschlagenen
Lauten, die nicht in Tabelle 12 enthalten sind, den Faktor 1
haben.
Fig. 18, Ziffer 1800 zeigt, wie die nicht gewichteten lo
kalen Fehler für das [ih] in [saelihd] berechnet werden. Die
Fig. 19, Ziffer 1900 zeigt, wie der gewichtete Fehler, der die
Faktoren aus Tabelle 12 verwendet, berechnet wird. Fig. 19
zeigt, wie der Fehler für [ax], wo [ih] erwartet wird, um den
Faktor verringert wird, der die Wahrnehmung berücksichtigt, daß
der Fehler weniger schwer ist als der Vorschlag von [b] für
[ih], wobei dieser Fehler nicht verringert würde.
Nach der Berechnung des Fehlersignals sind die Gewichtswer
te in einer Richtung eingestellt, um das Fehlersignal zu redu
zieren. Dieses Verfahren wird mehrmals für zusammen gehörende
Paare von Kontextbeschreibungen und zugewiesenen anvisierten
phonetischen Darstellungen wiederholt. In diesem Verfahren, die
Gewichtsfaktoren einzustellen, um die zugehörige phonetische
Darstellung näher zur zugewiesenen anvisierten phonetischen Dar
stellung zu bringen, besteht das Training des neuronalen Netzes.
Dieses Training verwendet das Standard-Backpropagation-Fehler
verfahren. Sobald das neuronale Netz trainiert wurde, enthalten
die Gewichtswerte die Informationen, die notwendig sind, um die
Kontextbeschreibung in einen Ausgangsvektor umzuwandeln, der
einen vergleichbaren Wert hat, wie die zugewiesene anvisierte
phonetische Darstellung. Die bevorzugte Ausführungsform des neu
ronalen Netzes erfordert bis zu zehn Millionen Darstellungen der
Kontextbeschreibung für die Eingabe und die folgenden Gewicht
seinstellungen, bevor das neuronale Netz als vollständig trai
niert betrachtet werden kann.
Das neuronale Netz enthält Stufen mit zwei Arten von Akti
vierungsfunktionen, Sigmoid und Softmax, die in dem Stand der
Technik bekannt sind. Die Aktivierungsfunktion Softmax wird in
Gleichung 2 gezeigt.
Fig. 15 veranschaulicht die Architektur zum Trainieren des
neuronalen Netzes mit einer lexikalischen Aussprache und zugehö
riger Information auf eine postlexikalische Aussprache. Das neu
ronale Netz ist aus einer Reihe verbundener Stufen aufgebaut,
denen verschiedene Funktionen zugeordnet sind, einschließlich,
ob die Stufen Eingabe/Ausgabestufe oder Stufen mit einer Akti
vierungsfunktion für Sigmoid oder Softmax darstellen.
Die Folge 2 (1502), d. h. die numerische Kodierung eines
Fensters von 9 lexikalischen Lauten, wird in die Eingangsstufe 2
(1506) eingegeben. Die Eingangsstufe 2 (1506) leitet diese Daten
zur Sigmoid-Stufe 6 (1508) des neuronalen Netzes weiter. Die
Sigmoid-Stufe des neuronalen Netzes 6 (1508) gibt dann die Daten
zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Folge 3 (1512), d. h. die numerische Kodierung eines
Fensters vom 9 lexikalischen Lauten, wird in die Eingangsstufe 3
(1514) eingegeben. Die Eingangsstufe 3 (1514) leitet dann diese
Daten zur Sigmoid-Stufe 7 (1516) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 7 (1516) des neuronalen Netzes leitet dann die
Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Folge 4 (1518), d. h. die numerische Kodierung der Be
grenzungsabstandsinformationen wird in die Eingangsstufe 4
(1520) eingegeben. Die Eingangsstufe 4 (1520) leitet dann diese
Daten zur Sigmoid-Stufe 8 (1522) des neuronalen Netzes weiter.
Die Sigmoid-Stufe des neuronalen Netzes 8 (1522) gibt dann die
Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Folge 5 (1524), d. h. die numerische Kodierung der Be
grenzungsabstandsinformation wird in die Eingangsstufe 5 (1526)
eingespeist. Die Eingangsstufe 5 (1526) leitet dann diese Daten
zur Sigmoid-Stufe 9 (1528) des neuronalen Netzes weiter. Die
Sigmoid- Stufe 9 (1528) des neuronale Netzes gibt dann die Daten
zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Sigmoid-Stufe des neuronalen Netzes 10 (1510) leitet
die Daten zur Softmax-Stufe 11 (1530) des neuronalen Netzes.
Die Folge 1 (1504), d. h. die numerische Kodierung der Ziel
laute wird in Ausgangsstufe 1 (1532) eingespeist.
Die Softmax-Stufe 11 (1530) des neuronalen Netzes gibt auf
der Grundlage der in Stufe 1 (1532) gegebenen Eingangsinformati
on den wahrscheinlichsten Laut aus. Die Ausgangsstufe 1 (1532)
gibt dann die Daten als Vorschlag (1534) des neuronalen Netzes
aus. Der Vorschlag (1534) des neuronalen Netzes wird dann ent
sprechend der oben beschriebenen merkmalsgerichteten Fehlerfunk
tion mit der Folge 1 (1504), dem anvisierten postlexikalischen
Laut verglichen.
Der von der Fehlerfunktion bestimmte Fehler wird dann zur
Softmax-Stufe 11 (1530) des neuronalen Netzes zurückgeleitet,
die dann ihrerseits den Fehler an die Sigmoid-Stufe 10 (1510)
des neuronalen Netzes zurückgibt, die ihrerseits den Fehler an
die Sigmoid-Stufen 6 (1508), 7 (1516), 8 (1522) und 9 (1528) des
neuronalen Netzes zurückleitet.
Die doppelten Pfeile zwischen den Stufen des neuronalen
Netzes in Fig. 15 zeigen an, daß im Netz sowohl Vor- als auch
Rückbewegungen stattfinden.
Fig. 5, Ziffer 500 zeigt den Lexikalisch-Postlexikalisch-
Wandler mit neuronalem Netz der Fig. 3 Ziffer 310 im Detail.
Die lexikalischen Aussprachen für einen ganzen Satz werden Wort
für Wort gesammelt, um für jeden lexikalischen Laut die Berech
nung von Begrenzungsabstandsinformationen und von Grenznachbar
schaftsinformationen zu ermöglichen. Jede lexikalische Ausspra
che mit Wortumfang wird im Eingabeformat (504) des neuronalen
Netzes kodiert. Die kodierte lexikalische Aussprache wird dann
an das trainierte neuronale Netz (506) geschickt. Dies wird Te
sten des neuronalen Netzes genannt. Das trainierte neuronale
Netz gibt eine kodierte postlexikalische Aussprache aus, die vom
neuronalen Netzausgangsdekodierer (508) in eine postlexikalische
Aussprache (510) dekodiert werden muß.
Zum Testen des Netzes müssen nur Folgen 2, 3, 4 und 5 ko
diert werden. Die Kodierung der Folge 2 zum Testen wird in Fig.
13, Ziffer 1300 gezeigt. Jeder lexikalische Laut (1302) wird in
einen numerischen Code entsprechend der lexikalischen Lauttabel
le in Tabelle 1 umgewandelt. Der numerische Code jedes lexikali
schen Lautes wird dann in einen Speicherpuffer für Folge 2
(1304) geladen. Folge 3 ist wie in Fig. 11 kodiert. Folge 4 ist
wie in Tabelle 10 kodiert. Folge 5 ist wie in Tabelle 11 ko
diert. Ein Wort wird durch Kodieren der Folgen 2, 3, 4 und 5 für
dieses Wort und das Testen des neuronalen Netzes getestet.
Das neuronale Netz gibt einen Vorschlag für eine postlexi
kalische Aussprache aus. Der Vorschlag des neuronalen Netzes
wird dann nach Fig. 12, Ziffer 1200 durch Umwandeln der Nummern
(1202) gemäß der Lautzahl-Tabelle von Tabelle 2 in Laute (1204)
durch das Entfernen der Ausrichtungstrennzeichen mit der Nummer
60 und durch das Aufbrechen von zusammengezogenen postlexikali
schen Lauten gemäß Tabelle 13 in ihre Bestandteile dekodiert.
Fig. 9, Ziffer 900 zeigt, wie die kodierten Folgen zum Te
sten in die Architektur des neuronalen Netzes eingegeben werden.
Die Folge 2 (902), die numerische Kodierung eines Fensters von 9
lexikalischen Laute wird in die Eingangsstufe 2 (904) einge
speist. Die Eingangsstufe 2 (904) leitet dann diese Daten zur
Sigmoid-Stufe 6 (906) des neuronalen Netzes. Die Sigmoid-Stufe 6
(906) des neuronalen Netzes leitet dann die Daten für jedes
Schriftzeichen zur Sigmoid-Stufe 10 (908) des neuronalen Netzes.
Die Folge 3 (910), die numerische Kodierung eines Fensters
der lexikalischen Lautmerkmale für 9 lexikalische Laute der ein
gegebenen lexikalischen Aussprache, wird in die Eingangsstufe 3
(912) eingespeist. Die Eingangsstufe 3 leitet dann diese Daten
zur Sigmoid-Stufe 7 (914) des neuronalen Netzes. Die Sigmoid-
Stufe 7 (914) des neuronalen Netzes gibt dann für jedes lexika
lische Lautmerkmale die Daten an die Sigmoid-Stufe 10 (908) des
neuronalen Netzes weiter.
Die Folge 4 (916), d. h. die entsprechend Tabelle 10 kodier
te numerische Kodierung der Begrenzungsabstandinformationen der
eingegebenen lexikalischen Aussprache wird in die Eingangsstufe
4 (918) eingespeist. Die Eingangsstufe 4 leitet dann diese Daten
zur Sigmoid-Stufe 8 (920) des neuronalen Netzes. Die Sigmoid-
Stufe 8 (920) des neuronalen Netz leitet dann die Daten zur In
formation über den Begrenzungsabstand jedes lexikalischen Lautes
in die Sigmoid-Stufe (908) des neuronalen Netzes.
Die Folge 5 (922), d. h. die entsprechend Tabelle 11 kodier
te numerische Kodierung der Grenznachbarschaftsinformation der
eingegebenen lexikalischen Aussprache wird in die Eingangsstufe
5 (924) eingespeist. Die Eingangsstufe 5 (924) leitet dann diese
Daten zur Sigmoid-Stufe 9 (926) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 9 (926) des neuronalen Netzes gibt die Daten
zur Information über die Grenznachbarschaft jedes lexikalischen
Lauts in Sigmoid-Stufe 10 (908) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 10 (908) des neuronalen Netzes leitet ih
re Daten dann zur Softmax-Stufe 11 (928) des neuronalen Netzes.
Softmax 11 (928) des neuronalen Netzes gibt den aufgrund
der eingegebenen Eingangsinformation wahrscheinlichsten Laut an
die Ausgangsstufe 1 (930) aus. Die Ausgangsstufe 1 (930) gibt
dann die Daten als Vorschlag (932) des neuronalen Netzes für den
postlexikalischen Laut aus.
Fig. 16, Ziffer 1600 zeigt eine Abbildung des neuronalen
Netzes, in der die Anzahl von Verarbeitungselementen PE, die
jede Stufe verbinden, gezeigt wird. Die Daten der Eingabefolge 2
(1602), die eine numerische Kodierung der lexikalischen Laute
enthalten, werden in die Eingangsstufe 2 (1604) geladen. Die
Eingangsstufe 2 (1604) enthält 918 PE, was die Größe darstellt,
die ein Fenster für neun Laute haben muß, wobei jeder Laut eines
von 102 einzelnen Zeichen sein könnte.
Die Eingangsstufe 2 (1604) gibt diese 918 PE an die Sig
moid-Stufe 6 (1606) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 6 (1606) des neuronalen Netzes gibt 10 PE
an die Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Daten der Eingabefolge 3 (1628), die eine, wie in Fig.
11 gezeigt, kodierte numerische Kodierung lexikalischer Laut
merkmale enthalten, werden in die Eingangsstufe 3 (1630) gela
den. Die Eingangsstufe 3 (1630) enthält 477 PE, was die für ein
Fenster von 9 lexikalischen Lauten erforderliche Größe ist, wo
bei ein lexikalischer Laut durch bis zu 53 aktive Merkmale dar
gestellt werden kann. Die Eingangsstufe 3 (1630) leitet diese
477 PE zur Sigmoid-Stufe 7 (1632) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 7 (1632) des neuronalen Netzes gibt 10 PE
zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Daten der Eingabefolge 4 (1622), die eine in Tabelle 10
gezeigte numerische Kodierung der Begrenzungsabstandsinformation
enthalten, werden in die Eingangsstufe 4 (1624) geladen. Die
Eingangsstufe 4 (1624) enthält 15 PE, was die für jeden der Be
grenzungsabstände verlangte Größe ist. Die Eingangsstufe 4
(1624) leitet diese 15 PE zur Sigmoid-Stufe 8 (1626) des neuro
nalen Netzes weiter.
Die Sigmoid-Stufe 8 (1626) des neuronalen Netzes gibt 10 PE
zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Daten der Eingabefolge 5 (1616), die eine in Tabelle 11
gezeigte, numerische Kodierung der Grenznachbarschaftsinforma
tionen enthalten, werden in die Eingangsstufe 5 (1618) geladen.
Die Eingangsstufe 5 (1618) enthält 10 PE, was die für jeden der
Grenznachbarschaftswerte erforderliche Größe ist. Die Eingangs
stufe 5 (1618) leitet diese 15 PE zur Sigmoid-Stufe 9 (1620) des
neuronalen Netzes weiter.
Die Sigmoid-Stufe 9 (1620) des neuronalen Netzes gibt die
10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 10 (1608) des neuronalen Netzes gibt 20
PE zur Softmax-Stufe 11 (1610) des neuronalen Netzes weiter. Die
Softmax-Stufe 11 (1610) des neuronalen Netzes leitet 102 PE, die
die möglichen postlexikalischen Laute darstellen, an die Aus
gangsstufe 1 (1612) weiter.
Der hier beschriebene Ansatz für eine Umwandlung von lexi
kalischen in postlexikalische Laute hat gegenüber Systemen, die
auf Regeln basieren, den Vorteil, daß er sich für jede Sprache
leicht anpassen läßt. Für eine Sprache wird lediglich ein
Schreibweise-Laut-Lexikon dieser Sprache, eine postlexikalisch-
lexikalisch Laut-Aufwand-Tabelle für diese Sprache und eine
postlexikalisch markierte Sprachdatenbank benötigt. Es kann au
ßerdem nötig sein, Zeichen aus einem internationalen phoneti
schen Alphabet zu verwenden, so daß der volle Bereich der phone
tischen Schwankungen der Sprachen der Welt wiedergegeben werden
kann.
Ein Verfahren, eine Vorrichtung und ein Erzeugnis ermögli
chen das effiziente Erzeugen postlexikalischer Ausspracheinfor
mationen, ausgehend von lexikalischen Ausspracheinformationen.
Ein neuronales Netz wird mit zusammengehörigen lexikalisch-
postlexikalischen Aussprachedaten trainiert, die mit einer um
ein merkmalsgerichtetes Abstandsmaß verbesserten dynamischen
Programmierung ausgerichtet werden. Merkmalswerte für lexikali
sche Laute werden zur Eingabe in das neuronale Netz bereitge
stellt. Begrenzungsabstands- und Grenznachbarschaftsinformation
werden dem neuronalen Netz für jeden lexikalischen Laut bereit
gestellt. Ein Fenster, das mehrere lexikalische Laute und lexi
kalische Lautmerkmale umfaßt, wird dem neuronalen Netz zur Ver
fügung gestellt, um dem Netz mit Informationen über den Kontext
zu helfen.
Wie in Fig. 20, Ziffer 2000 gezeigt, führt die vorliegende
Erfindung ein Verfahren einschließlich der Schritte aus, um ab
hängig von einer lexikalischen Aussprache effizient eine postle
xikalische Aussprache zu erzeugen: (2002) Bestimmen lexikali
scher Laute, lexikalischer Merkmale und Begrenzungsinformation
für einen vorgegebenen Textabschnitt und (2004) Verwenden eines
vorbereiteten neuronalen Netzes, das mittels lexikalischer Lau
te, postlexikalischer Laute, lexikalischer Merkmale und Begren
zungsinformation vorbereitet wurde, um einen Vorschlag des neu
ronalen Netz für eine postlexikalische Aussprache des vorgegebe
nen Teils des Texts zu erzeugen.
In der bevorzugten Ausführungsform umfaßt die Begrenzungs
information mindestens eine Begrenzungsabstandsinformation oder
eine Grenznachbarschaftsinformation.
Wie in Fig. 21, Ziffer 2100 gezeigt, wird das vorbereitete
neuronale Netz (2004) mit Hilfe der Schritte trainiert: Bereit
stellen (2102) von lexikalischen Aussprachen, die aus den lexi
kalischen Laute eines vorgegebenen Textabschnitts bestehen, mit
der zugehörigen postlexikalischen Aussprache, die aus den post
lexikalischen Lauten einer Zieläußerung bestehen, Ausrichten
(2104) der lexikalischen und der zugehörigen postlexikalischen
Darstellungen unter Verwendung einer mit einer merkmalsgerichte
ten Ersetzungsaufwandsfunktion verbesserten dynamische Program
mierausrichtung, Bereitstellen (2106) von akustischen und von
Artikulationsinformationen für die lexikalischen Laute, Bereit
stellen (2108) von Information über die Entfernung zwischen al
len lexikalischen Lauten und allen Silben, Worten, Ausdrücken,
Satzteilen und den Satzbegrenzungen, Bereitstellen (2110) von
Information über die Nachbarschaft aller lexikalischer Laute und
aller Silbe, Worte, Ausdrücke, Satzteile und der Satzbegrenzun
gen, Bereitstellen (2112) eines Fenster mit vorgegebener Längen
für den Kontext der lexikalischen Laute, Bereitstellen (2114)
eines Fensters mit vorgegebener Länge für den Kontext von lexi
kalischen Lautmerkmalen und Trainieren (2116) eines neuronalen
Netz zum Verbinden der eingegebenen lexikalischen Laute mit den
postlexikalischen Lauten.
In einer bevorzugten Ausführungsform verwendet das postle
xikalische neuronale Netz (2004) eine merkmalsgerichtete Fehler
funktion, um die Entfernung zwischen der anvisierten und der
vorgeschlagenen postlexikalischen Aussprache zu kennzeichnen.
Das postlexikalische neuronale Netz (2004) kann ein vor
wärts gerichtetes neuronales Netz sein.
Das postlexikalische neuronale Netz (2004) kann eine Feh
ler-Backpropagation verwenden.
Das postlexikalische neuronale Netz (2004) kann eine rekur
sive Eingabestruktur haben.
Die lexikalischen Merkmale (2002) können Artikulationsmerk
male umfassen.
Die lexikalischen Merkmale (2002) können akustische Merkma
le umfassen.
Die lexikalischen Merkmale (2002) können eine Geometrie von
Artikulationsmerkmalen umfassen.
Die lexikalischen Merkmale (2002) können eine Geometrie von
akustischen Merkmalen umfassen.
Die Ausrichtung (2104) kann auf Grund von Konsonanten- und
Vokalpositionen in der orthographischen Form und in der zugehö
rigen phonetischen Darstellung erfolgen.
Die lexikalischen Laute und postlexikalischen Laute (2004)
können mit Hilfe eines Merkmalsvektors beschrieben werden.
Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104)
verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und
Löschaufwand und eine vorgegebene Aufwandstabelle.
Das neuronale Netz (2004) kann mit Intonations-
Informationen trainiert werden.
Das neuronale Netz (2004) kann mit prosodischen Informatio
nen trainiert werden.
Wie in Fig. 22, Ziffer 2200 gezeigt, liefert die vorlie
gende Erfindung eine Vorrichtung mit mindestens einem Mikropro
zessor oder einer anwendungsspezifischen integrierten Schaltung
oder einer Kombination aus einem Mikroprozessor und einer anwen
dungsspezifischen integrierten Schaltung zum effizienten Erzeu
gen einer postlexikalischen Aussprache in Abhängigkeit einer
lexikalischen Aussprache, das enthält: einen Kodierer (2224),
der gekoppelt ist, um lexikalische Laute (2202), lexikalische
Merkmale (2204), Begrenzungsabstandsinformation (2206) und
Grenznachbarschaftsinformation (2208) für einen vorgegebenen
Textabschnitt digital zu empfangen und einem vorbereiteten post
lexikalischen neuronalen Netz (2226) zuzuführen, wobei das vor
bereitete postlexikalische neuronale Netz (2226) mit Hilfe von
lexikalischen Lauten (2210), postlexikalischen Lauten (2212),
lexikalischen Merkmalen (2214), Begrenzungsabstandsinformationen
(2216) und Grenznachbarschaftsinformationen (2218) trainiert
wurde und wobei die lexikalischen und postlexikalischen Laute
mit Hilfe einer automatischen merkmalsgerichteten dynamischen
Programmierausrichtung (2220) ausgerichtet werden, und ein mit
dem Kodierer (2224) gekoppeltes vorbereitetes postlexikalisches
neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuro
nalen Netzes für eine postlexikalische Aussprache (2229) des
vorgegebenen Teils des Textes.
Wie in Fig. 21 gezeigt, wird das vorbereitete postlexika
lische neuronale Netz (2226) entsprechend dem folgenden Verfah
ren trainiert: (2102) Bereitstellen lexikalischer Aussprachen,
die aus lexikalischen Lauten für den vorgegebenen Textabschnitt
bestehen, und zugehöriger postlexikalischer Aussprachen, die aus
postlexikalischen Laute für eine Zieläußerung bestehen, (2104)
Ausrichten der zugehörigen lexikalischen und postlexikalischen
Darstellungen, wobei eine mit einer merkmalsgerichteten Erset
zungsaufwandsfunktion verbesserte dynamische Programmierausrich
tung verwendet wird, (2106) Bereitstellen von akustischen Infor
mationen und von Artikulationsinformationen für die lexikalische
Laute, (2108) Bereitstellen von Informationen über die Entfer
nung zwischen allen lexikalischen Lauten und zu allen Silben,
Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, (2110)
Bereitstellen der Informationen in bezug auf die Nachbarschaft
zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus
drücken, Satzteilen und den Satzbegrenzungen, (2112) Bereitstel
len eines Fensters mit vorgegebener Länge für den Kontext der
lexikalischen Laute, (2114) Bereitstellen eines Fensters mit
vorgegebener Länge für den Kontext der Eigenschaften lexikali
scher Laute und (2116) Trainieren eines neuronales Netzes zum
Verbinden eingegebener lexikalische Laute mit postlexikalischen
Lauten.
In einer bevorzugten Ausführungsform verwendet das postle
xikalische neuronale Netz (2226) eine merkmalsgerichtete Fehler
funktion, um die Entfernung zwischen der anvisierten und der
vorgeschlagenen postlexikalischen Aussprache zu kennzeichnen.
Das postlexikalische neuronale Netz (2226) kann ein vor
wärts gerichtetes neuronales Netz sein.
Das postlexikalische neuronale Netz (2226) kann eine Feh
ler-Backpropagation verwenden.
Es ist möglich, daß das postlexikalische neuronale Netz
(2226) einen rekursive Eingabestruktur hat.
Die lexikalischen Merkmale (2204) und (2214) können Artiku
lationsmerkmale umfassen.
Die lexikalischen Merkmale (2204) und (2214) können akusti
sche Merkmale umfassen.
Die lexikalischen Merkmale (2204) und (2214) können eine
Geometrie von Artikulationsmerkmalen umfassen.
Die lexikalischen Merkmale (2204) und (2214), können eine
Geometrie von akustischen Merkmalen umfassen.
Die Ausrichtung (2220) kann auf der Grundlage von Konsonan
ten- und Vokalpositionen in der orthographischen Form und in der
zugehörigen phonetischer Darstellung erfolgen.
Die lexikalischen Laute (2202) und (2210) und die postlexi
kalischen Laute (2212) können mit Hilfe von Merkmalsvektoren
beschrieben werden.
Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104)
verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und
Löschaufwand und eine vorgegebene Ersetzungstabelle.
Das postlexikalische neuronale Netz (2226) kann mit Intona
tions-Informationen trainiert werden.
Das postlexikalische neuronale Netz (2226) kann mit proso
dischen Informationen trainiert werden.
Wie in Fig. 23, Ziffer 2300 gezeigt, stellt die vorliegen
de Erfindung ein Erzeugnis (2322), d. h. Programme zum Erzeugen
postlexikalischer Aussprachen aus lexikalischen Aussprachen be
reit, einschließlich eines von einem Computer verwertbaren Medi
ums mit einem von einem Computer lesbaren Programmcode-Mittel
darauf, das enthält: eine lexikalische Informationsbestimmungs
seinheit (2324) zum Bestimmen lexikalischer Laute (2302), lexi
kalischer Merkmale (2304), Begrenzungsabstandsinformationen
(2306) und von Grenznachbarschaftsinformationen (2308) für einen
vorgegebenen Textabschnitt, und eine postlexikalische neuronale
Netzanwendungseinheit (2326) zum Verwenden eines vorbereiteten
neuronalen Netzes, das vorbereitetet wurde, lexikalische Laute
(2310), postlexikalische Laute (2312), lexikalische Merkmale
(2314), Begrenzungsabstandinformation (2316) und Grenznachbar
schaftsinformation (2318) zu verwenden, um einen Vorschlag des
neuronalen Netzes für eine postlexikalische Aussprache (2328)
des vorgegebenen des Textabschnitts zu erzeugen.
Wie in Fig. 21 gezeigt, wird die postlexikalische neurona
le Netzanwendungseinheit (2326) entsprechend dem folgenden Ver
fahren trainiert: Bereitstellen (2102) lexikalischer Ausspra
chen, die aus lexikalischen Lauten für den vorgegebenen Textab
schnitt bestehen, und der zugehörigen postlexikalischen Ausspra
chen, die aus postlexikalischer Laute für eine Zieläußerung be
stehen, Ausrichten (2104) der zugehörigen lexikalischen und
postlexikalischen Darstellungen unter Verwendung einer mit einer
merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy
namischen Programmierausrichtung, Bereitstellen (2106) von aku
stischen und von Artikulationsinformationen für die lexikali
schen Laute, Bereitstellen (2108) der Informationen über die
Entfernung zwischen allen lexikalischen Lauten und zu allen Sil
ben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
Bereitstellen (2210) der Information über die Nachbarschaft zu
allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrüc
ken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2112)
eines Fensters mit vorgegebener Länge mit dem Kontext der lexi
kalischen Laute, Bereitstellen (2114) eines Fensters mit vorge
gebener Länge mit dem Kontext der Eigenschaften der lexikali
schen Laute und Trainieren (2116) eines neuronalen Netzes zum
Verbinden eingegebener lexikalischer Laute mit postlexikalischen
Lauten.
In einer bevorzugten Ausführungsform verwendet die neurona
le Netzanwendungseinheit (2326) eine merkmalsgerichtete Fehler
funktion, um die Entfernung zwischen der anvisierten und der
vorgeschlagenen postlexikalischen Aussprache zu bezeichnen.
Die postlexikalische neuronale Netzanwendungseinheit (2326)
kann ein vorwärts gerichtetes neuronales Netz sein.
Die postlexikalische neuronale Netzanwendungseinheit (2326)
kann eine Fehler-Backpropagation verwenden.
Die postlexikalische neuronale Netzanwendungseinheit (2326)
kann eine rekursive Eingabestruktur haben.
Die lexikalischen Merkmale (2304) und (2314) können Artiku
lationsmerkmale umfassen.
Die lexikalischen Merkmale (2304) und (2314) können akusti
sche Merkmale umfassen.
Die lexikalischen Merkmale (2304) und (2314) können eine
Geometrie von Artikulationsmerkmalen umfassen.
Die lexikalischen Merkmale (2304) und (2314) können eine
Geometrie akustischer Merkmale umfassen.
Die Ausrichtung (2320) kann auf Grund von Konsonanten- und
Vokalpositionen in der Schreibweise und in der zugehörigen pho
netischen Darstellung erfolgen.
Die lexikalischen Laute (2302) und (2310) können unter Ver
wendung von Merkmalsvektoren beschrieben werden.
Das Erzeugnis nach Anspruch 35, wobei die postlexikalischen
Laute mit einem Merkmalsvektor beschrieben werden.
Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104)
verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und
Löschaufwand und eine vorgegebene Ersetzungstabelle.
Die postlexikalische neuronale Netzanwendungseinheit (2326)
kann mit Intonations-Informationen trainiert werden.
Die postlexikalische neuronale Netzanwendungseinheit (2326)
kann mit prosodischen Informationen trainiert werden.
Die vorliegende Erfindung kann in anderen speziellen Formen
verwendet werden, ohne daß von ihrem Prinzip oder von ihren we
sentlichen Eigenschaften abgewichen wird. Alle beschriebenen
Ausführungsformen dienen nur der Veranschaulichung und sollen in
keiner Hinsicht einschränken. Der Umfang der Erfindung wird des
halb statt durch die vorhergehende Beschreibung durch die ange
fügten Ansprüche bestimmt. Alle Änderungen, die innerhalb der
Bedeutung und des Bereichs des Äquivalents zu den Ansprüchen
liegen, sollen von ihrem Umfang umschlossen werden.
Claims (10)
1. Verfahren zur einer effizienten Erzeugung einer postle
xikalischen Aussprache in Abhängigkeit von einer lexikalischen
Aussprache, gekennzeichnet durch die Schritte:
(1A) Bestimmen lexikalischer Laute (2002), lexikalischer Merkmale und Begrenzungsinformationen für einen vorgegebenen Textabschnitt und
(1B) Verwenden eines vortrainierten neuronalen Netzes, das vortrainiert wurde, lexikalische Laute (2004), postlexikalische Laute, lexikalische Merkmale und Begrenzungsinformation zu ver wenden, um einen Vorschlag des neuronale Netz für eine postlexi kalische Aussprache des vorgegebenen Teils des Texts zu erzeu gen.
(1A) Bestimmen lexikalischer Laute (2002), lexikalischer Merkmale und Begrenzungsinformationen für einen vorgegebenen Textabschnitt und
(1B) Verwenden eines vortrainierten neuronalen Netzes, das vortrainiert wurde, lexikalische Laute (2004), postlexikalische Laute, lexikalische Merkmale und Begrenzungsinformation zu ver wenden, um einen Vorschlag des neuronale Netz für eine postlexi kalische Aussprache des vorgegebenen Teils des Texts zu erzeu gen.
2. Verfahren nach Anspruch 1, wobei mindestens eins von
2A-2F gilt:
2A) die Begrenzungsinformation umfaßt mindestens eine Be grenzungsabstandinformation oder eine Grenznachbarschaftsinfor mation
2B) wobei das neuronale Netz in Schritt (1B) ein vorwärts gerichtetes neuronales Netz ist,
2C) wobei das neuronale Netz in Schritt (1B) die Backpropa gation von Fehlern verwendet,
2D) wobei das neuronale Netz in Schritt (1B) eine rekursive Eingabestruktur hat,
2E) die lexikalischen Merkmale Artikulationsmerkmale umfas sen und
2F) wobei das vorbereitete neuronale Netz mit den Schritten trainiert wurde:
2F1) Bereitstellen von lexikalischen Aussprachen, die aus lexikalischen Lauten eines vorgegebenen Textabschnitts bestehen, zusammen mit der zugehörigen postlexikalischen Aussprache, die aus den postlexikalischen Lauten einer Zieläußerung bestehen (2102),
2F2) Ausrichten der lexikalischen und der zugehörigen post lexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy namischen Programmierausrichtung (2104),
2F3) Bereitstellen von akustischen Informationen und von Artikulationsinformationen für die lexikalischen Laute (2106),
2F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen (2108),
2F5) Bereitstellen von Information über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen (2110),
2F6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute (2112),
2F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext von lexikalischen Lautmerkmalen (2114) und
2F8) Trainieren eines neuronalen Netz zum Verbinden der eingegebenen lexikalischen Laute mit den postlexikalischen Lau ten (2116), und wobei mindestens eines von 2F8a-2F8c berücksich tigt wurde:
2F8a) außerdem Enthalten einer merkmalsgerichteten Fehler funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
2F8b) wobei in Schritt (2F2) die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörigen phonetischen Darstellung erfolgt, und
2F8c) wobei in Schritt (2F2) die merkmalsgerichtete Erset zungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfü gungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.
2A) die Begrenzungsinformation umfaßt mindestens eine Be grenzungsabstandinformation oder eine Grenznachbarschaftsinfor mation
2B) wobei das neuronale Netz in Schritt (1B) ein vorwärts gerichtetes neuronales Netz ist,
2C) wobei das neuronale Netz in Schritt (1B) die Backpropa gation von Fehlern verwendet,
2D) wobei das neuronale Netz in Schritt (1B) eine rekursive Eingabestruktur hat,
2E) die lexikalischen Merkmale Artikulationsmerkmale umfas sen und
2F) wobei das vorbereitete neuronale Netz mit den Schritten trainiert wurde:
2F1) Bereitstellen von lexikalischen Aussprachen, die aus lexikalischen Lauten eines vorgegebenen Textabschnitts bestehen, zusammen mit der zugehörigen postlexikalischen Aussprache, die aus den postlexikalischen Lauten einer Zieläußerung bestehen (2102),
2F2) Ausrichten der lexikalischen und der zugehörigen post lexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy namischen Programmierausrichtung (2104),
2F3) Bereitstellen von akustischen Informationen und von Artikulationsinformationen für die lexikalischen Laute (2106),
2F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen (2108),
2F5) Bereitstellen von Information über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen (2110),
2F6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute (2112),
2F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext von lexikalischen Lautmerkmalen (2114) und
2F8) Trainieren eines neuronalen Netz zum Verbinden der eingegebenen lexikalischen Laute mit den postlexikalischen Lau ten (2116), und wobei mindestens eines von 2F8a-2F8c berücksich tigt wurde:
2F8a) außerdem Enthalten einer merkmalsgerichteten Fehler funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
2F8b) wobei in Schritt (2F2) die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörigen phonetischen Darstellung erfolgt, und
2F8c) wobei in Schritt (2F2) die merkmalsgerichtete Erset zungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfü gungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.
3. Verfahren nach Anspruch 1, bei dem mindestens eins von
3A-3G gilt:
3A) die lexikalischen Merkmale umfassen akustische Merkma le;
3B) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen;
3C) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmale;
3D) die lexikalischen Lauten werden mit Hilfe eines Merk malsvektors beschrieben;
3E) die postlexikalischen Laute werden mit Hilfe eines Merkmalsvektors beschrieben;
3F) wobei das neuronale Netz in Schritt (1B) mit Intonati ons-Informationen trainiert wird,
3G) wobei das neuronale Netz in Schritt (1B) mit Prosodem- Informationen trainiert wird.
3A) die lexikalischen Merkmale umfassen akustische Merkma le;
3B) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen;
3C) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmale;
3D) die lexikalischen Lauten werden mit Hilfe eines Merk malsvektors beschrieben;
3E) die postlexikalischen Laute werden mit Hilfe eines Merkmalsvektors beschrieben;
3F) wobei das neuronale Netz in Schritt (1B) mit Intonati ons-Informationen trainiert wird,
3G) wobei das neuronale Netz in Schritt (1B) mit Prosodem- Informationen trainiert wird.
4. Vorrichtung zur effizienten Erzeugung einer postlexika
lischen Aussprache in Abhängigkeit von einer lexikalischen Aus
sprache, gekennzeichnet durch:
4A) einen Kodierer (2224) zum Empfangen lexikalischer Lau te, lexikalischer Merkmale, Begrenzungsabstandsinformationen und Grenznachbarschaftsinformationen für einen vorgegebenen Textab schnitt, zum Bereitstellen einer digitalen Eingabe in ein vor trainiertes postlexikalisches neuronales Netz, wobei das vor trainierte postlexikalische neuronale Netz mit Hilfe von lexika lischen Lauten, postlexikalischen Lauten, lexikalischen Merkma len, Begrenzungsabstandsinformationen und Grenznachbarschaftsin formationen trainiert wurde und wobei die lexikalischen und postlexikalischen Laute mit Hilfe einer automatischen merkmals gerichteten dynamischen Programmierausrichtung ausgerichtet wur den, und
4B) ein mit dem Kodierer gekoppeltes vorbereitetes postle xikalisches neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuronalen Netz für eine postlexikalische Aussprache des vorgegebenen Textabschnitts.
4A) einen Kodierer (2224) zum Empfangen lexikalischer Lau te, lexikalischer Merkmale, Begrenzungsabstandsinformationen und Grenznachbarschaftsinformationen für einen vorgegebenen Textab schnitt, zum Bereitstellen einer digitalen Eingabe in ein vor trainiertes postlexikalisches neuronales Netz, wobei das vor trainierte postlexikalische neuronale Netz mit Hilfe von lexika lischen Lauten, postlexikalischen Lauten, lexikalischen Merkma len, Begrenzungsabstandsinformationen und Grenznachbarschaftsin formationen trainiert wurde und wobei die lexikalischen und postlexikalischen Laute mit Hilfe einer automatischen merkmals gerichteten dynamischen Programmierausrichtung ausgerichtet wur den, und
4B) ein mit dem Kodierer gekoppeltes vorbereitetes postle xikalisches neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuronalen Netz für eine postlexikalische Aussprache des vorgegebenen Textabschnitts.
5. Vorrichtung nach Anspruch 4, für die mindestens eins aus
5A-5D gilt:
5A) Verwenden beim Trainieren außerdem einer merkmalsge richteten Fehlerfunktion, um die Entfernung zwischen der anvi sierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
5B) die Vorrichtung umfaßt eines von 5B1-5B3:
5B1) einen Mikroprozessor,
5B2) eine anwendungsspezifische integrierte Schaltung und
5B3) eine Kombination von (5B1) und (5B2),
5C) das neuronale Netz ist ein vorwärts gerichtetes neuro nales Netz,
5D) wobei das vorbereitete neuronale Netz entsprechend dem folgenden Verfahren trainiert wurde:
5D1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be stehen, und zugehörigen postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
5D2) Ausrichten der zugehörigen lexikalischen und postlexi kalischen Darstellungen unter Verwendung einer mit einer merk malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami schen Programmierausrichtung,
5D3) Bereitstellen von akustischen Informationen und Arti kulationsinformationen für die lexikalischen Laute,
5D4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
5D5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satz teilen und den Satzbegrenzungen,
5D6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute,
5D7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale,
5D8) Trainieren eines neuronalen Netzes zum Verbinden ein gegebener lexikalischer Laute mit postlexikalischen Lauten,
5D9) wobei, wenn ausgewählt, in 5D8 das Ausrichten auf Grundlage von Konsonanten- und Vokalpositionen in der Schreib weise und der zugehörigen phonetischen Darstellung erfolgt, und
5D10) wobei, wenn ausgewählt, in 5D8 die merkmalsgerichte ten Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungsta belle verwendet.
5A) Verwenden beim Trainieren außerdem einer merkmalsge richteten Fehlerfunktion, um die Entfernung zwischen der anvi sierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
5B) die Vorrichtung umfaßt eines von 5B1-5B3:
5B1) einen Mikroprozessor,
5B2) eine anwendungsspezifische integrierte Schaltung und
5B3) eine Kombination von (5B1) und (5B2),
5C) das neuronale Netz ist ein vorwärts gerichtetes neuro nales Netz,
5D) wobei das vorbereitete neuronale Netz entsprechend dem folgenden Verfahren trainiert wurde:
5D1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be stehen, und zugehörigen postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
5D2) Ausrichten der zugehörigen lexikalischen und postlexi kalischen Darstellungen unter Verwendung einer mit einer merk malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami schen Programmierausrichtung,
5D3) Bereitstellen von akustischen Informationen und Arti kulationsinformationen für die lexikalischen Laute,
5D4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
5D5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satz teilen und den Satzbegrenzungen,
5D6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute,
5D7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale,
5D8) Trainieren eines neuronalen Netzes zum Verbinden ein gegebener lexikalischer Laute mit postlexikalischen Lauten,
5D9) wobei, wenn ausgewählt, in 5D8 das Ausrichten auf Grundlage von Konsonanten- und Vokalpositionen in der Schreib weise und der zugehörigen phonetischen Darstellung erfolgt, und
5D10) wobei, wenn ausgewählt, in 5D8 die merkmalsgerichte ten Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungsta belle verwendet.
6. Vorrichtung nach Anspruch 4, wobei mindestens eins von
6A-6E gilt:
6A) das neuronale Netz verwendet eine Backpropagation von Fehlern,
6B) das neuronale Netz hat eine rekursive Eingabestruktur,
6C) die lexikalischen Merkmale umfassen Artikulationsmerk male,
6D) die lexikalischen Merkmale umfassen akustische Merkma le,
6E) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen.
6A) das neuronale Netz verwendet eine Backpropagation von Fehlern,
6B) das neuronale Netz hat eine rekursive Eingabestruktur,
6C) die lexikalischen Merkmale umfassen Artikulationsmerk male,
6D) die lexikalischen Merkmale umfassen akustische Merkma le,
6E) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen.
7. Vorrichtung nach Anspruch 4, wobei mindestens eins von
7A-7E gilt:
7A) die lexikalischen Merkmale umfassen eine Geometrie aku stischer Merkmale,
7B) die lexikalischen Laute werden mittels eines Merkmals vektors beschrieben,
7C) die postlexikalischen Lauten werden mittels eines Merk malsvektors beschrieben,
7D) das neuronale Netz wird mit Intonations-Informationen trainiert und
7E) das neuronale Netz wird mit Prosodem-Informationen trainiert.
7A) die lexikalischen Merkmale umfassen eine Geometrie aku stischer Merkmale,
7B) die lexikalischen Laute werden mittels eines Merkmals vektors beschrieben,
7C) die postlexikalischen Lauten werden mittels eines Merk malsvektors beschrieben,
7D) das neuronale Netz wird mit Intonations-Informationen trainiert und
7E) das neuronale Netz wird mit Prosodem-Informationen trainiert.
8. Erzeugnis zum Erzeugen postlexikalischer Aussprachen aus
lexikalischen Aussprachen mit einem von einem Computer verwend
baren Medium mit einem von einem Computer lesbaren Programmcode-
Mittel darauf, gekennzeichnete durch:
8A) eine lexikalische Informationsbestimmungsvorrichtung (2324) zum Bestimmen lexikalischer Laute, lexikalischer Merkma le, Begrenzungsabstandsinformationen und Grenznachbarschaftsin formationen für einen vorgegebenen Textabschnitt und
8B) eine postlexikalische neuronale Netzanwendungsvorrich tung (2326) zum Verwenden eines vortrainierten neuronalen Netzes, das mit lexikalischen Lauten, postlexikalischen Lauten, lexika lischen Merkmalen, Begrenzungsabstandsinformationen und mit Grenznachbarschaftsinformationen vorbereitetet wurde, um einen Vorschlag des neuronalen Netzes für eine postlexikalische Aus sprache des vorgegebenen Textabschnitts zu erzeugen.
8A) eine lexikalische Informationsbestimmungsvorrichtung (2324) zum Bestimmen lexikalischer Laute, lexikalischer Merkma le, Begrenzungsabstandsinformationen und Grenznachbarschaftsin formationen für einen vorgegebenen Textabschnitt und
8B) eine postlexikalische neuronale Netzanwendungsvorrich tung (2326) zum Verwenden eines vortrainierten neuronalen Netzes, das mit lexikalischen Lauten, postlexikalischen Lauten, lexika lischen Merkmalen, Begrenzungsabstandsinformationen und mit Grenznachbarschaftsinformationen vorbereitetet wurde, um einen Vorschlag des neuronalen Netzes für eine postlexikalische Aus sprache des vorgegebenen Textabschnitts zu erzeugen.
9. Erzeugnis nach Anspruch 8, wobei mindestens eins von
9A-9F gilt:
9A) das neuronale Netz ist ein vorwärts gerichtetes neuro nales Netz,
9B) das neuronale Netz verwendet eine Backpropagation von Fehlern,
9C) das neuronale Netz hat eine rekursive Eingabestruktur,
9D) die lexikalischen Merkmale umfassen Artikulationsmerk male,
9E) die lexikalischen Merkmale umfassen akustische Merkma le, und
9F) das vorbereitete neuronale Netz wurde nach folgenden Verfahren trainiert:
9F1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be stehen, und zugehöriger postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
9F2) Ausrichten der zugehörigen lexikalischen und postlexi kalischen Darstellungen unter Verwendung einer mit einer merk malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami schen Programmierausrichtung,
9F3) Bereitstellen von akustischen und von Artikulationsin formationen für die lexikalischen Laute,
9F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
9F5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen,
9F6) Bereitstellen eines Fensters mit vorgegebener Längen für den Kontext der lexikalischen Laute,
9F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale, und
9F8) Trainieren eines neuronalen Netzes zum Verbinden von eingegebenen lexikalischen Lauten mit postlexikalischen Lauten,
9F9) außerdem in 9F8, wenn ausgewählt, Verwenden einer merkmalsgerichteten Fehlerfunktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aus sprache zu bezeichnen,
9F10) wobei in 9F2, wenn ausgewählt, die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörenden phonetischen Darstellung erfolgt, und
9F11) wobei in 9F2, wenn ausgewählt, die merkmalsgerichtete Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Ein fügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.
9A) das neuronale Netz ist ein vorwärts gerichtetes neuro nales Netz,
9B) das neuronale Netz verwendet eine Backpropagation von Fehlern,
9C) das neuronale Netz hat eine rekursive Eingabestruktur,
9D) die lexikalischen Merkmale umfassen Artikulationsmerk male,
9E) die lexikalischen Merkmale umfassen akustische Merkma le, und
9F) das vorbereitete neuronale Netz wurde nach folgenden Verfahren trainiert:
9F1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be stehen, und zugehöriger postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
9F2) Ausrichten der zugehörigen lexikalischen und postlexi kalischen Darstellungen unter Verwendung einer mit einer merk malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami schen Programmierausrichtung,
9F3) Bereitstellen von akustischen und von Artikulationsin formationen für die lexikalischen Laute,
9F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
9F5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen,
9F6) Bereitstellen eines Fensters mit vorgegebener Längen für den Kontext der lexikalischen Laute,
9F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale, und
9F8) Trainieren eines neuronalen Netzes zum Verbinden von eingegebenen lexikalischen Lauten mit postlexikalischen Lauten,
9F9) außerdem in 9F8, wenn ausgewählt, Verwenden einer merkmalsgerichteten Fehlerfunktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aus sprache zu bezeichnen,
9F10) wobei in 9F2, wenn ausgewählt, die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörenden phonetischen Darstellung erfolgt, und
9F11) wobei in 9F2, wenn ausgewählt, die merkmalsgerichtete Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Ein fügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.
10. Erzeugnis nach Anspruch 8, wobei mindestens eins von
10A-10F gilt:
10A) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen,
10B) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmalen,
10C) die lexikalischen Laute werden mittels eines Merkmals vektors beschrieben,
10D) die postlexikalischen Laute werden mittels eines Merk malsvektors beschrieben,
10E) das neuronale Netz wird mit Intonations-Informationen trainiert, und
10F) das neuronale Netz wird mit prosodischen Informationen trainiert.
10A) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen,
10B) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmalen,
10C) die lexikalischen Laute werden mittels eines Merkmals vektors beschrieben,
10D) die postlexikalischen Laute werden mittels eines Merk malsvektors beschrieben,
10E) das neuronale Netz wird mit Intonations-Informationen trainiert, und
10F) das neuronale Netz wird mit prosodischen Informationen trainiert.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/874,834 US6134528A (en) | 1997-06-13 | 1997-06-13 | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19825205A1 true DE19825205A1 (de) | 1999-01-14 |
DE19825205C2 DE19825205C2 (de) | 2001-02-01 |
Family
ID=25364670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19825205A Expired - Fee Related DE19825205C2 (de) | 1997-06-13 | 1998-06-05 | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz |
Country Status (6)
Country | Link |
---|---|
US (1) | US6134528A (de) |
CN (1) | CN1135526C (de) |
BE (1) | BE1011945A3 (de) |
DE (1) | DE19825205C2 (de) |
FR (1) | FR2764725A1 (de) |
GB (1) | GB2326321B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10034236C1 (de) * | 2000-07-14 | 2001-12-20 | Siemens Ag | Sprachkorrekturverfahren |
US7167824B2 (en) | 2002-02-14 | 2007-01-23 | Sail Labs Technology Ag | Method for generating natural language in computer-based dialog systems |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
DE10018134A1 (de) * | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
DE10022586A1 (de) * | 2000-05-09 | 2001-11-22 | Siemens Ag | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems |
US6367939B1 (en) * | 2001-01-25 | 2002-04-09 | Gentex Corporation | Rearview mirror adapted for communication devices |
US7353172B2 (en) * | 2003-03-24 | 2008-04-01 | Sony Corporation | System and method for cantonese speech recognition using an optimized phone set |
CA2523010C (en) * | 2003-04-30 | 2015-03-17 | Loquendo S.P.A. | Grapheme to phoneme alignment method and relative rule-set generating system |
CN1260704C (zh) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | 语音合成方法 |
US7783474B2 (en) * | 2004-02-27 | 2010-08-24 | Nuance Communications, Inc. | System and method for generating a phrase pronunciation |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
US20070005364A1 (en) * | 2005-06-29 | 2007-01-04 | Debow Hesley H | Pure phonetic orthographic system |
US20070239455A1 (en) * | 2006-04-07 | 2007-10-11 | Motorola, Inc. | Method and system for managing pronunciation dictionaries in a speech application |
US8028230B2 (en) * | 2007-02-12 | 2011-09-27 | Google Inc. | Contextual input method |
US20090240501A1 (en) * | 2008-03-19 | 2009-09-24 | Microsoft Corporation | Automatically generating new words for letter-to-sound conversion |
US9460708B2 (en) * | 2008-09-19 | 2016-10-04 | Microsoft Technology Licensing, Llc | Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition |
US9741339B2 (en) * | 2013-06-28 | 2017-08-22 | Google Inc. | Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores |
US9460704B2 (en) * | 2013-09-06 | 2016-10-04 | Google Inc. | Deep networks for unit selection speech synthesis |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US20160062979A1 (en) * | 2014-08-27 | 2016-03-03 | Google Inc. | Word classification based on phonetic features |
US10186251B1 (en) * | 2015-08-06 | 2019-01-22 | Oben, Inc. | Voice conversion using deep neural network with intermediate voice training |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
CN106920547B (zh) * | 2017-02-21 | 2021-11-02 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
CN110741363B (zh) * | 2017-06-18 | 2024-04-02 | 谷歌有限责任公司 | 使用机器学习处理自然语言以基于槽描述符确定槽值 |
CN108492818B (zh) * | 2018-03-22 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
KR102625184B1 (ko) * | 2019-12-13 | 2024-01-16 | 구글 엘엘씨 | 고유 음성 사운드를 생성하기 위한 음성 합성 트레이닝 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4712243A (en) * | 1983-05-09 | 1987-12-08 | Casio Computer Co., Ltd. | Speech recognition apparatus |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
US4975961A (en) * | 1987-10-28 | 1990-12-04 | Nec Corporation | Multi-layer neural network to which dynamic programming techniques are applicable |
EP0372734B1 (de) * | 1988-11-23 | 1994-03-09 | Digital Equipment Corporation | Namenaussprache durch einen Synthetisator |
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
US5689616A (en) * | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
AU675389B2 (en) * | 1994-04-28 | 1997-01-30 | Motorola, Inc. | A method and apparatus for converting text into audible signals using a neural network |
US5745649A (en) * | 1994-07-07 | 1998-04-28 | Nynex Science & Technology Corporation | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories |
CA2170669A1 (en) * | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US5930754A (en) * | 1997-06-13 | 1999-07-27 | Motorola, Inc. | Method, device and article of manufacture for neural-network based orthography-phonetics transformation |
-
1997
- 1997-06-13 US US08/874,834 patent/US6134528A/en not_active Expired - Fee Related
-
1998
- 1998-05-28 FR FR9806759A patent/FR2764725A1/fr not_active Withdrawn
- 1998-06-05 DE DE19825205A patent/DE19825205C2/de not_active Expired - Fee Related
- 1998-06-11 GB GB9812479A patent/GB2326321B/en not_active Expired - Fee Related
- 1998-06-12 BE BE9800459A patent/BE1011945A3/fr not_active IP Right Cessation
- 1998-06-12 CN CNB981147356A patent/CN1135526C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10034236C1 (de) * | 2000-07-14 | 2001-12-20 | Siemens Ag | Sprachkorrekturverfahren |
US7167824B2 (en) | 2002-02-14 | 2007-01-23 | Sail Labs Technology Ag | Method for generating natural language in computer-based dialog systems |
Also Published As
Publication number | Publication date |
---|---|
GB2326321A (en) | 1998-12-16 |
GB2326321B (en) | 1999-08-11 |
BE1011945A3 (fr) | 2000-03-07 |
DE19825205C2 (de) | 2001-02-01 |
US6134528A (en) | 2000-10-17 |
CN1202686A (zh) | 1998-12-23 |
FR2764725A1 (fr) | 1998-12-18 |
CN1135526C (zh) | 2004-01-21 |
GB9812479D0 (en) | 1998-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
DE69829389T2 (de) | Textnormalisierung unter verwendung einer kontextfreien grammatik | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE10306599B4 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
WO2001018792A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
Chin et al. | Feature geometry in disordered phonologies | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
Hoste et al. | Using rule-induction techniques to model pronunciation variation in Dutch | |
EP1554715B1 (de) | Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Free format text: SCHUMACHER & WILLSAU, PATENTANWALTSSOZIETAET, 80335 MUENCHEN |
|
8339 | Ceased/non-payment of the annual fee |