DE19825205A1

DE19825205A1 - Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz

Info

Publication number: DE19825205A1
Application number: DE19825205A
Authority: DE
Inventors: Corey Andrew Miller; Orhan Karaali; Noel Massey
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1997-06-13
Filing date: 1998-06-05
Publication date: 1999-01-14
Anticipated expiration: 2018-06-06
Also published as: GB2326321A; GB2326321B; BE1011945A3; DE19825205C2; US6134528A; CN1202686A; FR2764725A1; CN1135526C; GB9812479D0

Description

Die vorliegende Erfindung bezieht sich auf das Erzeugen von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit besonderer Anwendung im Bereich der Spracherzeugung.

Wie in Fig. 1, Ziffer 100 gezeigt, erfordert die Erzeugung von Sprache aus Text die Umwandlung eines geschriebenen oder gedruckten Textes (102) in gesprochene Sprache (110). Es ist viel günstiger, aus Text erzeugte Sprache auszugeben als Sprache aufzunehmen und wieder abzuspielen. Die Erzeugung von Sprache wird oft dann verwendet, wenn der Text voraussichtlich oft vari iert und er vorher nicht ohne weiteres aufgenommen werden kann.

Bei einer Sprache wie Englisch, bei der die Aussprache ei nes Wortes oft nicht klar aus der Schreibweise der Wörter er sichtlich ist, ist es wichtig, die Schreibweise (102) in einem sprachlichen Modul (104) in eindeutige phonetische Darstellungen (106) umzuwandeln, bevor die Schreibweise an ein akustisches Modul (108) zur Erzeugung von Sprachsignalverläufen (110) wei tergeleitet werden. Um eine phonetische Darstellung einer Schreibweise zu erzeugen, kann ein auf Regeln basierendes Sy stem, können Aussprachewörterbücher oder auf solche Aussprache wörterbücher trainierte automatische Verfahren zur Umwandlung der Schreibweise in Aussprache verwendet werden.

Aussprachelexika und daher auch auf Aussprachelexika trai nierte automatische Verfahren verwenden lexikalische Ausspra chen. Lexikalische Aussprachen sind unterspezifizierte, verall gemeinerte Aussprachen, die veränderte postlexikalische Ausspra chen in natürlicher Sprache ergeben können aber nicht müssen. Zum Beispiel kann das englische Wort "foot" in einem Aussprache wörterbuch als /fuht/ aufgeführt werden. Aussprachen werden in der TIMIT- (Texas Instrument-Massachusetts Institut of Technolo gie-) Notation angegeben, die in "The Structure and Format of the DARPA TIMIT CD-ROM Prototype" von John S. Garofolo beschrie ben wird. In natürlicher Sprache könnte das letzte /t/ als [t] auftauchen, wenn zum Beispiel foot einen Satz beendet, oder als flap [dx], wenn foot vor einem anderen Wort kommt, das im selben Satz mit einem Vokal beginnt, wie in "my foot is . . .".

Wörterbüchern statt der lexikalischen Aussprache postlexi kalische Aussprachen hinzuzufügen, ist aus zwei Gründen keine brauchbare Lösung dieses Problems. Der erste Grund ist, daß die Aussprachewörterbücher sich dramatisch vergrößern würden. Der zweite Grund ist, daß Aussprachewörterbücher verwendet werden, um die Aussprachen für isolierter Worte zu bestimmen, während die postlexikalischen Phänomene bei Worten in Sätzen auftreten. Wenn daher ein Lexikon verwendet wird, kann die Information zum Bestimmen der geeigneten postlexikalischen Aussprache genügen, sie muß aber nicht.

In neuronalen Netzen und anderen von Daten gesteuerten Ver fahren zur Spracherzeugung wird ein Lernverfahren verwendet, um zu lernen, wie aus phonetischer Information spektrale Sprachin formationen erzeugt wird. Auf diese Art werden die akustischen Parameter des neuronalen Netzes trainiert. Dabei werden Sprach signalverläufe mit phonetischen Informationen gekennzeichnet, und dann wird zum Beispiel ein neuronales Netz oder ein anderes von Daten gesteuertes System trainiert, um die spektralen Cha rakteristiken zu lernen, die mit den Zeitabschnitten verbunden sind, die mit den bestimmten Lauten markiert wurden.

Wenn das neuronale Netzsystem tatsächlich eingesetzt wird, muß das neuronale Netz geeignete spektrale Informationen aus bestimmten phonetischen Information erzeugen. Wie oben erwähnt, werden die phonetische Information aus einem Text mittels eines Schreibweise-Phonetik-Lexikons oder mit einem automatischem Ver fahren, das mit solch einem Lexikon trainiert wurde, abgeleitet.

Da von Daten gesteuerte Verfahren zur Erzeugung von Sprache Testdaten erzeugen sollen, die den Trainingsdaten entsprechen und die damit natürlicher Sprache ähneln, ist es ist wichtig, daß die in der Testphase entwickelten phonetischen Darstellungen im wesentlichen zu jenen passen, die in die Trainingsphase ver wendet wurden. So ist sichergestellt, daß die höchste Zuverläs sigkeit erreicht wird.

Leider sind zwischen den in Wörterbüchern gefundenen lexi kalischen Aussprachen und den Aussprachen, die verwendet werden, um Sprache zu kennzeichnen, immer Abweichungen möglich. Diese Abweichungen können mindestens vier verschiedene Ursachen haben: Eigenarten des Sprechers, Eigenarten des Wörterbuchs, Eigenarten der Markierung und Unterschiede zwischen lexikalischen und post lexikalischen Aussprachen.

Während auf Regeln basierende Ansätze zum Erzeugen postle xikalischer Aussprachen aus lexikalischen Aussprachen für eine bestimmte Sprache erfolgreich sein könnten, werden auf Regeln basierende Ansätze nicht in der Lage sein, automatisch gleich zeitig Eigenarten des Wörterbuchs und der Markierung zu behan deln. Das heißt, für jede mögliche Kombination von Sprecher, Markierung und Wörterbuch müßte eine neue Regelgruppe entwickelt werden, was zu einer sehr komplexen Situation führen würde.

Es besteht daher ein Bedarf nach einem automatischen Ver fahren zum Erzeugen von postlexikalischen Aussprachen aus lexi kalischen Aussprachen, bei dem die synthetische Sprache natürli cher klingt und der Aufwand und die Zeit, die nötig sind, ein System zur Erzeugung von Sprache mit hoher Qualität zu entwic keln, verringert wird. Es wird ein Verfahren, eine Vorrichtung und ein Erzeugnis zum auf einem neuronalen Netz basierenden Er zeugen von postlexikalischen Aussprachen aus lexikalischen Aus sprachen benötigt.

Fig. 1 ist eine schematische Darstellung einer in der Technik bekannten Umwandlung eines Texts in Sprache.

Fig. 2 ist eine schematische Darstellung einer Ausfüh rungsform des zum Training des Lexikalisch-Postlexikalisch- Wandlers mit neuronalem Netz von verwendeten Trainingsverfahrens entsprechend der vorliegenden Erfindung.

Fig. 3 ist eine schematische Darstellung einer Ausfüh rungsform der Umwandlung von Text in Sprache, die den Lexika lisch-Postlexikalisch-Wandler mit neuronalem Netz entsprechend der vorliegenden Erfindung verwendet.

Fig. 4 ist eine schematische Darstellung einer postlexika lisch markierten Sprachdatenbank entsprechend der vorliegenden Erfindung.

Fig. 5 ist eine schematische Darstellung einer Ausfüh rungsform des Betriebs des Lexikalisch-Postlexikalisch-Wandlers mit neuronalem Netz entsprechend der vorliegenden Erfindung.

Fig. 6 ist eine schematische Darstellung der Ausrichtung einer lexikalischen Aussprache und einer postlexikalischen Aus sprache, wobei entsprechend der vorliegenden Erfindung die Zahl der Laute in der lexikalischen Aussprache gleich der Zahl der Laute in der postlexikalischen Aussprache ist.

Fig. 7 ist eine schematische Darstellung der Ausrichtung einer lexikalischen Aussprache und einer postlexikalischen Aus sprache, wobei entsprechend der vorliegenden Erfindung die Zahl der Laute in der lexikalischen Aussprache größer als die Zahl der Laute in der postlexikalischen Aussprache ist.

Fig. 8 ist eine schematische Darstellung der Ausrichtung einer lexikalischen Aussprache und einer postlexikalischen Aus sprache, wobei die postlexikalische Aussprache entsprechend der vorliegenden Erfindung einen zusammengezogenen Laut verwendet.

Fig. 9 ist eine schematische Darstellung einer Ausfüh rungsform der zum Testen verwendeten Architektur eines neurona len Lexikalisch-Postlexikalisch-Netzes entsprechend der vorlie genden Erfindung.

Fig. 10 ist eine schematische Darstellung der Kodierung von Folge 1 aus Fig. 15 und Folge 2 aus Fig. 15 zum Trainieren des neuronalen Lexikalisch-Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.

Fig. 11 ist eine schematische Darstellung der Kodierung der Folge 3 aus Fig. 15 zum Trainieren und Testen des neurona len Lexikalisch-Postlexikalisch-Netzes entsprechend der vorlie genden Erfindung

Fig. 12 ist eine schematische Darstellung der Dekodierung von Folge 1 aus Fig. 15 zum Testen des neuronalen Lexikalisch- Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.

Fig. 13 ist eine schematische Darstellung der Kodierung der Folge 2 aus Fig. 9 zum Testen des neuronalen Lexikalisch- Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.

Fig. 14 ist eine schematische Darstellung eines gleitenden Fensters zum Training des neuronalen Lexikalisch-Postlexika lisch-Netzes entsprechend der vorliegenden Erfindung.

Fig. 15 ist eine schematische Darstellung einer Ausfüh rungsform der Architektur des neuronalen Lexikalisch- Postlexikalisch-Netzes zum Training entsprechend der vorliegen den Erfindung.

Fig. 16 ist eine schematische Darstellung einer Ausfüh rungsform des neuronalen Lexikalisch-Postlexikalisch-Netzes, das die Anzahl der verwendeten PE entsprechend der vorliegenden Er findung darstellt.

Fig. 17 ist eine schematische Darstellung, die das eukli dische Fehlermaß mit dem entsprechend der vorliegenden Erfindung verwendeten merkmalsgerichteten Fehlermaß vergleicht.

Fig. 18 ist eine schematische Darstellung der in der Tech nik bekannten Berechnung des euklidischen Fehlermaßes.

Fig. 19 ist eine schematische Darstellung der Berechnung des merkmalsgerichteten Fehlermaßes entsprechend der vorliegen den Erfindung.

Fig. 20 ist ein Flußdiagramm einer Ausführungsform der Schritte zum Bestimmen lexikalischer Information aus Text und zum Erzeugen einer postlexikalischen Aussprache entsprechend der vorliegenden Erfindung.

Fig. 21 ist ein Flußdiagramm einer Ausführungsform der Schritte zum Umwandeln lexikalischer Aussprache in postlexikali sche Aussprache mit einem neuronalen Netz entsprechend der vor liegenden Erfindung.

Fig. 22 ist eine schematische Darstellung eines Mikropro zessors/einer anwendungsspezifischen integrierten Schaltung/einer Kombination aus einem Mikroprozessor und einer anwendungs spezifischen integrierten Schaltung zum Erzeugen postlexikali scher Aussprachen aus lexikalischen Aussprachen entsprechend der vorliegenden Erfindung.

Fig. 23 ist eine schematische Darstellung eines Erzeugnis ses zum Erzeugen postlexikalischer Aussprachen aus lexikalischen Aussprachen entsprechend der vorliegenden Erfindung.

Die vorliegende Erfindung liefert ein Verfahren, eine Vor richtung und ein Erzeugnis zum automatischen Umwandeln lexikali scher Aussprache in postlexikalische Aussprache mit Hilfe eines neuronalen Netzes, das mittels einer Sprachdatenbank trainiert wurde, in der die postlexikalische Ebene mit lexikalischen, aus einem Aussprachelexikon abgeleiteten Wortaussprachen markiert wurde. Das Training ergibt ein neuronales Netz mit Gewichtsfak toren, die die Übergangsfunktionen darstellen, die benötigt wer den, um die postlexikalischen Aussprachen aus den lexikalischen Aussprachen zu erzeugen. Fig. 2, Ziffer 200 stellt das Trai ningsverfahren für das neuronale Netz dar, während Fig. 3, Zif fer 300, darstellt, wie der lexikalisch-postlexikalisch-Wandler mit dem trainierten neuronalen Netz 312 in einer bevorzugten Ausführungsform in das Sprachmodul eines Sprachgenerators einge fügt wird. Mit dem Verfahren, der Vorrichtung und dem Erzeugnis zur Erzeugung von postlexikalischen Aussprachen aus lexikali schen Aussprachen mit einem neuronalen Netz können Systeme zur Umwandlung von Text in Sprache besser natürliche Sprache erzeu gen, als es sonst möglich wäre. Außerdem bietet die auf neurona len Netzen basierende Erzeugung von postlexikalischen Ausspra chen aus lexikalischen Aussprachen einen finanziellen Vorteil gegenüber dem Stand der Technik, da das System automatisch trai nierbar ist und an eine Sprache leicht angepaßt werden kann.

Die Tabelle 1 stellt die TIMIT-Laute, die bei lexikalischen Aussprachen verwendet werden, zusammen mit typischen orthogra phischen Wörtern, die den Klang der Laute verdeutlichen, dar.

Tabelle 1

Die Schriftzeichen in den Schreibweisen, die spezielle TIMIT-Laute darstellen, sind fett. Lexikalische Aussprachen sind in Querstriche // eingeschlossen. Tabelle 2 stellt die TIMIT Laute dar, die bei postlexikalischer Aussprache verwendet wer den. Postlexikalische Aussprachen sind in eckige Klammern [] eingeschlossen.

Tabelle 2

Es sollte beachtet werden, daß die Bedeutung eines Zeichens davon abhängt, ob es als lexikalischer oder ein postlexikali scher Laut interpretiert wird. Zum Beispiel verweist [t] auf der postlexikalischen Ebene auf die Verschlußöffnung eines t, wäh rend auf der lexikalischen Ebene sich /t/ auf einen Verschluß und ein Öffnen beziehen kann.

Um ein neuronales Netz auf das Erlernen des Umsetzens von lexikalisch nach postlexikalisch zu trainieren, wird eine post lexikalisch markierte Sprachdatenbank, Ziffer 202 in Fig. 2, verwendet. Fig. 4, Ziffer 400 zeigt einen Auszug aus solch ei ner postlexikalisch markierten Sprachdatenbank.

Um die markierte Sprachdatenbank zu bilden, werden norma lerweise mehrere hundert Sätze in amerikanischem Englisch von einer Person aufgezeichnet. Mit den Aufnahmen wird versucht, die meisten Lautkombinationen hervorzurufen, die es im Englischen gibt. Die Aufnahmen werden digitalisiert und von den verwendeten Spracheanalyseprogrammen graphisch dargestellt. Fig. 4 zeigt einen Signalverlauf (402), der sich bei der Digitalisierung und der Analyse eines kurzen Auszugs aus der Sprachdatenbank ergibt. Die Sprache wird mit einem dreistufigen Bezeichnungssystem no tiert. Auf der ersten Stufe, der orthographischen Stufe (406), ist die Sprache in Worteinheiten unterteilt, wobei die Enden jedes Wortes zu einem speziellen Zeitpunkt im Verlauf der Äuße rung gehören. Jedes Wortende ist mit einer orthographischen Transkription des Wortes verbunden. Auf der zweiten Stufe, der Lautstufe (408), wird die Sprache in Lauteinheiten unterteilt, wobei die Enden jeden Lautes zu dem speziellen Zeitpunkt im Ver lauf der Äußerung gehören. Jedes Lautende wird mit Hilfe der in Tabelle 2 gezeigten postlexikalischen TIMIT-Laute mit einer Transkription des Lautes verbunden. Auf der dritte Stufe, der Begrenzungsstufe (410), werden die Enden von Silben, Wörtern, Ausdrücken, Satzteilen und Sätzen mit ihren speziellen Zeitpunk ten im Verlauf der Äußerung verbunden. Jede dieser Begrenzungen wird mit einem der in Tabelle 3 gezeigten Begrenzungszeichen aufgelistet.

Tabelle 3

Um die mit den orthographischen Wörtern in der ersten mar kierten Stufe (406) der Sprachdatenbank verbundenen lexikali schen Aussprachen zu bestimmen, wird ein Wörterbuch von Schreib weise und lexikalischer Aussprache benötigt. Tabelle 4 zeigt einen Auszug aus einem Wörterbuch von Schreibweise zu lexikali scher Aussprache.

Tabelle 4

Das Wörterbuch speichert paarweise die Schreibweise mit der zugehörigen Aussprache. Im Wörterbuch werden die Aussprachen mit den in Tabelle 1 gezeigten TIMIT-Laute für die lexikalische Aus sprache dargestellt.

Um die postlexikalische Aussprache in der markierten Sprachdatenbank (Fig. 4) mit der lexikalischen Aussprache in der Wörterbuchdatenbank (Tabelle 4) zu verbinden, wird eine Da tenbankverknüpfung zwischen den zwei Datenbanken eingefügt, wo bei die orthographische Darstellung der Wörter als Verknüpfungs bereich dient, da beide Datenbanken orthographische Information enthalten. Das Ergebnis der Verknüpfung ist eine Tabelle, die für alle Wörter in der aufgezeichneten Datenbank orthographi sche, lexikalische und postlexikalische Information enthält. Diese Information ist wie in Tabelle 5 gezeigt organisiert, wo bei Laut- und Begrenzungsinformation eingeschoben sind, während sie die Reihenfolge, in der die Wörter in die Datenbank aufge nommen wurden, bewahrt.

Tabelle 5

Die Begrenzungsinformation wird in der dritten Stufe der markierten Sprachdatenbank wie in Tabelle 5 gezeigt genau wie die Schreibweise, die lexikalische und die postlexikalische Aus sprache aufgelistet.

Das neuronale Netz wird mit einer numerisch kodierten Form der in Tabelle 5 gezeigten Datenbank trainiert, die Schreibwei se, lexikalische und postlexikalische Aussprache verbindet.

Die zum Trainieren eingegebene Kodierung besteht aus den folgenden Bestandteilen: der Ausrichtung (alignment) der lexika lischen und der postlexikalischen Laute, der Extraktion der le xikalischen Lautmerkmale, der Extraktion der Begrenzungsabstand sinformationen, der Extraktion der Grenznachbarschaftsinforma tionen, der Umwandlung der Eingabelaute in Zahlen und dem Laden der Eingabe in ein gleitendes Fenster. Die Eingabekodierung zum Trainieren erfordert die Erzeugung von fünf Eingabefolgen für den Simulator des neuronalen Netzes: Folge 1 enthält postlexika lische Laute einschließlich der Trennzeichen zur Ausrichtung. Folge 2 enthält die lexikalischen Laute. Folge 3 enthält die mit den lexikalischen Lauten verbundenen Merkmale. Folge 4 enthält die Begrenzungsabstandsinformationen und Folge 5 enthält die Grenznachbarschaftsinformationen.

Die Ausrichtung der Laute ist notwendig, damit das neurona le Netz erkennen kann, welcher lexikalische Laut welchem postle xikalischen Laut entspricht. Die Ausrichtung der Laute bedeutet, daß spezielle lexikalische Laute in der Abfolge der Position mit bestimmten postlexikalischen Lauten verbunden werden.

Fig. 6, Ziffer 600 veranschaulicht die Ausrichtung lexika lischer und postlexikalischer Laute in einem Wort, wobei die Anzahl lexikalischer und postlexikalischer Laute gleich ist.

Fig. 7, Ziffer 700 veranschaulicht die Ausrichtung lexika lischer und postlexikalischer Laute in einem Wort, wobei die Anzahl lexikalischer Laute die Anzahl postlexikalischer Laute übersteigt. In diesem Fall wurde das letzte /d/ fortgelassen, wenn dieses Merkmal des Wortes geäußert wurde. Dieses Löschen wird auf der postlexikalischen Stufe mit einem Ausrich tungstrennzeichen '+' gegenüber dem /d/ auf der lexikalischen Stufe markiert.

Da die postlexikalischen Laute letztlich die Ausgabe des Umwandlungsverfahrens von lexikalisch in postlexikalisch sind, werden die Trennzeichen zur Ausrichtung vor der Ausgabe ge löscht. Trennzeichen zur Ausrichtung sind auf der lexikalischen Lautstufe nicht zulässig. Der Grund dafür ist, daß während des Betriebs des Lexikalisch-Postlexikalisch-Wandlers Trennzeichen zur Ausrichtung in die eingegebenen lexikalischen Laute einge fügt werden müßten, wofür es jedoch kein grundsätzliches Verfah ren gäbe.

Oft enthalten postlexikalische Aussprachen weniger Laute als lexikalische Aussprachen. Dies rührt daher, weil Löschungen und Reduktionen bei Sprachen übliche postlexikalische Phänomene sind, und solche Phänomene können durch das Entfernen der Laute aus der Transkriptionen beschrieben werden. In diesen Fällen können Trennzeichen zur Ausrichtung in die postlexikalische Transkription eingefügt werden, wo eigentlich lexikalische Laute stünden, wären sie nicht gelöscht worden.

In manchen Fällen verwenden postlexikalische Transkriptio nen mehr Laute als die entsprechenden lexikalischen Transkrip tionen. Dies rührt daher, daß postlexikalische Transkriptionen zusätzliche Einzelheiten umfassen. Zum Beispiel umfassen postle xikalische Transkriptionen Verschluß- und Öffnungsinformation für Verschlußlaute mit einem Grad an Genauigkeit, der bei lexi kalischen Transkriptionen nicht angegeben wird.

Fig. 8, Ziffer 800 ist ein Beispiel für die Ausrichtung einer postlexikalischen Aussprache mit mehr Lauten als die zuge hörige lexikalische Aussprache. Das Problem wird durch ein Zu sammenziehen von bestimmten Kombinationen postlexikalischer Lau te zu einem einzigen Zeichen gelöst. In Fig. 8 ist die postle xikalische Kombination bcl+b durch einen zusammengezogenen Laut b ersetzt.

Tabelle 6 zeigt die postlexikalischen Kombinationen und die zusammengezogenen Zeichen, durch die sie zur Ausrichtung und zur Eingabekodierung ersetzt werden.

Tabelle 6

Die zusammengezogenen Laute erfassen die Tatsache, daß die zusammengezogenen postlexikalischen Laute mit gerade einem lexi kalischen Laut verbunden werden, wodurch das neuronale Netz für jedes Lautfenster eine bessere Wahl treffen kann.

Es wurde eine neue Variation des in der Technik bekannten dynamischen Programmieralgorithmus verwendet, um lexikalische und postlexikalische Aussprachen auszurichten. Die Version der in der Technik bekannten dynamischen Programmierung wird in be zug auf das Ausrichten von Wörtern, die dasselbe Alphabet ver wenden, beschrieben. Das Einfügen, das Löschen und das Ersetzen von Zeichen bedeutet Aufwand. Ersetzungen erfordern nur dann keinen Aufwand, wenn in jeder Folge dasselbe Zeichen auf dersel ben Position steht.

Um Folgen aus verschiedenen Alphabeten wie etwa der postle xikalischen Laute und der lexikalischen Laute auszurichten, wur de ein neues Verfahren für das Berechnen des Ersetzungsaufwands entworfen.

Zu beachten ist, daß die in Tabelle 1 und Tabelle 2 gezeig ten, lexikalischen und postlexikalischen Lautzeichengruppen, nicht sehr verschieden sind. Aber außer bei einigen Zeichen, die ausschließlich zu der einen oder der anderen Symbolgruppe gehö ren, ist in den beiden Alphabeten die Bedeutung einiger Symbole tatsächlich anders. Der lexikalische Laut /b/ kann beispielswei se ein /b/ anzeigen, das mit oder ohne Öffnen artikuliert wird, wohingegen der postlexikalische Laut [b] nur das Öffnen von b anzeigt.

Es wurde eine kundenspezifisch angefertigte Tabelle ange legt, die die Wahrscheinlichkeit darstellt, mit der jeder lexi kalische Laut gegenüber jedem postlexikalischen Laut ausgerich tet wird. Tabelle 7 veranschaulicht die Tabelle für den Aufwand bei lexikalisch-postlexikalischen Lauten für amerikanisches Eng lisch.

Tabelle 7

Während mancher Aufwand Beziehungen widerspiegelt, die für alle Sprachen gelten, gilt dies manchmal nur für amerikanisches Englisch. Für Ersetzungen, die nicht von Tabelle 7 abgedeckt sind, für Einfügungen und für Löschen wird der in der Technik der Spracherkennungsbewertung gängige Aufwand angesetzt: Einfü gung entspricht 3, Löschen 3 und Ersetzung 4.

In Bezug auf Tabelle 7 sollte der Aufwand beim Zulassen ei ner besonderen Entsprechung geringer sein als der feste Aufwand beim Einfügen oder Löschen, anderenfalls sollte er größer sein. Je wahrscheinlicher es ist, daß ein vorgegebener Laut und ein Schriftzeichen in einer besonderen Position einander entspre chen, desto niedriger ist der Aufwand, den Laut und das Schrift zeichen zu ersetzen.

Fig. 10, Ziffer 1000 veranschaulicht die Kodierung der Folgen 1 (1008) und 2 (1010) in die zum Trainieren kodierte Ein gabe des neuronalen Netzes. Eine eingegebene lexikalische Aus sprache (1002) /aend/ und eine eingegebene postlexikalische Aus sprache (1004) [aen] werden einem Ausrichtungsverfahren unter worfen. Das Ausrichtungsverfahren setzt in die postlexikalische Aussprache ein Trennzeichen '+' zur Ausrichtung ein, was [aen+] (1006) ergibt. Der numerische Code für '+' ist 60. Die postlexikalische Aussprache (1006) mit den Trennzeichen zur Aus richtung wird gemäß Tabelle 2 in Zahlen umgewandelt und für die Folge 1 in einen Speicherpuffer (1008) geladen. Die lexikalische Aussprache wird gemäß Tabelle 1 in Zahlen umgewandelt und für Folge 2 in einen Speicherpuffer (1010) geladen.

Die Fig. 11, Ziffer 1100 veranschaulicht die Kodierung der Folge 3 der zum Trainieren kodierten Eingabe in das neuronale Netz. Jeder Laut der lexikalischen Aussprache ist mit seinen akustischen und seinen Artikulationsmerkmalen verbunden.

Um dem neuronalen Netz mehr Informationen zu geben, mit de nen es über die Trainingsmenge hinaus verallgemeinern kann, wer den in der eingegebenen Kodierung für jeden Laut akustische und Artikulationsmerkmale bereitgestellt. Akustische und Artikulati onsmerkmale für phonetische Segmente sind ein in der Technik verbreitetes Konzept. Jeder Laut kann dementsprechend durch meh rere phonetische Merkmale beschrieben werden. Tabelle 8 stellt die Merkmale dar, die mit jedem lexikalischen Laut verbunden sind, die in dieser Ausführungsform verwendet werden. Für jeden Laut kann ein Merkmal entweder aktiviert '+', deaktiviert '-' oder unspezifiziert 'O' sein.

In Fig. 11 werden die Merkmale jedes Lautes von /aend/, der /ae/ (1102) ist, /n/ (1104) und /d/ (1106) gemäß Tabelle 8 nachgeschlagen. Die aktivierten Merkmalen sind für jeden Laut in (1108), (1112), und (1116) aufgeführt.

Die Merkmale für jeden lexikalischen Laut werden dann gemäß der Merkmalszahltabelle nach Tabelle 9 in Zahlen umgewandelt. Die numerischen Kodierungen dienen dann als Folge 3 für /ae/(1110), /n/ (1114) und /d/ (1118).

Tabelle 9

Um dem neuronalen Netz zusätzliche Information bereitzu stellen, auf die sich die ausgegebenen postlexikalischen Laut vorschläge gründen sollen, die den lexikalischen Lauten und den lexikalischen Lautmerkmalen entsprechen, wird eine Gruppe von Abständen zu verschiedenen kritischen Begrenzungen in das Netz eingegeben.

Es wurde nachgewiesen, daß postlexikalische Phänomene bei Sprachen von Begrenzungen durch Silben, Worte, Ausdrücke, Satz teile und Sätze beeinflußt werden. Um dem neuronalen Netz diese Art der Information zur Verfügung zu stellen, werden Informatio nen über die Begrenzung von der größten bis zur kleinsten der folgenden sprachlichen Formen gegeben: Satz, Satzteil, Ausdruck, Wort und Silbe. Für jede Form werden die folgenden Informatio nen: 1/(Anzahl der Laute am Beginn der Form), 1/(Anzahl der Lau te am Ende der Form) und 1/(Länge der Form in Lauten). Formen dienen als Begrenzung für sich selbst und für alle kleineren Formen. Das heißt, ein Satz begrenzt einen Satzteil, einen Aus druck, ein Wort und die Silben bezüglich der Begrenzungsab standsmaße. Die Tabelle 10 stellt die numerische Eingabe für die Folge 4 der lexikalischen Eingabe: /dhiy seyl kaht axwey/ dar.

Tabelle 10

Damit das Netz Informationen bezüglich der Nachbarschaft zu verschiedenen Begrenzungen bekommt, wird eine Gruppe von logi schen Werten in das Netz eingegeben, wobei 1 = wahr und 0 = falsch ist. Für alle Silben, Worte, Ausdrücke, Satzteile und Sätze werden dem Netz die folgenden logischen Werte bereitge stellt: ob der Laut auf der linken Seite an eine Begrenzung grenzt und ob der Laut an eine Begrenzung auf der rechten Seite grenzt. Für einen Laut, der auf der linken Seite an eine Begren zung angrenzt, werden die logischen Werte aller kleineren Formen für die linke Begrenzung wahr gesetzt. Für einen Laut, der auf der rechten Seite an eine Begrenzung angrenzt, werden die logi schen Werte aller kleineren Formen für die rechte Begrenzung wahr gesetzt. Die Tabelle 11 stellt die numerische Eingabe für die Folge 5 für die lexikalische Eingabe: /dhiy seyl kaht axwey/ dar.

Tabelle 11

Um dem neuronalen Netz zum Lernen ausreichende Informatio nen über den Kontext zur Verfügung zu stellen, wird für die Le xikalisch-Postlexikalisch-Umwandlung ein gleitendes Fenster von neun Lauten verwendet, um dem Netz die Folgen 2 und 3 darzustel len. In den Folgen 4 und 5 sind bereits Informationen über den Kontext kodiert, so daß sie nicht mit ins Fenster aufgenommen werden. Zwischen den Sätzen werden 10 in den Figuren als Block markierte Auffüll-Stufen (PAD) eingefügt, damit die Daten von verschiedenen Sätzen nicht im selben Fenster erscheinen.

Fig. 14, Ziffer 1400 zeigt, welche lexikalischen Laute für jeden postlexikalischen Laut von einem Fenster angezeigt werden. Die Fig. 15, Ziffer 1500 zeigt die Architektur des neuronalen Netzes beim Trainieren. Von der Folge 2 (1502) werden 9 lexika lische Eingabelaute, die die postlexikalischen Ausgabelaute von Folge 1 (1504) umgeben, von der Eingangsstufe 2 (1506) an die neuronale Netzstufe 6 (1508) weitergegeben. Wenn in Fig. 14 zum Beispiel die Folge 1 aus dem postlexikalischen Laut [dh] (1402) besteht wird ein Fenster (1404) mit neun Lauten, das aus PAD, PAD, PAD, /dh/, /iyl/, ]w, /hh/ und /w/ besteht, von der Ein gangsstufe 2 (1506) zur Eingangsstufe 6 (1508) weitergegeben.

Das gleitende Fenster zeigt nicht nur Details des Kontexts an, es hindert das Netz auch daran, zu stark zu reagieren, wenn es einen bestimmten Laut in einer bestimmten Wortposition er kennt.

Das neuronale Netz erzeugt basierend auf den Eingangsvekto ren, den Folgen 2, 3, 4 und 5 und den internen Übertragungsfunk tionen, die von den Verarbeitungselementen (PE) verwendet wer den, einen Ausgangsvektor. Die von den Übertragungsfunktionen verwendeten Koeffizienten werden beim Trainingsprozeß variiert, um den Ausgangsvektor zu variieren. Die Übertragungsfunktionen und die Koeffizienten heißen zusammen die Gewichtsfaktoren des neuronalen Netzes, und die Gewichtsfaktoren werden beim Trai ningsverfahren variiert, um den von bestimmten Eingangsvektoren erzeugten Ausgangsvektor zu variieren. Die Gewichtsfaktoren wer den anfangs auf kleine Zufallswerte gesetzt. Am Beginn des Trai nings ist die zugehörige postlexikalische Darstellung ohne Be deutung, da die Gewichtsfaktoren des neuronalen Netzes Zufalls werte sind. Um die Entfernung zwischen der anvisierten phoneti schen Darstellung und der zugewiesenen phonetischen Darstellung, Folge 1 zu bezeichnen, wird ein Fehlersignalvektor erzeugt.

Im Gegensatz zu früheren Ansätzen wird das Fehlersignal nicht einfach als grobe Entfernung zwischen der zugehörigen pho netischen Darstellung und der anvisierten phonetische Darstel lung beispielsweise durch Verwenden eines euklidischen Abstands maßes nach Gleichung 1 berechnet. Der Abstand ist vielmehr eine Funktion, wie dicht die zugehörige phonetische Darstellung der anvisierten phonetische Darstellung im Merkmalsraum kommt. Es wird angenommen, daß die Nähe im Merkmalsraum einer Nähe im Wahrnehmungsraum entspricht, wenn die phonetischen Darstellungen ausgegeben werden.

Gleichung 1

Fig. 17, Ziffer 1700 vergleicht das euklidische Abstands fehlermaß mit dem merkmalsgerichteten Fehlermaß. Die anvisierte postlexikalische Aussprache (1702) ist [saelihd] für die Schreibweise "salad". Es werden zwei mögliche zugehörige Aus sprachen dargestellt: [saelaxd] (1704) und [saelbd] (1706). [saelaxd] (1704) wird ähnlich wie die anvisierte Aussprache wahrgenommen, während [saelbd] (1706) ziemlich weit davon ent fernt ist, abgesehen davon, daß es praktisch nicht ausgesprochen werden kann. Das euklidische Abstandsmaß zählt lediglich die Anzahl der Einzelheiten, die im anvisierten und im zugeordneten Vektor aufgeführt sind. Bei diesem Maß bekommen sowohl [saelaxd] (1704) als auch [saelbd] (1706) in bezug auf die Zielaussprache einen Fehlerwert von 2. Die zwei identischen Werte verdeutlichen den wahrgenommenen Unterschied zwischen den zwei Aussprachen nicht.

Im Gegensatz dazu erkennt das merkmalsgerichtete Fehlermaß, daß [ih] und [ax] sehr ähnlich wahrgenommen werden, und gewich tet daher, wenn [ax] für [ih] genommen wird, den lokalen Fehler entsprechend. Es wird eine Skala von 0 bei Übereinstimmung und 1 bei einem maximalen Unterschied eingerichtet, und den verschie denen Lautvergleichen wird auf dieser Skala ein Wert zugeordnet. Die Tabelle 12 liefert eine Gruppe von merkmalsgerichteten Feh ler- bzw. Gewichtsfaktoren, die für amerikanisches Englisch ver wendet werden. In dieser Tabelle sind die Faktoren die gleichen, egal ob die besonderen Laute Teil des Ziels oder Teil der Vor schlag sind. Dies muß aber nicht immer der Fall sein. Es wird angenommen, daß eine Kombinationen von Ziel- und vorgeschlagenen Lauten, die nicht in Tabelle 12 enthalten sind, den Faktor 1 haben.

Tabelle 12

Fig. 18, Ziffer 1800 zeigt, wie die nicht gewichteten lo kalen Fehler für das [ih] in [saelihd] berechnet werden. Die Fig. 19, Ziffer 1900 zeigt, wie der gewichtete Fehler, der die Faktoren aus Tabelle 12 verwendet, berechnet wird. Fig. 19 zeigt, wie der Fehler für [ax], wo [ih] erwartet wird, um den Faktor verringert wird, der die Wahrnehmung berücksichtigt, daß der Fehler weniger schwer ist als der Vorschlag von [b] für [ih], wobei dieser Fehler nicht verringert würde.

Nach der Berechnung des Fehlersignals sind die Gewichtswer te in einer Richtung eingestellt, um das Fehlersignal zu redu zieren. Dieses Verfahren wird mehrmals für zusammen gehörende Paare von Kontextbeschreibungen und zugewiesenen anvisierten phonetischen Darstellungen wiederholt. In diesem Verfahren, die Gewichtsfaktoren einzustellen, um die zugehörige phonetische Darstellung näher zur zugewiesenen anvisierten phonetischen Dar stellung zu bringen, besteht das Training des neuronalen Netzes. Dieses Training verwendet das Standard-Backpropagation-Fehler verfahren. Sobald das neuronale Netz trainiert wurde, enthalten die Gewichtswerte die Informationen, die notwendig sind, um die Kontextbeschreibung in einen Ausgangsvektor umzuwandeln, der einen vergleichbaren Wert hat, wie die zugewiesene anvisierte phonetische Darstellung. Die bevorzugte Ausführungsform des neu ronalen Netzes erfordert bis zu zehn Millionen Darstellungen der Kontextbeschreibung für die Eingabe und die folgenden Gewicht seinstellungen, bevor das neuronale Netz als vollständig trai niert betrachtet werden kann.

Das neuronale Netz enthält Stufen mit zwei Arten von Akti vierungsfunktionen, Sigmoid und Softmax, die in dem Stand der Technik bekannt sind. Die Aktivierungsfunktion Softmax wird in Gleichung 2 gezeigt.

Gleichung 2

Fig. 15 veranschaulicht die Architektur zum Trainieren des neuronalen Netzes mit einer lexikalischen Aussprache und zugehö riger Information auf eine postlexikalische Aussprache. Das neu ronale Netz ist aus einer Reihe verbundener Stufen aufgebaut, denen verschiedene Funktionen zugeordnet sind, einschließlich, ob die Stufen Eingabe/Ausgabestufe oder Stufen mit einer Akti vierungsfunktion für Sigmoid oder Softmax darstellen.

Die Folge 2 (1502), d. h. die numerische Kodierung eines Fensters von 9 lexikalischen Lauten, wird in die Eingangsstufe 2 (1506) eingegeben. Die Eingangsstufe 2 (1506) leitet diese Daten zur Sigmoid-Stufe 6 (1508) des neuronalen Netzes weiter. Die Sigmoid-Stufe des neuronalen Netzes 6 (1508) gibt dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.

Die Folge 3 (1512), d. h. die numerische Kodierung eines Fensters vom 9 lexikalischen Lauten, wird in die Eingangsstufe 3 (1514) eingegeben. Die Eingangsstufe 3 (1514) leitet dann diese Daten zur Sigmoid-Stufe 7 (1516) des neuronalen Netzes weiter.

Die Sigmoid-Stufe 7 (1516) des neuronalen Netzes leitet dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.

Die Folge 4 (1518), d. h. die numerische Kodierung der Be grenzungsabstandsinformationen wird in die Eingangsstufe 4 (1520) eingegeben. Die Eingangsstufe 4 (1520) leitet dann diese Daten zur Sigmoid-Stufe 8 (1522) des neuronalen Netzes weiter. Die Sigmoid-Stufe des neuronalen Netzes 8 (1522) gibt dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.

Die Folge 5 (1524), d. h. die numerische Kodierung der Be grenzungsabstandsinformation wird in die Eingangsstufe 5 (1526) eingespeist. Die Eingangsstufe 5 (1526) leitet dann diese Daten zur Sigmoid-Stufe 9 (1528) des neuronalen Netzes weiter. Die Sigmoid- Stufe 9 (1528) des neuronale Netzes gibt dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.

Die Sigmoid-Stufe des neuronalen Netzes 10 (1510) leitet die Daten zur Softmax-Stufe 11 (1530) des neuronalen Netzes.

Die Folge 1 (1504), d. h. die numerische Kodierung der Ziel laute wird in Ausgangsstufe 1 (1532) eingespeist.

Die Softmax-Stufe 11 (1530) des neuronalen Netzes gibt auf der Grundlage der in Stufe 1 (1532) gegebenen Eingangsinformati on den wahrscheinlichsten Laut aus. Die Ausgangsstufe 1 (1532) gibt dann die Daten als Vorschlag (1534) des neuronalen Netzes aus. Der Vorschlag (1534) des neuronalen Netzes wird dann ent sprechend der oben beschriebenen merkmalsgerichteten Fehlerfunk tion mit der Folge 1 (1504), dem anvisierten postlexikalischen Laut verglichen.

Der von der Fehlerfunktion bestimmte Fehler wird dann zur Softmax-Stufe 11 (1530) des neuronalen Netzes zurückgeleitet, die dann ihrerseits den Fehler an die Sigmoid-Stufe 10 (1510) des neuronalen Netzes zurückgibt, die ihrerseits den Fehler an die Sigmoid-Stufen 6 (1508), 7 (1516), 8 (1522) und 9 (1528) des neuronalen Netzes zurückleitet.

Die doppelten Pfeile zwischen den Stufen des neuronalen Netzes in Fig. 15 zeigen an, daß im Netz sowohl Vor- als auch Rückbewegungen stattfinden.

Fig. 5, Ziffer 500 zeigt den Lexikalisch-Postlexikalisch- Wandler mit neuronalem Netz der Fig. 3 Ziffer 310 im Detail. Die lexikalischen Aussprachen für einen ganzen Satz werden Wort für Wort gesammelt, um für jeden lexikalischen Laut die Berech nung von Begrenzungsabstandsinformationen und von Grenznachbar schaftsinformationen zu ermöglichen. Jede lexikalische Ausspra che mit Wortumfang wird im Eingabeformat (504) des neuronalen Netzes kodiert. Die kodierte lexikalische Aussprache wird dann an das trainierte neuronale Netz (506) geschickt. Dies wird Te sten des neuronalen Netzes genannt. Das trainierte neuronale Netz gibt eine kodierte postlexikalische Aussprache aus, die vom neuronalen Netzausgangsdekodierer (508) in eine postlexikalische Aussprache (510) dekodiert werden muß.

Zum Testen des Netzes müssen nur Folgen 2, 3, 4 und 5 ko diert werden. Die Kodierung der Folge 2 zum Testen wird in Fig. 13, Ziffer 1300 gezeigt. Jeder lexikalische Laut (1302) wird in einen numerischen Code entsprechend der lexikalischen Lauttabel le in Tabelle 1 umgewandelt. Der numerische Code jedes lexikali schen Lautes wird dann in einen Speicherpuffer für Folge 2 (1304) geladen. Folge 3 ist wie in Fig. 11 kodiert. Folge 4 ist wie in Tabelle 10 kodiert. Folge 5 ist wie in Tabelle 11 ko diert. Ein Wort wird durch Kodieren der Folgen 2, 3, 4 und 5 für dieses Wort und das Testen des neuronalen Netzes getestet.

Das neuronale Netz gibt einen Vorschlag für eine postlexi kalische Aussprache aus. Der Vorschlag des neuronalen Netzes wird dann nach Fig. 12, Ziffer 1200 durch Umwandeln der Nummern (1202) gemäß der Lautzahl-Tabelle von Tabelle 2 in Laute (1204) durch das Entfernen der Ausrichtungstrennzeichen mit der Nummer 60 und durch das Aufbrechen von zusammengezogenen postlexikali schen Lauten gemäß Tabelle 13 in ihre Bestandteile dekodiert.

Tabelle 13

Fig. 9, Ziffer 900 zeigt, wie die kodierten Folgen zum Te sten in die Architektur des neuronalen Netzes eingegeben werden. Die Folge 2 (902), die numerische Kodierung eines Fensters von 9 lexikalischen Laute wird in die Eingangsstufe 2 (904) einge speist. Die Eingangsstufe 2 (904) leitet dann diese Daten zur Sigmoid-Stufe 6 (906) des neuronalen Netzes. Die Sigmoid-Stufe 6 (906) des neuronalen Netzes leitet dann die Daten für jedes Schriftzeichen zur Sigmoid-Stufe 10 (908) des neuronalen Netzes.

Die Folge 3 (910), die numerische Kodierung eines Fensters der lexikalischen Lautmerkmale für 9 lexikalische Laute der ein gegebenen lexikalischen Aussprache, wird in die Eingangsstufe 3 (912) eingespeist. Die Eingangsstufe 3 leitet dann diese Daten zur Sigmoid-Stufe 7 (914) des neuronalen Netzes. Die Sigmoid- Stufe 7 (914) des neuronalen Netzes gibt dann für jedes lexika lische Lautmerkmale die Daten an die Sigmoid-Stufe 10 (908) des neuronalen Netzes weiter.

Die Folge 4 (916), d. h. die entsprechend Tabelle 10 kodier te numerische Kodierung der Begrenzungsabstandinformationen der eingegebenen lexikalischen Aussprache wird in die Eingangsstufe 4 (918) eingespeist. Die Eingangsstufe 4 leitet dann diese Daten zur Sigmoid-Stufe 8 (920) des neuronalen Netzes. Die Sigmoid- Stufe 8 (920) des neuronalen Netz leitet dann die Daten zur In formation über den Begrenzungsabstand jedes lexikalischen Lautes in die Sigmoid-Stufe (908) des neuronalen Netzes.

Die Folge 5 (922), d. h. die entsprechend Tabelle 11 kodier te numerische Kodierung der Grenznachbarschaftsinformation der eingegebenen lexikalischen Aussprache wird in die Eingangsstufe 5 (924) eingespeist. Die Eingangsstufe 5 (924) leitet dann diese Daten zur Sigmoid-Stufe 9 (926) des neuronalen Netzes weiter. Die Sigmoid-Stufe 9 (926) des neuronalen Netzes gibt die Daten zur Information über die Grenznachbarschaft jedes lexikalischen Lauts in Sigmoid-Stufe 10 (908) des neuronalen Netzes weiter.

Die Sigmoid-Stufe 10 (908) des neuronalen Netzes leitet ih re Daten dann zur Softmax-Stufe 11 (928) des neuronalen Netzes.

Softmax 11 (928) des neuronalen Netzes gibt den aufgrund der eingegebenen Eingangsinformation wahrscheinlichsten Laut an die Ausgangsstufe 1 (930) aus. Die Ausgangsstufe 1 (930) gibt dann die Daten als Vorschlag (932) des neuronalen Netzes für den postlexikalischen Laut aus.

Fig. 16, Ziffer 1600 zeigt eine Abbildung des neuronalen Netzes, in der die Anzahl von Verarbeitungselementen PE, die jede Stufe verbinden, gezeigt wird. Die Daten der Eingabefolge 2 (1602), die eine numerische Kodierung der lexikalischen Laute enthalten, werden in die Eingangsstufe 2 (1604) geladen. Die Eingangsstufe 2 (1604) enthält 918 PE, was die Größe darstellt, die ein Fenster für neun Laute haben muß, wobei jeder Laut eines von 102 einzelnen Zeichen sein könnte.

Die Eingangsstufe 2 (1604) gibt diese 918 PE an die Sig moid-Stufe 6 (1606) des neuronalen Netzes weiter.

Die Sigmoid-Stufe 6 (1606) des neuronalen Netzes gibt 10 PE an die Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.

Die Daten der Eingabefolge 3 (1628), die eine, wie in Fig. 11 gezeigt, kodierte numerische Kodierung lexikalischer Laut merkmale enthalten, werden in die Eingangsstufe 3 (1630) gela den. Die Eingangsstufe 3 (1630) enthält 477 PE, was die für ein Fenster von 9 lexikalischen Lauten erforderliche Größe ist, wo bei ein lexikalischer Laut durch bis zu 53 aktive Merkmale dar gestellt werden kann. Die Eingangsstufe 3 (1630) leitet diese 477 PE zur Sigmoid-Stufe 7 (1632) des neuronalen Netzes weiter.

Die Sigmoid-Stufe 7 (1632) des neuronalen Netzes gibt 10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.

Die Daten der Eingabefolge 4 (1622), die eine in Tabelle 10 gezeigte numerische Kodierung der Begrenzungsabstandsinformation enthalten, werden in die Eingangsstufe 4 (1624) geladen. Die Eingangsstufe 4 (1624) enthält 15 PE, was die für jeden der Be grenzungsabstände verlangte Größe ist. Die Eingangsstufe 4 (1624) leitet diese 15 PE zur Sigmoid-Stufe 8 (1626) des neuro nalen Netzes weiter.

Die Sigmoid-Stufe 8 (1626) des neuronalen Netzes gibt 10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.

Die Daten der Eingabefolge 5 (1616), die eine in Tabelle 11 gezeigte, numerische Kodierung der Grenznachbarschaftsinforma tionen enthalten, werden in die Eingangsstufe 5 (1618) geladen. Die Eingangsstufe 5 (1618) enthält 10 PE, was die für jeden der Grenznachbarschaftswerte erforderliche Größe ist. Die Eingangs stufe 5 (1618) leitet diese 15 PE zur Sigmoid-Stufe 9 (1620) des neuronalen Netzes weiter.

Die Sigmoid-Stufe 9 (1620) des neuronalen Netzes gibt die 10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.

Die Sigmoid-Stufe 10 (1608) des neuronalen Netzes gibt 20 PE zur Softmax-Stufe 11 (1610) des neuronalen Netzes weiter. Die Softmax-Stufe 11 (1610) des neuronalen Netzes leitet 102 PE, die die möglichen postlexikalischen Laute darstellen, an die Aus gangsstufe 1 (1612) weiter.

Der hier beschriebene Ansatz für eine Umwandlung von lexi kalischen in postlexikalische Laute hat gegenüber Systemen, die auf Regeln basieren, den Vorteil, daß er sich für jede Sprache leicht anpassen läßt. Für eine Sprache wird lediglich ein Schreibweise-Laut-Lexikon dieser Sprache, eine postlexikalisch- lexikalisch Laut-Aufwand-Tabelle für diese Sprache und eine postlexikalisch markierte Sprachdatenbank benötigt. Es kann au ßerdem nötig sein, Zeichen aus einem internationalen phoneti schen Alphabet zu verwenden, so daß der volle Bereich der phone tischen Schwankungen der Sprachen der Welt wiedergegeben werden kann.

Ein Verfahren, eine Vorrichtung und ein Erzeugnis ermögli chen das effiziente Erzeugen postlexikalischer Ausspracheinfor mationen, ausgehend von lexikalischen Ausspracheinformationen. Ein neuronales Netz wird mit zusammengehörigen lexikalisch- postlexikalischen Aussprachedaten trainiert, die mit einer um ein merkmalsgerichtetes Abstandsmaß verbesserten dynamischen Programmierung ausgerichtet werden. Merkmalswerte für lexikali sche Laute werden zur Eingabe in das neuronale Netz bereitge stellt. Begrenzungsabstands- und Grenznachbarschaftsinformation werden dem neuronalen Netz für jeden lexikalischen Laut bereit gestellt. Ein Fenster, das mehrere lexikalische Laute und lexi kalische Lautmerkmale umfaßt, wird dem neuronalen Netz zur Ver fügung gestellt, um dem Netz mit Informationen über den Kontext zu helfen.

Wie in Fig. 20, Ziffer 2000 gezeigt, führt die vorliegende Erfindung ein Verfahren einschließlich der Schritte aus, um ab hängig von einer lexikalischen Aussprache effizient eine postle xikalische Aussprache zu erzeugen: (2002) Bestimmen lexikali scher Laute, lexikalischer Merkmale und Begrenzungsinformation für einen vorgegebenen Textabschnitt und (2004) Verwenden eines vorbereiteten neuronalen Netzes, das mittels lexikalischer Lau te, postlexikalischer Laute, lexikalischer Merkmale und Begren zungsinformation vorbereitet wurde, um einen Vorschlag des neu ronalen Netz für eine postlexikalische Aussprache des vorgegebe nen Teils des Texts zu erzeugen.

In der bevorzugten Ausführungsform umfaßt die Begrenzungs information mindestens eine Begrenzungsabstandsinformation oder eine Grenznachbarschaftsinformation.

Wie in Fig. 21, Ziffer 2100 gezeigt, wird das vorbereitete neuronale Netz (2004) mit Hilfe der Schritte trainiert: Bereit stellen (2102) von lexikalischen Aussprachen, die aus den lexi kalischen Laute eines vorgegebenen Textabschnitts bestehen, mit der zugehörigen postlexikalischen Aussprache, die aus den post lexikalischen Lauten einer Zieläußerung bestehen, Ausrichten (2104) der lexikalischen und der zugehörigen postlexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichte ten Ersetzungsaufwandsfunktion verbesserten dynamische Program mierausrichtung, Bereitstellen (2106) von akustischen und von Artikulationsinformationen für die lexikalischen Laute, Bereit stellen (2108) von Information über die Entfernung zwischen al len lexikalischen Lauten und allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2110) von Information über die Nachbarschaft aller lexikalischer Laute und aller Silbe, Worte, Ausdrücke, Satzteile und der Satzbegrenzun gen, Bereitstellen (2112) eines Fenster mit vorgegebener Längen für den Kontext der lexikalischen Laute, Bereitstellen (2114) eines Fensters mit vorgegebener Länge für den Kontext von lexi kalischen Lautmerkmalen und Trainieren (2116) eines neuronalen Netz zum Verbinden der eingegebenen lexikalischen Laute mit den postlexikalischen Lauten.

In einer bevorzugten Ausführungsform verwendet das postle xikalische neuronale Netz (2004) eine merkmalsgerichtete Fehler funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu kennzeichnen.

Das postlexikalische neuronale Netz (2004) kann ein vor wärts gerichtetes neuronales Netz sein.

Das postlexikalische neuronale Netz (2004) kann eine Feh ler-Backpropagation verwenden.

Das postlexikalische neuronale Netz (2004) kann eine rekur sive Eingabestruktur haben.

Die lexikalischen Merkmale (2002) können Artikulationsmerk male umfassen.

Die lexikalischen Merkmale (2002) können akustische Merkma le umfassen.

Die lexikalischen Merkmale (2002) können eine Geometrie von Artikulationsmerkmalen umfassen.

Die lexikalischen Merkmale (2002) können eine Geometrie von akustischen Merkmalen umfassen.

Die Ausrichtung (2104) kann auf Grund von Konsonanten- und Vokalpositionen in der orthographischen Form und in der zugehö rigen phonetischen Darstellung erfolgen.

Die lexikalischen Laute und postlexikalischen Laute (2004) können mit Hilfe eines Merkmalsvektors beschrieben werden.

Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104) verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Aufwandstabelle.

Das neuronale Netz (2004) kann mit Intonations- Informationen trainiert werden.

Das neuronale Netz (2004) kann mit prosodischen Informatio nen trainiert werden.

Wie in Fig. 22, Ziffer 2200 gezeigt, liefert die vorlie gende Erfindung eine Vorrichtung mit mindestens einem Mikropro zessor oder einer anwendungsspezifischen integrierten Schaltung oder einer Kombination aus einem Mikroprozessor und einer anwen dungsspezifischen integrierten Schaltung zum effizienten Erzeu gen einer postlexikalischen Aussprache in Abhängigkeit einer lexikalischen Aussprache, das enthält: einen Kodierer (2224), der gekoppelt ist, um lexikalische Laute (2202), lexikalische Merkmale (2204), Begrenzungsabstandsinformation (2206) und Grenznachbarschaftsinformation (2208) für einen vorgegebenen Textabschnitt digital zu empfangen und einem vorbereiteten post lexikalischen neuronalen Netz (2226) zuzuführen, wobei das vor bereitete postlexikalische neuronale Netz (2226) mit Hilfe von lexikalischen Lauten (2210), postlexikalischen Lauten (2212), lexikalischen Merkmalen (2214), Begrenzungsabstandsinformationen (2216) und Grenznachbarschaftsinformationen (2218) trainiert wurde und wobei die lexikalischen und postlexikalischen Laute mit Hilfe einer automatischen merkmalsgerichteten dynamischen Programmierausrichtung (2220) ausgerichtet werden, und ein mit dem Kodierer (2224) gekoppeltes vorbereitetes postlexikalisches neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuro nalen Netzes für eine postlexikalische Aussprache (2229) des vorgegebenen Teils des Textes.

Wie in Fig. 21 gezeigt, wird das vorbereitete postlexika lische neuronale Netz (2226) entsprechend dem folgenden Verfah ren trainiert: (2102) Bereitstellen lexikalischer Aussprachen, die aus lexikalischen Lauten für den vorgegebenen Textabschnitt bestehen, und zugehöriger postlexikalischer Aussprachen, die aus postlexikalischen Laute für eine Zieläußerung bestehen, (2104) Ausrichten der zugehörigen lexikalischen und postlexikalischen Darstellungen, wobei eine mit einer merkmalsgerichteten Erset zungsaufwandsfunktion verbesserte dynamische Programmierausrich tung verwendet wird, (2106) Bereitstellen von akustischen Infor mationen und von Artikulationsinformationen für die lexikalische Laute, (2108) Bereitstellen von Informationen über die Entfer nung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, (2110) Bereitstellen der Informationen in bezug auf die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen, (2112) Bereitstel len eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute, (2114) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der Eigenschaften lexikali scher Laute und (2116) Trainieren eines neuronales Netzes zum Verbinden eingegebener lexikalische Laute mit postlexikalischen Lauten.

In einer bevorzugten Ausführungsform verwendet das postle xikalische neuronale Netz (2226) eine merkmalsgerichtete Fehler funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu kennzeichnen.

Das postlexikalische neuronale Netz (2226) kann ein vor wärts gerichtetes neuronales Netz sein.

Das postlexikalische neuronale Netz (2226) kann eine Feh ler-Backpropagation verwenden.

Es ist möglich, daß das postlexikalische neuronale Netz (2226) einen rekursive Eingabestruktur hat.

Die lexikalischen Merkmale (2204) und (2214) können Artiku lationsmerkmale umfassen.

Die lexikalischen Merkmale (2204) und (2214) können akusti sche Merkmale umfassen.

Die lexikalischen Merkmale (2204) und (2214) können eine Geometrie von Artikulationsmerkmalen umfassen.

Die lexikalischen Merkmale (2204) und (2214), können eine Geometrie von akustischen Merkmalen umfassen.

Die Ausrichtung (2220) kann auf der Grundlage von Konsonan ten- und Vokalpositionen in der orthographischen Form und in der zugehörigen phonetischer Darstellung erfolgen.

Die lexikalischen Laute (2202) und (2210) und die postlexi kalischen Laute (2212) können mit Hilfe von Merkmalsvektoren beschrieben werden.

Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104) verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle.

Das postlexikalische neuronale Netz (2226) kann mit Intona tions-Informationen trainiert werden.

Das postlexikalische neuronale Netz (2226) kann mit proso dischen Informationen trainiert werden.

Wie in Fig. 23, Ziffer 2300 gezeigt, stellt die vorliegen de Erfindung ein Erzeugnis (2322), d. h. Programme zum Erzeugen postlexikalischer Aussprachen aus lexikalischen Aussprachen be reit, einschließlich eines von einem Computer verwertbaren Medi ums mit einem von einem Computer lesbaren Programmcode-Mittel darauf, das enthält: eine lexikalische Informationsbestimmungs seinheit (2324) zum Bestimmen lexikalischer Laute (2302), lexi kalischer Merkmale (2304), Begrenzungsabstandsinformationen (2306) und von Grenznachbarschaftsinformationen (2308) für einen vorgegebenen Textabschnitt, und eine postlexikalische neuronale Netzanwendungseinheit (2326) zum Verwenden eines vorbereiteten neuronalen Netzes, das vorbereitetet wurde, lexikalische Laute (2310), postlexikalische Laute (2312), lexikalische Merkmale (2314), Begrenzungsabstandinformation (2316) und Grenznachbar schaftsinformation (2318) zu verwenden, um einen Vorschlag des neuronalen Netzes für eine postlexikalische Aussprache (2328) des vorgegebenen des Textabschnitts zu erzeugen.

Wie in Fig. 21 gezeigt, wird die postlexikalische neurona le Netzanwendungseinheit (2326) entsprechend dem folgenden Ver fahren trainiert: Bereitstellen (2102) lexikalischer Ausspra chen, die aus lexikalischen Lauten für den vorgegebenen Textab schnitt bestehen, und der zugehörigen postlexikalischen Ausspra chen, die aus postlexikalischer Laute für eine Zieläußerung be stehen, Ausrichten (2104) der zugehörigen lexikalischen und postlexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy namischen Programmierausrichtung, Bereitstellen (2106) von aku stischen und von Artikulationsinformationen für die lexikali schen Laute, Bereitstellen (2108) der Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Sil ben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2210) der Information über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrüc ken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2112) eines Fensters mit vorgegebener Länge mit dem Kontext der lexi kalischen Laute, Bereitstellen (2114) eines Fensters mit vorge gebener Länge mit dem Kontext der Eigenschaften der lexikali schen Laute und Trainieren (2116) eines neuronalen Netzes zum Verbinden eingegebener lexikalischer Laute mit postlexikalischen Lauten.

In einer bevorzugten Ausführungsform verwendet die neurona le Netzanwendungseinheit (2326) eine merkmalsgerichtete Fehler funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen.

Die postlexikalische neuronale Netzanwendungseinheit (2326) kann ein vorwärts gerichtetes neuronales Netz sein.

Die postlexikalische neuronale Netzanwendungseinheit (2326) kann eine Fehler-Backpropagation verwenden.

Die postlexikalische neuronale Netzanwendungseinheit (2326) kann eine rekursive Eingabestruktur haben.

Die lexikalischen Merkmale (2304) und (2314) können Artiku lationsmerkmale umfassen.

Die lexikalischen Merkmale (2304) und (2314) können akusti sche Merkmale umfassen.

Die lexikalischen Merkmale (2304) und (2314) können eine Geometrie von Artikulationsmerkmalen umfassen.

Die lexikalischen Merkmale (2304) und (2314) können eine Geometrie akustischer Merkmale umfassen.

Die Ausrichtung (2320) kann auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörigen pho netischen Darstellung erfolgen.

Die lexikalischen Laute (2302) und (2310) können unter Ver wendung von Merkmalsvektoren beschrieben werden.

Das Erzeugnis nach Anspruch 35, wobei die postlexikalischen Laute mit einem Merkmalsvektor beschrieben werden.

Die postlexikalische neuronale Netzanwendungseinheit (2326) kann mit Intonations-Informationen trainiert werden.

Die postlexikalische neuronale Netzanwendungseinheit (2326) kann mit prosodischen Informationen trainiert werden.

Die vorliegende Erfindung kann in anderen speziellen Formen verwendet werden, ohne daß von ihrem Prinzip oder von ihren we sentlichen Eigenschaften abgewichen wird. Alle beschriebenen Ausführungsformen dienen nur der Veranschaulichung und sollen in keiner Hinsicht einschränken. Der Umfang der Erfindung wird des halb statt durch die vorhergehende Beschreibung durch die ange fügten Ansprüche bestimmt. Alle Änderungen, die innerhalb der Bedeutung und des Bereichs des Äquivalents zu den Ansprüchen liegen, sollen von ihrem Umfang umschlossen werden.

Claims

1. Verfahren zur einer effizienten Erzeugung einer postle xikalischen Aussprache in Abhängigkeit von einer lexikalischen Aussprache, gekennzeichnet durch die Schritte:
(1A) Bestimmen lexikalischer Laute (2002), lexikalischer Merkmale und Begrenzungsinformationen für einen vorgegebenen Textabschnitt und
(1B) Verwenden eines vortrainierten neuronalen Netzes, das vortrainiert wurde, lexikalische Laute (2004), postlexikalische Laute, lexikalische Merkmale und Begrenzungsinformation zu ver wenden, um einen Vorschlag des neuronale Netz für eine postlexi kalische Aussprache des vorgegebenen Teils des Texts zu erzeu gen.

2. Verfahren nach Anspruch 1, wobei mindestens eins von 2A-2F gilt:
2A) die Begrenzungsinformation umfaßt mindestens eine Be grenzungsabstandinformation oder eine Grenznachbarschaftsinfor mation
2B) wobei das neuronale Netz in Schritt (1B) ein vorwärts gerichtetes neuronales Netz ist,
2C) wobei das neuronale Netz in Schritt (1B) die Backpropa gation von Fehlern verwendet,
2D) wobei das neuronale Netz in Schritt (1B) eine rekursive Eingabestruktur hat,
2E) die lexikalischen Merkmale Artikulationsmerkmale umfas sen und
2F) wobei das vorbereitete neuronale Netz mit den Schritten trainiert wurde:
2F1) Bereitstellen von lexikalischen Aussprachen, die aus lexikalischen Lauten eines vorgegebenen Textabschnitts bestehen, zusammen mit der zugehörigen postlexikalischen Aussprache, die aus den postlexikalischen Lauten einer Zieläußerung bestehen (2102),
2F2) Ausrichten der lexikalischen und der zugehörigen post lexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy namischen Programmierausrichtung (2104),
2F3) Bereitstellen von akustischen Informationen und von Artikulationsinformationen für die lexikalischen Laute (2106),
2F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen (2108),
2F5) Bereitstellen von Information über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen (2110),
2F6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute (2112),
2F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext von lexikalischen Lautmerkmalen (2114) und
2F8) Trainieren eines neuronalen Netz zum Verbinden der eingegebenen lexikalischen Laute mit den postlexikalischen Lau ten (2116), und wobei mindestens eines von 2F8a-2F8c berücksich tigt wurde:
2F8a) außerdem Enthalten einer merkmalsgerichteten Fehler funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
2F8b) wobei in Schritt (2F2) die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörigen phonetischen Darstellung erfolgt, und
2F8c) wobei in Schritt (2F2) die merkmalsgerichtete Erset zungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfü gungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.

3. Verfahren nach Anspruch 1, bei dem mindestens eins von 3A-3G gilt:
3A) die lexikalischen Merkmale umfassen akustische Merkma le;
3B) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen;
3C) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmale;
3D) die lexikalischen Lauten werden mit Hilfe eines Merk malsvektors beschrieben;
3E) die postlexikalischen Laute werden mit Hilfe eines Merkmalsvektors beschrieben;
3F) wobei das neuronale Netz in Schritt (1B) mit Intonati ons-Informationen trainiert wird,
3G) wobei das neuronale Netz in Schritt (1B) mit Prosodem- Informationen trainiert wird.

4. Vorrichtung zur effizienten Erzeugung einer postlexika lischen Aussprache in Abhängigkeit von einer lexikalischen Aus sprache, gekennzeichnet durch:
4A) einen Kodierer (2224) zum Empfangen lexikalischer Lau te, lexikalischer Merkmale, Begrenzungsabstandsinformationen und Grenznachbarschaftsinformationen für einen vorgegebenen Textab schnitt, zum Bereitstellen einer digitalen Eingabe in ein vor trainiertes postlexikalisches neuronales Netz, wobei das vor trainierte postlexikalische neuronale Netz mit Hilfe von lexika lischen Lauten, postlexikalischen Lauten, lexikalischen Merkma len, Begrenzungsabstandsinformationen und Grenznachbarschaftsin formationen trainiert wurde und wobei die lexikalischen und postlexikalischen Laute mit Hilfe einer automatischen merkmals gerichteten dynamischen Programmierausrichtung ausgerichtet wur den, und
4B) ein mit dem Kodierer gekoppeltes vorbereitetes postle xikalisches neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuronalen Netz für eine postlexikalische Aussprache des vorgegebenen Textabschnitts.

5. Vorrichtung nach Anspruch 4, für die mindestens eins aus 5A-5D gilt:
5A) Verwenden beim Trainieren außerdem einer merkmalsge richteten Fehlerfunktion, um die Entfernung zwischen der anvi sierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
5B) die Vorrichtung umfaßt eines von 5B1-5B3:
5B1) einen Mikroprozessor,
5B2) eine anwendungsspezifische integrierte Schaltung und
5B3) eine Kombination von (5B1) und (5B2),
5C) das neuronale Netz ist ein vorwärts gerichtetes neuro nales Netz,
5D) wobei das vorbereitete neuronale Netz entsprechend dem folgenden Verfahren trainiert wurde:
5D1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be stehen, und zugehörigen postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
5D2) Ausrichten der zugehörigen lexikalischen und postlexi kalischen Darstellungen unter Verwendung einer mit einer merk malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami schen Programmierausrichtung,
5D3) Bereitstellen von akustischen Informationen und Arti kulationsinformationen für die lexikalischen Laute,
5D4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
5D5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satz teilen und den Satzbegrenzungen,
5D6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute,
5D7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale,
5D8) Trainieren eines neuronalen Netzes zum Verbinden ein gegebener lexikalischer Laute mit postlexikalischen Lauten,
5D9) wobei, wenn ausgewählt, in 5D8 das Ausrichten auf Grundlage von Konsonanten- und Vokalpositionen in der Schreib weise und der zugehörigen phonetischen Darstellung erfolgt, und
5D10) wobei, wenn ausgewählt, in 5D8 die merkmalsgerichte ten Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungsta belle verwendet.

6. Vorrichtung nach Anspruch 4, wobei mindestens eins von 6A-6E gilt:
6A) das neuronale Netz verwendet eine Backpropagation von Fehlern,
6B) das neuronale Netz hat eine rekursive Eingabestruktur,
6C) die lexikalischen Merkmale umfassen Artikulationsmerk male,
6D) die lexikalischen Merkmale umfassen akustische Merkma le,
6E) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen.

7. Vorrichtung nach Anspruch 4, wobei mindestens eins von 7A-7E gilt:
7A) die lexikalischen Merkmale umfassen eine Geometrie aku stischer Merkmale,
7B) die lexikalischen Laute werden mittels eines Merkmals vektors beschrieben,
7C) die postlexikalischen Lauten werden mittels eines Merk malsvektors beschrieben,
7D) das neuronale Netz wird mit Intonations-Informationen trainiert und
7E) das neuronale Netz wird mit Prosodem-Informationen trainiert.

8. Erzeugnis zum Erzeugen postlexikalischer Aussprachen aus lexikalischen Aussprachen mit einem von einem Computer verwend baren Medium mit einem von einem Computer lesbaren Programmcode- Mittel darauf, gekennzeichnete durch:
8A) eine lexikalische Informationsbestimmungsvorrichtung (2324) zum Bestimmen lexikalischer Laute, lexikalischer Merkma le, Begrenzungsabstandsinformationen und Grenznachbarschaftsin formationen für einen vorgegebenen Textabschnitt und
8B) eine postlexikalische neuronale Netzanwendungsvorrich tung (2326) zum Verwenden eines vortrainierten neuronalen Netzes, das mit lexikalischen Lauten, postlexikalischen Lauten, lexika lischen Merkmalen, Begrenzungsabstandsinformationen und mit Grenznachbarschaftsinformationen vorbereitetet wurde, um einen Vorschlag des neuronalen Netzes für eine postlexikalische Aus sprache des vorgegebenen Textabschnitts zu erzeugen.

9. Erzeugnis nach Anspruch 8, wobei mindestens eins von 9A-9F gilt:
9A) das neuronale Netz ist ein vorwärts gerichtetes neuro nales Netz,
9B) das neuronale Netz verwendet eine Backpropagation von Fehlern,
9C) das neuronale Netz hat eine rekursive Eingabestruktur,
9D) die lexikalischen Merkmale umfassen Artikulationsmerk male,
9E) die lexikalischen Merkmale umfassen akustische Merkma le, und
9F) das vorbereitete neuronale Netz wurde nach folgenden Verfahren trainiert:
9F1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be stehen, und zugehöriger postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
9F2) Ausrichten der zugehörigen lexikalischen und postlexi kalischen Darstellungen unter Verwendung einer mit einer merk malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami schen Programmierausrichtung,
9F3) Bereitstellen von akustischen und von Artikulationsin formationen für die lexikalischen Laute,
9F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
9F5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus drücken, Satzteilen und den Satzbegrenzungen,
9F6) Bereitstellen eines Fensters mit vorgegebener Längen für den Kontext der lexikalischen Laute,
9F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale, und
9F8) Trainieren eines neuronalen Netzes zum Verbinden von eingegebenen lexikalischen Lauten mit postlexikalischen Lauten,
9F9) außerdem in 9F8, wenn ausgewählt, Verwenden einer merkmalsgerichteten Fehlerfunktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aus sprache zu bezeichnen,
9F10) wobei in 9F2, wenn ausgewählt, die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörenden phonetischen Darstellung erfolgt, und
9F11) wobei in 9F2, wenn ausgewählt, die merkmalsgerichtete Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Ein fügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.

10. Erzeugnis nach Anspruch 8, wobei mindestens eins von 10A-10F gilt:
10A) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen,
10B) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmalen,
10C) die lexikalischen Laute werden mittels eines Merkmals vektors beschrieben,
10D) die postlexikalischen Laute werden mittels eines Merk malsvektors beschrieben,
10E) das neuronale Netz wird mit Intonations-Informationen trainiert, und
10F) das neuronale Netz wird mit prosodischen Informationen trainiert.