DE19825205A1 - Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz - Google Patents

Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz

Info

Publication number
DE19825205A1
DE19825205A1 DE19825205A DE19825205A DE19825205A1 DE 19825205 A1 DE19825205 A1 DE 19825205A1 DE 19825205 A DE19825205 A DE 19825205A DE 19825205 A DE19825205 A DE 19825205A DE 19825205 A1 DE19825205 A1 DE 19825205A1
Authority
DE
Germany
Prior art keywords
lexical
neural network
sounds
postlexical
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19825205A
Other languages
English (en)
Other versions
DE19825205C2 (de
Inventor
Corey Andrew Miller
Orhan Karaali
Noel Massey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE19825205A1 publication Critical patent/DE19825205A1/de
Application granted granted Critical
Publication of DE19825205C2 publication Critical patent/DE19825205C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Description

Die vorliegende Erfindung bezieht sich auf das Erzeugen von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit besonderer Anwendung im Bereich der Spracherzeugung.
Wie in Fig. 1, Ziffer 100 gezeigt, erfordert die Erzeugung von Sprache aus Text die Umwandlung eines geschriebenen oder gedruckten Textes (102) in gesprochene Sprache (110). Es ist viel günstiger, aus Text erzeugte Sprache auszugeben als Sprache aufzunehmen und wieder abzuspielen. Die Erzeugung von Sprache wird oft dann verwendet, wenn der Text voraussichtlich oft vari­ iert und er vorher nicht ohne weiteres aufgenommen werden kann.
Bei einer Sprache wie Englisch, bei der die Aussprache ei­ nes Wortes oft nicht klar aus der Schreibweise der Wörter er­ sichtlich ist, ist es wichtig, die Schreibweise (102) in einem sprachlichen Modul (104) in eindeutige phonetische Darstellungen (106) umzuwandeln, bevor die Schreibweise an ein akustisches Modul (108) zur Erzeugung von Sprachsignalverläufen (110) wei­ tergeleitet werden. Um eine phonetische Darstellung einer Schreibweise zu erzeugen, kann ein auf Regeln basierendes Sy­ stem, können Aussprachewörterbücher oder auf solche Aussprache­ wörterbücher trainierte automatische Verfahren zur Umwandlung der Schreibweise in Aussprache verwendet werden.
Aussprachelexika und daher auch auf Aussprachelexika trai­ nierte automatische Verfahren verwenden lexikalische Ausspra­ chen. Lexikalische Aussprachen sind unterspezifizierte, verall­ gemeinerte Aussprachen, die veränderte postlexikalische Ausspra­ chen in natürlicher Sprache ergeben können aber nicht müssen. Zum Beispiel kann das englische Wort "foot" in einem Aussprache­ wörterbuch als /fuht/ aufgeführt werden. Aussprachen werden in der TIMIT- (Texas Instrument-Massachusetts Institut of Technolo­ gie-) Notation angegeben, die in "The Structure and Format of the DARPA TIMIT CD-ROM Prototype" von John S. Garofolo beschrie­ ben wird. In natürlicher Sprache könnte das letzte /t/ als [t] auftauchen, wenn zum Beispiel foot einen Satz beendet, oder als flap [dx], wenn foot vor einem anderen Wort kommt, das im selben Satz mit einem Vokal beginnt, wie in "my foot is . . .".
Wörterbüchern statt der lexikalischen Aussprache postlexi­ kalische Aussprachen hinzuzufügen, ist aus zwei Gründen keine brauchbare Lösung dieses Problems. Der erste Grund ist, daß die Aussprachewörterbücher sich dramatisch vergrößern würden. Der zweite Grund ist, daß Aussprachewörterbücher verwendet werden, um die Aussprachen für isolierter Worte zu bestimmen, während die postlexikalischen Phänomene bei Worten in Sätzen auftreten. Wenn daher ein Lexikon verwendet wird, kann die Information zum Bestimmen der geeigneten postlexikalischen Aussprache genügen, sie muß aber nicht.
In neuronalen Netzen und anderen von Daten gesteuerten Ver­ fahren zur Spracherzeugung wird ein Lernverfahren verwendet, um zu lernen, wie aus phonetischer Information spektrale Sprachin­ formationen erzeugt wird. Auf diese Art werden die akustischen Parameter des neuronalen Netzes trainiert. Dabei werden Sprach­ signalverläufe mit phonetischen Informationen gekennzeichnet, und dann wird zum Beispiel ein neuronales Netz oder ein anderes von Daten gesteuertes System trainiert, um die spektralen Cha­ rakteristiken zu lernen, die mit den Zeitabschnitten verbunden sind, die mit den bestimmten Lauten markiert wurden.
Wenn das neuronale Netzsystem tatsächlich eingesetzt wird, muß das neuronale Netz geeignete spektrale Informationen aus bestimmten phonetischen Information erzeugen. Wie oben erwähnt, werden die phonetische Information aus einem Text mittels eines Schreibweise-Phonetik-Lexikons oder mit einem automatischem Ver­ fahren, das mit solch einem Lexikon trainiert wurde, abgeleitet.
Da von Daten gesteuerte Verfahren zur Erzeugung von Sprache Testdaten erzeugen sollen, die den Trainingsdaten entsprechen und die damit natürlicher Sprache ähneln, ist es ist wichtig, daß die in der Testphase entwickelten phonetischen Darstellungen im wesentlichen zu jenen passen, die in die Trainingsphase ver­ wendet wurden. So ist sichergestellt, daß die höchste Zuverläs­ sigkeit erreicht wird.
Leider sind zwischen den in Wörterbüchern gefundenen lexi­ kalischen Aussprachen und den Aussprachen, die verwendet werden, um Sprache zu kennzeichnen, immer Abweichungen möglich. Diese Abweichungen können mindestens vier verschiedene Ursachen haben: Eigenarten des Sprechers, Eigenarten des Wörterbuchs, Eigenarten der Markierung und Unterschiede zwischen lexikalischen und post­ lexikalischen Aussprachen.
Während auf Regeln basierende Ansätze zum Erzeugen postle­ xikalischer Aussprachen aus lexikalischen Aussprachen für eine bestimmte Sprache erfolgreich sein könnten, werden auf Regeln basierende Ansätze nicht in der Lage sein, automatisch gleich­ zeitig Eigenarten des Wörterbuchs und der Markierung zu behan­ deln. Das heißt, für jede mögliche Kombination von Sprecher, Markierung und Wörterbuch müßte eine neue Regelgruppe entwickelt werden, was zu einer sehr komplexen Situation führen würde.
Es besteht daher ein Bedarf nach einem automatischen Ver­ fahren zum Erzeugen von postlexikalischen Aussprachen aus lexi­ kalischen Aussprachen, bei dem die synthetische Sprache natürli­ cher klingt und der Aufwand und die Zeit, die nötig sind, ein System zur Erzeugung von Sprache mit hoher Qualität zu entwic­ keln, verringert wird. Es wird ein Verfahren, eine Vorrichtung und ein Erzeugnis zum auf einem neuronalen Netz basierenden Er­ zeugen von postlexikalischen Aussprachen aus lexikalischen Aus­ sprachen benötigt.
Fig. 1 ist eine schematische Darstellung einer in der Technik bekannten Umwandlung eines Texts in Sprache.
Fig. 2 ist eine schematische Darstellung einer Ausfüh­ rungsform des zum Training des Lexikalisch-Postlexikalisch- Wandlers mit neuronalem Netz von verwendeten Trainingsverfahrens entsprechend der vorliegenden Erfindung.
Fig. 3 ist eine schematische Darstellung einer Ausfüh­ rungsform der Umwandlung von Text in Sprache, die den Lexika­ lisch-Postlexikalisch-Wandler mit neuronalem Netz entsprechend der vorliegenden Erfindung verwendet.
Fig. 4 ist eine schematische Darstellung einer postlexika­ lisch markierten Sprachdatenbank entsprechend der vorliegenden Erfindung.
Fig. 5 ist eine schematische Darstellung einer Ausfüh­ rungsform des Betriebs des Lexikalisch-Postlexikalisch-Wandlers mit neuronalem Netz entsprechend der vorliegenden Erfindung.
Fig. 6 ist eine schematische Darstellung der Ausrichtung einer lexikalischen Aussprache und einer postlexikalischen Aus­ sprache, wobei entsprechend der vorliegenden Erfindung die Zahl der Laute in der lexikalischen Aussprache gleich der Zahl der Laute in der postlexikalischen Aussprache ist.
Fig. 7 ist eine schematische Darstellung der Ausrichtung einer lexikalischen Aussprache und einer postlexikalischen Aus­ sprache, wobei entsprechend der vorliegenden Erfindung die Zahl der Laute in der lexikalischen Aussprache größer als die Zahl der Laute in der postlexikalischen Aussprache ist.
Fig. 8 ist eine schematische Darstellung der Ausrichtung einer lexikalischen Aussprache und einer postlexikalischen Aus­ sprache, wobei die postlexikalische Aussprache entsprechend der vorliegenden Erfindung einen zusammengezogenen Laut verwendet.
Fig. 9 ist eine schematische Darstellung einer Ausfüh­ rungsform der zum Testen verwendeten Architektur eines neurona­ len Lexikalisch-Postlexikalisch-Netzes entsprechend der vorlie­ genden Erfindung.
Fig. 10 ist eine schematische Darstellung der Kodierung von Folge 1 aus Fig. 15 und Folge 2 aus Fig. 15 zum Trainieren des neuronalen Lexikalisch-Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 11 ist eine schematische Darstellung der Kodierung der Folge 3 aus Fig. 15 zum Trainieren und Testen des neurona­ len Lexikalisch-Postlexikalisch-Netzes entsprechend der vorlie­ genden Erfindung
Fig. 12 ist eine schematische Darstellung der Dekodierung von Folge 1 aus Fig. 15 zum Testen des neuronalen Lexikalisch- Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 13 ist eine schematische Darstellung der Kodierung der Folge 2 aus Fig. 9 zum Testen des neuronalen Lexikalisch- Postlexikalisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 14 ist eine schematische Darstellung eines gleitenden Fensters zum Training des neuronalen Lexikalisch-Postlexika­ lisch-Netzes entsprechend der vorliegenden Erfindung.
Fig. 15 ist eine schematische Darstellung einer Ausfüh­ rungsform der Architektur des neuronalen Lexikalisch- Postlexikalisch-Netzes zum Training entsprechend der vorliegen­ den Erfindung.
Fig. 16 ist eine schematische Darstellung einer Ausfüh­ rungsform des neuronalen Lexikalisch-Postlexikalisch-Netzes, das die Anzahl der verwendeten PE entsprechend der vorliegenden Er­ findung darstellt.
Fig. 17 ist eine schematische Darstellung, die das eukli­ dische Fehlermaß mit dem entsprechend der vorliegenden Erfindung verwendeten merkmalsgerichteten Fehlermaß vergleicht.
Fig. 18 ist eine schematische Darstellung der in der Tech­ nik bekannten Berechnung des euklidischen Fehlermaßes.
Fig. 19 ist eine schematische Darstellung der Berechnung des merkmalsgerichteten Fehlermaßes entsprechend der vorliegen­ den Erfindung.
Fig. 20 ist ein Flußdiagramm einer Ausführungsform der Schritte zum Bestimmen lexikalischer Information aus Text und zum Erzeugen einer postlexikalischen Aussprache entsprechend der vorliegenden Erfindung.
Fig. 21 ist ein Flußdiagramm einer Ausführungsform der Schritte zum Umwandeln lexikalischer Aussprache in postlexikali­ sche Aussprache mit einem neuronalen Netz entsprechend der vor­ liegenden Erfindung.
Fig. 22 ist eine schematische Darstellung eines Mikropro­ zessors/einer anwendungsspezifischen integrierten Schaltung/einer Kombination aus einem Mikroprozessor und einer anwendungs­ spezifischen integrierten Schaltung zum Erzeugen postlexikali­ scher Aussprachen aus lexikalischen Aussprachen entsprechend der vorliegenden Erfindung.
Fig. 23 ist eine schematische Darstellung eines Erzeugnis­ ses zum Erzeugen postlexikalischer Aussprachen aus lexikalischen Aussprachen entsprechend der vorliegenden Erfindung.
Die vorliegende Erfindung liefert ein Verfahren, eine Vor­ richtung und ein Erzeugnis zum automatischen Umwandeln lexikali­ scher Aussprache in postlexikalische Aussprache mit Hilfe eines neuronalen Netzes, das mittels einer Sprachdatenbank trainiert wurde, in der die postlexikalische Ebene mit lexikalischen, aus einem Aussprachelexikon abgeleiteten Wortaussprachen markiert wurde. Das Training ergibt ein neuronales Netz mit Gewichtsfak­ toren, die die Übergangsfunktionen darstellen, die benötigt wer­ den, um die postlexikalischen Aussprachen aus den lexikalischen Aussprachen zu erzeugen. Fig. 2, Ziffer 200 stellt das Trai­ ningsverfahren für das neuronale Netz dar, während Fig. 3, Zif­ fer 300, darstellt, wie der lexikalisch-postlexikalisch-Wandler mit dem trainierten neuronalen Netz 312 in einer bevorzugten Ausführungsform in das Sprachmodul eines Sprachgenerators einge­ fügt wird. Mit dem Verfahren, der Vorrichtung und dem Erzeugnis zur Erzeugung von postlexikalischen Aussprachen aus lexikali­ schen Aussprachen mit einem neuronalen Netz können Systeme zur Umwandlung von Text in Sprache besser natürliche Sprache erzeu­ gen, als es sonst möglich wäre. Außerdem bietet die auf neurona­ len Netzen basierende Erzeugung von postlexikalischen Ausspra­ chen aus lexikalischen Aussprachen einen finanziellen Vorteil gegenüber dem Stand der Technik, da das System automatisch trai­ nierbar ist und an eine Sprache leicht angepaßt werden kann.
Die Tabelle 1 stellt die TIMIT-Laute, die bei lexikalischen Aussprachen verwendet werden, zusammen mit typischen orthogra­ phischen Wörtern, die den Klang der Laute verdeutlichen, dar.
Tabelle 1
Die Schriftzeichen in den Schreibweisen, die spezielle TIMIT-Laute darstellen, sind fett. Lexikalische Aussprachen sind in Querstriche // eingeschlossen. Tabelle 2 stellt die TIMIT Laute dar, die bei postlexikalischer Aussprache verwendet wer­ den. Postlexikalische Aussprachen sind in eckige Klammern [] eingeschlossen.
Tabelle 2
Es sollte beachtet werden, daß die Bedeutung eines Zeichens davon abhängt, ob es als lexikalischer oder ein postlexikali­ scher Laut interpretiert wird. Zum Beispiel verweist [t] auf der postlexikalischen Ebene auf die Verschlußöffnung eines t, wäh­ rend auf der lexikalischen Ebene sich /t/ auf einen Verschluß und ein Öffnen beziehen kann.
Um ein neuronales Netz auf das Erlernen des Umsetzens von lexikalisch nach postlexikalisch zu trainieren, wird eine post­ lexikalisch markierte Sprachdatenbank, Ziffer 202 in Fig. 2, verwendet. Fig. 4, Ziffer 400 zeigt einen Auszug aus solch ei­ ner postlexikalisch markierten Sprachdatenbank.
Um die markierte Sprachdatenbank zu bilden, werden norma­ lerweise mehrere hundert Sätze in amerikanischem Englisch von einer Person aufgezeichnet. Mit den Aufnahmen wird versucht, die meisten Lautkombinationen hervorzurufen, die es im Englischen gibt. Die Aufnahmen werden digitalisiert und von den verwendeten Spracheanalyseprogrammen graphisch dargestellt. Fig. 4 zeigt einen Signalverlauf (402), der sich bei der Digitalisierung und der Analyse eines kurzen Auszugs aus der Sprachdatenbank ergibt. Die Sprache wird mit einem dreistufigen Bezeichnungssystem no­ tiert. Auf der ersten Stufe, der orthographischen Stufe (406), ist die Sprache in Worteinheiten unterteilt, wobei die Enden jedes Wortes zu einem speziellen Zeitpunkt im Verlauf der Äuße­ rung gehören. Jedes Wortende ist mit einer orthographischen Transkription des Wortes verbunden. Auf der zweiten Stufe, der Lautstufe (408), wird die Sprache in Lauteinheiten unterteilt, wobei die Enden jeden Lautes zu dem speziellen Zeitpunkt im Ver­ lauf der Äußerung gehören. Jedes Lautende wird mit Hilfe der in Tabelle 2 gezeigten postlexikalischen TIMIT-Laute mit einer Transkription des Lautes verbunden. Auf der dritte Stufe, der Begrenzungsstufe (410), werden die Enden von Silben, Wörtern, Ausdrücken, Satzteilen und Sätzen mit ihren speziellen Zeitpunk­ ten im Verlauf der Äußerung verbunden. Jede dieser Begrenzungen wird mit einem der in Tabelle 3 gezeigten Begrenzungszeichen aufgelistet.
Tabelle 3
Um die mit den orthographischen Wörtern in der ersten mar­ kierten Stufe (406) der Sprachdatenbank verbundenen lexikali­ schen Aussprachen zu bestimmen, wird ein Wörterbuch von Schreib­ weise und lexikalischer Aussprache benötigt. Tabelle 4 zeigt einen Auszug aus einem Wörterbuch von Schreibweise zu lexikali­ scher Aussprache.
Tabelle 4
Das Wörterbuch speichert paarweise die Schreibweise mit der zugehörigen Aussprache. Im Wörterbuch werden die Aussprachen mit den in Tabelle 1 gezeigten TIMIT-Laute für die lexikalische Aus­ sprache dargestellt.
Um die postlexikalische Aussprache in der markierten Sprachdatenbank (Fig. 4) mit der lexikalischen Aussprache in der Wörterbuchdatenbank (Tabelle 4) zu verbinden, wird eine Da­ tenbankverknüpfung zwischen den zwei Datenbanken eingefügt, wo­ bei die orthographische Darstellung der Wörter als Verknüpfungs­ bereich dient, da beide Datenbanken orthographische Information enthalten. Das Ergebnis der Verknüpfung ist eine Tabelle, die für alle Wörter in der aufgezeichneten Datenbank orthographi­ sche, lexikalische und postlexikalische Information enthält. Diese Information ist wie in Tabelle 5 gezeigt organisiert, wo­ bei Laut- und Begrenzungsinformation eingeschoben sind, während sie die Reihenfolge, in der die Wörter in die Datenbank aufge­ nommen wurden, bewahrt.
Tabelle 5
Die Begrenzungsinformation wird in der dritten Stufe der markierten Sprachdatenbank wie in Tabelle 5 gezeigt genau wie die Schreibweise, die lexikalische und die postlexikalische Aus­ sprache aufgelistet.
Das neuronale Netz wird mit einer numerisch kodierten Form der in Tabelle 5 gezeigten Datenbank trainiert, die Schreibwei­ se, lexikalische und postlexikalische Aussprache verbindet.
Die zum Trainieren eingegebene Kodierung besteht aus den folgenden Bestandteilen: der Ausrichtung (alignment) der lexika­ lischen und der postlexikalischen Laute, der Extraktion der le­ xikalischen Lautmerkmale, der Extraktion der Begrenzungsabstand­ sinformationen, der Extraktion der Grenznachbarschaftsinforma­ tionen, der Umwandlung der Eingabelaute in Zahlen und dem Laden der Eingabe in ein gleitendes Fenster. Die Eingabekodierung zum Trainieren erfordert die Erzeugung von fünf Eingabefolgen für den Simulator des neuronalen Netzes: Folge 1 enthält postlexika­ lische Laute einschließlich der Trennzeichen zur Ausrichtung. Folge 2 enthält die lexikalischen Laute. Folge 3 enthält die mit den lexikalischen Lauten verbundenen Merkmale. Folge 4 enthält die Begrenzungsabstandsinformationen und Folge 5 enthält die Grenznachbarschaftsinformationen.
Die Ausrichtung der Laute ist notwendig, damit das neurona­ le Netz erkennen kann, welcher lexikalische Laut welchem postle­ xikalischen Laut entspricht. Die Ausrichtung der Laute bedeutet, daß spezielle lexikalische Laute in der Abfolge der Position mit bestimmten postlexikalischen Lauten verbunden werden.
Fig. 6, Ziffer 600 veranschaulicht die Ausrichtung lexika­ lischer und postlexikalischer Laute in einem Wort, wobei die Anzahl lexikalischer und postlexikalischer Laute gleich ist.
Fig. 7, Ziffer 700 veranschaulicht die Ausrichtung lexika­ lischer und postlexikalischer Laute in einem Wort, wobei die Anzahl lexikalischer Laute die Anzahl postlexikalischer Laute übersteigt. In diesem Fall wurde das letzte /d/ fortgelassen, wenn dieses Merkmal des Wortes geäußert wurde. Dieses Löschen wird auf der postlexikalischen Stufe mit einem Ausrich­ tungstrennzeichen '+' gegenüber dem /d/ auf der lexikalischen Stufe markiert.
Da die postlexikalischen Laute letztlich die Ausgabe des Umwandlungsverfahrens von lexikalisch in postlexikalisch sind, werden die Trennzeichen zur Ausrichtung vor der Ausgabe ge­ löscht. Trennzeichen zur Ausrichtung sind auf der lexikalischen Lautstufe nicht zulässig. Der Grund dafür ist, daß während des Betriebs des Lexikalisch-Postlexikalisch-Wandlers Trennzeichen zur Ausrichtung in die eingegebenen lexikalischen Laute einge­ fügt werden müßten, wofür es jedoch kein grundsätzliches Verfah­ ren gäbe.
Oft enthalten postlexikalische Aussprachen weniger Laute als lexikalische Aussprachen. Dies rührt daher, weil Löschungen und Reduktionen bei Sprachen übliche postlexikalische Phänomene sind, und solche Phänomene können durch das Entfernen der Laute aus der Transkriptionen beschrieben werden. In diesen Fällen können Trennzeichen zur Ausrichtung in die postlexikalische Transkription eingefügt werden, wo eigentlich lexikalische Laute stünden, wären sie nicht gelöscht worden.
In manchen Fällen verwenden postlexikalische Transkriptio­ nen mehr Laute als die entsprechenden lexikalischen Transkrip­ tionen. Dies rührt daher, daß postlexikalische Transkriptionen zusätzliche Einzelheiten umfassen. Zum Beispiel umfassen postle­ xikalische Transkriptionen Verschluß- und Öffnungsinformation für Verschlußlaute mit einem Grad an Genauigkeit, der bei lexi­ kalischen Transkriptionen nicht angegeben wird.
Fig. 8, Ziffer 800 ist ein Beispiel für die Ausrichtung einer postlexikalischen Aussprache mit mehr Lauten als die zuge­ hörige lexikalische Aussprache. Das Problem wird durch ein Zu­ sammenziehen von bestimmten Kombinationen postlexikalischer Lau­ te zu einem einzigen Zeichen gelöst. In Fig. 8 ist die postle­ xikalische Kombination bcl+b durch einen zusammengezogenen Laut b ersetzt.
Tabelle 6 zeigt die postlexikalischen Kombinationen und die zusammengezogenen Zeichen, durch die sie zur Ausrichtung und zur Eingabekodierung ersetzt werden.
Tabelle 6
Die zusammengezogenen Laute erfassen die Tatsache, daß die zusammengezogenen postlexikalischen Laute mit gerade einem lexi­ kalischen Laut verbunden werden, wodurch das neuronale Netz für jedes Lautfenster eine bessere Wahl treffen kann.
Es wurde eine neue Variation des in der Technik bekannten dynamischen Programmieralgorithmus verwendet, um lexikalische und postlexikalische Aussprachen auszurichten. Die Version der in der Technik bekannten dynamischen Programmierung wird in be­ zug auf das Ausrichten von Wörtern, die dasselbe Alphabet ver­ wenden, beschrieben. Das Einfügen, das Löschen und das Ersetzen von Zeichen bedeutet Aufwand. Ersetzungen erfordern nur dann keinen Aufwand, wenn in jeder Folge dasselbe Zeichen auf dersel­ ben Position steht.
Um Folgen aus verschiedenen Alphabeten wie etwa der postle­ xikalischen Laute und der lexikalischen Laute auszurichten, wur­ de ein neues Verfahren für das Berechnen des Ersetzungsaufwands entworfen.
Zu beachten ist, daß die in Tabelle 1 und Tabelle 2 gezeig­ ten, lexikalischen und postlexikalischen Lautzeichengruppen, nicht sehr verschieden sind. Aber außer bei einigen Zeichen, die ausschließlich zu der einen oder der anderen Symbolgruppe gehö­ ren, ist in den beiden Alphabeten die Bedeutung einiger Symbole tatsächlich anders. Der lexikalische Laut /b/ kann beispielswei­ se ein /b/ anzeigen, das mit oder ohne Öffnen artikuliert wird, wohingegen der postlexikalische Laut [b] nur das Öffnen von b anzeigt.
Es wurde eine kundenspezifisch angefertigte Tabelle ange­ legt, die die Wahrscheinlichkeit darstellt, mit der jeder lexi­ kalische Laut gegenüber jedem postlexikalischen Laut ausgerich­ tet wird. Tabelle 7 veranschaulicht die Tabelle für den Aufwand bei lexikalisch-postlexikalischen Lauten für amerikanisches Eng­ lisch.
Tabelle 7
Während mancher Aufwand Beziehungen widerspiegelt, die für alle Sprachen gelten, gilt dies manchmal nur für amerikanisches Englisch. Für Ersetzungen, die nicht von Tabelle 7 abgedeckt sind, für Einfügungen und für Löschen wird der in der Technik der Spracherkennungsbewertung gängige Aufwand angesetzt: Einfü­ gung entspricht 3, Löschen 3 und Ersetzung 4.
In Bezug auf Tabelle 7 sollte der Aufwand beim Zulassen ei­ ner besonderen Entsprechung geringer sein als der feste Aufwand beim Einfügen oder Löschen, anderenfalls sollte er größer sein. Je wahrscheinlicher es ist, daß ein vorgegebener Laut und ein Schriftzeichen in einer besonderen Position einander entspre­ chen, desto niedriger ist der Aufwand, den Laut und das Schrift­ zeichen zu ersetzen.
Fig. 10, Ziffer 1000 veranschaulicht die Kodierung der Folgen 1 (1008) und 2 (1010) in die zum Trainieren kodierte Ein­ gabe des neuronalen Netzes. Eine eingegebene lexikalische Aus­ sprache (1002) /aend/ und eine eingegebene postlexikalische Aus­ sprache (1004) [aen] werden einem Ausrichtungsverfahren unter­ worfen. Das Ausrichtungsverfahren setzt in die postlexikalische Aussprache ein Trennzeichen '+' zur Ausrichtung ein, was [aen+] (1006) ergibt. Der numerische Code für '+' ist 60. Die postlexikalische Aussprache (1006) mit den Trennzeichen zur Aus­ richtung wird gemäß Tabelle 2 in Zahlen umgewandelt und für die Folge 1 in einen Speicherpuffer (1008) geladen. Die lexikalische Aussprache wird gemäß Tabelle 1 in Zahlen umgewandelt und für Folge 2 in einen Speicherpuffer (1010) geladen.
Die Fig. 11, Ziffer 1100 veranschaulicht die Kodierung der Folge 3 der zum Trainieren kodierten Eingabe in das neuronale Netz. Jeder Laut der lexikalischen Aussprache ist mit seinen akustischen und seinen Artikulationsmerkmalen verbunden.
Um dem neuronalen Netz mehr Informationen zu geben, mit de­ nen es über die Trainingsmenge hinaus verallgemeinern kann, wer­ den in der eingegebenen Kodierung für jeden Laut akustische und Artikulationsmerkmale bereitgestellt. Akustische und Artikulati­ onsmerkmale für phonetische Segmente sind ein in der Technik verbreitetes Konzept. Jeder Laut kann dementsprechend durch meh­ rere phonetische Merkmale beschrieben werden. Tabelle 8 stellt die Merkmale dar, die mit jedem lexikalischen Laut verbunden sind, die in dieser Ausführungsform verwendet werden. Für jeden Laut kann ein Merkmal entweder aktiviert '+', deaktiviert '-' oder unspezifiziert 'O' sein.
In Fig. 11 werden die Merkmale jedes Lautes von /aend/, der /ae/ (1102) ist, /n/ (1104) und /d/ (1106) gemäß Tabelle 8 nachgeschlagen. Die aktivierten Merkmalen sind für jeden Laut in (1108), (1112), und (1116) aufgeführt.
Die Merkmale für jeden lexikalischen Laut werden dann gemäß der Merkmalszahltabelle nach Tabelle 9 in Zahlen umgewandelt. Die numerischen Kodierungen dienen dann als Folge 3 für /ae/(1110), /n/ (1114) und /d/ (1118).
Tabelle 9
Um dem neuronalen Netz zusätzliche Information bereitzu­ stellen, auf die sich die ausgegebenen postlexikalischen Laut­ vorschläge gründen sollen, die den lexikalischen Lauten und den lexikalischen Lautmerkmalen entsprechen, wird eine Gruppe von Abständen zu verschiedenen kritischen Begrenzungen in das Netz eingegeben.
Es wurde nachgewiesen, daß postlexikalische Phänomene bei Sprachen von Begrenzungen durch Silben, Worte, Ausdrücke, Satz­ teile und Sätze beeinflußt werden. Um dem neuronalen Netz diese Art der Information zur Verfügung zu stellen, werden Informatio­ nen über die Begrenzung von der größten bis zur kleinsten der folgenden sprachlichen Formen gegeben: Satz, Satzteil, Ausdruck, Wort und Silbe. Für jede Form werden die folgenden Informatio­ nen: 1/(Anzahl der Laute am Beginn der Form), 1/(Anzahl der Lau­ te am Ende der Form) und 1/(Länge der Form in Lauten). Formen dienen als Begrenzung für sich selbst und für alle kleineren Formen. Das heißt, ein Satz begrenzt einen Satzteil, einen Aus­ druck, ein Wort und die Silben bezüglich der Begrenzungsab­ standsmaße. Die Tabelle 10 stellt die numerische Eingabe für die Folge 4 der lexikalischen Eingabe: /dhiy seyl kaht axwey/ dar.
Tabelle 10
Damit das Netz Informationen bezüglich der Nachbarschaft zu verschiedenen Begrenzungen bekommt, wird eine Gruppe von logi­ schen Werten in das Netz eingegeben, wobei 1 = wahr und 0 = falsch ist. Für alle Silben, Worte, Ausdrücke, Satzteile und Sätze werden dem Netz die folgenden logischen Werte bereitge­ stellt: ob der Laut auf der linken Seite an eine Begrenzung grenzt und ob der Laut an eine Begrenzung auf der rechten Seite grenzt. Für einen Laut, der auf der linken Seite an eine Begren­ zung angrenzt, werden die logischen Werte aller kleineren Formen für die linke Begrenzung wahr gesetzt. Für einen Laut, der auf der rechten Seite an eine Begrenzung angrenzt, werden die logi­ schen Werte aller kleineren Formen für die rechte Begrenzung wahr gesetzt. Die Tabelle 11 stellt die numerische Eingabe für die Folge 5 für die lexikalische Eingabe: /dhiy seyl kaht axwey/ dar.
Tabelle 11
Um dem neuronalen Netz zum Lernen ausreichende Informatio­ nen über den Kontext zur Verfügung zu stellen, wird für die Le­ xikalisch-Postlexikalisch-Umwandlung ein gleitendes Fenster von neun Lauten verwendet, um dem Netz die Folgen 2 und 3 darzustel­ len. In den Folgen 4 und 5 sind bereits Informationen über den Kontext kodiert, so daß sie nicht mit ins Fenster aufgenommen werden. Zwischen den Sätzen werden 10 in den Figuren als Block markierte Auffüll-Stufen (PAD) eingefügt, damit die Daten von verschiedenen Sätzen nicht im selben Fenster erscheinen.
Fig. 14, Ziffer 1400 zeigt, welche lexikalischen Laute für jeden postlexikalischen Laut von einem Fenster angezeigt werden. Die Fig. 15, Ziffer 1500 zeigt die Architektur des neuronalen Netzes beim Trainieren. Von der Folge 2 (1502) werden 9 lexika­ lische Eingabelaute, die die postlexikalischen Ausgabelaute von Folge 1 (1504) umgeben, von der Eingangsstufe 2 (1506) an die neuronale Netzstufe 6 (1508) weitergegeben. Wenn in Fig. 14 zum Beispiel die Folge 1 aus dem postlexikalischen Laut [dh] (1402) besteht wird ein Fenster (1404) mit neun Lauten, das aus PAD, PAD, PAD, /dh/, /iyl/, ]w, /hh/ und /w/ besteht, von der Ein­ gangsstufe 2 (1506) zur Eingangsstufe 6 (1508) weitergegeben.
Das gleitende Fenster zeigt nicht nur Details des Kontexts an, es hindert das Netz auch daran, zu stark zu reagieren, wenn es einen bestimmten Laut in einer bestimmten Wortposition er­ kennt.
Das neuronale Netz erzeugt basierend auf den Eingangsvekto­ ren, den Folgen 2, 3, 4 und 5 und den internen Übertragungsfunk­ tionen, die von den Verarbeitungselementen (PE) verwendet wer­ den, einen Ausgangsvektor. Die von den Übertragungsfunktionen verwendeten Koeffizienten werden beim Trainingsprozeß variiert, um den Ausgangsvektor zu variieren. Die Übertragungsfunktionen und die Koeffizienten heißen zusammen die Gewichtsfaktoren des neuronalen Netzes, und die Gewichtsfaktoren werden beim Trai­ ningsverfahren variiert, um den von bestimmten Eingangsvektoren erzeugten Ausgangsvektor zu variieren. Die Gewichtsfaktoren wer­ den anfangs auf kleine Zufallswerte gesetzt. Am Beginn des Trai­ nings ist die zugehörige postlexikalische Darstellung ohne Be­ deutung, da die Gewichtsfaktoren des neuronalen Netzes Zufalls­ werte sind. Um die Entfernung zwischen der anvisierten phoneti­ schen Darstellung und der zugewiesenen phonetischen Darstellung, Folge 1 zu bezeichnen, wird ein Fehlersignalvektor erzeugt.
Im Gegensatz zu früheren Ansätzen wird das Fehlersignal nicht einfach als grobe Entfernung zwischen der zugehörigen pho­ netischen Darstellung und der anvisierten phonetische Darstel­ lung beispielsweise durch Verwenden eines euklidischen Abstands­ maßes nach Gleichung 1 berechnet. Der Abstand ist vielmehr eine Funktion, wie dicht die zugehörige phonetische Darstellung der anvisierten phonetische Darstellung im Merkmalsraum kommt. Es wird angenommen, daß die Nähe im Merkmalsraum einer Nähe im Wahrnehmungsraum entspricht, wenn die phonetischen Darstellungen ausgegeben werden.
Gleichung 1
Fig. 17, Ziffer 1700 vergleicht das euklidische Abstands­ fehlermaß mit dem merkmalsgerichteten Fehlermaß. Die anvisierte postlexikalische Aussprache (1702) ist [saelihd] für die Schreibweise "salad". Es werden zwei mögliche zugehörige Aus­ sprachen dargestellt: [saelaxd] (1704) und [saelbd] (1706). [saelaxd] (1704) wird ähnlich wie die anvisierte Aussprache wahrgenommen, während [saelbd] (1706) ziemlich weit davon ent­ fernt ist, abgesehen davon, daß es praktisch nicht ausgesprochen werden kann. Das euklidische Abstandsmaß zählt lediglich die Anzahl der Einzelheiten, die im anvisierten und im zugeordneten Vektor aufgeführt sind. Bei diesem Maß bekommen sowohl [saelaxd] (1704) als auch [saelbd] (1706) in bezug auf die Zielaussprache einen Fehlerwert von 2. Die zwei identischen Werte verdeutlichen den wahrgenommenen Unterschied zwischen den zwei Aussprachen nicht.
Im Gegensatz dazu erkennt das merkmalsgerichtete Fehlermaß, daß [ih] und [ax] sehr ähnlich wahrgenommen werden, und gewich­ tet daher, wenn [ax] für [ih] genommen wird, den lokalen Fehler entsprechend. Es wird eine Skala von 0 bei Übereinstimmung und 1 bei einem maximalen Unterschied eingerichtet, und den verschie­ denen Lautvergleichen wird auf dieser Skala ein Wert zugeordnet. Die Tabelle 12 liefert eine Gruppe von merkmalsgerichteten Feh­ ler- bzw. Gewichtsfaktoren, die für amerikanisches Englisch ver­ wendet werden. In dieser Tabelle sind die Faktoren die gleichen, egal ob die besonderen Laute Teil des Ziels oder Teil der Vor­ schlag sind. Dies muß aber nicht immer der Fall sein. Es wird angenommen, daß eine Kombinationen von Ziel- und vorgeschlagenen Lauten, die nicht in Tabelle 12 enthalten sind, den Faktor 1 haben.
Tabelle 12
Fig. 18, Ziffer 1800 zeigt, wie die nicht gewichteten lo­ kalen Fehler für das [ih] in [saelihd] berechnet werden. Die Fig. 19, Ziffer 1900 zeigt, wie der gewichtete Fehler, der die Faktoren aus Tabelle 12 verwendet, berechnet wird. Fig. 19 zeigt, wie der Fehler für [ax], wo [ih] erwartet wird, um den Faktor verringert wird, der die Wahrnehmung berücksichtigt, daß der Fehler weniger schwer ist als der Vorschlag von [b] für [ih], wobei dieser Fehler nicht verringert würde.
Nach der Berechnung des Fehlersignals sind die Gewichtswer­ te in einer Richtung eingestellt, um das Fehlersignal zu redu­ zieren. Dieses Verfahren wird mehrmals für zusammen gehörende Paare von Kontextbeschreibungen und zugewiesenen anvisierten phonetischen Darstellungen wiederholt. In diesem Verfahren, die Gewichtsfaktoren einzustellen, um die zugehörige phonetische Darstellung näher zur zugewiesenen anvisierten phonetischen Dar­ stellung zu bringen, besteht das Training des neuronalen Netzes. Dieses Training verwendet das Standard-Backpropagation-Fehler­ verfahren. Sobald das neuronale Netz trainiert wurde, enthalten die Gewichtswerte die Informationen, die notwendig sind, um die Kontextbeschreibung in einen Ausgangsvektor umzuwandeln, der einen vergleichbaren Wert hat, wie die zugewiesene anvisierte phonetische Darstellung. Die bevorzugte Ausführungsform des neu­ ronalen Netzes erfordert bis zu zehn Millionen Darstellungen der Kontextbeschreibung für die Eingabe und die folgenden Gewicht­ seinstellungen, bevor das neuronale Netz als vollständig trai­ niert betrachtet werden kann.
Das neuronale Netz enthält Stufen mit zwei Arten von Akti­ vierungsfunktionen, Sigmoid und Softmax, die in dem Stand der Technik bekannt sind. Die Aktivierungsfunktion Softmax wird in Gleichung 2 gezeigt.
Gleichung 2
Fig. 15 veranschaulicht die Architektur zum Trainieren des neuronalen Netzes mit einer lexikalischen Aussprache und zugehö­ riger Information auf eine postlexikalische Aussprache. Das neu­ ronale Netz ist aus einer Reihe verbundener Stufen aufgebaut, denen verschiedene Funktionen zugeordnet sind, einschließlich, ob die Stufen Eingabe/Ausgabestufe oder Stufen mit einer Akti­ vierungsfunktion für Sigmoid oder Softmax darstellen.
Die Folge 2 (1502), d. h. die numerische Kodierung eines Fensters von 9 lexikalischen Lauten, wird in die Eingangsstufe 2 (1506) eingegeben. Die Eingangsstufe 2 (1506) leitet diese Daten zur Sigmoid-Stufe 6 (1508) des neuronalen Netzes weiter. Die Sigmoid-Stufe des neuronalen Netzes 6 (1508) gibt dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Folge 3 (1512), d. h. die numerische Kodierung eines Fensters vom 9 lexikalischen Lauten, wird in die Eingangsstufe 3 (1514) eingegeben. Die Eingangsstufe 3 (1514) leitet dann diese Daten zur Sigmoid-Stufe 7 (1516) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 7 (1516) des neuronalen Netzes leitet dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Folge 4 (1518), d. h. die numerische Kodierung der Be­ grenzungsabstandsinformationen wird in die Eingangsstufe 4 (1520) eingegeben. Die Eingangsstufe 4 (1520) leitet dann diese Daten zur Sigmoid-Stufe 8 (1522) des neuronalen Netzes weiter. Die Sigmoid-Stufe des neuronalen Netzes 8 (1522) gibt dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Folge 5 (1524), d. h. die numerische Kodierung der Be­ grenzungsabstandsinformation wird in die Eingangsstufe 5 (1526) eingespeist. Die Eingangsstufe 5 (1526) leitet dann diese Daten zur Sigmoid-Stufe 9 (1528) des neuronalen Netzes weiter. Die Sigmoid- Stufe 9 (1528) des neuronale Netzes gibt dann die Daten zur Sigmoid-Stufe 10 (1510) des neuronalen Netzes weiter.
Die Sigmoid-Stufe des neuronalen Netzes 10 (1510) leitet die Daten zur Softmax-Stufe 11 (1530) des neuronalen Netzes.
Die Folge 1 (1504), d. h. die numerische Kodierung der Ziel­ laute wird in Ausgangsstufe 1 (1532) eingespeist.
Die Softmax-Stufe 11 (1530) des neuronalen Netzes gibt auf der Grundlage der in Stufe 1 (1532) gegebenen Eingangsinformati­ on den wahrscheinlichsten Laut aus. Die Ausgangsstufe 1 (1532) gibt dann die Daten als Vorschlag (1534) des neuronalen Netzes aus. Der Vorschlag (1534) des neuronalen Netzes wird dann ent­ sprechend der oben beschriebenen merkmalsgerichteten Fehlerfunk­ tion mit der Folge 1 (1504), dem anvisierten postlexikalischen Laut verglichen.
Der von der Fehlerfunktion bestimmte Fehler wird dann zur Softmax-Stufe 11 (1530) des neuronalen Netzes zurückgeleitet, die dann ihrerseits den Fehler an die Sigmoid-Stufe 10 (1510) des neuronalen Netzes zurückgibt, die ihrerseits den Fehler an die Sigmoid-Stufen 6 (1508), 7 (1516), 8 (1522) und 9 (1528) des neuronalen Netzes zurückleitet.
Die doppelten Pfeile zwischen den Stufen des neuronalen Netzes in Fig. 15 zeigen an, daß im Netz sowohl Vor- als auch Rückbewegungen stattfinden.
Fig. 5, Ziffer 500 zeigt den Lexikalisch-Postlexikalisch- Wandler mit neuronalem Netz der Fig. 3 Ziffer 310 im Detail. Die lexikalischen Aussprachen für einen ganzen Satz werden Wort für Wort gesammelt, um für jeden lexikalischen Laut die Berech­ nung von Begrenzungsabstandsinformationen und von Grenznachbar­ schaftsinformationen zu ermöglichen. Jede lexikalische Ausspra­ che mit Wortumfang wird im Eingabeformat (504) des neuronalen Netzes kodiert. Die kodierte lexikalische Aussprache wird dann an das trainierte neuronale Netz (506) geschickt. Dies wird Te­ sten des neuronalen Netzes genannt. Das trainierte neuronale Netz gibt eine kodierte postlexikalische Aussprache aus, die vom neuronalen Netzausgangsdekodierer (508) in eine postlexikalische Aussprache (510) dekodiert werden muß.
Zum Testen des Netzes müssen nur Folgen 2, 3, 4 und 5 ko­ diert werden. Die Kodierung der Folge 2 zum Testen wird in Fig. 13, Ziffer 1300 gezeigt. Jeder lexikalische Laut (1302) wird in einen numerischen Code entsprechend der lexikalischen Lauttabel­ le in Tabelle 1 umgewandelt. Der numerische Code jedes lexikali­ schen Lautes wird dann in einen Speicherpuffer für Folge 2 (1304) geladen. Folge 3 ist wie in Fig. 11 kodiert. Folge 4 ist wie in Tabelle 10 kodiert. Folge 5 ist wie in Tabelle 11 ko­ diert. Ein Wort wird durch Kodieren der Folgen 2, 3, 4 und 5 für dieses Wort und das Testen des neuronalen Netzes getestet.
Das neuronale Netz gibt einen Vorschlag für eine postlexi­ kalische Aussprache aus. Der Vorschlag des neuronalen Netzes wird dann nach Fig. 12, Ziffer 1200 durch Umwandeln der Nummern (1202) gemäß der Lautzahl-Tabelle von Tabelle 2 in Laute (1204) durch das Entfernen der Ausrichtungstrennzeichen mit der Nummer 60 und durch das Aufbrechen von zusammengezogenen postlexikali­ schen Lauten gemäß Tabelle 13 in ihre Bestandteile dekodiert.
Tabelle 13
Fig. 9, Ziffer 900 zeigt, wie die kodierten Folgen zum Te­ sten in die Architektur des neuronalen Netzes eingegeben werden. Die Folge 2 (902), die numerische Kodierung eines Fensters von 9 lexikalischen Laute wird in die Eingangsstufe 2 (904) einge­ speist. Die Eingangsstufe 2 (904) leitet dann diese Daten zur Sigmoid-Stufe 6 (906) des neuronalen Netzes. Die Sigmoid-Stufe 6 (906) des neuronalen Netzes leitet dann die Daten für jedes Schriftzeichen zur Sigmoid-Stufe 10 (908) des neuronalen Netzes.
Die Folge 3 (910), die numerische Kodierung eines Fensters der lexikalischen Lautmerkmale für 9 lexikalische Laute der ein­ gegebenen lexikalischen Aussprache, wird in die Eingangsstufe 3 (912) eingespeist. Die Eingangsstufe 3 leitet dann diese Daten zur Sigmoid-Stufe 7 (914) des neuronalen Netzes. Die Sigmoid- Stufe 7 (914) des neuronalen Netzes gibt dann für jedes lexika­ lische Lautmerkmale die Daten an die Sigmoid-Stufe 10 (908) des neuronalen Netzes weiter.
Die Folge 4 (916), d. h. die entsprechend Tabelle 10 kodier­ te numerische Kodierung der Begrenzungsabstandinformationen der eingegebenen lexikalischen Aussprache wird in die Eingangsstufe 4 (918) eingespeist. Die Eingangsstufe 4 leitet dann diese Daten zur Sigmoid-Stufe 8 (920) des neuronalen Netzes. Die Sigmoid- Stufe 8 (920) des neuronalen Netz leitet dann die Daten zur In­ formation über den Begrenzungsabstand jedes lexikalischen Lautes in die Sigmoid-Stufe (908) des neuronalen Netzes.
Die Folge 5 (922), d. h. die entsprechend Tabelle 11 kodier­ te numerische Kodierung der Grenznachbarschaftsinformation der eingegebenen lexikalischen Aussprache wird in die Eingangsstufe 5 (924) eingespeist. Die Eingangsstufe 5 (924) leitet dann diese Daten zur Sigmoid-Stufe 9 (926) des neuronalen Netzes weiter. Die Sigmoid-Stufe 9 (926) des neuronalen Netzes gibt die Daten zur Information über die Grenznachbarschaft jedes lexikalischen Lauts in Sigmoid-Stufe 10 (908) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 10 (908) des neuronalen Netzes leitet ih­ re Daten dann zur Softmax-Stufe 11 (928) des neuronalen Netzes.
Softmax 11 (928) des neuronalen Netzes gibt den aufgrund der eingegebenen Eingangsinformation wahrscheinlichsten Laut an die Ausgangsstufe 1 (930) aus. Die Ausgangsstufe 1 (930) gibt dann die Daten als Vorschlag (932) des neuronalen Netzes für den postlexikalischen Laut aus.
Fig. 16, Ziffer 1600 zeigt eine Abbildung des neuronalen Netzes, in der die Anzahl von Verarbeitungselementen PE, die jede Stufe verbinden, gezeigt wird. Die Daten der Eingabefolge 2 (1602), die eine numerische Kodierung der lexikalischen Laute enthalten, werden in die Eingangsstufe 2 (1604) geladen. Die Eingangsstufe 2 (1604) enthält 918 PE, was die Größe darstellt, die ein Fenster für neun Laute haben muß, wobei jeder Laut eines von 102 einzelnen Zeichen sein könnte.
Die Eingangsstufe 2 (1604) gibt diese 918 PE an die Sig­ moid-Stufe 6 (1606) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 6 (1606) des neuronalen Netzes gibt 10 PE an die Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Daten der Eingabefolge 3 (1628), die eine, wie in Fig. 11 gezeigt, kodierte numerische Kodierung lexikalischer Laut­ merkmale enthalten, werden in die Eingangsstufe 3 (1630) gela­ den. Die Eingangsstufe 3 (1630) enthält 477 PE, was die für ein Fenster von 9 lexikalischen Lauten erforderliche Größe ist, wo­ bei ein lexikalischer Laut durch bis zu 53 aktive Merkmale dar­ gestellt werden kann. Die Eingangsstufe 3 (1630) leitet diese 477 PE zur Sigmoid-Stufe 7 (1632) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 7 (1632) des neuronalen Netzes gibt 10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Daten der Eingabefolge 4 (1622), die eine in Tabelle 10 gezeigte numerische Kodierung der Begrenzungsabstandsinformation enthalten, werden in die Eingangsstufe 4 (1624) geladen. Die Eingangsstufe 4 (1624) enthält 15 PE, was die für jeden der Be­ grenzungsabstände verlangte Größe ist. Die Eingangsstufe 4 (1624) leitet diese 15 PE zur Sigmoid-Stufe 8 (1626) des neuro­ nalen Netzes weiter.
Die Sigmoid-Stufe 8 (1626) des neuronalen Netzes gibt 10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Daten der Eingabefolge 5 (1616), die eine in Tabelle 11 gezeigte, numerische Kodierung der Grenznachbarschaftsinforma­ tionen enthalten, werden in die Eingangsstufe 5 (1618) geladen. Die Eingangsstufe 5 (1618) enthält 10 PE, was die für jeden der Grenznachbarschaftswerte erforderliche Größe ist. Die Eingangs­ stufe 5 (1618) leitet diese 15 PE zur Sigmoid-Stufe 9 (1620) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 9 (1620) des neuronalen Netzes gibt die 10 PE zur Sigmoid-Stufe 10 (1608) des neuronalen Netzes weiter.
Die Sigmoid-Stufe 10 (1608) des neuronalen Netzes gibt 20 PE zur Softmax-Stufe 11 (1610) des neuronalen Netzes weiter. Die Softmax-Stufe 11 (1610) des neuronalen Netzes leitet 102 PE, die die möglichen postlexikalischen Laute darstellen, an die Aus­ gangsstufe 1 (1612) weiter.
Der hier beschriebene Ansatz für eine Umwandlung von lexi­ kalischen in postlexikalische Laute hat gegenüber Systemen, die auf Regeln basieren, den Vorteil, daß er sich für jede Sprache leicht anpassen läßt. Für eine Sprache wird lediglich ein Schreibweise-Laut-Lexikon dieser Sprache, eine postlexikalisch- lexikalisch Laut-Aufwand-Tabelle für diese Sprache und eine postlexikalisch markierte Sprachdatenbank benötigt. Es kann au­ ßerdem nötig sein, Zeichen aus einem internationalen phoneti­ schen Alphabet zu verwenden, so daß der volle Bereich der phone­ tischen Schwankungen der Sprachen der Welt wiedergegeben werden kann.
Ein Verfahren, eine Vorrichtung und ein Erzeugnis ermögli­ chen das effiziente Erzeugen postlexikalischer Ausspracheinfor­ mationen, ausgehend von lexikalischen Ausspracheinformationen. Ein neuronales Netz wird mit zusammengehörigen lexikalisch- postlexikalischen Aussprachedaten trainiert, die mit einer um ein merkmalsgerichtetes Abstandsmaß verbesserten dynamischen Programmierung ausgerichtet werden. Merkmalswerte für lexikali­ sche Laute werden zur Eingabe in das neuronale Netz bereitge­ stellt. Begrenzungsabstands- und Grenznachbarschaftsinformation werden dem neuronalen Netz für jeden lexikalischen Laut bereit­ gestellt. Ein Fenster, das mehrere lexikalische Laute und lexi­ kalische Lautmerkmale umfaßt, wird dem neuronalen Netz zur Ver­ fügung gestellt, um dem Netz mit Informationen über den Kontext zu helfen.
Wie in Fig. 20, Ziffer 2000 gezeigt, führt die vorliegende Erfindung ein Verfahren einschließlich der Schritte aus, um ab­ hängig von einer lexikalischen Aussprache effizient eine postle­ xikalische Aussprache zu erzeugen: (2002) Bestimmen lexikali­ scher Laute, lexikalischer Merkmale und Begrenzungsinformation für einen vorgegebenen Textabschnitt und (2004) Verwenden eines vorbereiteten neuronalen Netzes, das mittels lexikalischer Lau­ te, postlexikalischer Laute, lexikalischer Merkmale und Begren­ zungsinformation vorbereitet wurde, um einen Vorschlag des neu­ ronalen Netz für eine postlexikalische Aussprache des vorgegebe­ nen Teils des Texts zu erzeugen.
In der bevorzugten Ausführungsform umfaßt die Begrenzungs­ information mindestens eine Begrenzungsabstandsinformation oder eine Grenznachbarschaftsinformation.
Wie in Fig. 21, Ziffer 2100 gezeigt, wird das vorbereitete neuronale Netz (2004) mit Hilfe der Schritte trainiert: Bereit­ stellen (2102) von lexikalischen Aussprachen, die aus den lexi­ kalischen Laute eines vorgegebenen Textabschnitts bestehen, mit der zugehörigen postlexikalischen Aussprache, die aus den post­ lexikalischen Lauten einer Zieläußerung bestehen, Ausrichten (2104) der lexikalischen und der zugehörigen postlexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichte­ ten Ersetzungsaufwandsfunktion verbesserten dynamische Program­ mierausrichtung, Bereitstellen (2106) von akustischen und von Artikulationsinformationen für die lexikalischen Laute, Bereit­ stellen (2108) von Information über die Entfernung zwischen al­ len lexikalischen Lauten und allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2110) von Information über die Nachbarschaft aller lexikalischer Laute und aller Silbe, Worte, Ausdrücke, Satzteile und der Satzbegrenzun­ gen, Bereitstellen (2112) eines Fenster mit vorgegebener Längen für den Kontext der lexikalischen Laute, Bereitstellen (2114) eines Fensters mit vorgegebener Länge für den Kontext von lexi­ kalischen Lautmerkmalen und Trainieren (2116) eines neuronalen Netz zum Verbinden der eingegebenen lexikalischen Laute mit den postlexikalischen Lauten.
In einer bevorzugten Ausführungsform verwendet das postle­ xikalische neuronale Netz (2004) eine merkmalsgerichtete Fehler­ funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu kennzeichnen.
Das postlexikalische neuronale Netz (2004) kann ein vor­ wärts gerichtetes neuronales Netz sein.
Das postlexikalische neuronale Netz (2004) kann eine Feh­ ler-Backpropagation verwenden.
Das postlexikalische neuronale Netz (2004) kann eine rekur­ sive Eingabestruktur haben.
Die lexikalischen Merkmale (2002) können Artikulationsmerk­ male umfassen.
Die lexikalischen Merkmale (2002) können akustische Merkma­ le umfassen.
Die lexikalischen Merkmale (2002) können eine Geometrie von Artikulationsmerkmalen umfassen.
Die lexikalischen Merkmale (2002) können eine Geometrie von akustischen Merkmalen umfassen.
Die Ausrichtung (2104) kann auf Grund von Konsonanten- und Vokalpositionen in der orthographischen Form und in der zugehö­ rigen phonetischen Darstellung erfolgen.
Die lexikalischen Laute und postlexikalischen Laute (2004) können mit Hilfe eines Merkmalsvektors beschrieben werden.
Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104) verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Aufwandstabelle.
Das neuronale Netz (2004) kann mit Intonations- Informationen trainiert werden.
Das neuronale Netz (2004) kann mit prosodischen Informatio­ nen trainiert werden.
Wie in Fig. 22, Ziffer 2200 gezeigt, liefert die vorlie­ gende Erfindung eine Vorrichtung mit mindestens einem Mikropro­ zessor oder einer anwendungsspezifischen integrierten Schaltung oder einer Kombination aus einem Mikroprozessor und einer anwen­ dungsspezifischen integrierten Schaltung zum effizienten Erzeu­ gen einer postlexikalischen Aussprache in Abhängigkeit einer lexikalischen Aussprache, das enthält: einen Kodierer (2224), der gekoppelt ist, um lexikalische Laute (2202), lexikalische Merkmale (2204), Begrenzungsabstandsinformation (2206) und Grenznachbarschaftsinformation (2208) für einen vorgegebenen Textabschnitt digital zu empfangen und einem vorbereiteten post­ lexikalischen neuronalen Netz (2226) zuzuführen, wobei das vor­ bereitete postlexikalische neuronale Netz (2226) mit Hilfe von lexikalischen Lauten (2210), postlexikalischen Lauten (2212), lexikalischen Merkmalen (2214), Begrenzungsabstandsinformationen (2216) und Grenznachbarschaftsinformationen (2218) trainiert wurde und wobei die lexikalischen und postlexikalischen Laute mit Hilfe einer automatischen merkmalsgerichteten dynamischen Programmierausrichtung (2220) ausgerichtet werden, und ein mit dem Kodierer (2224) gekoppeltes vorbereitetes postlexikalisches neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuro­ nalen Netzes für eine postlexikalische Aussprache (2229) des vorgegebenen Teils des Textes.
Wie in Fig. 21 gezeigt, wird das vorbereitete postlexika­ lische neuronale Netz (2226) entsprechend dem folgenden Verfah­ ren trainiert: (2102) Bereitstellen lexikalischer Aussprachen, die aus lexikalischen Lauten für den vorgegebenen Textabschnitt bestehen, und zugehöriger postlexikalischer Aussprachen, die aus postlexikalischen Laute für eine Zieläußerung bestehen, (2104) Ausrichten der zugehörigen lexikalischen und postlexikalischen Darstellungen, wobei eine mit einer merkmalsgerichteten Erset­ zungsaufwandsfunktion verbesserte dynamische Programmierausrich­ tung verwendet wird, (2106) Bereitstellen von akustischen Infor­ mationen und von Artikulationsinformationen für die lexikalische Laute, (2108) Bereitstellen von Informationen über die Entfer­ nung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, (2110) Bereitstellen der Informationen in bezug auf die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus­ drücken, Satzteilen und den Satzbegrenzungen, (2112) Bereitstel­ len eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute, (2114) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der Eigenschaften lexikali­ scher Laute und (2116) Trainieren eines neuronales Netzes zum Verbinden eingegebener lexikalische Laute mit postlexikalischen Lauten.
In einer bevorzugten Ausführungsform verwendet das postle­ xikalische neuronale Netz (2226) eine merkmalsgerichtete Fehler­ funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu kennzeichnen.
Das postlexikalische neuronale Netz (2226) kann ein vor­ wärts gerichtetes neuronales Netz sein.
Das postlexikalische neuronale Netz (2226) kann eine Feh­ ler-Backpropagation verwenden.
Es ist möglich, daß das postlexikalische neuronale Netz (2226) einen rekursive Eingabestruktur hat.
Die lexikalischen Merkmale (2204) und (2214) können Artiku­ lationsmerkmale umfassen.
Die lexikalischen Merkmale (2204) und (2214) können akusti­ sche Merkmale umfassen.
Die lexikalischen Merkmale (2204) und (2214) können eine Geometrie von Artikulationsmerkmalen umfassen.
Die lexikalischen Merkmale (2204) und (2214), können eine Geometrie von akustischen Merkmalen umfassen.
Die Ausrichtung (2220) kann auf der Grundlage von Konsonan­ ten- und Vokalpositionen in der orthographischen Form und in der zugehörigen phonetischer Darstellung erfolgen.
Die lexikalischen Laute (2202) und (2210) und die postlexi­ kalischen Laute (2212) können mit Hilfe von Merkmalsvektoren beschrieben werden.
Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104) verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle.
Das postlexikalische neuronale Netz (2226) kann mit Intona­ tions-Informationen trainiert werden.
Das postlexikalische neuronale Netz (2226) kann mit proso­ dischen Informationen trainiert werden.
Wie in Fig. 23, Ziffer 2300 gezeigt, stellt die vorliegen­ de Erfindung ein Erzeugnis (2322), d. h. Programme zum Erzeugen postlexikalischer Aussprachen aus lexikalischen Aussprachen be­ reit, einschließlich eines von einem Computer verwertbaren Medi­ ums mit einem von einem Computer lesbaren Programmcode-Mittel darauf, das enthält: eine lexikalische Informationsbestimmungs­ seinheit (2324) zum Bestimmen lexikalischer Laute (2302), lexi­ kalischer Merkmale (2304), Begrenzungsabstandsinformationen (2306) und von Grenznachbarschaftsinformationen (2308) für einen vorgegebenen Textabschnitt, und eine postlexikalische neuronale Netzanwendungseinheit (2326) zum Verwenden eines vorbereiteten neuronalen Netzes, das vorbereitetet wurde, lexikalische Laute (2310), postlexikalische Laute (2312), lexikalische Merkmale (2314), Begrenzungsabstandinformation (2316) und Grenznachbar­ schaftsinformation (2318) zu verwenden, um einen Vorschlag des neuronalen Netzes für eine postlexikalische Aussprache (2328) des vorgegebenen des Textabschnitts zu erzeugen.
Wie in Fig. 21 gezeigt, wird die postlexikalische neurona­ le Netzanwendungseinheit (2326) entsprechend dem folgenden Ver­ fahren trainiert: Bereitstellen (2102) lexikalischer Ausspra­ chen, die aus lexikalischen Lauten für den vorgegebenen Textab­ schnitt bestehen, und der zugehörigen postlexikalischen Ausspra­ chen, die aus postlexikalischer Laute für eine Zieläußerung be­ stehen, Ausrichten (2104) der zugehörigen lexikalischen und postlexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy­ namischen Programmierausrichtung, Bereitstellen (2106) von aku­ stischen und von Artikulationsinformationen für die lexikali­ schen Laute, Bereitstellen (2108) der Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Sil­ ben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2210) der Information über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrüc­ ken, Satzteilen und den Satzbegrenzungen, Bereitstellen (2112) eines Fensters mit vorgegebener Länge mit dem Kontext der lexi­ kalischen Laute, Bereitstellen (2114) eines Fensters mit vorge­ gebener Länge mit dem Kontext der Eigenschaften der lexikali­ schen Laute und Trainieren (2116) eines neuronalen Netzes zum Verbinden eingegebener lexikalischer Laute mit postlexikalischen Lauten.
In einer bevorzugten Ausführungsform verwendet die neurona­ le Netzanwendungseinheit (2326) eine merkmalsgerichtete Fehler­ funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen.
Die postlexikalische neuronale Netzanwendungseinheit (2326) kann ein vorwärts gerichtetes neuronales Netz sein.
Die postlexikalische neuronale Netzanwendungseinheit (2326) kann eine Fehler-Backpropagation verwenden.
Die postlexikalische neuronale Netzanwendungseinheit (2326) kann eine rekursive Eingabestruktur haben.
Die lexikalischen Merkmale (2304) und (2314) können Artiku­ lationsmerkmale umfassen.
Die lexikalischen Merkmale (2304) und (2314) können akusti­ sche Merkmale umfassen.
Die lexikalischen Merkmale (2304) und (2314) können eine Geometrie von Artikulationsmerkmalen umfassen.
Die lexikalischen Merkmale (2304) und (2314) können eine Geometrie akustischer Merkmale umfassen.
Die Ausrichtung (2320) kann auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörigen pho­ netischen Darstellung erfolgen.
Die lexikalischen Laute (2302) und (2310) können unter Ver­ wendung von Merkmalsvektoren beschrieben werden.
Das Erzeugnis nach Anspruch 35, wobei die postlexikalischen Laute mit einem Merkmalsvektor beschrieben werden.
Die merkmalsgerichtete Ersetzungsaufwandsfunktion (2104) verwendet einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle.
Die postlexikalische neuronale Netzanwendungseinheit (2326) kann mit Intonations-Informationen trainiert werden.
Die postlexikalische neuronale Netzanwendungseinheit (2326) kann mit prosodischen Informationen trainiert werden.
Die vorliegende Erfindung kann in anderen speziellen Formen verwendet werden, ohne daß von ihrem Prinzip oder von ihren we­ sentlichen Eigenschaften abgewichen wird. Alle beschriebenen Ausführungsformen dienen nur der Veranschaulichung und sollen in keiner Hinsicht einschränken. Der Umfang der Erfindung wird des­ halb statt durch die vorhergehende Beschreibung durch die ange­ fügten Ansprüche bestimmt. Alle Änderungen, die innerhalb der Bedeutung und des Bereichs des Äquivalents zu den Ansprüchen liegen, sollen von ihrem Umfang umschlossen werden.

Claims (10)

1. Verfahren zur einer effizienten Erzeugung einer postle­ xikalischen Aussprache in Abhängigkeit von einer lexikalischen Aussprache, gekennzeichnet durch die Schritte:
(1A) Bestimmen lexikalischer Laute (2002), lexikalischer Merkmale und Begrenzungsinformationen für einen vorgegebenen Textabschnitt und
(1B) Verwenden eines vortrainierten neuronalen Netzes, das vortrainiert wurde, lexikalische Laute (2004), postlexikalische Laute, lexikalische Merkmale und Begrenzungsinformation zu ver­ wenden, um einen Vorschlag des neuronale Netz für eine postlexi­ kalische Aussprache des vorgegebenen Teils des Texts zu erzeu­ gen.
2. Verfahren nach Anspruch 1, wobei mindestens eins von 2A-2F gilt:
2A) die Begrenzungsinformation umfaßt mindestens eine Be­ grenzungsabstandinformation oder eine Grenznachbarschaftsinfor­ mation
2B) wobei das neuronale Netz in Schritt (1B) ein vorwärts gerichtetes neuronales Netz ist,
2C) wobei das neuronale Netz in Schritt (1B) die Backpropa­ gation von Fehlern verwendet,
2D) wobei das neuronale Netz in Schritt (1B) eine rekursive Eingabestruktur hat,
2E) die lexikalischen Merkmale Artikulationsmerkmale umfas­ sen und
2F) wobei das vorbereitete neuronale Netz mit den Schritten trainiert wurde:
2F1) Bereitstellen von lexikalischen Aussprachen, die aus lexikalischen Lauten eines vorgegebenen Textabschnitts bestehen, zusammen mit der zugehörigen postlexikalischen Aussprache, die aus den postlexikalischen Lauten einer Zieläußerung bestehen (2102),
2F2) Ausrichten der lexikalischen und der zugehörigen post­ lexikalischen Darstellungen unter Verwendung einer mit einer merkmalsgerichteten Ersetzungsaufwandsfunktion verbesserten dy­ namischen Programmierausrichtung (2104),
2F3) Bereitstellen von akustischen Informationen und von Artikulationsinformationen für die lexikalischen Laute (2106),
2F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen (2108),
2F5) Bereitstellen von Information über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus­ drücken, Satzteilen und den Satzbegrenzungen (2110),
2F6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute (2112),
2F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext von lexikalischen Lautmerkmalen (2114) und
2F8) Trainieren eines neuronalen Netz zum Verbinden der eingegebenen lexikalischen Laute mit den postlexikalischen Lau­ ten (2116), und wobei mindestens eines von 2F8a-2F8c berücksich­ tigt wurde:
2F8a) außerdem Enthalten einer merkmalsgerichteten Fehler­ funktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
2F8b) wobei in Schritt (2F2) die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörigen phonetischen Darstellung erfolgt, und
2F8c) wobei in Schritt (2F2) die merkmalsgerichtete Erset­ zungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfü­ gungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.
3. Verfahren nach Anspruch 1, bei dem mindestens eins von 3A-3G gilt:
3A) die lexikalischen Merkmale umfassen akustische Merkma­ le;
3B) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen;
3C) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmale;
3D) die lexikalischen Lauten werden mit Hilfe eines Merk­ malsvektors beschrieben;
3E) die postlexikalischen Laute werden mit Hilfe eines Merkmalsvektors beschrieben;
3F) wobei das neuronale Netz in Schritt (1B) mit Intonati­ ons-Informationen trainiert wird,
3G) wobei das neuronale Netz in Schritt (1B) mit Prosodem- Informationen trainiert wird.
4. Vorrichtung zur effizienten Erzeugung einer postlexika­ lischen Aussprache in Abhängigkeit von einer lexikalischen Aus­ sprache, gekennzeichnet durch:
4A) einen Kodierer (2224) zum Empfangen lexikalischer Lau­ te, lexikalischer Merkmale, Begrenzungsabstandsinformationen und Grenznachbarschaftsinformationen für einen vorgegebenen Textab­ schnitt, zum Bereitstellen einer digitalen Eingabe in ein vor­ trainiertes postlexikalisches neuronales Netz, wobei das vor­ trainierte postlexikalische neuronale Netz mit Hilfe von lexika­ lischen Lauten, postlexikalischen Lauten, lexikalischen Merkma­ len, Begrenzungsabstandsinformationen und Grenznachbarschaftsin­ formationen trainiert wurde und wobei die lexikalischen und postlexikalischen Laute mit Hilfe einer automatischen merkmals­ gerichteten dynamischen Programmierausrichtung ausgerichtet wur­ den, und
4B) ein mit dem Kodierer gekoppeltes vorbereitetes postle­ xikalisches neuronales Netz (2226) zum Erzeugen eines Vorschlags des neuronalen Netz für eine postlexikalische Aussprache des vorgegebenen Textabschnitts.
5. Vorrichtung nach Anspruch 4, für die mindestens eins aus 5A-5D gilt:
5A) Verwenden beim Trainieren außerdem einer merkmalsge­ richteten Fehlerfunktion, um die Entfernung zwischen der anvi­ sierten und der vorgeschlagenen postlexikalischen Aussprache zu bezeichnen,
5B) die Vorrichtung umfaßt eines von 5B1-5B3:
5B1) einen Mikroprozessor,
5B2) eine anwendungsspezifische integrierte Schaltung und
5B3) eine Kombination von (5B1) und (5B2),
5C) das neuronale Netz ist ein vorwärts gerichtetes neuro­ nales Netz,
5D) wobei das vorbereitete neuronale Netz entsprechend dem folgenden Verfahren trainiert wurde:
5D1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be­ stehen, und zugehörigen postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
5D2) Ausrichten der zugehörigen lexikalischen und postlexi­ kalischen Darstellungen unter Verwendung einer mit einer merk­ malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami­ schen Programmierausrichtung,
5D3) Bereitstellen von akustischen Informationen und Arti­ kulationsinformationen für die lexikalischen Laute,
5D4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
5D5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus­ drücken, Satz teilen und den Satzbegrenzungen,
5D6) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Laute,
5D7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale,
5D8) Trainieren eines neuronalen Netzes zum Verbinden ein­ gegebener lexikalischer Laute mit postlexikalischen Lauten,
5D9) wobei, wenn ausgewählt, in 5D8 das Ausrichten auf Grundlage von Konsonanten- und Vokalpositionen in der Schreib­ weise und der zugehörigen phonetischen Darstellung erfolgt, und
5D10) wobei, wenn ausgewählt, in 5D8 die merkmalsgerichte­ ten Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Einfügungs- und Löschaufwand und eine vorgegebene Ersetzungsta­ belle verwendet.
6. Vorrichtung nach Anspruch 4, wobei mindestens eins von 6A-6E gilt:
6A) das neuronale Netz verwendet eine Backpropagation von Fehlern,
6B) das neuronale Netz hat eine rekursive Eingabestruktur,
6C) die lexikalischen Merkmale umfassen Artikulationsmerk­ male,
6D) die lexikalischen Merkmale umfassen akustische Merkma­ le,
6E) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen.
7. Vorrichtung nach Anspruch 4, wobei mindestens eins von 7A-7E gilt:
7A) die lexikalischen Merkmale umfassen eine Geometrie aku­ stischer Merkmale,
7B) die lexikalischen Laute werden mittels eines Merkmals­ vektors beschrieben,
7C) die postlexikalischen Lauten werden mittels eines Merk­ malsvektors beschrieben,
7D) das neuronale Netz wird mit Intonations-Informationen trainiert und
7E) das neuronale Netz wird mit Prosodem-Informationen trainiert.
8. Erzeugnis zum Erzeugen postlexikalischer Aussprachen aus lexikalischen Aussprachen mit einem von einem Computer verwend­ baren Medium mit einem von einem Computer lesbaren Programmcode- Mittel darauf, gekennzeichnete durch:
8A) eine lexikalische Informationsbestimmungsvorrichtung (2324) zum Bestimmen lexikalischer Laute, lexikalischer Merkma­ le, Begrenzungsabstandsinformationen und Grenznachbarschaftsin­ formationen für einen vorgegebenen Textabschnitt und
8B) eine postlexikalische neuronale Netzanwendungsvorrich­ tung (2326) zum Verwenden eines vortrainierten neuronalen Netzes, das mit lexikalischen Lauten, postlexikalischen Lauten, lexika­ lischen Merkmalen, Begrenzungsabstandsinformationen und mit Grenznachbarschaftsinformationen vorbereitetet wurde, um einen Vorschlag des neuronalen Netzes für eine postlexikalische Aus­ sprache des vorgegebenen Textabschnitts zu erzeugen.
9. Erzeugnis nach Anspruch 8, wobei mindestens eins von 9A-9F gilt:
9A) das neuronale Netz ist ein vorwärts gerichtetes neuro­ nales Netz,
9B) das neuronale Netz verwendet eine Backpropagation von Fehlern,
9C) das neuronale Netz hat eine rekursive Eingabestruktur,
9D) die lexikalischen Merkmale umfassen Artikulationsmerk­ male,
9E) die lexikalischen Merkmale umfassen akustische Merkma­ le, und
9F) das vorbereitete neuronale Netz wurde nach folgenden Verfahren trainiert:
9F1) Bereitstellen von lexikalischen Aussprachen, die aus den lexikalischen Lauten eines vorgegebenen Textabschnitts be­ stehen, und zugehöriger postlexikalischen Aussprachen, die aus postlexikalischen Lauten einer Zieläußerung bestehen,
9F2) Ausrichten der zugehörigen lexikalischen und postlexi­ kalischen Darstellungen unter Verwendung einer mit einer merk­ malsgerichteten Ersetzungsaufwandsfunktion verbesserten dynami­ schen Programmierausrichtung,
9F3) Bereitstellen von akustischen und von Artikulationsin­ formationen für die lexikalischen Laute,
9F4) Bereitstellen von Informationen über die Entfernung zwischen allen lexikalischen Lauten und zu allen Silben, Worten, Ausdrücken, Satzteilen und den Satzbegrenzungen,
9F5) Bereitstellen von Informationen über die Nachbarschaft zu allen lexikalischen Lauten und zu allen Silben, Worten, Aus­ drücken, Satzteilen und den Satzbegrenzungen,
9F6) Bereitstellen eines Fensters mit vorgegebener Längen für den Kontext der lexikalischen Laute,
9F7) Bereitstellen eines Fensters mit vorgegebener Länge für den Kontext der lexikalischen Lautmerkmale, und
9F8) Trainieren eines neuronalen Netzes zum Verbinden von eingegebenen lexikalischen Lauten mit postlexikalischen Lauten,
9F9) außerdem in 9F8, wenn ausgewählt, Verwenden einer merkmalsgerichteten Fehlerfunktion, um die Entfernung zwischen der anvisierten und der vorgeschlagenen postlexikalischen Aus­ sprache zu bezeichnen,
9F10) wobei in 9F2, wenn ausgewählt, die Ausrichtung auf Grund von Konsonanten- und Vokalpositionen in der Schreibweise und in der zugehörenden phonetischen Darstellung erfolgt, und
9F11) wobei in 9F2, wenn ausgewählt, die merkmalsgerichtete Ersetzungsaufwandsfunktion einen vorgegebenen Ersetzungs-, Ein­ fügungs- und Löschaufwand und eine vorgegebene Ersetzungstabelle verwendet.
10. Erzeugnis nach Anspruch 8, wobei mindestens eins von 10A-10F gilt:
10A) die lexikalischen Merkmale umfassen eine Geometrie von Artikulationsmerkmalen,
10B) die lexikalischen Merkmale umfassen eine Geometrie von akustischen Merkmalen,
10C) die lexikalischen Laute werden mittels eines Merkmals­ vektors beschrieben,
10D) die postlexikalischen Laute werden mittels eines Merk­ malsvektors beschrieben,
10E) das neuronale Netz wird mit Intonations-Informationen trainiert, und
10F) das neuronale Netz wird mit prosodischen Informationen trainiert.
DE19825205A 1997-06-13 1998-06-05 Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz Expired - Fee Related DE19825205C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/874,834 US6134528A (en) 1997-06-13 1997-06-13 Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations

Publications (2)

Publication Number Publication Date
DE19825205A1 true DE19825205A1 (de) 1999-01-14
DE19825205C2 DE19825205C2 (de) 2001-02-01

Family

ID=25364670

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19825205A Expired - Fee Related DE19825205C2 (de) 1997-06-13 1998-06-05 Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz

Country Status (6)

Country Link
US (1) US6134528A (de)
CN (1) CN1135526C (de)
BE (1) BE1011945A3 (de)
DE (1) DE19825205C2 (de)
FR (1) FR2764725A1 (de)
GB (1) GB2326321B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10034236C1 (de) * 2000-07-14 2001-12-20 Siemens Ag Sprachkorrekturverfahren
US7167824B2 (en) 2002-02-14 2007-01-23 Sail Labs Technology Ag Method for generating natural language in computer-based dialog systems

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE10022586A1 (de) * 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
US6367939B1 (en) * 2001-01-25 2002-04-09 Gentex Corporation Rearview mirror adapted for communication devices
US7353172B2 (en) * 2003-03-24 2008-04-01 Sony Corporation System and method for cantonese speech recognition using an optimized phone set
CA2523010C (en) * 2003-04-30 2015-03-17 Loquendo S.P.A. Grapheme to phoneme alignment method and relative rule-set generating system
CN1260704C (zh) * 2003-09-29 2006-06-21 摩托罗拉公司 语音合成方法
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US20070005364A1 (en) * 2005-06-29 2007-01-04 Debow Hesley H Pure phonetic orthographic system
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
US8028230B2 (en) * 2007-02-12 2011-09-27 Google Inc. Contextual input method
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
US9460708B2 (en) * 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
US9460704B2 (en) * 2013-09-06 2016-10-04 Google Inc. Deep networks for unit selection speech synthesis
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
CN110741363B (zh) * 2017-06-18 2024-04-02 谷歌有限责任公司 使用机器学习处理自然语言以基于槽描述符确定槽值
CN108492818B (zh) * 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
KR102625184B1 (ko) * 2019-12-13 2024-01-16 구글 엘엘씨 고유 음성 사운드를 생성하기 위한 음성 합성 트레이닝

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
EP0372734B1 (de) * 1988-11-23 1994-03-09 Digital Equipment Corporation Namenaussprache durch einen Synthetisator
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
US5987412A (en) * 1993-08-04 1999-11-16 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
AU675389B2 (en) * 1994-04-28 1997-01-30 Motorola, Inc. A method and apparatus for converting text into audible signals using a neural network
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
CA2170669A1 (en) * 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
US5930754A (en) * 1997-06-13 1999-07-27 Motorola, Inc. Method, device and article of manufacture for neural-network based orthography-phonetics transformation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10034236C1 (de) * 2000-07-14 2001-12-20 Siemens Ag Sprachkorrekturverfahren
US7167824B2 (en) 2002-02-14 2007-01-23 Sail Labs Technology Ag Method for generating natural language in computer-based dialog systems

Also Published As

Publication number Publication date
GB2326321A (en) 1998-12-16
GB2326321B (en) 1999-08-11
BE1011945A3 (fr) 2000-03-07
DE19825205C2 (de) 2001-02-01
US6134528A (en) 2000-10-17
CN1202686A (zh) 1998-12-23
FR2764725A1 (fr) 1998-12-18
CN1135526C (zh) 2004-01-21
GB9812479D0 (en) 1998-08-05

Similar Documents

Publication Publication Date Title
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
Chin et al. Feature geometry in disordered phonologies
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
Hoste et al. Using rule-induction techniques to model pronunciation variation in Dutch
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: SCHUMACHER & WILLSAU, PATENTANWALTSSOZIETAET, 80335 MUENCHEN

8339 Ceased/non-payment of the annual fee