DE10034236C1

DE10034236C1 - Sprachkorrekturverfahren

Info

Publication number: DE10034236C1
Application number: DE10034236A
Authority: DE
Inventors: Steffen Harengel
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-07-14
Filing date: 2000-07-14
Publication date: 2001-12-20
Anticipated expiration: 2020-07-15

Abstract

Sprachkorrekturverfahren unter Einsatz eines Aussprache-Lexikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format und eines Phonem-Erkenners, der aus jedem von einem spezifischen Sprecher ausgesprochenen Wort eine Phonemfolge generiert, wobei in einer Trainingsphase das neuronale Netz zur Abbildung der Transkription auf die Phonemfolge trainiert und in einer Anwendungsphase die phonetische Transkription ausgegeben wird, die im Ergebnis des Trainings auf die dem ausgesprochenen Wort entsprechende Phonemfolge abgebildet wurde.

Description

Die Erfindung betrifft ein Sprachkorrekturverfahren unter Einsatz eines Aussprachelexikons nach dem Oberbegriff des Anspruchs 1 sowie eine Anordnung zur Durchführung dieses Verfahrens

Erhebliche Aussprachefehler stellen eine nicht zu unterschät zende Behinderung der betroffenen Menschen sowohl in ihrem sozialen Umfeld als auch im Berufsleben und bei der Aus- und Fortbildung dar. Es ist daher seit langem üblich, daß Men schen mit Aussprachefehlern von entsprechend geschulten Leh rern (Logopäden) trainiert und geschult werden. Hierbei wird die korrekte Aussprache von Vokalen, Konsonanten, Silben, Wörtern und Sätzen geübt. Im einfachsten Fall überprüft der Lehrer die Aussprache des Schülers und versucht diesen zu einer korrekten Aussprache zu führen, indem er Worte oder Sätze korrekt vorspricht und der Schüler die entsprechenden Worte oder Sätze möglichst korrekt nachzusprechen versucht.

Dieses Vorgehen erfordert - da die Aussprachefehler verschie dener insoweit behinderter Menschen sich in der Regel nicht gleichen oder es jedenfalls kaum organisierbar ist, Menschen mit übereinstimmenden Aussprachefehlern in Übungsgruppen zu sammenzufassen - die ständige Präsenz eines qualifizierten Lehrers pro Schüler. Es ist daher sehr kostenaufwendig, wenn es mit hoher Intensität (und somit großen Erfolgsaussichten) praktiziert werden soll.

Es wurden daher bereits textbasierte Lernprogramme vorge schlagen, bei denen Texte über Sprachsynthese vorgelesen wer den. Als Beispiel wird hier auf das System "Kurzweil 3000" der Firma Lernout & Hauspie hingewiesen, das speziell für Men schen mit Lernschwächen entwickelt wurde. Diese bekannten Systeme geben dem Schüler keine individuelle Anleitung und Rückkopplungsmöglichkeit und können daher einen menschlichen Trainer in keiner Weise ersetzen.

Bekannte Spracherkennungssysteme nutzen Aussprache-Lexika als Wissensbasis für die sprecherunabhängige Spracherkennung. In derartigen Aussprache-Lexika wird für jedes Wort des Wort schatzes eine phonetische Transkription in einem bestimmten Format (beispielsweise dem Sampa-Format) angegeben. Hierbei handelt es sich um sogenannte "kanonische Formen", die einem Aussprachestandard entsprechen. Es ist auch die Speicherung und Verwendung mehrerer phonetischer Transkriptionen für ein Wort möglich. Von dieser Möglichkeit wird insbesondere für Worte Gebrauch gemacht, für die es mehrere allgemein aner kannte Aussprachevarianten gibt. Der den kanonischen Formen zugrundeliegende Aussprachestandard wird von realen Sprechern aufgrund ihrer Sprachfärbung, ihres Dialektes oder persönli cher Sprecheigenschaften nur bedingt eingehalten.

Es ist daher für den praktischen Einsatz von Spracherken nungssystemen erforderlich, die kanonischen Formen der Trans kriptionen in dem Aussprache-Lexikon für einen Nutzer (oder eine Mehrzahl von Nutzern) eines Spracherkennungssystems der art zu adaptieren, daß das Spracherkennungssystem die spre cher-spezifischen Eigenschaften weitestgehend berücksichtigt und optimale Erkennungsergebnisse erzielt.

Nach dem Stand der Technik werden sprecher-spezifische Adap tionen bzw. Trainingsvorgänge unter anderem unter Einsatz ei nes Phonem-Erkenners durchgeführt. Hierbei wird für die zu adaptierenden Äußerungen im Ergebnis eines speziellen Such vorganges nur die wahrscheinlichste Phonemfolge für die je weilige Äußerung ausgegeben. Hiermit läßt sich für jedes adaptierte Wort eine Phonemfolge bestimmen und anstelle der kanonischen Form oder alternativ zu dieser in das Aussprache- Lexikon eintragen.

Benutzern mit erheblichen Aussprachefehlern ermöglichen die bekannten Systeme gleichwohl keine zuverlässige Spracheingabe von Texten oder Sprachsteuerung von Geräten.

Aus der EP 0 640 237 B1 (entspricht DE 694 13 912 T2) ist ein Sprachumsetzungsverfahren be kannt, welches eine Veränderung, insbesondere Korrektur, der Aussprache eines Sprecher ermöglicht. Mit diesem Verfahren soll eine Sprachverarbeitung auch sprachbehinderten Personen zugänglich gemacht werden. Die Druckschrift lehrt, das Sprachsignal mittels eines Verfahrens der linearen Prädikti onskodierung zu analysieren und einen Satz von den Vokaltrakt des Sprechers modellierenden Parametern zu erzeugen. Diese Parameter werden dann gemäß einem komplexen Verarbeitungsal gorithmus für eine Umformung der eingesprochenen Sprachsigna le genutzt.

Aus der DE 198 25 205 A1 ist ein weiteres Spracherkennungs verfahren bekannt, bei dem in einem Text-To-Speach-System die ursprüngliche lexikalische Aussprache mit Hilfe eines neuro nalen Netzes in eine sogenannte postlexikalische Aussprache umgewandelt wird. Dieses Verfahren ermöglicht unter anderem eine systematische Sprachdatenverarbeitung unter Berücksich tigung von Eigenarten des Sprechers.

Der Erfindung liegt die Aufgabe der Bereitstellung eines Sprachkorrekturverfahrens zugrunde, das Menschen mit erhebli chen Aussprachefehlern zum einen eine kostengünstige und ef fiziente Trainingsmöglichkeit bietet und ihnen zum anderen die Nutzung von Spracherkennungssystemen zur Texteingabe bzw. Sprachsteuerung von Geräten in zweckmäßiger Weise ermöglicht. Weiterhin soll eine praktisch sinnvoll einsetzbare Anordnung zur Durchführung dieses Verfahrens angegeben werden.

Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes ge löst durch ein Verfahren mit den Merkmalen des Anspruchs 1 und hinsichtlich ihres Anordnungsaspektes durch eine Anord nung mit den Merkmalen des Anspruchs 10.

Die Erfindung schließt den grundlegenden Gedanken ein, ein neuronales Netz zur Schaffung eines Sprachkorrekturverfahrens einzusetzen, das auch im Rahmen eines Trainingsablaufes An wendung finden kann. Sie schließt weiter den Gedanken ein, dieses neuronale Netz anhand vorgegebener Äußerungen des kon kreten Sprechers (Schülers) mit seinen sprecher-spezifischen Aussprachefehlern zu trainieren. Dazu werden - was insoweit an sich bekannt ist - die Äußerungen des Sprechers einem Pho nem-Erkenner präsentiert, der daraus jeweils eine Phonemfolge F generiert. Die jeweilige korrekte Phonemfolge K wird aus einem Aussprache-Lexikon entnommen, das die korrekte Ausspra che für die Elemente der vorgegebenen Wörter bzw. Sätze ent hält. Die F-K-Tupel aus fehlerhafter und korrekter Phonemfol ge für alle eingesprochenen Äußerungen werden als Trainings material für das Sprachkorrekturverfahren abgespeichert.

Im weiteren Verlauf werden die F-K-Tupel dem neuronalen Netz präsentiert, und dieses wird trainiert, indem als Eingangs knoten eine geeignete Repräsentation der fehlerhaften Phonemfolge F gewählt und die korrekte Phonemfolge K in der ana logen Repräsentation als Zielwerte für Ausgabeknoten des Netzes vorgegeben wird.

In der Anwendungsphase wird das Verfahren mit demselben Pho nem-Erkenner, der bereits in der Trainingsphase eingesetzt wurde, und dem trainierten neuronalen Netz des Sprechers ein gesetzt. Dieses wird aktiviert, der Sprecher spricht beliebi ge Äußerungen (Text oder Sprachsteuerbefehle o. ä.) ein, der Phonem-Erkenner erzeugt hieraus die zugehörigen (fehlerhaf ten) Phonemfolgen und diese werden als Eingangsdaten dem trainierten neuronalen Netz zugeführt. Im Ergebnis der Be rechnung durch das neuronale Netz erhält man als Ausgangsda ten die korrigierte Phonemfolge.

In der Ausführung als Lernsystem kommt ein Sprachsynthesesys tem hinzu, das zur Ausgabe der korrekten Aussprache für den Schüler dient. Im Einsatz als reines Sprachkorrekturverfahren ist eine Sprachsynthese aber natürlich nicht erforderlich, sondern es kann eine Text-Repräsentation erzeugt und ausgege ben werden, beispielsweise bei der Handhabung eines Textver arbeitungssystems mit Spracheingabe oder bei der Sprachsteu erung von Geräten.

Das vorgeschlagene Verfahren hat als einen wesentlichen Vor teil, daß bei dem Training bzw. der Adaption nicht nur zeit lich kurze Kontexte auf Phonembasis gelernt werden, sondern daß es die typische Aussprache von größeren Kontexten, ins besondere Silben, sprecher-spezifisch verarbeitet. Es können also unterschiedliche Aussprachefehler berücksichtigt und korrigiert werden - relativ kurze Aussprachefehler auf Pho nemebene und auch längere auf Silbenebene.

Ein weiterer Vorteil besteht darin, daß eine vom neuronalen Netz gelernte Zuordnung zwischen korrekter Phonemfolge K und sprecher-spezifischer Phonemfolge F (Abbildung F*-K) nicht nur für während der Trainingsphase vorkommende Worte eingesetzt werden kann. Vielmehr können auch für Worte, die wäh rend der Adaption noch nicht Teil des Wortschatzes, also nicht im Aussprache-Lexikon enthalten waren, sprecher-spezi fische Transkriptionen erzeugt und für eine Korrektur der entsprechenden Aussprachefehler bei der Anwendung des trai nierten neuronalen Netzes genutzt werden. Äußerungen, die nicht Bestandteil des Trainings waren, können also durch das Verfahren korrigiert werden, falls die in den unbekannten Äußerungen enthaltenen Aussprachefehler als solche trainiert wurden.

Eine wichtige Realisierung der Erfindung besteht in der Be reitstellung eines synthetischen "Dolmetschers", der per Sprachsynthese erheblich fehlerhaft eingesprochene Texte in eine korrekte Ausgabe umsetzt, so daß dem Sprecher mit den Aussprachefehlern (falls diese nicht durch Training behebbar sind oder vor einem erfolgreichen Abschluß eines Trainings) eine wesentlich bessere Verständigung mit seiner Umwelt er möglicht wird. Dies ist sowohl im beruflichen oder Ausbil dungs-Umfeld als auch zur Sicherung sozialer Kontakte stark sprachgestörter Menschen von großem Vorteil.

Für das neuronale Netz wird insbesondere ein sogenanntes "Multilayer-Perzeptron" (MLP) verwendet. Hierbei handelt es sich um ein schichtorientiertes, vorwärts gerichtetes ("feed forward") Netz mit Vollvermaschung zwischen den einzelnen Schichten.

Als Aktivierungsfunktion wird die Sigmoidfunktion Sc(x) oder die Tangenshyperbolicusfunktion tanh(x) eingesetzt, wobei es auf die konkrete Wahl der Aktivierungsfunktion sowie die An zahl der Schichten des neuronalen Netzes nicht ankommt. Zur Erzielung einer hohen Trainingsgenauigkeit muß allerdings die Anzahl der variablen Parameter ausreichend groß sein. Diese wird bestimmt durch die Anzahl der Schichten sowie die Anzahl von Neuronen in der versteckten Schicht bzw. versteckten Schichten.

Die Eingangsschicht des neuronalen Netzes weist eine Mehrzahl von Knoten als Phonemfenster auf, in die das jeweilige feh lerbehaftete Phonem F "hineingeschoben" wird. Ein mittlerer Knoten der Eingangsschicht ist jeweils das zu betrachtende Phonem, für das die Zuordnung zu dem zugehörigen Phonem der korrekten Phonemfolge K in der Trainingsphase trainiert bzw. in der Anwendungsphase gesucht wird. Weitere Knoten der Ein gangsschicht enthalten die dem betrachteten Phonem zeitlich benachbarten, d. h. zeitlich vorangehenden und nachfolgenden, Phoneme. Diese werden zur Erreichung einer hohen Genauigkeit bei der Erlernung und Korrektur des betreffenden Aussprache fehlers als Kontextwissen (z. B. bezüglich der Aussprache ei ner Silbe) benötigt.

Für eine optimale Verfahrensführung ist von Bedeutung, daß die Fenstergröße der Eingangsschicht nur so groß gewählt wird, wie es für die Erfassung des erwähnten Kontextwissens erforderlich ist. Die Fenstergröße wird sinnvoll derart ge wählt, daß nicht die Phonem-Repräsentation eines ganzen Wor tes verarbeitet wird, sondern lediglich das Kontextwissen auf Silbenebene. Dadurch wird insbesondere gewährleistet, daß die Phoneme neuer, im Sprachsystem noch unbekannter Wörter - die also nicht Bestandteil des Trainings sind - korrekt umgesetzt werden.

Die Ausgangsschicht enthält zunächst eine der Anzahl der mög lichen Phoneme entsprechende Anzahl von Ausgangsknoten, mit denen also das vollständige "Phoneminventar" abgedeckt wird. Weiterhin gibt es für die Ausgangsschicht einen "Platzhal ter", um unterschiedliche Phonemlängen der Tupel (F, K) ab bilden zu können.

Das neuronale Netz wird insbesondere mittels eines iterativen Verfahrens trainiert, bei dem als Lernregel speziell die so genannte "Error Backpropagation" eingesetzt wird. Bei diesem Verfahren wird der mittlere quadratische Fehler minimiert.

Mit dieser Lernregel ist die Berechnung von Rückschlußwahr scheinlichkeiten möglich, und beim Training werden diese Rückschlußwahrscheinlichkeiten für alle Ausgangsknoten (Pho neme) für das vorgegebene kanonische Phonemfenster der Ein gangsschicht berechnet.

Das neuronale Netz wird mit den Trainingsmustern in mehreren Iterationen trainiert, wobei für jede Iteration die Trai ningsreihenfolge vorzugsweise zufällig bestimmt wird. Nach jeder Iteration wird mit einem vom Trainingsmaterial unab hängigen Validierungssatz die erzielte Transkriptionsgenauig keit geprüft. Der Trainingsvorgang wird solange fortgeführt, wie nach jeder folgenden Iteration eine Erhöhung der Trans kriptionsgenauigkeit erzielt wird. An einem Punkt, bei dem die Transkriptionsgenauigkeit für den Validierungssatz sich nicht mehr erhöht, wird also das Training beendet.

Nach Abschluß des Trainings, also nachdem das neuronale Netz die Abbildung der fehlerbehafteten Phonemfolge F auf die korrekten Phonemfolgen K gelernt hat, wird zweckmäßigerweise das Aussprache-Lexikon aktualisiert. Die dort eingetragenen Transkriptionen mit kanonischen Formen K bzw. korrekten Pho nemen werden um Transkriptionen mit sprecher-spezifischen Phonemfolgen F* (als Aussprachevarianten) ergänzt.

Ein trainiertes neuronales Netz enthält jeweils das Ausspra chefehler-Korrekturwissen eines einzelnen Sprechers. Für je den weiteren Sprecher in einem komplexeren Korrektur- bzw. Lernsystem muß das Verfahren wiederholt werden. Bei der An wendung des Verfahrens in einem solchen komplexeren System ist eine Identifikation des Sprechers erforderlich.

Die Nutzung bekannter Spracherkennungssysteme setzt in der Regel die Ausführung eines sogenannten "Enrollment" durch einen die Benutzung planenden Sprecher voraus. Dieses En rollment beinhaltet in der Regel das Einsprechen von vorge gebenen Texten durch den Sprecher, und das System führt auf dieser Grundlage die sprecher-spezifische Adaption der Wis sensbasis aus. Im Rahmen dieses Einsprechens läßt sich die oben beschriebene Abbildung F*-K durch das erfindungsgemäß angewandte neuronale Netz erlernen und direkt zur Modifizie rung des mitgelieferten Aussprache-Lexikons für den speziel len Benutzer mit Aussprachefehler nutzen.

Beim anschließenden praktischen Einsatz des Spracherkennungs systems wird in der Regel - im Sinne eines "Perfektionie rungs-Trainings" - die Korrektur falsch erkannter Worte durch den Benutzer vorgesehen. Die Ergebnisse der Korrekturen wer den für einen nachfolgenden Adaptionsschritt gesammelt. Auch im Rahmen der Erweiterung des Wortschatzes beim Einsatz des Spracherkennungssystems durch den Benutzer wird dieser viel fach dazu aufgefordert, neue Worte nicht nur als Text, also orthografisch, sondern auch als Sprechprobe einzugeben. Die auf diesen Wegen über einen gewissen Zeitraum gesammelten neuen Einträge können in Kombination mit den Äußerungen aus der Enrollement-Phase zu einem verbesserten Training des neu ronalen Netzes eingesetzt werden.

Wesentliche Komponenten einer Anordnung zur Durchführung des vorgeschlagenen Verfahrens sind neben der selbstverständlich erforderlichen Spracheingabeeinrichtung, etwa einem Mikrofon bzw. einer Sprechgarnitur mit nachgeschalteten analogen Sig nalverarbeitungseinheiten, ein Lexikonspeicher zur Speiche rung des Aussprache-Lexikons, der oben erwähnte Phonem-Erken ner, das mit dem Lexikonspeicher einerseits und mit dem Pho nem-Erkenner andererseits verbundene neuronale Netz als Kern stück des Systems und eine mit den Ausgabeknoten des neurona len Netzes verbundene Sprach- oder Textausgabeeinrichtung. Letztere weist in der Ausführung als Lernsystem oder elektro nischer Dolmetscher eine Sprachsyntheseeinrichtung auf.

Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den Unteransprüchen und den nachfolgend skizzier ten Anwendungs-Szenarien.

Als erste wesentliche Anwendung ist die Realisierung eines Sprachlernsystems zu nennen, das dem Sprecher bei der Kor rektur von Aussprachefehlern helfen soll. Dieses System soll dem Sprecher bei der Korrektur von Aussprachefehlern helfen.

Zunächst muß das System die Aussprachefehler des Sprechers lernen. Hierzu muß der Sprecher vorgegebene Wörter/Sätze in das System einsprechen. Das System führt nun die Trainings phase durch. Nach Abschluß der Trainingsphase ist das System bereit, den Sprecher die korrekte Aussprache zu lehren. Hier zu spricht der Sprecher Sätze in das System ein. Das System erzeugt aus der Spracheingabe die korrekte Aussprache und spielt diese dem Anwender akustisch per Sprachsynthese vor. Das System nimmt hierbei die Rolle des Lehrers ein und der Sprecher die Rolle des Schülers. Durch das Vorspielen der korrekten Aussprache ist der Schüler selbst in der Lage seine Fehler zu erkennen und zu verbessern. Wird nun die Aussprache des Schülers besser, ist nach einiger Zeit ein erneutes Trai ning des Systems erforderlich, da das gelernte Aussprachefeh lerwissen des Systems, welches im neuronalen Netz gespeichert ist, an den Lernfortschritt des Schülers angepaßt werden muß.

Dieses System kann einen menschlichen Sprachtrainer unter stützen bzw. möglicherweise ersetzen. Es kann in der Medizin zur Beseitigung von krankhaft bedingten Aussprachefehlern und in Schulen unter anderem zur Übung der korrekten Aussprache von Schülern, die eine Fremdsprache erlernen, eingesetzt wer den.

Eine zweite wesentliche Anwendung besteht in der Realisierung einer Dolmetscher-Funktion: Für Menschen, bei denen der Aus sprachefehler aufgrund ihrer Behinderung nicht durch eine Schulung korrigiert werden kann, kann ein "Aussprachekorrek tur-Dolmetscher" zu einer besseren Verständigung beitragen.

Zunächst muß auch dieses System trainiert werden. Hierzu spricht der Sprecher vorgegebene Texte ein, und das System führt die Trainingsphase durch. In der Anwendungsphase er zeugt das System aus der aussprachefehlerbehafteten Äußerung des Sprechers eine korrigierte Aussprache, die per Sprachsyn these akustisch wiedergegeben wird.

Dieses System kann z. B. bei einem Sprachdialog zwischen aus sprachefehlerbehafteten Menschen mit ihren Mitmenschen einge setzt werden. Hierbei wird die falsche Aussprache des Spre chers vom System korrigiert und den Gesprächspartnern per Sprachsynthese korrigiert vorgespielt. Dadurch wird die Ver ständigung verbessert.

Eine dritte wesentliche Anwendung ist die Nutzbarmachung von Textverarbeitungs- oder Gerätesteuersystemen mit Sprachein gabe. Diese Anwendung ist besonders für Menschen wertvoll, die in mehrfacher Hinsicht behindert sind und neben Sprach störungen beispielsweise unter motorischen Störungen leiden, die die Handhabung einer normalen Computer- oder Fernbedie nungstastatur nicht oder nur unter Schwierigkeiten ermögli chen.

Ein solches System arbeitet hinsichtlich der Abfolge von Trainings- und Anwendungsphase grundsätzlich wie bei den oben genannten Szenarien, es erfolgt aber keine Sprachausgabe, sondern eine Ausgabe von Textdaten bzw. Steuerbefehlsdaten. Hierzu ist anstelle einer Sprachsynthese eine Umwandlung der durch das neuronale Netz ausgegebenen phonetischen Transkrip tionen in Text- bzw. Steuerdaten erforderlich, oder das Sys tem ist von vornherein (zumindest unter anderem) zur Handha bung und Ausgabe von Textdaten ausgebildet. Eine solche Aus bildung schließt insbesondere das Vorsehen eines modifizier ten Lexikons vor, das die Ausgabe alphabetischer Repräsenta tionen als Abbilder eingesprochener Phoneme ermöglicht.

Claims

1. Sprachkorrekturverfahren unter Einsatz eines Aussprache- Lexikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format und eines Phonem-Erkenners, der aus jedem von einem spezifischen Sprecher ausgesprochenen Wort eine Phonemfolge generiert, dadurch gekennzeichnet, daß
in einer Trainingsphase

a) sprecherbezogen für jedes ausgesprochene Wort die gene rierte Phonemfolge in Zuordnung zu einer im Aussprache-Lexi kon gespeicherten Transkription als F-K-Tupel gespeichert wird,
b) die gespeicherte Zuordnung einem durch die generierte Phonemfolge definierten Eingangsknoten eines neuronalen Net zes zugeführt wird,
c) das neuronale Netz zur Abbildung der Transkription auf die Phonemfolge trainiert wird, wobei die Transkription dem neuronalen Netz als Zielwert für Ausgabeknoten vorgegeben wird und

in einer Anwendungsphase die Schritte (a) und (b) für jedes ausgesprochene Wort wiederholt werden und durch das neuronale Netz die phonetische Transkription ausgegeben wird, die im Ergebnis des Trainings auf die dem ausgesprochenen Wort ent sprechende Phonemfolge abgebildet wurde.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als neuronales Netz ein schichtorientiertes, vorwärts gerich tetes Netz mit Vollvermaschung zwischen den einzelnen Schich ten, bei dem der mittlere quadrati sche Fehler minimiert wird, eingesetzt wird, dessen Eingangs schicht eine Mehrzahl von Knoten als Phonemfenster aufweist.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Eingangsschicht einen mittleren Knoten für ein zu betrachtendes Phonem der Phonemfolge und weitere Knoten auf weist, die die dem zu betrachtenden Phonem zeitlich beidseits benachbarten Phoneme der betrachteten kanonischen Form als Kontextwissen enthalten.

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Fenstergröße der Phonemfenster derart vorbestimmt wird, das sie im wesentlichen das Kontextwissen auf Silbenebene aufnehmen.

5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß das Training als iterativer Vorgang, insbesondere aufgrund der Lernregel der "Error Backpropagation" ausgeführt wird.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß

- für jede Iteration eine Reihenfolge von Trainingsmustern mittels eines Zufallsgenerators bestimmt wird,
- nach jeder Iteration anhand eines vom Trainingsmaterial un abhängigen Validierungssatzes die erzielte Transkriptionsge nauigkeit ermittelt wird und
- die Iterationen solange fortgeführt werden, wie mit jeder neuen Iteration eine Erhöhung der Transkriptionsgenauigkeit des Validierungssatzes erzielt wird.

7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß nach einem Trainingsvorgang im Aussprache-Lexikon der trai nierten Transkription eine sprecher-spezifische Phonemfolge hinzugefügt wird.

8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß aus der im Schritt der Anwendung ausgegebenen Transkription durch eine Sprachsynthese eine akustische Repräsentation er zeugt wird.

9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß aus der im Schritt der Anwendung ausgegebenen Transkription eine Textdarstellung erzeugt oder die Ausgabe der Transkrip tion durch eine Textdatenausgabe ersetzt wird.

10. Anordnung zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, mit
einem Lexikonspeicher zur Speicherung eines Aussprache-Le xikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format,
einer Einrichtung zur Spracheingabe,
einem mit der Einrichtung zur Spracheingabe verbundenen Phonem-Erkenner, der aus jedem eingesprochenen Wort eine Pho nemfolge generiert,
einem mit dem Lexikonspeicher und dem Phonem-Erkenner ver bundenen neuronalen Netz mit Eingabeknoten und Ausgabeknoten, bei dem der mittlere quadratische Fehler minimiert wird, und
einer mit den Ausgabeknoten des neuronalen Netzes verbunde nen Sprach- oder Textausgabeeinrichtung.

11. Anordnung nach Anspruch 10, dadurch gekennzeichnet, daß die Sprach- oder Textausgabeeinrichtung eine Sprachsynthese einrichtung aufweist.

12. Anordnung nach Anspruch 10 oder 11, gekennzeichnet durch die Ausbildung als Aussprache-Lehrsystem.

13. Anordnung nach Anspruch 10 oder 11, gekennzeichnet durch die Ausbildung als Dolmetschsystem.

14. Anordnung nach Anspruch 10, gekennzeichnet durch die Verknüpfung mit einem Textverarbeitungs- oder Sprachsteu ersystem.