DE10034236C1 - Sprachkorrekturverfahren - Google Patents

Sprachkorrekturverfahren

Info

Publication number
DE10034236C1
DE10034236C1 DE10034236A DE10034236A DE10034236C1 DE 10034236 C1 DE10034236 C1 DE 10034236C1 DE 10034236 A DE10034236 A DE 10034236A DE 10034236 A DE10034236 A DE 10034236A DE 10034236 C1 DE10034236 C1 DE 10034236C1
Authority
DE
Germany
Prior art keywords
transcription
phoneme
neural network
training
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10034236A
Other languages
English (en)
Inventor
Steffen Harengel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10034236A priority Critical patent/DE10034236C1/de
Application granted granted Critical
Publication of DE10034236C1 publication Critical patent/DE10034236C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Sprachkorrekturverfahren unter Einsatz eines Aussprache-Lexikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format und eines Phonem-Erkenners, der aus jedem von einem spezifischen Sprecher ausgesprochenen Wort eine Phonemfolge generiert, wobei in einer Trainingsphase das neuronale Netz zur Abbildung der Transkription auf die Phonemfolge trainiert und in einer Anwendungsphase die phonetische Transkription ausgegeben wird, die im Ergebnis des Trainings auf die dem ausgesprochenen Wort entsprechende Phonemfolge abgebildet wurde.

Description

Die Erfindung betrifft ein Sprachkorrekturverfahren unter Einsatz eines Aussprachelexikons nach dem Oberbegriff des Anspruchs 1 sowie eine Anordnung zur Durchführung dieses Verfahrens
Erhebliche Aussprachefehler stellen eine nicht zu unterschät­ zende Behinderung der betroffenen Menschen sowohl in ihrem sozialen Umfeld als auch im Berufsleben und bei der Aus- und Fortbildung dar. Es ist daher seit langem üblich, daß Men­ schen mit Aussprachefehlern von entsprechend geschulten Leh­ rern (Logopäden) trainiert und geschult werden. Hierbei wird die korrekte Aussprache von Vokalen, Konsonanten, Silben, Wörtern und Sätzen geübt. Im einfachsten Fall überprüft der Lehrer die Aussprache des Schülers und versucht diesen zu einer korrekten Aussprache zu führen, indem er Worte oder Sätze korrekt vorspricht und der Schüler die entsprechenden Worte oder Sätze möglichst korrekt nachzusprechen versucht.
Dieses Vorgehen erfordert - da die Aussprachefehler verschie­ dener insoweit behinderter Menschen sich in der Regel nicht gleichen oder es jedenfalls kaum organisierbar ist, Menschen mit übereinstimmenden Aussprachefehlern in Übungsgruppen zu­ sammenzufassen - die ständige Präsenz eines qualifizierten Lehrers pro Schüler. Es ist daher sehr kostenaufwendig, wenn es mit hoher Intensität (und somit großen Erfolgsaussichten) praktiziert werden soll.
Es wurden daher bereits textbasierte Lernprogramme vorge­ schlagen, bei denen Texte über Sprachsynthese vorgelesen wer­ den. Als Beispiel wird hier auf das System "Kurzweil 3000" der Firma Lernout & Hauspie hingewiesen, das speziell für Men­ schen mit Lernschwächen entwickelt wurde. Diese bekannten Systeme geben dem Schüler keine individuelle Anleitung und Rückkopplungsmöglichkeit und können daher einen menschlichen Trainer in keiner Weise ersetzen.
Bekannte Spracherkennungssysteme nutzen Aussprache-Lexika als Wissensbasis für die sprecherunabhängige Spracherkennung. In derartigen Aussprache-Lexika wird für jedes Wort des Wort­ schatzes eine phonetische Transkription in einem bestimmten Format (beispielsweise dem Sampa-Format) angegeben. Hierbei handelt es sich um sogenannte "kanonische Formen", die einem Aussprachestandard entsprechen. Es ist auch die Speicherung und Verwendung mehrerer phonetischer Transkriptionen für ein Wort möglich. Von dieser Möglichkeit wird insbesondere für Worte Gebrauch gemacht, für die es mehrere allgemein aner­ kannte Aussprachevarianten gibt. Der den kanonischen Formen zugrundeliegende Aussprachestandard wird von realen Sprechern aufgrund ihrer Sprachfärbung, ihres Dialektes oder persönli­ cher Sprecheigenschaften nur bedingt eingehalten.
Es ist daher für den praktischen Einsatz von Spracherken­ nungssystemen erforderlich, die kanonischen Formen der Trans­ kriptionen in dem Aussprache-Lexikon für einen Nutzer (oder eine Mehrzahl von Nutzern) eines Spracherkennungssystems der­ art zu adaptieren, daß das Spracherkennungssystem die spre­ cher-spezifischen Eigenschaften weitestgehend berücksichtigt und optimale Erkennungsergebnisse erzielt.
Nach dem Stand der Technik werden sprecher-spezifische Adap­ tionen bzw. Trainingsvorgänge unter anderem unter Einsatz ei­ nes Phonem-Erkenners durchgeführt. Hierbei wird für die zu adaptierenden Äußerungen im Ergebnis eines speziellen Such­ vorganges nur die wahrscheinlichste Phonemfolge für die je­ weilige Äußerung ausgegeben. Hiermit läßt sich für jedes adaptierte Wort eine Phonemfolge bestimmen und anstelle der kanonischen Form oder alternativ zu dieser in das Aussprache- Lexikon eintragen.
Benutzern mit erheblichen Aussprachefehlern ermöglichen die bekannten Systeme gleichwohl keine zuverlässige Spracheingabe von Texten oder Sprachsteuerung von Geräten.
Aus der EP 0 640 237 B1 (entspricht DE 694 13 912 T2) ist ein Sprachumsetzungsverfahren be­ kannt, welches eine Veränderung, insbesondere Korrektur, der Aussprache eines Sprecher ermöglicht. Mit diesem Verfahren soll eine Sprachverarbeitung auch sprachbehinderten Personen zugänglich gemacht werden. Die Druckschrift lehrt, das Sprachsignal mittels eines Verfahrens der linearen Prädikti­ onskodierung zu analysieren und einen Satz von den Vokaltrakt des Sprechers modellierenden Parametern zu erzeugen. Diese Parameter werden dann gemäß einem komplexen Verarbeitungsal­ gorithmus für eine Umformung der eingesprochenen Sprachsigna­ le genutzt.
Aus der DE 198 25 205 A1 ist ein weiteres Spracherkennungs­ verfahren bekannt, bei dem in einem Text-To-Speach-System die ursprüngliche lexikalische Aussprache mit Hilfe eines neuro­ nalen Netzes in eine sogenannte postlexikalische Aussprache umgewandelt wird. Dieses Verfahren ermöglicht unter anderem eine systematische Sprachdatenverarbeitung unter Berücksich­ tigung von Eigenarten des Sprechers.
Der Erfindung liegt die Aufgabe der Bereitstellung eines Sprachkorrekturverfahrens zugrunde, das Menschen mit erhebli­ chen Aussprachefehlern zum einen eine kostengünstige und ef­ fiziente Trainingsmöglichkeit bietet und ihnen zum anderen die Nutzung von Spracherkennungssystemen zur Texteingabe bzw. Sprachsteuerung von Geräten in zweckmäßiger Weise ermöglicht. Weiterhin soll eine praktisch sinnvoll einsetzbare Anordnung zur Durchführung dieses Verfahrens angegeben werden.
Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes ge­ löst durch ein Verfahren mit den Merkmalen des Anspruchs 1 und hinsichtlich ihres Anordnungsaspektes durch eine Anord­ nung mit den Merkmalen des Anspruchs 10.
Die Erfindung schließt den grundlegenden Gedanken ein, ein neuronales Netz zur Schaffung eines Sprachkorrekturverfahrens einzusetzen, das auch im Rahmen eines Trainingsablaufes An­ wendung finden kann. Sie schließt weiter den Gedanken ein, dieses neuronale Netz anhand vorgegebener Äußerungen des kon­ kreten Sprechers (Schülers) mit seinen sprecher-spezifischen Aussprachefehlern zu trainieren. Dazu werden - was insoweit an sich bekannt ist - die Äußerungen des Sprechers einem Pho­ nem-Erkenner präsentiert, der daraus jeweils eine Phonemfolge F generiert. Die jeweilige korrekte Phonemfolge K wird aus einem Aussprache-Lexikon entnommen, das die korrekte Ausspra­ che für die Elemente der vorgegebenen Wörter bzw. Sätze ent­ hält. Die F-K-Tupel aus fehlerhafter und korrekter Phonemfol­ ge für alle eingesprochenen Äußerungen werden als Trainings­ material für das Sprachkorrekturverfahren abgespeichert.
Im weiteren Verlauf werden die F-K-Tupel dem neuronalen Netz präsentiert, und dieses wird trainiert, indem als Eingangs­ knoten eine geeignete Repräsentation der fehlerhaften Phonemfolge F gewählt und die korrekte Phonemfolge K in der ana­ logen Repräsentation als Zielwerte für Ausgabeknoten des Netzes vorgegeben wird.
In der Anwendungsphase wird das Verfahren mit demselben Pho­ nem-Erkenner, der bereits in der Trainingsphase eingesetzt wurde, und dem trainierten neuronalen Netz des Sprechers ein­ gesetzt. Dieses wird aktiviert, der Sprecher spricht beliebi­ ge Äußerungen (Text oder Sprachsteuerbefehle o. ä.) ein, der Phonem-Erkenner erzeugt hieraus die zugehörigen (fehlerhaf­ ten) Phonemfolgen und diese werden als Eingangsdaten dem trainierten neuronalen Netz zugeführt. Im Ergebnis der Be­ rechnung durch das neuronale Netz erhält man als Ausgangsda­ ten die korrigierte Phonemfolge.
In der Ausführung als Lernsystem kommt ein Sprachsynthesesys­ tem hinzu, das zur Ausgabe der korrekten Aussprache für den Schüler dient. Im Einsatz als reines Sprachkorrekturverfahren ist eine Sprachsynthese aber natürlich nicht erforderlich, sondern es kann eine Text-Repräsentation erzeugt und ausgege­ ben werden, beispielsweise bei der Handhabung eines Textver­ arbeitungssystems mit Spracheingabe oder bei der Sprachsteu­ erung von Geräten.
Das vorgeschlagene Verfahren hat als einen wesentlichen Vor­ teil, daß bei dem Training bzw. der Adaption nicht nur zeit­ lich kurze Kontexte auf Phonembasis gelernt werden, sondern daß es die typische Aussprache von größeren Kontexten, ins­ besondere Silben, sprecher-spezifisch verarbeitet. Es können also unterschiedliche Aussprachefehler berücksichtigt und korrigiert werden - relativ kurze Aussprachefehler auf Pho­ nemebene und auch längere auf Silbenebene.
Ein weiterer Vorteil besteht darin, daß eine vom neuronalen Netz gelernte Zuordnung zwischen korrekter Phonemfolge K und sprecher-spezifischer Phonemfolge F (Abbildung F*-K) nicht nur für während der Trainingsphase vorkommende Worte eingesetzt werden kann. Vielmehr können auch für Worte, die wäh­ rend der Adaption noch nicht Teil des Wortschatzes, also nicht im Aussprache-Lexikon enthalten waren, sprecher-spezi­ fische Transkriptionen erzeugt und für eine Korrektur der entsprechenden Aussprachefehler bei der Anwendung des trai­ nierten neuronalen Netzes genutzt werden. Äußerungen, die nicht Bestandteil des Trainings waren, können also durch das Verfahren korrigiert werden, falls die in den unbekannten Äußerungen enthaltenen Aussprachefehler als solche trainiert wurden.
Eine wichtige Realisierung der Erfindung besteht in der Be­ reitstellung eines synthetischen "Dolmetschers", der per Sprachsynthese erheblich fehlerhaft eingesprochene Texte in eine korrekte Ausgabe umsetzt, so daß dem Sprecher mit den Aussprachefehlern (falls diese nicht durch Training behebbar sind oder vor einem erfolgreichen Abschluß eines Trainings) eine wesentlich bessere Verständigung mit seiner Umwelt er­ möglicht wird. Dies ist sowohl im beruflichen oder Ausbil­ dungs-Umfeld als auch zur Sicherung sozialer Kontakte stark sprachgestörter Menschen von großem Vorteil.
Für das neuronale Netz wird insbesondere ein sogenanntes "Multilayer-Perzeptron" (MLP) verwendet. Hierbei handelt es sich um ein schichtorientiertes, vorwärts gerichtetes ("feed forward") Netz mit Vollvermaschung zwischen den einzelnen Schichten.
Als Aktivierungsfunktion wird die Sigmoidfunktion Sc(x) oder die Tangenshyperbolicusfunktion tanh(x) eingesetzt, wobei es auf die konkrete Wahl der Aktivierungsfunktion sowie die An­ zahl der Schichten des neuronalen Netzes nicht ankommt. Zur Erzielung einer hohen Trainingsgenauigkeit muß allerdings die Anzahl der variablen Parameter ausreichend groß sein. Diese wird bestimmt durch die Anzahl der Schichten sowie die Anzahl von Neuronen in der versteckten Schicht bzw. versteckten Schichten.
Die Eingangsschicht des neuronalen Netzes weist eine Mehrzahl von Knoten als Phonemfenster auf, in die das jeweilige feh­ lerbehaftete Phonem F "hineingeschoben" wird. Ein mittlerer Knoten der Eingangsschicht ist jeweils das zu betrachtende Phonem, für das die Zuordnung zu dem zugehörigen Phonem der korrekten Phonemfolge K in der Trainingsphase trainiert bzw. in der Anwendungsphase gesucht wird. Weitere Knoten der Ein­ gangsschicht enthalten die dem betrachteten Phonem zeitlich benachbarten, d. h. zeitlich vorangehenden und nachfolgenden, Phoneme. Diese werden zur Erreichung einer hohen Genauigkeit bei der Erlernung und Korrektur des betreffenden Aussprache­ fehlers als Kontextwissen (z. B. bezüglich der Aussprache ei­ ner Silbe) benötigt.
Für eine optimale Verfahrensführung ist von Bedeutung, daß die Fenstergröße der Eingangsschicht nur so groß gewählt wird, wie es für die Erfassung des erwähnten Kontextwissens erforderlich ist. Die Fenstergröße wird sinnvoll derart ge­ wählt, daß nicht die Phonem-Repräsentation eines ganzen Wor­ tes verarbeitet wird, sondern lediglich das Kontextwissen auf Silbenebene. Dadurch wird insbesondere gewährleistet, daß die Phoneme neuer, im Sprachsystem noch unbekannter Wörter - die also nicht Bestandteil des Trainings sind - korrekt umgesetzt werden.
Die Ausgangsschicht enthält zunächst eine der Anzahl der mög­ lichen Phoneme entsprechende Anzahl von Ausgangsknoten, mit denen also das vollständige "Phoneminventar" abgedeckt wird. Weiterhin gibt es für die Ausgangsschicht einen "Platzhal­ ter", um unterschiedliche Phonemlängen der Tupel (F, K) ab­ bilden zu können.
Das neuronale Netz wird insbesondere mittels eines iterativen Verfahrens trainiert, bei dem als Lernregel speziell die so­ genannte "Error Backpropagation" eingesetzt wird. Bei diesem Verfahren wird der mittlere quadratische Fehler minimiert.
Mit dieser Lernregel ist die Berechnung von Rückschlußwahr­ scheinlichkeiten möglich, und beim Training werden diese Rückschlußwahrscheinlichkeiten für alle Ausgangsknoten (Pho­ neme) für das vorgegebene kanonische Phonemfenster der Ein­ gangsschicht berechnet.
Das neuronale Netz wird mit den Trainingsmustern in mehreren Iterationen trainiert, wobei für jede Iteration die Trai­ ningsreihenfolge vorzugsweise zufällig bestimmt wird. Nach jeder Iteration wird mit einem vom Trainingsmaterial unab­ hängigen Validierungssatz die erzielte Transkriptionsgenauig­ keit geprüft. Der Trainingsvorgang wird solange fortgeführt, wie nach jeder folgenden Iteration eine Erhöhung der Trans­ kriptionsgenauigkeit erzielt wird. An einem Punkt, bei dem die Transkriptionsgenauigkeit für den Validierungssatz sich nicht mehr erhöht, wird also das Training beendet.
Nach Abschluß des Trainings, also nachdem das neuronale Netz die Abbildung der fehlerbehafteten Phonemfolge F auf die korrekten Phonemfolgen K gelernt hat, wird zweckmäßigerweise das Aussprache-Lexikon aktualisiert. Die dort eingetragenen Transkriptionen mit kanonischen Formen K bzw. korrekten Pho­ nemen werden um Transkriptionen mit sprecher-spezifischen Phonemfolgen F* (als Aussprachevarianten) ergänzt.
Ein trainiertes neuronales Netz enthält jeweils das Ausspra­ chefehler-Korrekturwissen eines einzelnen Sprechers. Für je­ den weiteren Sprecher in einem komplexeren Korrektur- bzw. Lernsystem muß das Verfahren wiederholt werden. Bei der An­ wendung des Verfahrens in einem solchen komplexeren System ist eine Identifikation des Sprechers erforderlich.
Die Nutzung bekannter Spracherkennungssysteme setzt in der Regel die Ausführung eines sogenannten "Enrollment" durch einen die Benutzung planenden Sprecher voraus. Dieses En­ rollment beinhaltet in der Regel das Einsprechen von vorge­ gebenen Texten durch den Sprecher, und das System führt auf dieser Grundlage die sprecher-spezifische Adaption der Wis­ sensbasis aus. Im Rahmen dieses Einsprechens läßt sich die oben beschriebene Abbildung F*-K durch das erfindungsgemäß angewandte neuronale Netz erlernen und direkt zur Modifizie­ rung des mitgelieferten Aussprache-Lexikons für den speziel­ len Benutzer mit Aussprachefehler nutzen.
Beim anschließenden praktischen Einsatz des Spracherkennungs­ systems wird in der Regel - im Sinne eines "Perfektionie­ rungs-Trainings" - die Korrektur falsch erkannter Worte durch den Benutzer vorgesehen. Die Ergebnisse der Korrekturen wer­ den für einen nachfolgenden Adaptionsschritt gesammelt. Auch im Rahmen der Erweiterung des Wortschatzes beim Einsatz des Spracherkennungssystems durch den Benutzer wird dieser viel­ fach dazu aufgefordert, neue Worte nicht nur als Text, also orthografisch, sondern auch als Sprechprobe einzugeben. Die auf diesen Wegen über einen gewissen Zeitraum gesammelten neuen Einträge können in Kombination mit den Äußerungen aus der Enrollement-Phase zu einem verbesserten Training des neu­ ronalen Netzes eingesetzt werden.
Wesentliche Komponenten einer Anordnung zur Durchführung des vorgeschlagenen Verfahrens sind neben der selbstverständlich erforderlichen Spracheingabeeinrichtung, etwa einem Mikrofon bzw. einer Sprechgarnitur mit nachgeschalteten analogen Sig­ nalverarbeitungseinheiten, ein Lexikonspeicher zur Speiche­ rung des Aussprache-Lexikons, der oben erwähnte Phonem-Erken­ ner, das mit dem Lexikonspeicher einerseits und mit dem Pho­ nem-Erkenner andererseits verbundene neuronale Netz als Kern­ stück des Systems und eine mit den Ausgabeknoten des neurona­ len Netzes verbundene Sprach- oder Textausgabeeinrichtung. Letztere weist in der Ausführung als Lernsystem oder elektro­ nischer Dolmetscher eine Sprachsyntheseeinrichtung auf.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den Unteransprüchen und den nachfolgend skizzier­ ten Anwendungs-Szenarien.
Als erste wesentliche Anwendung ist die Realisierung eines Sprachlernsystems zu nennen, das dem Sprecher bei der Kor­ rektur von Aussprachefehlern helfen soll. Dieses System soll dem Sprecher bei der Korrektur von Aussprachefehlern helfen.
Zunächst muß das System die Aussprachefehler des Sprechers lernen. Hierzu muß der Sprecher vorgegebene Wörter/Sätze in das System einsprechen. Das System führt nun die Trainings­ phase durch. Nach Abschluß der Trainingsphase ist das System bereit, den Sprecher die korrekte Aussprache zu lehren. Hier­ zu spricht der Sprecher Sätze in das System ein. Das System erzeugt aus der Spracheingabe die korrekte Aussprache und spielt diese dem Anwender akustisch per Sprachsynthese vor. Das System nimmt hierbei die Rolle des Lehrers ein und der Sprecher die Rolle des Schülers. Durch das Vorspielen der korrekten Aussprache ist der Schüler selbst in der Lage seine Fehler zu erkennen und zu verbessern. Wird nun die Aussprache des Schülers besser, ist nach einiger Zeit ein erneutes Trai­ ning des Systems erforderlich, da das gelernte Aussprachefeh­ lerwissen des Systems, welches im neuronalen Netz gespeichert ist, an den Lernfortschritt des Schülers angepaßt werden muß.
Dieses System kann einen menschlichen Sprachtrainer unter­ stützen bzw. möglicherweise ersetzen. Es kann in der Medizin zur Beseitigung von krankhaft bedingten Aussprachefehlern und in Schulen unter anderem zur Übung der korrekten Aussprache von Schülern, die eine Fremdsprache erlernen, eingesetzt wer­ den.
Eine zweite wesentliche Anwendung besteht in der Realisierung einer Dolmetscher-Funktion: Für Menschen, bei denen der Aus­ sprachefehler aufgrund ihrer Behinderung nicht durch eine Schulung korrigiert werden kann, kann ein "Aussprachekorrek­ tur-Dolmetscher" zu einer besseren Verständigung beitragen.
Zunächst muß auch dieses System trainiert werden. Hierzu spricht der Sprecher vorgegebene Texte ein, und das System führt die Trainingsphase durch. In der Anwendungsphase er­ zeugt das System aus der aussprachefehlerbehafteten Äußerung des Sprechers eine korrigierte Aussprache, die per Sprachsyn­ these akustisch wiedergegeben wird.
Dieses System kann z. B. bei einem Sprachdialog zwischen aus­ sprachefehlerbehafteten Menschen mit ihren Mitmenschen einge­ setzt werden. Hierbei wird die falsche Aussprache des Spre­ chers vom System korrigiert und den Gesprächspartnern per Sprachsynthese korrigiert vorgespielt. Dadurch wird die Ver­ ständigung verbessert.
Eine dritte wesentliche Anwendung ist die Nutzbarmachung von Textverarbeitungs- oder Gerätesteuersystemen mit Sprachein­ gabe. Diese Anwendung ist besonders für Menschen wertvoll, die in mehrfacher Hinsicht behindert sind und neben Sprach­ störungen beispielsweise unter motorischen Störungen leiden, die die Handhabung einer normalen Computer- oder Fernbedie­ nungstastatur nicht oder nur unter Schwierigkeiten ermögli­ chen.
Ein solches System arbeitet hinsichtlich der Abfolge von Trainings- und Anwendungsphase grundsätzlich wie bei den oben genannten Szenarien, es erfolgt aber keine Sprachausgabe, sondern eine Ausgabe von Textdaten bzw. Steuerbefehlsdaten. Hierzu ist anstelle einer Sprachsynthese eine Umwandlung der durch das neuronale Netz ausgegebenen phonetischen Transkrip­ tionen in Text- bzw. Steuerdaten erforderlich, oder das Sys­ tem ist von vornherein (zumindest unter anderem) zur Handha­ bung und Ausgabe von Textdaten ausgebildet. Eine solche Aus­ bildung schließt insbesondere das Vorsehen eines modifizier­ ten Lexikons vor, das die Ausgabe alphabetischer Repräsenta­ tionen als Abbilder eingesprochener Phoneme ermöglicht.

Claims (14)

1. Sprachkorrekturverfahren unter Einsatz eines Aussprache- Lexikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format und eines Phonem-Erkenners, der aus jedem von einem spezifischen Sprecher ausgesprochenen Wort eine Phonemfolge generiert, dadurch gekennzeichnet, daß
in einer Trainingsphase
  • a) sprecherbezogen für jedes ausgesprochene Wort die gene­ rierte Phonemfolge in Zuordnung zu einer im Aussprache-Lexi­ kon gespeicherten Transkription als F-K-Tupel gespeichert wird,
  • b) die gespeicherte Zuordnung einem durch die generierte Phonemfolge definierten Eingangsknoten eines neuronalen Net­ zes zugeführt wird,
  • c) das neuronale Netz zur Abbildung der Transkription auf die Phonemfolge trainiert wird, wobei die Transkription dem neuronalen Netz als Zielwert für Ausgabeknoten vorgegeben wird und
in einer Anwendungsphase die Schritte (a) und (b) für jedes ausgesprochene Wort wiederholt werden und durch das neuronale Netz die phonetische Transkription ausgegeben wird, die im Ergebnis des Trainings auf die dem ausgesprochenen Wort ent­ sprechende Phonemfolge abgebildet wurde.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als neuronales Netz ein schichtorientiertes, vorwärts gerich­ tetes Netz mit Vollvermaschung zwischen den einzelnen Schich­ ten, bei dem der mittlere quadrati­ sche Fehler minimiert wird, eingesetzt wird, dessen Eingangs­ schicht eine Mehrzahl von Knoten als Phonemfenster aufweist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Eingangsschicht einen mittleren Knoten für ein zu betrachtendes Phonem der Phonemfolge und weitere Knoten auf­ weist, die die dem zu betrachtenden Phonem zeitlich beidseits benachbarten Phoneme der betrachteten kanonischen Form als Kontextwissen enthalten.
4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Fenstergröße der Phonemfenster derart vorbestimmt wird, das sie im wesentlichen das Kontextwissen auf Silbenebene aufnehmen.
5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß das Training als iterativer Vorgang, insbesondere aufgrund der Lernregel der "Error Backpropagation" ausgeführt wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß
  • - für jede Iteration eine Reihenfolge von Trainingsmustern mittels eines Zufallsgenerators bestimmt wird,
  • - nach jeder Iteration anhand eines vom Trainingsmaterial un­ abhängigen Validierungssatzes die erzielte Transkriptionsge­ nauigkeit ermittelt wird und
  • - die Iterationen solange fortgeführt werden, wie mit jeder neuen Iteration eine Erhöhung der Transkriptionsgenauigkeit des Validierungssatzes erzielt wird.
7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß nach einem Trainingsvorgang im Aussprache-Lexikon der trai­ nierten Transkription eine sprecher-spezifische Phonemfolge hinzugefügt wird.
8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß aus der im Schritt der Anwendung ausgegebenen Transkription durch eine Sprachsynthese eine akustische Repräsentation er­ zeugt wird.
9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß aus der im Schritt der Anwendung ausgegebenen Transkription eine Textdarstellung erzeugt oder die Ausgabe der Transkrip­ tion durch eine Textdatenausgabe ersetzt wird.
10. Anordnung zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, mit
einem Lexikonspeicher zur Speicherung eines Aussprache-Le­ xikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format,
einer Einrichtung zur Spracheingabe,
einem mit der Einrichtung zur Spracheingabe verbundenen Phonem-Erkenner, der aus jedem eingesprochenen Wort eine Pho­ nemfolge generiert,
einem mit dem Lexikonspeicher und dem Phonem-Erkenner ver­ bundenen neuronalen Netz mit Eingabeknoten und Ausgabeknoten, bei dem der mittlere quadratische Fehler minimiert wird, und
einer mit den Ausgabeknoten des neuronalen Netzes verbunde­ nen Sprach- oder Textausgabeeinrichtung.
11. Anordnung nach Anspruch 10, dadurch gekennzeichnet, daß die Sprach- oder Textausgabeeinrichtung eine Sprachsynthese­ einrichtung aufweist.
12. Anordnung nach Anspruch 10 oder 11, gekennzeichnet durch die Ausbildung als Aussprache-Lehrsystem.
13. Anordnung nach Anspruch 10 oder 11, gekennzeichnet durch die Ausbildung als Dolmetschsystem.
14. Anordnung nach Anspruch 10, gekennzeichnet durch die Verknüpfung mit einem Textverarbeitungs- oder Sprachsteu­ ersystem.
DE10034236A 2000-07-14 2000-07-14 Sprachkorrekturverfahren Expired - Fee Related DE10034236C1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10034236A DE10034236C1 (de) 2000-07-14 2000-07-14 Sprachkorrekturverfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10034236A DE10034236C1 (de) 2000-07-14 2000-07-14 Sprachkorrekturverfahren

Publications (1)

Publication Number Publication Date
DE10034236C1 true DE10034236C1 (de) 2001-12-20

Family

ID=7648897

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10034236A Expired - Fee Related DE10034236C1 (de) 2000-07-14 2000-07-14 Sprachkorrekturverfahren

Country Status (1)

Country Link
DE (1) DE10034236C1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10359624A1 (de) * 2003-12-18 2005-07-21 Daimlerchrysler Ag Spracherkennung mit sprecherunabhängiger Vokabularerweiterung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19825205A1 (de) * 1997-06-13 1999-01-14 Motorola Inc Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE69413912T2 (de) * 1993-02-12 1999-04-01 Nokia Telecommunications Oy Sprachumsetzungsverfahren

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69413912T2 (de) * 1993-02-12 1999-04-01 Nokia Telecommunications Oy Sprachumsetzungsverfahren
DE19825205A1 (de) * 1997-06-13 1999-01-14 Motorola Inc Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10359624A1 (de) * 2003-12-18 2005-07-21 Daimlerchrysler Ag Spracherkennung mit sprecherunabhängiger Vokabularerweiterung

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60201262T2 (de) Hierarchische sprachmodelle
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
EP1282112B1 (de) Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
Aulia et al. A comparative study of MFCC-KNN and LPC-KNN for hijaiyyah letters pronounciation classification system
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE112014006542T5 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
DE19610019A1 (de) Digitales Sprachsyntheseverfahren
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE112021000959T5 (de) Synthetische Sprachverarbeitung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
CN110598208A (zh) Ai/ml增强发音课程设计和个性化练习计划方法
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
Wang et al. Speech augmentation using wavenet in speech recognition
Chiang Some interferences of English intonation with Chinese tones
DE10034236C1 (de) Sprachkorrekturverfahren
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee