DE10034236C1 - Sprachkorrekturverfahren - Google Patents
SprachkorrekturverfahrenInfo
- Publication number
- DE10034236C1 DE10034236C1 DE10034236A DE10034236A DE10034236C1 DE 10034236 C1 DE10034236 C1 DE 10034236C1 DE 10034236 A DE10034236 A DE 10034236A DE 10034236 A DE10034236 A DE 10034236A DE 10034236 C1 DE10034236 C1 DE 10034236C1
- Authority
- DE
- Germany
- Prior art keywords
- transcription
- phoneme
- neural network
- training
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000013518 transcription Methods 0.000 title claims abstract description 28
- 230000035897 transcription Effects 0.000 title claims abstract description 28
- 238000012937 correction Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 208000019430 Motor disease Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Sprachkorrekturverfahren unter Einsatz eines Aussprache-Lexikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format und eines Phonem-Erkenners, der aus jedem von einem spezifischen Sprecher ausgesprochenen Wort eine Phonemfolge generiert, wobei in einer Trainingsphase das neuronale Netz zur Abbildung der Transkription auf die Phonemfolge trainiert und in einer Anwendungsphase die phonetische Transkription ausgegeben wird, die im Ergebnis des Trainings auf die dem ausgesprochenen Wort entsprechende Phonemfolge abgebildet wurde.
Description
Die Erfindung betrifft ein Sprachkorrekturverfahren unter
Einsatz eines Aussprachelexikons nach dem Oberbegriff des
Anspruchs 1 sowie eine Anordnung zur Durchführung dieses
Verfahrens
Erhebliche Aussprachefehler stellen eine nicht zu unterschät
zende Behinderung der betroffenen Menschen sowohl in ihrem
sozialen Umfeld als auch im Berufsleben und bei der Aus- und
Fortbildung dar. Es ist daher seit langem üblich, daß Men
schen mit Aussprachefehlern von entsprechend geschulten Leh
rern (Logopäden) trainiert und geschult werden. Hierbei wird
die korrekte Aussprache von Vokalen, Konsonanten, Silben,
Wörtern und Sätzen geübt. Im einfachsten Fall überprüft der
Lehrer die Aussprache des Schülers und versucht diesen zu
einer korrekten Aussprache zu führen, indem er Worte oder
Sätze korrekt vorspricht und der Schüler die entsprechenden
Worte oder Sätze möglichst korrekt nachzusprechen versucht.
Dieses Vorgehen erfordert - da die Aussprachefehler verschie
dener insoweit behinderter Menschen sich in der Regel nicht
gleichen oder es jedenfalls kaum organisierbar ist, Menschen
mit übereinstimmenden Aussprachefehlern in Übungsgruppen zu
sammenzufassen - die ständige Präsenz eines qualifizierten
Lehrers pro Schüler. Es ist daher sehr kostenaufwendig, wenn
es mit hoher Intensität (und somit großen Erfolgsaussichten)
praktiziert werden soll.
Es wurden daher bereits textbasierte Lernprogramme vorge
schlagen, bei denen Texte über Sprachsynthese vorgelesen wer
den. Als Beispiel wird hier auf das System "Kurzweil 3000"
der Firma Lernout & Hauspie hingewiesen, das speziell für Men
schen mit Lernschwächen entwickelt wurde. Diese bekannten
Systeme geben dem Schüler keine individuelle Anleitung und
Rückkopplungsmöglichkeit und können daher einen menschlichen
Trainer in keiner Weise ersetzen.
Bekannte Spracherkennungssysteme nutzen Aussprache-Lexika als
Wissensbasis für die sprecherunabhängige Spracherkennung. In
derartigen Aussprache-Lexika wird für jedes Wort des Wort
schatzes eine phonetische Transkription in einem bestimmten
Format (beispielsweise dem Sampa-Format) angegeben. Hierbei
handelt es sich um sogenannte "kanonische Formen", die einem
Aussprachestandard entsprechen. Es ist auch die Speicherung
und Verwendung mehrerer phonetischer Transkriptionen für ein
Wort möglich. Von dieser Möglichkeit wird insbesondere für
Worte Gebrauch gemacht, für die es mehrere allgemein aner
kannte Aussprachevarianten gibt. Der den kanonischen Formen
zugrundeliegende Aussprachestandard wird von realen Sprechern
aufgrund ihrer Sprachfärbung, ihres Dialektes oder persönli
cher Sprecheigenschaften nur bedingt eingehalten.
Es ist daher für den praktischen Einsatz von Spracherken
nungssystemen erforderlich, die kanonischen Formen der Trans
kriptionen in dem Aussprache-Lexikon für einen Nutzer (oder
eine Mehrzahl von Nutzern) eines Spracherkennungssystems der
art zu adaptieren, daß das Spracherkennungssystem die spre
cher-spezifischen Eigenschaften weitestgehend berücksichtigt
und optimale Erkennungsergebnisse erzielt.
Nach dem Stand der Technik werden sprecher-spezifische Adap
tionen bzw. Trainingsvorgänge unter anderem unter Einsatz ei
nes Phonem-Erkenners durchgeführt. Hierbei wird für die zu
adaptierenden Äußerungen im Ergebnis eines speziellen Such
vorganges nur die wahrscheinlichste Phonemfolge für die je
weilige Äußerung ausgegeben. Hiermit läßt sich für jedes
adaptierte Wort eine Phonemfolge bestimmen und anstelle der
kanonischen Form oder alternativ zu dieser in das Aussprache-
Lexikon eintragen.
Benutzern mit erheblichen Aussprachefehlern ermöglichen die
bekannten Systeme gleichwohl keine zuverlässige Spracheingabe
von Texten oder Sprachsteuerung von Geräten.
Aus der EP 0 640 237 B1 (entspricht DE 694 13 912 T2) ist ein Sprachumsetzungsverfahren be
kannt, welches eine Veränderung, insbesondere Korrektur, der
Aussprache eines Sprecher ermöglicht. Mit diesem Verfahren
soll eine Sprachverarbeitung auch sprachbehinderten Personen
zugänglich gemacht werden. Die Druckschrift lehrt, das
Sprachsignal mittels eines Verfahrens der linearen Prädikti
onskodierung zu analysieren und einen Satz von den Vokaltrakt
des Sprechers modellierenden Parametern zu erzeugen. Diese
Parameter werden dann gemäß einem komplexen Verarbeitungsal
gorithmus für eine Umformung der eingesprochenen Sprachsigna
le genutzt.
Aus der DE 198 25 205 A1 ist ein weiteres Spracherkennungs
verfahren bekannt, bei dem in einem Text-To-Speach-System die
ursprüngliche lexikalische Aussprache mit Hilfe eines neuro
nalen Netzes in eine sogenannte postlexikalische Aussprache
umgewandelt wird. Dieses Verfahren ermöglicht unter anderem
eine systematische Sprachdatenverarbeitung unter Berücksich
tigung von Eigenarten des Sprechers.
Der Erfindung liegt die Aufgabe der Bereitstellung eines
Sprachkorrekturverfahrens zugrunde, das Menschen mit erhebli
chen Aussprachefehlern zum einen eine kostengünstige und ef
fiziente Trainingsmöglichkeit bietet und ihnen zum anderen
die Nutzung von Spracherkennungssystemen zur Texteingabe bzw.
Sprachsteuerung von Geräten in zweckmäßiger Weise ermöglicht.
Weiterhin soll eine praktisch sinnvoll einsetzbare Anordnung
zur Durchführung dieses Verfahrens angegeben werden.
Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes ge
löst durch ein Verfahren mit den Merkmalen des Anspruchs 1
und hinsichtlich ihres Anordnungsaspektes durch eine Anord
nung mit den Merkmalen des Anspruchs 10.
Die Erfindung schließt den grundlegenden Gedanken ein, ein
neuronales Netz zur Schaffung eines Sprachkorrekturverfahrens
einzusetzen, das auch im Rahmen eines Trainingsablaufes An
wendung finden kann. Sie schließt weiter den Gedanken ein,
dieses neuronale Netz anhand vorgegebener Äußerungen des kon
kreten Sprechers (Schülers) mit seinen sprecher-spezifischen
Aussprachefehlern zu trainieren. Dazu werden - was insoweit
an sich bekannt ist - die Äußerungen des Sprechers einem Pho
nem-Erkenner präsentiert, der daraus jeweils eine Phonemfolge
F generiert. Die jeweilige korrekte Phonemfolge K wird aus
einem Aussprache-Lexikon entnommen, das die korrekte Ausspra
che für die Elemente der vorgegebenen Wörter bzw. Sätze ent
hält. Die F-K-Tupel aus fehlerhafter und korrekter Phonemfol
ge für alle eingesprochenen Äußerungen werden als Trainings
material für das Sprachkorrekturverfahren abgespeichert.
Im weiteren Verlauf werden die F-K-Tupel dem neuronalen Netz
präsentiert, und dieses wird trainiert, indem als Eingangs
knoten eine geeignete Repräsentation der fehlerhaften Phonemfolge
F gewählt und die korrekte Phonemfolge K in der ana
logen Repräsentation als Zielwerte für Ausgabeknoten des
Netzes vorgegeben wird.
In der Anwendungsphase wird das Verfahren mit demselben Pho
nem-Erkenner, der bereits in der Trainingsphase eingesetzt
wurde, und dem trainierten neuronalen Netz des Sprechers ein
gesetzt. Dieses wird aktiviert, der Sprecher spricht beliebi
ge Äußerungen (Text oder Sprachsteuerbefehle o. ä.) ein, der
Phonem-Erkenner erzeugt hieraus die zugehörigen (fehlerhaf
ten) Phonemfolgen und diese werden als Eingangsdaten dem
trainierten neuronalen Netz zugeführt. Im Ergebnis der Be
rechnung durch das neuronale Netz erhält man als Ausgangsda
ten die korrigierte Phonemfolge.
In der Ausführung als Lernsystem kommt ein Sprachsynthesesys
tem hinzu, das zur Ausgabe der korrekten Aussprache für den
Schüler dient. Im Einsatz als reines Sprachkorrekturverfahren
ist eine Sprachsynthese aber natürlich nicht erforderlich,
sondern es kann eine Text-Repräsentation erzeugt und ausgege
ben werden, beispielsweise bei der Handhabung eines Textver
arbeitungssystems mit Spracheingabe oder bei der Sprachsteu
erung von Geräten.
Das vorgeschlagene Verfahren hat als einen wesentlichen Vor
teil, daß bei dem Training bzw. der Adaption nicht nur zeit
lich kurze Kontexte auf Phonembasis gelernt werden, sondern
daß es die typische Aussprache von größeren Kontexten, ins
besondere Silben, sprecher-spezifisch verarbeitet. Es können
also unterschiedliche Aussprachefehler berücksichtigt und
korrigiert werden - relativ kurze Aussprachefehler auf Pho
nemebene und auch längere auf Silbenebene.
Ein weiterer Vorteil besteht darin, daß eine vom neuronalen
Netz gelernte Zuordnung zwischen korrekter Phonemfolge K und
sprecher-spezifischer Phonemfolge F (Abbildung F*-K) nicht
nur für während der Trainingsphase vorkommende Worte eingesetzt
werden kann. Vielmehr können auch für Worte, die wäh
rend der Adaption noch nicht Teil des Wortschatzes, also
nicht im Aussprache-Lexikon enthalten waren, sprecher-spezi
fische Transkriptionen erzeugt und für eine Korrektur der
entsprechenden Aussprachefehler bei der Anwendung des trai
nierten neuronalen Netzes genutzt werden. Äußerungen, die
nicht Bestandteil des Trainings waren, können also durch das
Verfahren korrigiert werden, falls die in den unbekannten
Äußerungen enthaltenen Aussprachefehler als solche trainiert
wurden.
Eine wichtige Realisierung der Erfindung besteht in der Be
reitstellung eines synthetischen "Dolmetschers", der per
Sprachsynthese erheblich fehlerhaft eingesprochene Texte in
eine korrekte Ausgabe umsetzt, so daß dem Sprecher mit den
Aussprachefehlern (falls diese nicht durch Training behebbar
sind oder vor einem erfolgreichen Abschluß eines Trainings)
eine wesentlich bessere Verständigung mit seiner Umwelt er
möglicht wird. Dies ist sowohl im beruflichen oder Ausbil
dungs-Umfeld als auch zur Sicherung sozialer Kontakte stark
sprachgestörter Menschen von großem Vorteil.
Für das neuronale Netz wird insbesondere ein sogenanntes
"Multilayer-Perzeptron" (MLP) verwendet. Hierbei handelt es
sich um ein schichtorientiertes, vorwärts gerichtetes ("feed
forward") Netz mit Vollvermaschung zwischen den einzelnen
Schichten.
Als Aktivierungsfunktion wird die Sigmoidfunktion Sc(x) oder
die Tangenshyperbolicusfunktion tanh(x) eingesetzt, wobei es
auf die konkrete Wahl der Aktivierungsfunktion sowie die An
zahl der Schichten des neuronalen Netzes nicht ankommt. Zur
Erzielung einer hohen Trainingsgenauigkeit muß allerdings die
Anzahl der variablen Parameter ausreichend groß sein. Diese
wird bestimmt durch die Anzahl der Schichten sowie die Anzahl
von Neuronen in der versteckten Schicht bzw. versteckten
Schichten.
Die Eingangsschicht des neuronalen Netzes weist eine Mehrzahl
von Knoten als Phonemfenster auf, in die das jeweilige feh
lerbehaftete Phonem F "hineingeschoben" wird. Ein mittlerer
Knoten der Eingangsschicht ist jeweils das zu betrachtende
Phonem, für das die Zuordnung zu dem zugehörigen Phonem der
korrekten Phonemfolge K in der Trainingsphase trainiert bzw.
in der Anwendungsphase gesucht wird. Weitere Knoten der Ein
gangsschicht enthalten die dem betrachteten Phonem zeitlich
benachbarten, d. h. zeitlich vorangehenden und nachfolgenden,
Phoneme. Diese werden zur Erreichung einer hohen Genauigkeit
bei der Erlernung und Korrektur des betreffenden Aussprache
fehlers als Kontextwissen (z. B. bezüglich der Aussprache ei
ner Silbe) benötigt.
Für eine optimale Verfahrensführung ist von Bedeutung, daß
die Fenstergröße der Eingangsschicht nur so groß gewählt
wird, wie es für die Erfassung des erwähnten Kontextwissens
erforderlich ist. Die Fenstergröße wird sinnvoll derart ge
wählt, daß nicht die Phonem-Repräsentation eines ganzen Wor
tes verarbeitet wird, sondern lediglich das Kontextwissen auf
Silbenebene. Dadurch wird insbesondere gewährleistet, daß die
Phoneme neuer, im Sprachsystem noch unbekannter Wörter - die
also nicht Bestandteil des Trainings sind - korrekt umgesetzt
werden.
Die Ausgangsschicht enthält zunächst eine der Anzahl der mög
lichen Phoneme entsprechende Anzahl von Ausgangsknoten, mit
denen also das vollständige "Phoneminventar" abgedeckt wird.
Weiterhin gibt es für die Ausgangsschicht einen "Platzhal
ter", um unterschiedliche Phonemlängen der Tupel (F, K) ab
bilden zu können.
Das neuronale Netz wird insbesondere mittels eines iterativen
Verfahrens trainiert, bei dem als Lernregel speziell die so
genannte "Error Backpropagation" eingesetzt wird. Bei diesem
Verfahren wird der mittlere quadratische Fehler minimiert.
Mit dieser Lernregel ist die Berechnung von Rückschlußwahr
scheinlichkeiten möglich, und beim Training werden diese
Rückschlußwahrscheinlichkeiten für alle Ausgangsknoten (Pho
neme) für das vorgegebene kanonische Phonemfenster der Ein
gangsschicht berechnet.
Das neuronale Netz wird mit den Trainingsmustern in mehreren
Iterationen trainiert, wobei für jede Iteration die Trai
ningsreihenfolge vorzugsweise zufällig bestimmt wird. Nach
jeder Iteration wird mit einem vom Trainingsmaterial unab
hängigen Validierungssatz die erzielte Transkriptionsgenauig
keit geprüft. Der Trainingsvorgang wird solange fortgeführt,
wie nach jeder folgenden Iteration eine Erhöhung der Trans
kriptionsgenauigkeit erzielt wird. An einem Punkt, bei dem
die Transkriptionsgenauigkeit für den Validierungssatz sich
nicht mehr erhöht, wird also das Training beendet.
Nach Abschluß des Trainings, also nachdem das neuronale Netz
die Abbildung der fehlerbehafteten Phonemfolge F auf die
korrekten Phonemfolgen K gelernt hat, wird zweckmäßigerweise
das Aussprache-Lexikon aktualisiert. Die dort eingetragenen
Transkriptionen mit kanonischen Formen K bzw. korrekten Pho
nemen werden um Transkriptionen mit sprecher-spezifischen
Phonemfolgen F* (als Aussprachevarianten) ergänzt.
Ein trainiertes neuronales Netz enthält jeweils das Ausspra
chefehler-Korrekturwissen eines einzelnen Sprechers. Für je
den weiteren Sprecher in einem komplexeren Korrektur- bzw.
Lernsystem muß das Verfahren wiederholt werden. Bei der An
wendung des Verfahrens in einem solchen komplexeren System
ist eine Identifikation des Sprechers erforderlich.
Die Nutzung bekannter Spracherkennungssysteme setzt in der
Regel die Ausführung eines sogenannten "Enrollment" durch
einen die Benutzung planenden Sprecher voraus. Dieses En
rollment beinhaltet in der Regel das Einsprechen von vorge
gebenen Texten durch den Sprecher, und das System führt auf
dieser Grundlage die sprecher-spezifische Adaption der Wis
sensbasis aus. Im Rahmen dieses Einsprechens läßt sich die
oben beschriebene Abbildung F*-K durch das erfindungsgemäß
angewandte neuronale Netz erlernen und direkt zur Modifizie
rung des mitgelieferten Aussprache-Lexikons für den speziel
len Benutzer mit Aussprachefehler nutzen.
Beim anschließenden praktischen Einsatz des Spracherkennungs
systems wird in der Regel - im Sinne eines "Perfektionie
rungs-Trainings" - die Korrektur falsch erkannter Worte durch
den Benutzer vorgesehen. Die Ergebnisse der Korrekturen wer
den für einen nachfolgenden Adaptionsschritt gesammelt. Auch
im Rahmen der Erweiterung des Wortschatzes beim Einsatz des
Spracherkennungssystems durch den Benutzer wird dieser viel
fach dazu aufgefordert, neue Worte nicht nur als Text, also
orthografisch, sondern auch als Sprechprobe einzugeben. Die
auf diesen Wegen über einen gewissen Zeitraum gesammelten
neuen Einträge können in Kombination mit den Äußerungen aus
der Enrollement-Phase zu einem verbesserten Training des neu
ronalen Netzes eingesetzt werden.
Wesentliche Komponenten einer Anordnung zur Durchführung des
vorgeschlagenen Verfahrens sind neben der selbstverständlich
erforderlichen Spracheingabeeinrichtung, etwa einem Mikrofon
bzw. einer Sprechgarnitur mit nachgeschalteten analogen Sig
nalverarbeitungseinheiten, ein Lexikonspeicher zur Speiche
rung des Aussprache-Lexikons, der oben erwähnte Phonem-Erken
ner, das mit dem Lexikonspeicher einerseits und mit dem Pho
nem-Erkenner andererseits verbundene neuronale Netz als Kern
stück des Systems und eine mit den Ausgabeknoten des neurona
len Netzes verbundene Sprach- oder Textausgabeeinrichtung.
Letztere weist in der Ausführung als Lernsystem oder elektro
nischer Dolmetscher eine Sprachsyntheseeinrichtung auf.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im
übrigen aus den Unteransprüchen und den nachfolgend skizzier
ten Anwendungs-Szenarien.
Als erste wesentliche Anwendung ist die Realisierung eines
Sprachlernsystems zu nennen, das dem Sprecher bei der Kor
rektur von Aussprachefehlern helfen soll. Dieses System soll
dem Sprecher bei der Korrektur von Aussprachefehlern helfen.
Zunächst muß das System die Aussprachefehler des Sprechers
lernen. Hierzu muß der Sprecher vorgegebene Wörter/Sätze in
das System einsprechen. Das System führt nun die Trainings
phase durch. Nach Abschluß der Trainingsphase ist das System
bereit, den Sprecher die korrekte Aussprache zu lehren. Hier
zu spricht der Sprecher Sätze in das System ein. Das System
erzeugt aus der Spracheingabe die korrekte Aussprache und
spielt diese dem Anwender akustisch per Sprachsynthese vor.
Das System nimmt hierbei die Rolle des Lehrers ein und der
Sprecher die Rolle des Schülers. Durch das Vorspielen der
korrekten Aussprache ist der Schüler selbst in der Lage seine
Fehler zu erkennen und zu verbessern. Wird nun die Aussprache
des Schülers besser, ist nach einiger Zeit ein erneutes Trai
ning des Systems erforderlich, da das gelernte Aussprachefeh
lerwissen des Systems, welches im neuronalen Netz gespeichert
ist, an den Lernfortschritt des Schülers angepaßt werden muß.
Dieses System kann einen menschlichen Sprachtrainer unter
stützen bzw. möglicherweise ersetzen. Es kann in der Medizin
zur Beseitigung von krankhaft bedingten Aussprachefehlern und
in Schulen unter anderem zur Übung der korrekten Aussprache
von Schülern, die eine Fremdsprache erlernen, eingesetzt wer
den.
Eine zweite wesentliche Anwendung besteht in der Realisierung
einer Dolmetscher-Funktion: Für Menschen, bei denen der Aus
sprachefehler aufgrund ihrer Behinderung nicht durch eine
Schulung korrigiert werden kann, kann ein "Aussprachekorrek
tur-Dolmetscher" zu einer besseren Verständigung beitragen.
Zunächst muß auch dieses System trainiert werden. Hierzu
spricht der Sprecher vorgegebene Texte ein, und das System
führt die Trainingsphase durch. In der Anwendungsphase er
zeugt das System aus der aussprachefehlerbehafteten Äußerung
des Sprechers eine korrigierte Aussprache, die per Sprachsyn
these akustisch wiedergegeben wird.
Dieses System kann z. B. bei einem Sprachdialog zwischen aus
sprachefehlerbehafteten Menschen mit ihren Mitmenschen einge
setzt werden. Hierbei wird die falsche Aussprache des Spre
chers vom System korrigiert und den Gesprächspartnern per
Sprachsynthese korrigiert vorgespielt. Dadurch wird die Ver
ständigung verbessert.
Eine dritte wesentliche Anwendung ist die Nutzbarmachung von
Textverarbeitungs- oder Gerätesteuersystemen mit Sprachein
gabe. Diese Anwendung ist besonders für Menschen wertvoll,
die in mehrfacher Hinsicht behindert sind und neben Sprach
störungen beispielsweise unter motorischen Störungen leiden,
die die Handhabung einer normalen Computer- oder Fernbedie
nungstastatur nicht oder nur unter Schwierigkeiten ermögli
chen.
Ein solches System arbeitet hinsichtlich der Abfolge von
Trainings- und Anwendungsphase grundsätzlich wie bei den oben
genannten Szenarien, es erfolgt aber keine Sprachausgabe,
sondern eine Ausgabe von Textdaten bzw. Steuerbefehlsdaten.
Hierzu ist anstelle einer Sprachsynthese eine Umwandlung der
durch das neuronale Netz ausgegebenen phonetischen Transkrip
tionen in Text- bzw. Steuerdaten erforderlich, oder das Sys
tem ist von vornherein (zumindest unter anderem) zur Handha
bung und Ausgabe von Textdaten ausgebildet. Eine solche Aus
bildung schließt insbesondere das Vorsehen eines modifizier
ten Lexikons vor, das die Ausgabe alphabetischer Repräsenta
tionen als Abbilder eingesprochener Phoneme ermöglicht.
Claims (14)
1. Sprachkorrekturverfahren unter Einsatz eines Aussprache-
Lexikons von phonetischen Transkriptionen eines Wortschatzes
in einem vorbestimmten Format und eines Phonem-Erkenners, der
aus jedem von einem spezifischen Sprecher ausgesprochenen
Wort eine Phonemfolge generiert,
dadurch gekennzeichnet, daß
in einer Trainingsphase
in einer Trainingsphase
- a) sprecherbezogen für jedes ausgesprochene Wort die gene rierte Phonemfolge in Zuordnung zu einer im Aussprache-Lexi kon gespeicherten Transkription als F-K-Tupel gespeichert wird,
- b) die gespeicherte Zuordnung einem durch die generierte Phonemfolge definierten Eingangsknoten eines neuronalen Net zes zugeführt wird,
- c) das neuronale Netz zur Abbildung der Transkription auf die Phonemfolge trainiert wird, wobei die Transkription dem neuronalen Netz als Zielwert für Ausgabeknoten vorgegeben wird und
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß
als neuronales Netz ein schichtorientiertes, vorwärts gerich
tetes Netz mit Vollvermaschung zwischen den einzelnen Schich
ten, bei dem der mittlere quadrati
sche Fehler minimiert wird, eingesetzt wird, dessen Eingangs
schicht eine Mehrzahl von Knoten als Phonemfenster aufweist.
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die Eingangsschicht einen mittleren Knoten für ein zu betrachtendes
Phonem der Phonemfolge und weitere Knoten auf
weist, die die dem zu betrachtenden Phonem zeitlich beidseits
benachbarten Phoneme der betrachteten kanonischen Form als
Kontextwissen enthalten.
4. Verfahren nach Anspruch 2 oder 3,
dadurch gekennzeichnet, daß
die Fenstergröße der Phonemfenster derart vorbestimmt wird,
das sie im wesentlichen das Kontextwissen auf Silbenebene
aufnehmen.
5. Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, daß
das Training als iterativer Vorgang, insbesondere aufgrund
der Lernregel der "Error Backpropagation" ausgeführt wird.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet, daß
- - für jede Iteration eine Reihenfolge von Trainingsmustern mittels eines Zufallsgenerators bestimmt wird,
- - nach jeder Iteration anhand eines vom Trainingsmaterial un abhängigen Validierungssatzes die erzielte Transkriptionsge nauigkeit ermittelt wird und
- - die Iterationen solange fortgeführt werden, wie mit jeder neuen Iteration eine Erhöhung der Transkriptionsgenauigkeit des Validierungssatzes erzielt wird.
7. Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, daß
nach einem Trainingsvorgang im Aussprache-Lexikon der trai
nierten Transkription eine sprecher-spezifische Phonemfolge
hinzugefügt wird.
8. Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, daß
aus der im Schritt der Anwendung ausgegebenen Transkription
durch eine Sprachsynthese eine akustische Repräsentation er
zeugt wird.
9. Verfahren nach einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet, daß
aus der im Schritt der Anwendung ausgegebenen Transkription
eine Textdarstellung erzeugt oder die Ausgabe der Transkrip
tion durch eine Textdatenausgabe ersetzt wird.
10. Anordnung zur Durchführung des Verfahrens nach einem der
vorangehenden Ansprüche, mit
einem Lexikonspeicher zur Speicherung eines Aussprache-Le xikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format,
einer Einrichtung zur Spracheingabe,
einem mit der Einrichtung zur Spracheingabe verbundenen Phonem-Erkenner, der aus jedem eingesprochenen Wort eine Pho nemfolge generiert,
einem mit dem Lexikonspeicher und dem Phonem-Erkenner ver bundenen neuronalen Netz mit Eingabeknoten und Ausgabeknoten, bei dem der mittlere quadratische Fehler minimiert wird, und
einer mit den Ausgabeknoten des neuronalen Netzes verbunde nen Sprach- oder Textausgabeeinrichtung.
einem Lexikonspeicher zur Speicherung eines Aussprache-Le xikons von phonetischen Transkriptionen eines Wortschatzes in einem vorbestimmten Format,
einer Einrichtung zur Spracheingabe,
einem mit der Einrichtung zur Spracheingabe verbundenen Phonem-Erkenner, der aus jedem eingesprochenen Wort eine Pho nemfolge generiert,
einem mit dem Lexikonspeicher und dem Phonem-Erkenner ver bundenen neuronalen Netz mit Eingabeknoten und Ausgabeknoten, bei dem der mittlere quadratische Fehler minimiert wird, und
einer mit den Ausgabeknoten des neuronalen Netzes verbunde nen Sprach- oder Textausgabeeinrichtung.
11. Anordnung nach Anspruch 10,
dadurch gekennzeichnet, daß
die Sprach- oder Textausgabeeinrichtung eine Sprachsynthese
einrichtung aufweist.
12. Anordnung nach Anspruch 10 oder 11,
gekennzeichnet durch
die Ausbildung als Aussprache-Lehrsystem.
13. Anordnung nach Anspruch 10 oder 11,
gekennzeichnet durch
die Ausbildung als Dolmetschsystem.
14. Anordnung nach Anspruch 10,
gekennzeichnet durch
die Verknüpfung mit einem Textverarbeitungs- oder Sprachsteu
ersystem.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10034236A DE10034236C1 (de) | 2000-07-14 | 2000-07-14 | Sprachkorrekturverfahren |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10034236A DE10034236C1 (de) | 2000-07-14 | 2000-07-14 | Sprachkorrekturverfahren |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10034236C1 true DE10034236C1 (de) | 2001-12-20 |
Family
ID=7648897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10034236A Expired - Fee Related DE10034236C1 (de) | 2000-07-14 | 2000-07-14 | Sprachkorrekturverfahren |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10034236C1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10359624A1 (de) * | 2003-12-18 | 2005-07-21 | Daimlerchrysler Ag | Spracherkennung mit sprecherunabhängiger Vokabularerweiterung |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19825205A1 (de) * | 1997-06-13 | 1999-01-14 | Motorola Inc | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz |
DE69413912T2 (de) * | 1993-02-12 | 1999-04-01 | Nokia Telecommunications Oy | Sprachumsetzungsverfahren |
-
2000
- 2000-07-14 DE DE10034236A patent/DE10034236C1/de not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69413912T2 (de) * | 1993-02-12 | 1999-04-01 | Nokia Telecommunications Oy | Sprachumsetzungsverfahren |
DE19825205A1 (de) * | 1997-06-13 | 1999-01-14 | Motorola Inc | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10359624A1 (de) * | 2003-12-18 | 2005-07-21 | Daimlerchrysler Ag | Spracherkennung mit sprecherunabhängiger Vokabularerweiterung |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
EP1282112B1 (de) | Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
Aulia et al. | A comparative study of MFCC-KNN and LPC-KNN for hijaiyyah letters pronounciation classification system | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
DE112014006542T5 (de) | Einrichtung und Verfahren zum Verständnis von einer Benutzerintention | |
DE10306599B4 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
EP1217610A1 (de) | Verfahren und System zur multilingualen Spracherkennung | |
DE19610019A1 (de) | Digitales Sprachsyntheseverfahren | |
WO1998010413A1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE112021000959T5 (de) | Synthetische Sprachverarbeitung | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
CN110598208A (zh) | Ai/ml增强发音课程设计和个性化练习计划方法 | |
EP1264301A1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem | |
Wang et al. | Speech augmentation using wavenet in speech recognition | |
Chiang | Some interferences of English intonation with Chinese tones | |
DE10034236C1 (de) | Sprachkorrekturverfahren | |
DE69723449T2 (de) | Verfahren und system zur sprache-in-sprache-umsetzung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of the examined application without publication of unexamined application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |