DE10010232A1 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents
Verfahren und Vorrichtung zur SpracherkennungInfo
- Publication number
- DE10010232A1 DE10010232A1 DE2000110232 DE10010232A DE10010232A1 DE 10010232 A1 DE10010232 A1 DE 10010232A1 DE 2000110232 DE2000110232 DE 2000110232 DE 10010232 A DE10010232 A DE 10010232A DE 10010232 A1 DE10010232 A1 DE 10010232A1
- Authority
- DE
- Germany
- Prior art keywords
- sentence
- vocabulary
- word
- recognized
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Educational Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung schlägt ein Verfahren und eine Vorrichtung zur Spracherkennung vor, insbesondere für ein System zum Lehren einer Fremdsprache, von der Art, bei der ein gesprochender Satz mit vorbestimmten Sätzen eines besonderen Vokabulars verglichen wird, um den Satz dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am ähnlichsten ist, wobei die Erfindung ermöglicht, in Abhängigkeit von dem so erkannten Satz einen Aussprachefehler bezüglich eines Bezugssatzes zu erkennen und zu lokalisieren von zumindest einem bestimmten Wort in dem gesprochenen Satz.
Description
Die vorliegende Erfindung bezieht sich auf ein Verfahren und auf eine Vorrichtung
zur Spracherkennung.
Die Erfindung bezieht sich auf das Gebiet der Spracherkennung. Sie ist für jede Vor
richtung zur Spracherkennung anwendbar, die am Eingang einerseits eine Gesamtheit
(oder ein Vokabular) von vorbestimmten Sätzen und andererseits einen zu erkennen
den Satz annimmt (wobei der Begriff "Satz" in einem weiten Sinn verstanden werden
muß und insbesondere ein Wort oder eine Zusammenstellung von Wörtern bezeich
net), und am Ausgang einen erkannten Satz liefert, wobei dieser letztere der Satz des
Vokabulars ist, der phonetisch dem zu erkennenden Satz am nächsten kommt.
Solche Vorrichtungen umfassen körperliche (elektronische) Mittel, Software oder bei
des. Sie sind beispielsweise in Mikrorechnern vorhanden. Sie werden dann von Soft
ware verwendet, welche eine Spracherkennungsfunktion hat, beispielsweise für die
Erfassung von Texten oder Befehlen des Benutzers.
Insbesondere ist die Erfindung für interaktive Systeme zum Lehren einer Fremd
sprache anwendbar. Ein solches System umfaßt einen Mikrorechner mit insbesondere
einer Vorrichtung zur Spracherkennung und peripheren Organen (Bildschirmen,
Tastatur, Maus, Mikrofon, Lautsprecher, etc. . . .), sowie eine Software, um den Mikro
rechner unter den Befehlen eines Benutzers arbeiten zu lassen. Indessen kommen
andere Verwendungen des Prinzips der Erfindung in Betracht.
Der Benutzer eines interaktiven Systems zum Lehren einer Fremdsprache muß gemäß
bestimmten praktischen Übungen mündlich bestimmte Sätze in der Fremdsprache
sprechen. Beispielsweise besteht eine herkömmliche Übung darin, laut einen Satz zu
lesen oder zu wiederholen, der ihm vorgebracht wird, jeweils in sichtbarer Form (auf
dem Bildschirm des Mikrorechners) oder hörbar (mit Hilfe einer Vorrichtung zur
Stimmerzeugung des Mikrorechners). Bei anderen Übungen muß der Benutzer laut
auf eine Frage antworten, die ihm in sichtbarer oder hörbarer Form gestellt wird,
wobei die erhaltene Antwort im allgemeinen eine zuvor mittels eines Beispiels
bestimmte Struktur hat.
Ein so vom Benutzer gesprochener Satz ist ein zu erkennender Satz, der dem Eingang
der Vorrichtung zur Spracherkennung zur Verfügung gestellt wird. Diese umfaßt
Mittel zum Liefern eines erkannten Satzes, so wie weiter oben dargelegt. Der erkannte
Satz wird mit einem Bezugssatz verglichen. Dieser Bezugssatz ist der bei korrekter
Aussprache in der Fremdsprache erwartete Satz. Im Fall der Gleichheit setzt die
Software die Ausführung fort, um die folgende Übung zu beginnen. Im anderen Fall
kann die Software den Benutzer dazu einladen, denselben Satz erneut zu sprechen, um
seine Aussprache zu verbessern.
Indessen weiß der Benutzer im allgemeinen nicht, inwiefern seine erste Aussprache
fehlerhaft war. Er kann somit nicht immer verstehen, in welchem(n) Teil(en) des
Satzes er seine Sprache verbessern muß.
Eine Lösung besteht darin, den erkannten Satz auf dem Bildschirm des Mikrorechners
zu zeigen, um zu ermöglichen, daß sich der Benutzer selbst klar über die Art und
Weise wird, in der die Vorrichtung zur Spracherkennung (fälschlicherweise) den Satz
verstanden hat, den er gesprochen hat. Dennoch ist die Interpretation des erkannten
Satzes durch den Benutzer nicht leicht, besonders wenn der zu sprechende Satz lang
ist. Deshalb ermöglichen die bekannten Systemen zum Lehren einer Fremdsprache im
allgemeinen nicht das Sprechen von langen Sätzen. Dies ist bedauerlich.
Die Aufgabe der Erfindung ist es, das Feststellen und Lokalisieren eines Fehlers
bezüglich eines oder mehrerer bestimmter Worte eines von der Vorrichtung zur
Spracherkennung erkannten Satzes zu ermöglichen, insbesondere im Hinblick darauf,
bei interaktiven Systemen zum Lehren einer Fremdsprache das Aussprechen relativ
langer Sätze zu ermöglichen.
Dieses Ziel wird erfindungsgemäß dank eines Verfahrens zur Spracherkennung
erreicht, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache,
das dadurch gekennzeichnet ist, daß es die folgenden Schritte umfaßt:
- a) Erzeugen eines Basisvokabulars E umfassend N verschiedene Wörter, wobei N eine ganze Zahl ist;
- b) Für jedes bestimmte Wort Mi eines Bezugssatzes mit Q verschiedenen Wörtern, wobei Q eine ganze Zahl größer als 1 ist, Erzeugen eines spezifischen Vokabulars EMi ausgehend von dem Basisvokabular E, wobei aus diesem die Pi Wörter ent nommen werden, die phonetisch dem Wort Mi am nächsten kommen, wobei Pi eine ganze Zahl ist, die geringer als N ist und die Null sein kann;
- c) Erzeugen eines aktiven Vokabulars, welches den Bezugssatz und überdies andere Sätze enthält, die sich von dem Bezugssatz durch die Bedeutung von zumindest einem Wort Mi mit einem bestimmten Rang i in dem Satz unterscheiden, wobei jeder dieser Sätze eine der Alternativen des Bezugssatzes ist, die an der Stelle des Wortes Mi eines der Wörter des spezifischen Vokabulars umfaßt, das mit diesem Wort Mi verbunden ist;
- d) Vergleichen eines zu erkennenden Satzes mit den Sätzen des aktiven Vokabulars, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten ist, und, ggfs. Identifizieren in Abhängigkeit von dem so erkannten Satz den Rang i eines fehlerhaften Wortes bezüglich des Bezugssatzes.
Auf diese Weise ist es möglich, zumindest einen Fehler im Vergleich zu einem
Bezugssatz festzustellen, bezüglich zumindest eines besonderen Wortes in dem vom
Benutzer gesprochenen Satz (d. h. dem zu erkennenden Satz). Diese Lokalisierung
ergibt die Identifikation des Ranges i des (oder der) fehlerhaften Wortes (oder Wörter)
im erkannten Satz. So kann im Fall eines interaktiven Systems zum Lehren einer
Fremdsprache ein evtl. Aussprachefehler von zumindest einem besonderen Wort in
dem Satz dem Benutzer angezeigt werden, damit dieser ganz besonders seine Aus
sprache dieses Wortes verbessert.
Überdies kann man, indem man den Wert des Verhältnisses Pi/N verändert, die Tole
ranz des Systems zum Lehren der Fremdsprache bezüglich des entsprechenden Wortes
Mi verändern. Unter Toleranz versteht man die Eigenschaften des Software, geringe
Aussprachefehler nicht zu berücksichtigen, d. h. die Eigenschaft, einen Satz als kor
rekt ausgesprochen zu betrachten, obgleich er tatsächlich nur unvollkommen gewesen
ist. Eine bestimmte Toleranz wird als eine gute Eigenschaft eines Systems zum Leh
ren einer Fremdsprache angesehen.
Weitere Merkmale und Vorteile der Erfindung ergeben sich beim Lesen der detail
lierten Beschreibung, die folgt.
In der folgenden Beschreibung ist als nicht begrenzendes Anwendungsbeispiel ein
System zum Lehren einer Fremdsprache betrachtet worden. Ein solches System
umfaßt eine Software, die auf einem Mikrorechner unter den Befehlen eines Benutzers
ausgeführt wird. Während des Gebrauchs spricht dieser letztere laut Sätze, die erkannt
werden müssen, um sie mit Bezugssätzen zu vergleichen.
Ein vom Benutzer gesprochener Satz wird mit Hilfe eines Mikrofons in ein elektri
sches Signal umgewandelt. Dieses elektrische Signal wird ggf. verstärkt. Dann wird es
mittels eines Analog-Digital-Wandlers in digitale Daten umgewandelt. Diese Daten
werden mittels einer Vorrichtung zur Spracherkennung des Mikrorechners verarbeitet.
Eine solche Vorrichtung ist beispielsweise eine Software, die von dem Mikrorechner
ausgeführt wird. Anzumerken ist, daß bei manchen Anwendungen die entsprechenden
digitalen Daten in einer Eingangsdatei der Vorrichtung zur Spracherkennung plaziert
werden können. Bei einer Abwandlung kann die Vorrichtung zum Erkennen eine
elektronische Schaltung sein, die dieser Aufgabe gewidmet ist.
Ein Bezugssatz PhR umfaßt beispielsweise Q Wörter (wobei Q eine ganze Zahl größer
als 1 ist) und zeigt sich in der folgenden Form (wobei man von der Zeichensetzung
abgesehen hat):
PhR: M1M2M3. . .MQ-1MQ
Das erfindungsgemäße Verfahren zur Spracherkennung umfaßt im wesentlichen vier
Hauptschritte.
Der erste Schritt besteht darin, ein N verschiedene Wörter umfassendes Basis
vokabular E zu schaffen, wobei N eine ganze Zahl ist. Ein solches Basisvokabular
umfaßt Wörter in der betreffenden Fremdsprache, die so ausgewählt sind, daß sie die
verschiedenst möglichen Längen und Klänge haben. Anders ausgedrückt sind die
Wörter des Basisvokabulars E vorzugsweise phonetisch verschieden.
Eine Methode zum Erzeugen dieses Basisvokabulars besteht darin, diese Wörter
zufällig aus einem Wörterbuch mit beträchtlichem Umfang auszuwählen. Diese Aus
wahl kann automatisch erfolgen, d. h. von einer adaptierten Software oder manuell.
Gegebenenfalls können Wörter, die phonetisch anderen Wörtern des Vokabulars zu
nahe sind, automatisch oder manuell unterdrückt werden.
Das Basisvokabular entspricht somit nicht zwangsläufig einem vollständigen Wörter
buch in der Fremdsprache. Man sieht jedoch, daß, je größer N ist, desto besser die
Resultate für den Benutzer sind, d. h. die Verläßlichkeit des Lehrsystems besser ist
(ein verläßliches Lehrsystem ist ein Lehrsystem, das eine gleichmäßige Toleranz
gegenüber Aussprachefehlern derselben Schwere aufweist). Indessen ist die notwen
dige Rechenleistung um so bedeutender, je größer N ist. Ein Basisvokabular kann
somit einige 10 bis einige 1000 verschiedener Worte umfassen, entsprechend der
Rechenkapazität des Mikrorechners und entsprechend der erwarteten Verläßlichkeit
des Lehrsystems.
Anzumerken ist, daß es keine besondere Verbindung zwischen den Wörtern des so
erzeugten Basisvokabulars und den in den Bezugssätzen enthaltenen Wörtern gibt.
Anders gesagt umfaßt das hier fragliche Basisvokabular nicht zwingend Wörter von
Bezugssätzen. Das kann jedoch der Fall sein, wenn die Regeln der Auswahl der Wör
ter des Basisvokabulars dies nicht ausschließen.
Der zweite Schritt besteht darin, für jedes bestimmte Wort Mi eines Bezugssatzes, der
Q verschiedene Wörter hat (wobei Q eine ganze Zahl größer als 1 ist), ein spezifisches
Vokabular EMi zu erzeugen, ausgehend vom Basisvokabular E, das in dem ersten
Schritt erzeugt worden ist. Dies wird ausgeführt, indem man von diesem die Pi Wörter
entnimmt, die phonetisch dem bestimmten Wort Mi am nächsten kommen (wobei Pi
eine ganze Zahl ist, die kleiner als N ist und die Null sein kann).
Tatsächlich ist das System toleranter, wenn das spezifische Vokabular keine Wörter
umfaßt, die phonetisch den Wörtern der Bezugssätze ähnlich sind. Anzumerken ist,
daß man die Toleranz des Systems zum Lehren der Fremdsprache bezüglich eines ent
sprechenden Wortes Mi verändern kann, indem man den Wert des Verhältnisses Pi/N
verändert. Genauer gesagt, ist für einen gegebenen Wert N das System um so toleran
ter, je größer Pi ist.
Dennoch ist dieser zweite Schritt nicht zwingend. Insbesondere in dem Fall, in dem
das Basisvokabular kein Wort der Bezugssätze umfaßt, kann die Zahl Pi Null sein. In
diesem Fall ist das System wenig tolerant.
Überdies ist bei einer vereinfachten Ausführungsform die Zahl Pi der vom Basisvoka
bular entnommenen Wörter zum Bilden des spezifischen Vokabulars EMi, das mit
einem Wort Mi vom Rang i des Bezugssatzes verbunden ist, gleich zu ein- und der
selben Anzahl P für jedes Wort Mi des Bezugssatzes. Anders ausgedrückt ist Pi gleich
P, wie auch immer i sein mag. Man spricht daher zur Bezeichnung des Verhältnisses
P/N von der Gesamttoleranz des Lehrsystems.
Bei einer vorteilhaften Ausführungsart wird das spezifische Vokabular EMi iterativ
erzeugt, indem Mittel zur Spracherkennung der Vorrichtung verwendet werden. Bei
der ersten Iteration ist das Eingangsvokabular das Basisvokabular E, und der zu
erkennende Satz wird mit dem korrekt ausgesprochenen Wort Mi gebildet. Die Vor
richtung stellt dann das Wort des Basisvokabulars zur Verfügung, das phonetisch
einem besonderen Wort Mi am nächsten kommt. Es kann sich dabei um das Wort Mi
selbst handeln, wenn dieses in dem Basisvokabular E vorhanden war. Dieses nächst
kommende Wort wird dann vom Eingangsvokabular unterdrückt, und die oben
erwähnten Schritte werden Pi mal wiederholt, wobei bei jeder Iteration das Eingangs
vokabular um ein Wort reduziert wird. Am Ende bildet das erhaltene Eingangsvoka
bular das spezifische Vokabular EMi. Es wird in einer Datei für spezifische Vokabu
lare gespeichert.
Ein dritter Schritt des Verfahrens besteht darin, ein aktives Vokabular zu erzeugen,
welches den Bezugssatz und überdies andere Sätze umfaßt. Diese letzeren unterschei
den sich von dem Bezugssatz durch die Bedeutung zumindest eines Wortes Mi von
einem bestimmten Rang i im Satz. Jeder dieser Sätze ist einer von Alternativen des
Bezugssatzes, der anstelle des Wortes Mi eines der Wörter des spezifischen Vokabu
lars umfaßt, das mit diesem Wort Mi verbunden ist. Die unten stehenden Angaben
sind für den einfachen Fall gegeben, in dem Pi = P, wie auch immer i sein mag. Sie
lassen sich leicht auf andere Fälle verallgemeinern.
Bei einer ersten Ausführungsart ist das aktive Vokabular, das in dem dritten Schritt
erzeugt wird, von einem ersten Typ, weil es von dem Bezugssatz und von sämtlichen
Sätzen gebildet ist, die ausgehend von dem Bezugssatz erhalten sind, indem nachein
ander jedes Wort Mi ersetzt worden ist, sukzessive durch N-Pi Wörter des spezifi
schen Vokabulars EMi, das mit diesem Wort Mi verbunden ist.
In diesem Fall sind, wenn man mit EMi(j) die Wörter des spezifischen Vokabulars EMi
bezeichnet (wobei j ein Index zwischen 1 und N-Pi ist), die Sätze des aktiven Voka
bulars von der folgenden Art:
Ph1(i, j): M1M2. . .Mi-1EMi(j)Mi+1. . .MQ-1MQ
wobei i variiert von 1 bis Q
und j variiert von 1 bis N-Pi
und j variiert von 1 bis N-Pi
Man kann überprüfen, daß das aktive Vokabular dann 1 + (N-P) × Q verschiedene
Sätze umfaßt.
Bei einer zweiten Ausführungsweise ist das in dem dritten Schritt erzeugte Vokabular
von einer zweiten Art, weil es von sämtlichen verschiedenen möglichen Kombinatio
nen von Q Wörtern gebildet ist, wobei jedes Wort von einem bestimmten Rang i ent
weder das Wort Mi entsprechend dem Bezugssatz oder irgendeines der Wörter des
spezifischen Vokabulars EMi sein kann, das mit diesem Wort Mi verbunden ist.
In diesem Fall sind, wenn man mit EMi(j) die Wörter des spezifischen Vokabulars EMi
(wobei j ein Index zwischen 1 und N-Pi ist) bezeichnet, und wenn man mit EMi(0) das
Wort Mi bezeichnet, die Sätze des aktiven Vokabulars von der Art:
Ph2(i1, . . ., iQ): EM1(i1)EM2(i2). . .EMj(ij). . .EMQ(iQ)
mit i1, . . ., iQ veränderlich von 0 bis N-P.
Man kann überprüfen, daß das aktive Vokabular dann (1 + N - P)Q verschiedene Sätze
umfaßt.
Die erste oben stehende Ausführungsart ermöglicht zugleich die Feststellung eines
Fehlers bezüglich eines einzigen Wortes in dem Satz. Anders ausgedrückt ermöglicht
das Verfahren daher, nur Aussprachefehler eines einzigen Wortes in einem Satz auf
einmal festzustellen. Dies ist bei einfachen Sätzen ausreichend. Die zweite Ausfüh
rungsart ist die leistungsfähigere, weil sie ermöglicht, gleichzeitig Fehler in jedem der
Wörter des Satzes festzustellen. Jedoch erfordert sie eine ganz beträchtliche Rechen
leistung und eine sehr leistungsfähige Vorrichtung zur Stimmerkennung. Wohlge
merkt können Zwischenausführungen in Betracht gezogen werden, um Fehler irgend
einer Anzahl von Worten des Satzes feststellen zu können.
Das aktive Vokabular wird in einem Speicher des Mikrorechners in der Form einer
durch 2 Indexfelder indexierten Datei entsprechend den Indizes i und j (für ein Voka
bular der ersten Art) oder durch Q Indexfelder entsprechend den Indizes i1 . . ., iQ (für
ein Vokabular der zweiten Art) gespeichert.
Das Verfahren umfaßt schließlich einen vierten und letzten Schritt, der darin besteht,
einen zu erkennenden Satz mit Sätzen des im dritten, vorausgehenden Schritt erzeug
ten aktiven Vokabulars zu vergleichen, um denjenigen der Sätze dieses Vokabulars zu
erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und, ggf., in
Abhängigkeit des so erkannten Satzes den Rang i eines fehlerhaften Wortes bezüglich
des Bezugssatzes zu identifizieren. Bei der in Betracht gezogenen Anwendung
ermöglicht dieser Schritt die Identifizierung des Ranges i, an dem sich ein Aus
sprachefehlers eines Wortes befindet, und diese Identifikation wird in Abhängigkeit
von dem von der Vorrichtung zur Spracherkennung erkannten Satz ausgeführt. Tat
sächlich gibt es nur zwei bestimmte Fälle in Abhängigkeit von dem erkannten Satz.
- - Entweder ist der erkannte Satz der Bezugssatz und dies bedeutet daher, daß es kei nen Aussprachefehler in dem Satz gibt;
- - oder der erkannte Satz in ein anderer Satz des aktiven Vokabulars. Wenn das aktive Vokabular von der ersten Art ist (erste Ausführungsart) und der erkannte Satz der Satz Ph1(i, j), dann bedeutet dies, daß es einen Fehler in dem Wort Mi gibt (d. h., daß das Wort Mi fehlerhaft ist, weil es schlecht ausgesprochen worden ist). Wenn das aktive Vokabular von der zweiten Art ist (zweite Ausführungsart) und wenn der erkannte Satz der Satz Ph2(i1 . . ., iQ), dann bedeutet dies, daß es einen Fehler in jedem der Worte Mi1 bis MiQ gibt, die denjenigen der Indizes i1, . . ., iQ entsprechen, die nicht gleich Null sind.
Den erkannten Satz kennend, ist es tatsächlich einfach, diese Indizes durch Vergleich
mit der Datei wiederzufinden, welche das aktive Vokabular enthält.
In den beiden Fällen sind die Bezugssätze dem System zum Lehren einer Fremd
sprache bekannt (sie resultieren aus dem Entwurf der Software). In diesem Fall kön
nen die ersten, zweiten und dritten Schritte vorab für jeden Bezugssatz durchgeführt
werden (beispielsweise während des Entwurfs der Software oder aber während ihrer
Installation im Mikrorechner oder aber zu Beginn jedes Laufes der Software). Das
oder die entsprechenden aktiven Vokabulare sind in einem Speicher gespeichert, bei
spielsweise mit der Software selbst (dieser Speicher kann von jedem geeigneten
Datenträger gebildet sein, so wie von einer digitalen optischen Platte). Allein der
vierte Schritt wird schließlich während des Laufes der Software durchgeführt. Er wird
mehrfach wiederholt, einmal für jeden zu erkennenden Satz (d. h. normalerweise für
jede Ausspracheübung).
Wie dies oben gesagt worden ist, kann man die allgemeine Toleranz des Lehrsystems
verändern, indem man das Verhältnis P/N verändert. Für ein besonders tolerantes
System, das für Anfänger geeignet ist, kann das Verhältnis P/N 10% bis 30%
erreichen. Für ein Lehrsystem mit höherem Niveau, das es ermöglicht, subtile Aus
sprachefehler festzustellen, ist die Toleranz gering. Das Verhältnis P/N ist dann gerin
ger als 1%. Die Tatsache, ein Verhältnis Pi/N zu haben, das ggf für jedes Wort ver
schieden ist, ermöglicht, die Feststellung von Aussprachefehlern allein auf bestimmte
Wörter zu fokussieren, indem eine größere Toleranz für die anderen Wörter des Satzes
ermöglicht wird. Die Tatsache jedoch, daß Pi = P, wie auch immer i sein mag, verein
facht die Durchführung des Verfahrens.
Die Erfindung schlägt auch eine Vorrichtung zur Spracherkennung vor, insbesondere
für ein Lehrsystem für eine Fremdsprache, welche Mittel zum Identifizieren des
Rangs eines fehlerhaften Wortes in einem zu erkennenden Satz bezüglich eines
Bezugssatzes umfaßt. Dies ermöglicht bei der in Betracht gezogenen Anwendung,
einen Aussprachefehler in einem vom Benutzer ausgesprochenen Satz festzustellen
und zu lokalisieren.
Die Vorrichtung zur Spracherkennung umfaßt Mittel zum Vergleichen des zu erken
nenden Satzes mit Sätzen eines bestimmten Vokabulars, um denjenigen der Sätze des
Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am ähnlichsten ist,
um daraus ggf. den Rang eines fehlerhaften Wortes in diesem Satz abzuleiten. In die
sem Fall kann die Vorrichtung ein Verfahren zur Spracherkennung so wie oben
beschrieben durchführen. Auf vorteilhafte Weise wird das spezifische Vokabular EMi
iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung benutzt werden.
Die Erfindung schlägt auch ein interaktives System zum Lehren einer Fremdsprache
vor, welches eine solche Vorrichtung umfaßt. Gemäß einem Beispiel umfaßt das
System über die Vorrichtung zur Spracherkennung hinaus eine oder mehrere der fol
genden Elemente: einen Mikrorechner, eine Software, um diesen arbeiten zu lassen,
ein Mikrofon, einen Bildschirm, eine Tastatur, eine Maus, Lautsprecher, eine Vor
richtung zur Sprachsynthese, etc. . . . .
Claims (11)
1. Verfahren zur Spracherkennung, insbesondere für ein System zum interaktiven
Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es die folgenden
Schritte umfaßt:
- a) Erzeugen eines Basisvokabulars E umfassend N verschiedene Wörter, wobei N eine ganze Zahl ist;
- b) für jedes bestimmte Worte Mi eines Bezugssatzes mit Q verschiedenen Wör tern, wobei Q eine ganze Zahl größer als 1 ist, Erzeugen eines spezifischen Vokabulars EMi ausgehend vom Basisvokabular E, indem aus diesem die Pi phonetisch zu dem Wort Mi nächstkommenden entnommen werden, wobei Pi eine ganze Zahl ist, die geringer als N ist und die Null sein kann;
- c) Erzeugen eines aktiven Vokabulars, welches den Bezugssatz und überdies weitere Sätze umfaßt, die sich von dem Bezugssatz durch die Bedeutung zumindest eines Wortes Mi von bestimmten Rang i in dem Satz unterscheiden, wobei jeder dieser Sätze eine der Alternativen des Bezugssatzes ist, die an der Stelle des Wortes Mi eines der Worte des spezifischen Vokabulars umfaßt, das mit diesem Wort Mi verbunden ist;
- d) Vergleichen eines zu erkennenden Satzes mit den Sätzen des aktiven Voka bulars, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phone tisch dem zu erkennenden Satz am nächsten ist, und, ggf., Identifizieren in Abhängigkeit von dem so erkannten Satz den Rang i eines fehlerhaften Wor tes im Vergleich mit dem Bezugssatz.
2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß das im Schritt c)
erzeugte, aktive Vokabular von einem ersten Typ ist, in Anbetracht, daß es von
dem Bezugssatz und sämtlichen ausgehend von dem Bezugssatz erhaltenen Sätzen
gebildet ist, indem jedes Wort Mi, eines nach dem anderen, sukzessive durch N-Pi
Wörter des spezifischen Vokabulars ersetzt ist, das mit diesem Wort Mi verbunden
ist.
3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß das im Schritt c)
erzeugte, aktive Vokabular von einer zweiten Art ist, weil es von sämtlichen
bestimmten möglichen Kombinationen von Q-Wörtern gebildet ist, wobei jedes
Wort von einem bestimmten Rang i entweder das Wort Mi entsprechend dem
Bezugssatz oder irgendeines der Wörter des spezifischen Vokabulars sein kann,
welches mit diesem Wort Mi verbunden ist.
4. Verfahren gemäß einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die
Schritte a) bis c) vorab für zumindest einen Bezugssatz durchgeführt werden, und
daß der Schritt d) für mehrere zu erkennende Sätze wiederholt wird.
5. Verfahren gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die
Anzahl Pi der entnommenen Wörter des Basisvokabulars E, um das spezifische
Vokabular EMi zu bilden, das mit dem Wort Mi von einem Rang i des Bezugs
satzes verbunden ist, gleich ein- und derselben Anzahl P jedes Wortes Mi des
Bezugssatzes ist.
6. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß das Verhältnis P/N
10% bis 30% erreichen kann.
7. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, das Verhältnis P/N unter
1% ist.
8. Vorrichtung zur Spracherkennung, insbesondere für ein System zum Lehren einer
Fremdsprache, welches Mittel umfaßt, um den Rang eines bezüglich eines
Bezugssatzes fehlerhaften Wortes in einem zu erkennenden Satz aufweist, dadurch
gekennzeichnet, daß es ein Verfahren gemäß einem der Ansprüche 1 bis 7 durch
führt.
9. Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, daß es Mittel zum Ver
gleichen des zu erkennenden Satzes mit den Sätzen eines bestimmten Vokabulars
umfaßt, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch
dem zu erkennenden Satz am nächsten kommt, und daraus ggf. den Rang des feh
lerhaften Wortes innerhalb dieses Satz abzuleiten.
10. Verfahren gemäß Anspruch 8 oder 9, dadurch gekennzeichnet, daß das spezifische
Vokabular EMi iterativ erzeugt wird, indem Mittel zur Spracherkennung der Vor
richtung angewendet werden.
11. Interaktives System zum Lehren einer Fremdsprache, dadurch gekennzeichnet,
daß es eine Vorrichtung gemäß einem der Ansprüche 8 bis 10 umfaßt.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9902771A FR2790586B1 (fr) | 1999-03-05 | 1999-03-05 | Procede et dispositif de reconnaissance vocale |
FR9902771 | 1999-03-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10010232A1 true DE10010232A1 (de) | 2000-10-26 |
DE10010232B4 DE10010232B4 (de) | 2004-08-05 |
Family
ID=9542878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2000110232 Expired - Fee Related DE10010232B4 (de) | 1999-03-05 | 2000-03-02 | Verfahren und Vorrichtung zur Spracherkennung |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE10010232B4 (de) |
FR (1) | FR2790586B1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004034355A2 (en) * | 2002-10-07 | 2004-04-22 | Carnegie Mellon University | System and methods for comparing speech elements |
AT414283B (de) * | 2003-12-16 | 2006-11-15 | Siemens Ag Oesterreich | Verfahren zur optimierung von spracherkennungsprozessen |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206274A (zh) * | 2015-10-30 | 2015-12-30 | 北京奇艺世纪科技有限公司 | 一种语音识别的后处理方法及装置和语音识别系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0242743B1 (de) * | 1986-04-25 | 1993-08-04 | Texas Instruments Incorporated | Spracherkennungssystem |
US5766015A (en) * | 1996-07-11 | 1998-06-16 | Digispeech (Israel) Ltd. | Apparatus for interactive language training |
-
1999
- 1999-03-05 FR FR9902771A patent/FR2790586B1/fr not_active Expired - Lifetime
-
2000
- 2000-03-02 DE DE2000110232 patent/DE10010232B4/de not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004034355A2 (en) * | 2002-10-07 | 2004-04-22 | Carnegie Mellon University | System and methods for comparing speech elements |
WO2004034355A3 (en) * | 2002-10-07 | 2004-05-27 | Univ Carnegie Mellon | System and methods for comparing speech elements |
US7752045B2 (en) | 2002-10-07 | 2010-07-06 | Carnegie Mellon University | Systems and methods for comparing speech elements |
AT414283B (de) * | 2003-12-16 | 2006-11-15 | Siemens Ag Oesterreich | Verfahren zur optimierung von spracherkennungsprozessen |
Also Published As
Publication number | Publication date |
---|---|
FR2790586A1 (fr) | 2000-09-08 |
FR2790586B1 (fr) | 2001-05-18 |
DE10010232B4 (de) | 2004-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AT390685B (de) | System zur textverarbeitung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE69818930T2 (de) | Verfahren zur Ausrichtung von Text an Audiosignalen | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE19708184A1 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
EP0804788A1 (de) | Verfahren zur spracherkennung | |
DE3853702T2 (de) | Spracherkennung. | |
EP1125278B1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
DE10010232B4 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69723449T2 (de) | Verfahren und system zur sprache-in-sprache-umsetzung | |
EP1224661B1 (de) | Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners | |
EP2034472A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
DE3732849A1 (de) | System-architektur fuer ein akustisches mensch/maschine-dialogsystem | |
WO2020126217A1 (de) | Verfahren, anordnung und verwendung zum erzeugen einer antwortausgabe in reaktion auf eine spracheingabeinformation | |
DE4311211C2 (de) | Computersystem und Verfahren zur automatisierten Analyse eines Textes | |
DE10131157C1 (de) | Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme | |
DE102004048348B4 (de) | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle | |
DE10253786B4 (de) | Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben | |
DE10149141A1 (de) | Verfahren zur Verarbeitung von Text und Rechnereinheit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |