DE10010232A1 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number
DE10010232A1
DE10010232A1 DE2000110232 DE10010232A DE10010232A1 DE 10010232 A1 DE10010232 A1 DE 10010232A1 DE 2000110232 DE2000110232 DE 2000110232 DE 10010232 A DE10010232 A DE 10010232A DE 10010232 A1 DE10010232 A1 DE 10010232A1
Authority
DE
Germany
Prior art keywords
sentence
vocabulary
word
recognized
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2000110232
Other languages
English (en)
Other versions
DE10010232B4 (de
Inventor
Bernard Gaston Francois Muller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AURALOG MONTIGNY LE BRETONNEUX
Original Assignee
AURALOG MONTIGNY LE BRETONNEUX
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AURALOG MONTIGNY LE BRETONNEUX filed Critical AURALOG MONTIGNY LE BRETONNEUX
Publication of DE10010232A1 publication Critical patent/DE10010232A1/de
Application granted granted Critical
Publication of DE10010232B4 publication Critical patent/DE10010232B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung schlägt ein Verfahren und eine Vorrichtung zur Spracherkennung vor, insbesondere für ein System zum Lehren einer Fremdsprache, von der Art, bei der ein gesprochender Satz mit vorbestimmten Sätzen eines besonderen Vokabulars verglichen wird, um den Satz dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am ähnlichsten ist, wobei die Erfindung ermöglicht, in Abhängigkeit von dem so erkannten Satz einen Aussprachefehler bezüglich eines Bezugssatzes zu erkennen und zu lokalisieren von zumindest einem bestimmten Wort in dem gesprochenen Satz.

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren und auf eine Vorrichtung zur Spracherkennung.
Die Erfindung bezieht sich auf das Gebiet der Spracherkennung. Sie ist für jede Vor­ richtung zur Spracherkennung anwendbar, die am Eingang einerseits eine Gesamtheit (oder ein Vokabular) von vorbestimmten Sätzen und andererseits einen zu erkennen­ den Satz annimmt (wobei der Begriff "Satz" in einem weiten Sinn verstanden werden muß und insbesondere ein Wort oder eine Zusammenstellung von Wörtern bezeich­ net), und am Ausgang einen erkannten Satz liefert, wobei dieser letztere der Satz des Vokabulars ist, der phonetisch dem zu erkennenden Satz am nächsten kommt.
Solche Vorrichtungen umfassen körperliche (elektronische) Mittel, Software oder bei­ des. Sie sind beispielsweise in Mikrorechnern vorhanden. Sie werden dann von Soft­ ware verwendet, welche eine Spracherkennungsfunktion hat, beispielsweise für die Erfassung von Texten oder Befehlen des Benutzers.
Insbesondere ist die Erfindung für interaktive Systeme zum Lehren einer Fremd­ sprache anwendbar. Ein solches System umfaßt einen Mikrorechner mit insbesondere einer Vorrichtung zur Spracherkennung und peripheren Organen (Bildschirmen, Tastatur, Maus, Mikrofon, Lautsprecher, etc. . . .), sowie eine Software, um den Mikro­ rechner unter den Befehlen eines Benutzers arbeiten zu lassen. Indessen kommen andere Verwendungen des Prinzips der Erfindung in Betracht.
Der Benutzer eines interaktiven Systems zum Lehren einer Fremdsprache muß gemäß bestimmten praktischen Übungen mündlich bestimmte Sätze in der Fremdsprache sprechen. Beispielsweise besteht eine herkömmliche Übung darin, laut einen Satz zu lesen oder zu wiederholen, der ihm vorgebracht wird, jeweils in sichtbarer Form (auf dem Bildschirm des Mikrorechners) oder hörbar (mit Hilfe einer Vorrichtung zur Stimmerzeugung des Mikrorechners). Bei anderen Übungen muß der Benutzer laut auf eine Frage antworten, die ihm in sichtbarer oder hörbarer Form gestellt wird, wobei die erhaltene Antwort im allgemeinen eine zuvor mittels eines Beispiels bestimmte Struktur hat.
Ein so vom Benutzer gesprochener Satz ist ein zu erkennender Satz, der dem Eingang der Vorrichtung zur Spracherkennung zur Verfügung gestellt wird. Diese umfaßt Mittel zum Liefern eines erkannten Satzes, so wie weiter oben dargelegt. Der erkannte Satz wird mit einem Bezugssatz verglichen. Dieser Bezugssatz ist der bei korrekter Aussprache in der Fremdsprache erwartete Satz. Im Fall der Gleichheit setzt die Software die Ausführung fort, um die folgende Übung zu beginnen. Im anderen Fall kann die Software den Benutzer dazu einladen, denselben Satz erneut zu sprechen, um seine Aussprache zu verbessern.
Indessen weiß der Benutzer im allgemeinen nicht, inwiefern seine erste Aussprache fehlerhaft war. Er kann somit nicht immer verstehen, in welchem(n) Teil(en) des Satzes er seine Sprache verbessern muß.
Eine Lösung besteht darin, den erkannten Satz auf dem Bildschirm des Mikrorechners zu zeigen, um zu ermöglichen, daß sich der Benutzer selbst klar über die Art und Weise wird, in der die Vorrichtung zur Spracherkennung (fälschlicherweise) den Satz verstanden hat, den er gesprochen hat. Dennoch ist die Interpretation des erkannten Satzes durch den Benutzer nicht leicht, besonders wenn der zu sprechende Satz lang ist. Deshalb ermöglichen die bekannten Systemen zum Lehren einer Fremdsprache im allgemeinen nicht das Sprechen von langen Sätzen. Dies ist bedauerlich.
Die Aufgabe der Erfindung ist es, das Feststellen und Lokalisieren eines Fehlers bezüglich eines oder mehrerer bestimmter Worte eines von der Vorrichtung zur Spracherkennung erkannten Satzes zu ermöglichen, insbesondere im Hinblick darauf, bei interaktiven Systemen zum Lehren einer Fremdsprache das Aussprechen relativ langer Sätze zu ermöglichen.
Dieses Ziel wird erfindungsgemäß dank eines Verfahrens zur Spracherkennung erreicht, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache, das dadurch gekennzeichnet ist, daß es die folgenden Schritte umfaßt:
  • a) Erzeugen eines Basisvokabulars E umfassend N verschiedene Wörter, wobei N eine ganze Zahl ist;
  • b) Für jedes bestimmte Wort Mi eines Bezugssatzes mit Q verschiedenen Wörtern, wobei Q eine ganze Zahl größer als 1 ist, Erzeugen eines spezifischen Vokabulars EMi ausgehend von dem Basisvokabular E, wobei aus diesem die Pi Wörter ent­ nommen werden, die phonetisch dem Wort Mi am nächsten kommen, wobei Pi eine ganze Zahl ist, die geringer als N ist und die Null sein kann;
  • c) Erzeugen eines aktiven Vokabulars, welches den Bezugssatz und überdies andere Sätze enthält, die sich von dem Bezugssatz durch die Bedeutung von zumindest einem Wort Mi mit einem bestimmten Rang i in dem Satz unterscheiden, wobei jeder dieser Sätze eine der Alternativen des Bezugssatzes ist, die an der Stelle des Wortes Mi eines der Wörter des spezifischen Vokabulars umfaßt, das mit diesem Wort Mi verbunden ist;
  • d) Vergleichen eines zu erkennenden Satzes mit den Sätzen des aktiven Vokabulars, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten ist, und, ggfs. Identifizieren in Abhängigkeit von dem so erkannten Satz den Rang i eines fehlerhaften Wortes bezüglich des Bezugssatzes.
Auf diese Weise ist es möglich, zumindest einen Fehler im Vergleich zu einem Bezugssatz festzustellen, bezüglich zumindest eines besonderen Wortes in dem vom Benutzer gesprochenen Satz (d. h. dem zu erkennenden Satz). Diese Lokalisierung ergibt die Identifikation des Ranges i des (oder der) fehlerhaften Wortes (oder Wörter) im erkannten Satz. So kann im Fall eines interaktiven Systems zum Lehren einer Fremdsprache ein evtl. Aussprachefehler von zumindest einem besonderen Wort in dem Satz dem Benutzer angezeigt werden, damit dieser ganz besonders seine Aus­ sprache dieses Wortes verbessert.
Überdies kann man, indem man den Wert des Verhältnisses Pi/N verändert, die Tole­ ranz des Systems zum Lehren der Fremdsprache bezüglich des entsprechenden Wortes Mi verändern. Unter Toleranz versteht man die Eigenschaften des Software, geringe Aussprachefehler nicht zu berücksichtigen, d. h. die Eigenschaft, einen Satz als kor­ rekt ausgesprochen zu betrachten, obgleich er tatsächlich nur unvollkommen gewesen ist. Eine bestimmte Toleranz wird als eine gute Eigenschaft eines Systems zum Leh­ ren einer Fremdsprache angesehen.
Weitere Merkmale und Vorteile der Erfindung ergeben sich beim Lesen der detail­ lierten Beschreibung, die folgt.
In der folgenden Beschreibung ist als nicht begrenzendes Anwendungsbeispiel ein System zum Lehren einer Fremdsprache betrachtet worden. Ein solches System umfaßt eine Software, die auf einem Mikrorechner unter den Befehlen eines Benutzers ausgeführt wird. Während des Gebrauchs spricht dieser letztere laut Sätze, die erkannt werden müssen, um sie mit Bezugssätzen zu vergleichen.
Ein vom Benutzer gesprochener Satz wird mit Hilfe eines Mikrofons in ein elektri­ sches Signal umgewandelt. Dieses elektrische Signal wird ggf. verstärkt. Dann wird es mittels eines Analog-Digital-Wandlers in digitale Daten umgewandelt. Diese Daten werden mittels einer Vorrichtung zur Spracherkennung des Mikrorechners verarbeitet. Eine solche Vorrichtung ist beispielsweise eine Software, die von dem Mikrorechner ausgeführt wird. Anzumerken ist, daß bei manchen Anwendungen die entsprechenden digitalen Daten in einer Eingangsdatei der Vorrichtung zur Spracherkennung plaziert werden können. Bei einer Abwandlung kann die Vorrichtung zum Erkennen eine elektronische Schaltung sein, die dieser Aufgabe gewidmet ist.
Ein Bezugssatz PhR umfaßt beispielsweise Q Wörter (wobei Q eine ganze Zahl größer als 1 ist) und zeigt sich in der folgenden Form (wobei man von der Zeichensetzung abgesehen hat):
PhR: M1M2M3. . .MQ-1MQ
Das erfindungsgemäße Verfahren zur Spracherkennung umfaßt im wesentlichen vier Hauptschritte.
Der erste Schritt besteht darin, ein N verschiedene Wörter umfassendes Basis­ vokabular E zu schaffen, wobei N eine ganze Zahl ist. Ein solches Basisvokabular umfaßt Wörter in der betreffenden Fremdsprache, die so ausgewählt sind, daß sie die verschiedenst möglichen Längen und Klänge haben. Anders ausgedrückt sind die Wörter des Basisvokabulars E vorzugsweise phonetisch verschieden.
Eine Methode zum Erzeugen dieses Basisvokabulars besteht darin, diese Wörter zufällig aus einem Wörterbuch mit beträchtlichem Umfang auszuwählen. Diese Aus­ wahl kann automatisch erfolgen, d. h. von einer adaptierten Software oder manuell. Gegebenenfalls können Wörter, die phonetisch anderen Wörtern des Vokabulars zu nahe sind, automatisch oder manuell unterdrückt werden.
Das Basisvokabular entspricht somit nicht zwangsläufig einem vollständigen Wörter­ buch in der Fremdsprache. Man sieht jedoch, daß, je größer N ist, desto besser die Resultate für den Benutzer sind, d. h. die Verläßlichkeit des Lehrsystems besser ist (ein verläßliches Lehrsystem ist ein Lehrsystem, das eine gleichmäßige Toleranz gegenüber Aussprachefehlern derselben Schwere aufweist). Indessen ist die notwen­ dige Rechenleistung um so bedeutender, je größer N ist. Ein Basisvokabular kann somit einige 10 bis einige 1000 verschiedener Worte umfassen, entsprechend der Rechenkapazität des Mikrorechners und entsprechend der erwarteten Verläßlichkeit des Lehrsystems.
Anzumerken ist, daß es keine besondere Verbindung zwischen den Wörtern des so erzeugten Basisvokabulars und den in den Bezugssätzen enthaltenen Wörtern gibt. Anders gesagt umfaßt das hier fragliche Basisvokabular nicht zwingend Wörter von Bezugssätzen. Das kann jedoch der Fall sein, wenn die Regeln der Auswahl der Wör­ ter des Basisvokabulars dies nicht ausschließen.
Der zweite Schritt besteht darin, für jedes bestimmte Wort Mi eines Bezugssatzes, der Q verschiedene Wörter hat (wobei Q eine ganze Zahl größer als 1 ist), ein spezifisches Vokabular EMi zu erzeugen, ausgehend vom Basisvokabular E, das in dem ersten Schritt erzeugt worden ist. Dies wird ausgeführt, indem man von diesem die Pi Wörter entnimmt, die phonetisch dem bestimmten Wort Mi am nächsten kommen (wobei Pi eine ganze Zahl ist, die kleiner als N ist und die Null sein kann).
Tatsächlich ist das System toleranter, wenn das spezifische Vokabular keine Wörter umfaßt, die phonetisch den Wörtern der Bezugssätze ähnlich sind. Anzumerken ist, daß man die Toleranz des Systems zum Lehren der Fremdsprache bezüglich eines ent­ sprechenden Wortes Mi verändern kann, indem man den Wert des Verhältnisses Pi/N verändert. Genauer gesagt, ist für einen gegebenen Wert N das System um so toleran­ ter, je größer Pi ist.
Dennoch ist dieser zweite Schritt nicht zwingend. Insbesondere in dem Fall, in dem das Basisvokabular kein Wort der Bezugssätze umfaßt, kann die Zahl Pi Null sein. In diesem Fall ist das System wenig tolerant.
Überdies ist bei einer vereinfachten Ausführungsform die Zahl Pi der vom Basisvoka­ bular entnommenen Wörter zum Bilden des spezifischen Vokabulars EMi, das mit einem Wort Mi vom Rang i des Bezugssatzes verbunden ist, gleich zu ein- und der­ selben Anzahl P für jedes Wort Mi des Bezugssatzes. Anders ausgedrückt ist Pi gleich P, wie auch immer i sein mag. Man spricht daher zur Bezeichnung des Verhältnisses P/N von der Gesamttoleranz des Lehrsystems.
Bei einer vorteilhaften Ausführungsart wird das spezifische Vokabular EMi iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung verwendet werden. Bei der ersten Iteration ist das Eingangsvokabular das Basisvokabular E, und der zu erkennende Satz wird mit dem korrekt ausgesprochenen Wort Mi gebildet. Die Vor­ richtung stellt dann das Wort des Basisvokabulars zur Verfügung, das phonetisch einem besonderen Wort Mi am nächsten kommt. Es kann sich dabei um das Wort Mi selbst handeln, wenn dieses in dem Basisvokabular E vorhanden war. Dieses nächst kommende Wort wird dann vom Eingangsvokabular unterdrückt, und die oben erwähnten Schritte werden Pi mal wiederholt, wobei bei jeder Iteration das Eingangs­ vokabular um ein Wort reduziert wird. Am Ende bildet das erhaltene Eingangsvoka­ bular das spezifische Vokabular EMi. Es wird in einer Datei für spezifische Vokabu­ lare gespeichert.
Ein dritter Schritt des Verfahrens besteht darin, ein aktives Vokabular zu erzeugen, welches den Bezugssatz und überdies andere Sätze umfaßt. Diese letzeren unterschei­ den sich von dem Bezugssatz durch die Bedeutung zumindest eines Wortes Mi von einem bestimmten Rang i im Satz. Jeder dieser Sätze ist einer von Alternativen des Bezugssatzes, der anstelle des Wortes Mi eines der Wörter des spezifischen Vokabu­ lars umfaßt, das mit diesem Wort Mi verbunden ist. Die unten stehenden Angaben sind für den einfachen Fall gegeben, in dem Pi = P, wie auch immer i sein mag. Sie lassen sich leicht auf andere Fälle verallgemeinern.
Bei einer ersten Ausführungsart ist das aktive Vokabular, das in dem dritten Schritt erzeugt wird, von einem ersten Typ, weil es von dem Bezugssatz und von sämtlichen Sätzen gebildet ist, die ausgehend von dem Bezugssatz erhalten sind, indem nachein­ ander jedes Wort Mi ersetzt worden ist, sukzessive durch N-Pi Wörter des spezifi­ schen Vokabulars EMi, das mit diesem Wort Mi verbunden ist.
In diesem Fall sind, wenn man mit EMi(j) die Wörter des spezifischen Vokabulars EMi bezeichnet (wobei j ein Index zwischen 1 und N-Pi ist), die Sätze des aktiven Voka­ bulars von der folgenden Art:
Ph1(i, j): M1M2. . .Mi-1EMi(j)Mi+1. . .MQ-1MQ
wobei i variiert von 1 bis Q
und j variiert von 1 bis N-Pi
Man kann überprüfen, daß das aktive Vokabular dann 1 + (N-P) × Q verschiedene Sätze umfaßt.
Bei einer zweiten Ausführungsweise ist das in dem dritten Schritt erzeugte Vokabular von einer zweiten Art, weil es von sämtlichen verschiedenen möglichen Kombinatio­ nen von Q Wörtern gebildet ist, wobei jedes Wort von einem bestimmten Rang i ent­ weder das Wort Mi entsprechend dem Bezugssatz oder irgendeines der Wörter des spezifischen Vokabulars EMi sein kann, das mit diesem Wort Mi verbunden ist.
In diesem Fall sind, wenn man mit EMi(j) die Wörter des spezifischen Vokabulars EMi (wobei j ein Index zwischen 1 und N-Pi ist) bezeichnet, und wenn man mit EMi(0) das Wort Mi bezeichnet, die Sätze des aktiven Vokabulars von der Art:
Ph2(i1, . . ., iQ): EM1(i1)EM2(i2). . .EMj(ij). . .EMQ(iQ)
mit i1, . . ., iQ veränderlich von 0 bis N-P.
Man kann überprüfen, daß das aktive Vokabular dann (1 + N - P)Q verschiedene Sätze umfaßt.
Die erste oben stehende Ausführungsart ermöglicht zugleich die Feststellung eines Fehlers bezüglich eines einzigen Wortes in dem Satz. Anders ausgedrückt ermöglicht das Verfahren daher, nur Aussprachefehler eines einzigen Wortes in einem Satz auf einmal festzustellen. Dies ist bei einfachen Sätzen ausreichend. Die zweite Ausfüh­ rungsart ist die leistungsfähigere, weil sie ermöglicht, gleichzeitig Fehler in jedem der Wörter des Satzes festzustellen. Jedoch erfordert sie eine ganz beträchtliche Rechen­ leistung und eine sehr leistungsfähige Vorrichtung zur Stimmerkennung. Wohlge­ merkt können Zwischenausführungen in Betracht gezogen werden, um Fehler irgend­ einer Anzahl von Worten des Satzes feststellen zu können.
Das aktive Vokabular wird in einem Speicher des Mikrorechners in der Form einer durch 2 Indexfelder indexierten Datei entsprechend den Indizes i und j (für ein Voka­ bular der ersten Art) oder durch Q Indexfelder entsprechend den Indizes i1 . . ., iQ (für ein Vokabular der zweiten Art) gespeichert.
Das Verfahren umfaßt schließlich einen vierten und letzten Schritt, der darin besteht, einen zu erkennenden Satz mit Sätzen des im dritten, vorausgehenden Schritt erzeug­ ten aktiven Vokabulars zu vergleichen, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und, ggf., in Abhängigkeit des so erkannten Satzes den Rang i eines fehlerhaften Wortes bezüglich des Bezugssatzes zu identifizieren. Bei der in Betracht gezogenen Anwendung ermöglicht dieser Schritt die Identifizierung des Ranges i, an dem sich ein Aus­ sprachefehlers eines Wortes befindet, und diese Identifikation wird in Abhängigkeit von dem von der Vorrichtung zur Spracherkennung erkannten Satz ausgeführt. Tat­ sächlich gibt es nur zwei bestimmte Fälle in Abhängigkeit von dem erkannten Satz.
  • - Entweder ist der erkannte Satz der Bezugssatz und dies bedeutet daher, daß es kei­ nen Aussprachefehler in dem Satz gibt;
  • - oder der erkannte Satz in ein anderer Satz des aktiven Vokabulars. Wenn das aktive Vokabular von der ersten Art ist (erste Ausführungsart) und der erkannte Satz der Satz Ph1(i, j), dann bedeutet dies, daß es einen Fehler in dem Wort Mi gibt (d. h., daß das Wort Mi fehlerhaft ist, weil es schlecht ausgesprochen worden ist). Wenn das aktive Vokabular von der zweiten Art ist (zweite Ausführungsart) und wenn der erkannte Satz der Satz Ph2(i1 . . ., iQ), dann bedeutet dies, daß es einen Fehler in jedem der Worte Mi1 bis MiQ gibt, die denjenigen der Indizes i1, . . ., iQ entsprechen, die nicht gleich Null sind.
Den erkannten Satz kennend, ist es tatsächlich einfach, diese Indizes durch Vergleich mit der Datei wiederzufinden, welche das aktive Vokabular enthält.
In den beiden Fällen sind die Bezugssätze dem System zum Lehren einer Fremd­ sprache bekannt (sie resultieren aus dem Entwurf der Software). In diesem Fall kön­ nen die ersten, zweiten und dritten Schritte vorab für jeden Bezugssatz durchgeführt werden (beispielsweise während des Entwurfs der Software oder aber während ihrer Installation im Mikrorechner oder aber zu Beginn jedes Laufes der Software). Das oder die entsprechenden aktiven Vokabulare sind in einem Speicher gespeichert, bei­ spielsweise mit der Software selbst (dieser Speicher kann von jedem geeigneten Datenträger gebildet sein, so wie von einer digitalen optischen Platte). Allein der vierte Schritt wird schließlich während des Laufes der Software durchgeführt. Er wird mehrfach wiederholt, einmal für jeden zu erkennenden Satz (d. h. normalerweise für jede Ausspracheübung).
Wie dies oben gesagt worden ist, kann man die allgemeine Toleranz des Lehrsystems verändern, indem man das Verhältnis P/N verändert. Für ein besonders tolerantes System, das für Anfänger geeignet ist, kann das Verhältnis P/N 10% bis 30% erreichen. Für ein Lehrsystem mit höherem Niveau, das es ermöglicht, subtile Aus­ sprachefehler festzustellen, ist die Toleranz gering. Das Verhältnis P/N ist dann gerin­ ger als 1%. Die Tatsache, ein Verhältnis Pi/N zu haben, das ggf für jedes Wort ver­ schieden ist, ermöglicht, die Feststellung von Aussprachefehlern allein auf bestimmte Wörter zu fokussieren, indem eine größere Toleranz für die anderen Wörter des Satzes ermöglicht wird. Die Tatsache jedoch, daß Pi = P, wie auch immer i sein mag, verein­ facht die Durchführung des Verfahrens.
Die Erfindung schlägt auch eine Vorrichtung zur Spracherkennung vor, insbesondere für ein Lehrsystem für eine Fremdsprache, welche Mittel zum Identifizieren des Rangs eines fehlerhaften Wortes in einem zu erkennenden Satz bezüglich eines Bezugssatzes umfaßt. Dies ermöglicht bei der in Betracht gezogenen Anwendung, einen Aussprachefehler in einem vom Benutzer ausgesprochenen Satz festzustellen und zu lokalisieren.
Die Vorrichtung zur Spracherkennung umfaßt Mittel zum Vergleichen des zu erken­ nenden Satzes mit Sätzen eines bestimmten Vokabulars, um denjenigen der Sätze des Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am ähnlichsten ist, um daraus ggf. den Rang eines fehlerhaften Wortes in diesem Satz abzuleiten. In die­ sem Fall kann die Vorrichtung ein Verfahren zur Spracherkennung so wie oben beschrieben durchführen. Auf vorteilhafte Weise wird das spezifische Vokabular EMi iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung benutzt werden.
Die Erfindung schlägt auch ein interaktives System zum Lehren einer Fremdsprache vor, welches eine solche Vorrichtung umfaßt. Gemäß einem Beispiel umfaßt das System über die Vorrichtung zur Spracherkennung hinaus eine oder mehrere der fol­ genden Elemente: einen Mikrorechner, eine Software, um diesen arbeiten zu lassen, ein Mikrofon, einen Bildschirm, eine Tastatur, eine Maus, Lautsprecher, eine Vor­ richtung zur Sprachsynthese, etc. . . . .

Claims (11)

1. Verfahren zur Spracherkennung, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es die folgenden Schritte umfaßt:
  • a) Erzeugen eines Basisvokabulars E umfassend N verschiedene Wörter, wobei N eine ganze Zahl ist;
  • b) für jedes bestimmte Worte Mi eines Bezugssatzes mit Q verschiedenen Wör­ tern, wobei Q eine ganze Zahl größer als 1 ist, Erzeugen eines spezifischen Vokabulars EMi ausgehend vom Basisvokabular E, indem aus diesem die Pi phonetisch zu dem Wort Mi nächstkommenden entnommen werden, wobei Pi eine ganze Zahl ist, die geringer als N ist und die Null sein kann;
  • c) Erzeugen eines aktiven Vokabulars, welches den Bezugssatz und überdies weitere Sätze umfaßt, die sich von dem Bezugssatz durch die Bedeutung zumindest eines Wortes Mi von bestimmten Rang i in dem Satz unterscheiden, wobei jeder dieser Sätze eine der Alternativen des Bezugssatzes ist, die an der Stelle des Wortes Mi eines der Worte des spezifischen Vokabulars umfaßt, das mit diesem Wort Mi verbunden ist;
  • d) Vergleichen eines zu erkennenden Satzes mit den Sätzen des aktiven Voka­ bulars, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phone­ tisch dem zu erkennenden Satz am nächsten ist, und, ggf., Identifizieren in Abhängigkeit von dem so erkannten Satz den Rang i eines fehlerhaften Wor­ tes im Vergleich mit dem Bezugssatz.
2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß das im Schritt c) erzeugte, aktive Vokabular von einem ersten Typ ist, in Anbetracht, daß es von dem Bezugssatz und sämtlichen ausgehend von dem Bezugssatz erhaltenen Sätzen gebildet ist, indem jedes Wort Mi, eines nach dem anderen, sukzessive durch N-Pi Wörter des spezifischen Vokabulars ersetzt ist, das mit diesem Wort Mi verbunden ist.
3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß das im Schritt c) erzeugte, aktive Vokabular von einer zweiten Art ist, weil es von sämtlichen bestimmten möglichen Kombinationen von Q-Wörtern gebildet ist, wobei jedes Wort von einem bestimmten Rang i entweder das Wort Mi entsprechend dem Bezugssatz oder irgendeines der Wörter des spezifischen Vokabulars sein kann, welches mit diesem Wort Mi verbunden ist.
4. Verfahren gemäß einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Schritte a) bis c) vorab für zumindest einen Bezugssatz durchgeführt werden, und daß der Schritt d) für mehrere zu erkennende Sätze wiederholt wird.
5. Verfahren gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Anzahl Pi der entnommenen Wörter des Basisvokabulars E, um das spezifische Vokabular EMi zu bilden, das mit dem Wort Mi von einem Rang i des Bezugs­ satzes verbunden ist, gleich ein- und derselben Anzahl P jedes Wortes Mi des Bezugssatzes ist.
6. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß das Verhältnis P/N 10% bis 30% erreichen kann.
7. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, das Verhältnis P/N unter 1% ist.
8. Vorrichtung zur Spracherkennung, insbesondere für ein System zum Lehren einer Fremdsprache, welches Mittel umfaßt, um den Rang eines bezüglich eines Bezugssatzes fehlerhaften Wortes in einem zu erkennenden Satz aufweist, dadurch gekennzeichnet, daß es ein Verfahren gemäß einem der Ansprüche 1 bis 7 durch­ führt.
9. Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, daß es Mittel zum Ver­ gleichen des zu erkennenden Satzes mit den Sätzen eines bestimmten Vokabulars umfaßt, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und daraus ggf. den Rang des feh­ lerhaften Wortes innerhalb dieses Satz abzuleiten.
10. Verfahren gemäß Anspruch 8 oder 9, dadurch gekennzeichnet, daß das spezifische Vokabular EMi iterativ erzeugt wird, indem Mittel zur Spracherkennung der Vor­ richtung angewendet werden.
11. Interaktives System zum Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es eine Vorrichtung gemäß einem der Ansprüche 8 bis 10 umfaßt.
DE2000110232 1999-03-05 2000-03-02 Verfahren und Vorrichtung zur Spracherkennung Expired - Fee Related DE10010232B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9902771A FR2790586B1 (fr) 1999-03-05 1999-03-05 Procede et dispositif de reconnaissance vocale
FR9902771 1999-03-05

Publications (2)

Publication Number Publication Date
DE10010232A1 true DE10010232A1 (de) 2000-10-26
DE10010232B4 DE10010232B4 (de) 2004-08-05

Family

ID=9542878

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000110232 Expired - Fee Related DE10010232B4 (de) 1999-03-05 2000-03-02 Verfahren und Vorrichtung zur Spracherkennung

Country Status (2)

Country Link
DE (1) DE10010232B4 (de)
FR (1) FR2790586B1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034355A2 (en) * 2002-10-07 2004-04-22 Carnegie Mellon University System and methods for comparing speech elements
AT414283B (de) * 2003-12-16 2006-11-15 Siemens Ag Oesterreich Verfahren zur optimierung von spracherkennungsprozessen

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206274A (zh) * 2015-10-30 2015-12-30 北京奇艺世纪科技有限公司 一种语音识别的后处理方法及装置和语音识别系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743B1 (de) * 1986-04-25 1993-08-04 Texas Instruments Incorporated Spracherkennungssystem
US5766015A (en) * 1996-07-11 1998-06-16 Digispeech (Israel) Ltd. Apparatus for interactive language training

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034355A2 (en) * 2002-10-07 2004-04-22 Carnegie Mellon University System and methods for comparing speech elements
WO2004034355A3 (en) * 2002-10-07 2004-05-27 Univ Carnegie Mellon System and methods for comparing speech elements
US7752045B2 (en) 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
AT414283B (de) * 2003-12-16 2006-11-15 Siemens Ag Oesterreich Verfahren zur optimierung von spracherkennungsprozessen

Also Published As

Publication number Publication date
FR2790586A1 (fr) 2000-09-08
FR2790586B1 (fr) 2001-05-18
DE10010232B4 (de) 2004-08-05

Similar Documents

Publication Publication Date Title
AT390685B (de) System zur textverarbeitung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE19708184A1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP0804788A1 (de) Verfahren zur spracherkennung
DE3853702T2 (de) Spracherkennung.
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
EP2034472A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE3732849A1 (de) System-architektur fuer ein akustisches mensch/maschine-dialogsystem
WO2020126217A1 (de) Verfahren, anordnung und verwendung zum erzeugen einer antwortausgabe in reaktion auf eine spracheingabeinformation
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE10131157C1 (de) Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme
DE102004048348B4 (de) Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
DE10253786B4 (de) Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben
DE10149141A1 (de) Verfahren zur Verarbeitung von Text und Rechnereinheit

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee