DE10010232B4

DE10010232B4 - Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number: DE10010232B4
Application number: DE2000110232
Authority: DE
Inventors: Bernard Gaston François Muller
Original assignee: AURALOG; AURALOG MONTIGNY LE BRETONNEUX
Current assignee: AURALOG; AURALOG MONTIGNY LE BRETONNEUX
Priority date: 1999-03-05
Filing date: 2000-03-02
Publication date: 2004-08-05
Anticipated expiration: 2020-03-03
Also published as: FR2790586A1; DE10010232A1; FR2790586B1

Abstract

Verfahren zur Spracherkennung, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es die folgenden Schritte umfaßt:
a) ein Basisvokabular (E) mit N verschiedenen Wörtern wird erzeugt,
b) für jedes bestimmte Wort (Mi) eines Bezugssatzes (Ph_R) mit Q verschiedenen Wörtern (Mi, 1 ≤ i ≤ Q wird aus dem Basisvokabular ein spezifisches Vokabular (E_Mi) erzeugt, das sich vom Basisvokabular (E) darin unterscheidet, daß dem Basisvokabular (E) eine Anzahl von P_i phonetisch zu dem Wort (Mi) nächstkommenden Wörtern fehlt, so daß dieses spezifische Vokabular N-P_i Wörter enthält,
c) weitere Sätze werden aus dem Bezugssatz als Alternative zu diesem erzeugt, wobei bei jedem der weiteren Sätze an die Stelle mindestens eines der Wörter M_i eines der N-P_i Wörter des zugehörigen spezifischen Vokabulars (E_Mi) gesetzt ist,
d) ein zu erkennender Satz wird mit den weiteren Sätzen und dem Bezugssatz (Ph_R) verglichen, um denjenigen Satz zu finden,...

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren und auf eine Vorrichtung zur Spracherkennung.
Die Erfindung betrifft das Gebiet der Spracherkennung. Sie ist bei jeder Vorrichtung zur Spracherkennung anwendbar, die am Eingang eine Gesamtheit (oder ein Vokabular) von vorbestimmten Sätzen sowie einen zu erkennenden Satz annimmt (wobei der Begriff „Satz" in einem weiten Sinn verstanden werden muß und insbesondere ein Wort oder eine Zusammenstellung von Wörtern bezeichnet), und am Ausgang einen erkannten Satz liefert, wobei dieser derjenige Satz aus dem Vokabular ist, der dem zu erkennenden Satz phonetisch am nächsten kommt.
Solche Vorrichtungen umfassen gegenständliche (elektronische) Einrichtungen, Software oder beides, beispielsweise sind sie in Mikrocomputern vorhanden. Sie werden dann von Software verwendet, welche eine Spracherkennungsfunktion hat, beispielsweise für die Erfassung von Texten oder Befehlen des Benutzers.

Aus EP 0242743 B1 , ist entspricht der DE 37 86 822 T2 ist ein Spracherkennungssystem bekannt, das ein eingehendes Sprachsignal in Worthypothesen umsetzt. Die Worthypothesen werden nachfolgend durch eine Satzerkennungseinheit verarbeitet. Hierbei wird die Spracherkennung bereits auf grammatikalisch als richtig erkannte Sätze begrenzt. Für die sich aus den Worthypothesen ergebenen Satzhypothesen wird nun ein Wert einer vorgegebenen Fehlerfunktion bestimmt. Die Fehlerfunktion gibt einen Fehlerwert für die Satzhypothese bezogen auf den aufgenommenen Satz an. Erkannt wird schließlich der Satz, der den geringsten Fehlerwert aufweist. Das Modell ist insbesondere geeignet, um Überlappungs- und Auslassungsfehler zu überbrücken.

Aus WO 98/02862 A1 ist ein interaktiver Sprachtrainer bekannt. Bei diesem Sprachtrainer ist eine Vielzahl von Referenzen bereits abgelegt, die sich in verschiedene Gruppen unterteilen, wobei eine erste Gruppe Antworten mit einer akzeptablen Aussprache enthält. Die zweite Gruppe enthält verschiedene Aussprachefehler. Die gesprochene Sprache wird bei dem Sprachtrainer mit den Referenzsätzen erster und zweiter Art verglichen, wobei zur Verbesserung auch Kombinationen der Referenzsätze eingesetzt werden. Bei dem Sprachtrainer sind nach Möglichkeit sämtliche möglichen Aussprachefehler bereits vorher verfaßt, so daß, wenn ein Fehler erkannt wird, anhand der Referenzsätze angegeben werden kann, welcher Aussprachefehler vorliegt. Nicht erkennen kann der Benutzer aber, in welchem Wort der Aussprachefehler erfolgte, so daß gerade bei längeren Sätzen der Benutzer nicht weiß, in welchem Wort der Aussprachefehler auftrat.

Insbesondere betrifft die Erfindung für interaktive Systeme zum Lehren einer Fremdsprache. Ein solches System umfaßt einen Mikrocomputer mit einer Vorrichtung insbesondere zur Spracherkennung und externen Geräten (Bildschirmen, Tastatur, Maus, Mikrofon, Lautsprecher, etc. ...) sowie einer Software, damit der Mikrocomputer die Befehle eines Benutzers ausführt. Auch kommen andere Verwendungen des erfindungsgemäßen Prinzips in Betracht.

Der Benutzer eines interaktiven Systems zum Lehren einer Fremdsprache muß gemäß bestimmten praktischen Übungen bestimmte Sätze in der Fremdsprache sprechen. Beispielsweise besteht eine herkömmliche Übung darin, laut einen Satz zu lesen oder zu wiederholen, der vorgegeben wurde, jeweils in sichtbarer Form (auf dem Bildschirm des Mikrocomputers) oder hörbar (mit Hilfe einer Vorrichtung zur Stimmerzeugung des Mikrocomputers). Bei anderen Übungen muß der Benutzer laut auf eine Frage antworten, die ihm in sichtbarer oder hörbarer Form gestellt wurde, wobei die erhaltene Antwort im allgemeinen eine zuvor mittels eines Beispiels bestimmte Struktur hat.

Ein so vom Benutzer gesprochener Satz ist ein zu erkennender Satz, der dem Eingang der Vorrichtung zur Spracherkennung zur Verfügung gestellt wird. Diese umfaßt Mittel zum Erzeugen eines erkannten Satzes, so wie weiter oben dargelegt. Der erkannte Satz wird mit einem Bezugssatz verglichen. Dieser Bezugssatz ist der bei korrekter Aus sprache in der Fremdsprache erwartete Satz. Im Fall der Gleichheit setzt die Software die Ausführung fort, um die nachfolgende Übung zu beginnen. Im anderen Fall kann die Software den Benutzer dazu einladen, denselben Satz erneut zu sprechen, um seine Aussprache zu verbessern.

Indessen weiß der Benutzer im allgemeinen nicht, inwiefern seine erste Aussprache fehlerhaft war. Er kann somit nicht immer verstehen, in welchem(n) Teilen) des Satzes er seine Sprache verbessern muß.

Eine Lösung besteht darin, den erkannten Satz auf dem Bildschirm des Mikrocomputers zu zeigen, um zu ermöglichen, daß sich der Benutzer selbst klar über die Art und Weise wird, in der die Vorrichtung zur Spracherkennung (fälschlicherweise) den Satz verstanden hat, den er gesprochen hat. Dennoch ist die Interpretation des erkannten Satzes durch den Benutzer nicht leicht, besonders wenn der zu sprechende Satz lang ist. Deshalb ermöglichen die bekannten Systemen zum Lehren einer Fremdsprache im allgemeinen nicht das Sprechen von langen Sätzen.

Die Aufgabe der Erfindung ist es, das Feststellen und Lokalisieren eines Fehlers bezüglich eines oder mehrerer bestimmter Worte eines von der Vorrichtung zur Spracherkennung erkannten Satzes zu ermöglichen, insbesondere im Hinblick darauf, bei interaktiven Systemen zum Lehren der Aussprache einer Fremdsprache relativ lange Sätze zu ermöglichen.

Dieses Ziel wird erfindungsgemäß mit einem Verfahren zur Spracherkennung gemäß Anspruch 1 erreicht, welches die folgenden Schritte umfaßt:

a) Erzeugen eines Basisvokabulars E mit N verschiedenen Wörtern, wobei N eine ganze Zahl ist;
b) Für jedes bestimmte Wort Mi eines Bezugssatzes (Ph_R) mit Q verschiedenen Wörtern (M_i, 1 ≤ i ≤ Q), wobei Q eine ganze Zahl größer als 1 ist, Erzeugen eines spezifischen Vokabulars E_Mi, das sich von dem Basisvokabular E darin unterscheidet, daß dem Basisvokabular eine Anzahl von Pi: phonetisch zu dem Wort (Mi) nächstkommenden Wörtern fehlt, so daß dieses spezifische Vokabular N-Pi Wörter enthält
c) weitere Sätze werden aus dem Bezugssatz als Alternative zu diesem erzeugt, wobei bei jedem der weiteren Sätze an die Stelle mindestens eines der Wörter M_i eines der N-P_i Wörter des zugehörigen spezifischen Vokabulars (E_Mi) gesetzt ist,
d) ein zu erkennender Satz wird mit den weiteren Sätzen und dem Bezugssatz (Ph_R) verglichen, um denjenigen Satz zu finden, der dem zu erkennenden Satz phonetisch am nächsten ist, und
e) in dem Fall, daß der so erkannte Satz von dem Bezugssatz abweicht, wird mindestens ein gegenüber dem Bezugssatz abweichendes Wort identifiziert.

Auf diese Weise ist es möglich, zumindest einen Fehler im Vergleich zu einem Bezugssatz festzustellen, bezüglich zumindest eines besonderen Wortes in dem vom Benutzer gesprochenen Satz (d. h. in dem zu erkennenden Satz). Diese Lokalisierung ergibt die Identifikation des Ranges i des (oder der) fehlerhaften Wortes (oder Wörter) im erkannten Satz. So kann im Fall eines interaktiven Systems zum Lehren einer Fremdsprache ein evtl. Aussprachefehler von zumindest einem besonderen Wort in dem Satz dem Benutzer angezeigt werden, damit dieser ganz besonders seine Aussprache dieses Wortes verbessert.

Überdies kann man, indem man den Wert des Verhältnisses Pi/N verändert, die Toleranz des Systems zum Lehren der Fremdsprache bezüglich des entsprechenden Wortes Mi verändern. Unter Toleranz versteht man die Eigenschaften der Software, geringe Aussprachefehler nicht zu berücksichtigen, d. h. die Eigenschaft, einen Satz als korrekt ausgesprochen zu betrachten, obgleich er tatsächlich nur unvollkommen gewesen ist. Eine bestimmte Toleranz wird als eine gute Eigenschaft eines Systems zum Lehren einer Fremdsprache angesehen.

Weitere Merkmale und Vorteile der Erfindung ergeben sich beim Lesen der nachfolgenden detaillierten Beschreibung.

In der folgenden Beschreibung ist als nicht begrenzendes Anwendungsbeispiel ein System zum Lehren einer Fremdsprache betrachtet worden. Ein solches System umfaßt eine Software, die auf einem Mikrocomputer unter den Befehlen eines Benutzers ausgeführt wird. Während des Gebrauchs spricht dieser laut Sätze, die erkannt werden müssen, um sie mit Bezugssätzen zu vergleichen.
Ein vom Benutzer gesprochener Satz wird mit Hilfe eines Mikrofons in ein elektrisches Signal umgewandelt. Dieses elektrische Signal wird ggf. verstärkt. Dann wird es mittels eines Analog-Digital-Wandlers in digitale Daten umgewandelt. Diese Daten werden mittels einer Vorrichtung zur Spracherkennung des Mikrocomputers verarbeitet. Eine solche Vorrichtung ist beispielsweise eine Software, die auf dem Mikrocomputer ausgeführt wird. Anzumerken ist, daß bei manchen Anwendungen die entsprechenden digitalen Daten in einer Eingangsdatei der Vorrichtung zur Spracherkennung plaziert werden können. Bei einer Abwandlung kann die Erkennungsvorrichtung eine hierfür ausgelegte, elektronische Schaltung sein.
Ein Bezugssatz Ph_R umfaßt beispielsweise Q Wörter (wobei Q eine ganze Zahl größer als 1 ist) und zeigt sich in der folgenden Form (wobei man von der Zeichensetzung abgesehen hat):
Ph_R: M₁ M₂ M₃ ... M_Q–i MQ
Das erfindungsgemäße Verfahren zur Spracherkennung umfaßt im wesentlichen vier Hauptschritte.
Der erste Schritt besteht darin, ein N verschiedene Wörter umfassendes Basisvokabular E zu schaffen, wobei N eine ganze Zahl ist. Ein solches Basisvokabular umfaßt Wörter in der betreffenden Fremdsprache, die so ausgewählt sind, daß sie die verschiedenst möglichen Längen und Klänge haben. Anders ausgedrückt, die Wörter des Basisvokabulars E sind vorzugsweise phonetisch verschieden.
Eine Methode zum Erzeugen dieses Basisvokabulars besteht darin, diese Wörter zufällig aus einem Wörterbuch mit beträchtlichem Umfang auszuwählen. Diese Auswahl kann automatisch erfolgen, d. h. von einer adaptierten Software oder manuell. Gegebenenfalls können Wörter, die phonetisch anderen Wörtern des Vokabulars zu nahe sind, automatisch oder manuell unterdrückt werden.
Das Basisvokabular entspricht somit nicht zwangsläufig einem vollständigen Wörterbuch in der Fremdsprache. Je größer jedoch N ist, desto besser sind die Resultate für den Benutzer, d. h. die Verläßlichkeit des Lehrsystems verbessert sich (ein verläßliches Lehrsystem ist ein Lehrsystem, das eine gleichmäßige Toleranz gegenüber Aussprachefehlern derselben Schwere aufweist). Indessen ist die notwendige Rechenleistung um so bedeutender, je größer N ist. Ein Basisvokabular kann somit einige 10 bis einige 1000 verschiedener Worte umfassen, entsprechend der Rechenkapazität des Mikrocomputers und entsprechend der erwarteten Verläßlichkeit des Lehrsystems.
Anzumerken ist, daß es keine besondere Verbindung zwischen den Wörtern des so erzeugten Basisvokabulars und den in den Bezugssätzen enthaltenen Wörtern gibt. Anders gesagt umfaßt das hier fragliche Basisvokabular nicht zwingend Wörter von Bezugssätzen. Das kann jedoch der Fall sein, wenn die Regeln zur Auswahl der Wörter des Basisvokabulars dies nicht ausschließen.
Der zweite Schritt besteht darin, für jedes bestimmte Wort Mi eines Bezugssatzes, der Q verschiedene Wörter hat (wobei Q eine ganze Zahl größer als 1 ist), ein spezifisches Vokabular E_Mi zu erzeugen, ausgehend von dem im ersten Schritt erzeugten Basisvo kabular E. Dies wird ausgeführt, indem dem Basisvokabular die Pi Wörter entnommen werden, die phonetisch dem bestimmten Wort Mi am nächsten kommen (wobei Pi eine ganze Zahl ist, die kleiner als N ist und die Null sein kann).
Tatsächlich ist das System toleranter, wenn das spezifische Vokabular keine Wörter umfaßt, die phonetisch den Wörtern der Bezugssätze ähnlich sind. Anzumerken ist, daß man die Toleranz des Systems zum Lehren der Fremdsprache bezüglich eines entsprechenden Wortes Mi verändern kann, indem man den Wert des Verhältnisses Pi/N verändert. Genauer gesagt, ist für einen gegebenen Wert N das System um so toleranter, je größer Pi ist.
Dennoch ist dieser zweite Schritt nicht zwingend. Insbesondere in dem Fall, in dem das Basisvokabular kein Wort der Bezugssätze umfaßt, kann die Zahl Pi Null sein. In diesem Fall ist das System wenig tolerant.
Überdies ist bei einer vereinfachten Ausführungsform die Zahl Pi der vom Basisvokabular entnommenen Wörter zum Bilden des spezifischen Vokabulars E_Mi, das mit einem Wort Mi vom Rang i des Bezugssatzes verbunden ist, gleich zu genau einer Zahl P für jedes Wort Mi des Bezugssatzes. Anders ausgedrückt ist Pi gleich P, wie auch immer i sein mag. Man spricht daher zur Bezeichnung des Verhältnisses P/N von der Gesamttoleranz des Lehrsystems.
Bei einer vorteilhaften Ausführungsart wird das spezifische Vokabular E_Mi iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung verwendet werden. Bei der ersten Iteration ist das Eingangsvokabular das Basisvokabular E, und der zu erkennende Satz wird mit dem korrekt ausgesprochenen Wort Mi gebildet. Die Vorrichtung stellt dann das Wort des Basisvokabulars zur Verfügung, das phonetisch einem besonderen Wort Mi am nächsten kommt. Es kann sich dabei um das Wort Mi selbst handeln, wenn dieses in dem Basisvokabular E vorhanden war. Dieses nächst kommende Wort wird dann vom Eingangsvokabular unterdrückt, und die oben erwähnten Schritte werden Pi mal wiederholt, wobei bei jeder Iteration das Eingangsvokabular um ein Wort reduziert wird. Am Ende bildet das erhaltene Eingangsvokabular das spezifische Vokabular E_Mi. Es wird in einer Datei für spezifische Vokabulare gespeichert.
Ein dritter Schritt des Verfahrens besteht darin, ein aktives Vokabular (weitere Sätze) zu erzeugen, welches den Bezugssatz und überdies andere Sätze umfaßt. Diese letzeren unterscheiden sich von dem Bezugssatz durch die Bedeutung zumindest eines Wortes Mi mit einem bestimmten Rang (Position) i im Satz. Jeder dieser Sätze ist einer von Alternativen des Bezugssatzes, der anstelle des Wortes Mi eines der Wörter des spezifischen Vokabulars umfaßt, das mit diesem Wort Mi verbunden ist. Die unten stehenden Angaben sind für den einfachen Fall gegeben, in dem Pi = P, wie auch immer i sein mag. Sie lassen sich leicht auf andere Fälle verallgemeinern.
Bei einer ersten Ausführungsart ist das aktive Vokabular, das in dem dritten Schritt erzeugt wird, von einem ersten Typ, weil es von dem Bezugssatz und von sämtlichen Sätzen gewonnen wird, die ausgehend von dem Bezugssatz erhalten wurden, indem nacheinander jedes Wort Mi ersetzt worden ist, sukzessive durch N-Pi Wörter des spezifischen Vokabulars E_Mi, das mit diesem Wort Mi verbunden ist.
In diesem Fall sind, wenn man mit E_Mi (j) die Wörter des spezifischen Vokabulars E_Mi bezeichnet (wobei j ein Index zwischen 1 und N-Pi ist), die Sätze des aktiven Vokabulars von der folgenden Art:
Ph₁ (i,j) : M₁ M₂ ... M_i–1 E_Mi (j) M_i+1 ... M_Q–1 MQ
wobei i variiert von 1 bis Q
und j variiert von 1 bis N-Pi
Man kann überprüfen, daß das aktive Vokabular dann 1 + (N – P) × Q verschiedene Sätze umfaßt.
Bei einer zweiten Ausführungsweise ist das in dem dritten Schritt erzeugte Vokabular von einer zweiten Art, weil es aus sämtlichen verschiedenen möglichen Kombinationen von Q Wörtern gebildet ist, wobei jedes Wort mit einem bestimmten Rang i entweder das Wort Mi entsprechend dem Bezugssatz oder irgendeines der Wörter des spezifischen Vokabulars E_Mi sein kann, das mit diesem Wort Mi verbunden ist.
In diesem Fall sind, wenn man mit E_Mi(j) die Wörter des spezifischen Vokabulars E_Mi (wobei j ein Index zwischen 1 und N-Pi ist) bezeichnet, und wenn man mit E_Mi(0) das Wort Mi bezeichnet, die Sätze des aktiven Vokabulars von der An:
Ph₂ (i₁,..., i_Q) : E_M1(i₁) E_M2(i₂) ... E_Mj(i_j) ... E_MQ(i_Q)
mit i₁,..., i_Q veränderlich von 0 bis N-P.
Man kann überprüfen, daß das aktive Vokabular dann (1 + N – P)^Q verschiedene Sätze umfaßt.
Die erste oben stehende Ausführungsart ermöglicht zugleich die Feststellung eines Fehlers bezüglich eines einzigen Wortes in dem Satz. Anders ausgedrückt ermöglicht das Verfahren daher, nur Aussprachefehler eines einzigen Wortes in einem Satz auf einmal festzustellen. Dies ist bei einfachen Sätzen ausreichend. Die zweite Ausführungsart ist die leistungsfähigere, weil sie ermöglicht, gleichzeitig Fehler in jedem der Wörter des Satzes festzustellen. Jedoch erfordert sie eine ganz beträchtliche Rechenleistung und eine sehr leistungsfähige Vorrichtung zur Stimmerkennung. Wohlgemerkt können Zwischenausführungen in Betracht gezogen werden, um Fehler irgendeiner Anzahl von Worten des Satzes feststellen zu können.
Das aktive Vokabular wird in einem Speicher des Mikrocomputers in der Form einer durch 2 Indexfelder indexierten Datei entsprechend den Indizes i und j (für ein Vokabular der ersten An) oder durch Q Indexfelder entsprechend den Indizes i₁ ..., i_Q (für ein Vokabular der zweiten An) gespeichert.
Das Verfahren umfaßt schließlich einen vierten und letzten Schritt, der darin besteht, einen zu erkennenden Satz mit Sätzen des im dritten, vorausgehenden Schritt erzeugten aktiven Vokabulars zu vergleichen, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und, ggf., in Abhängigkeit des so erkannten Satzes den Rang i eines fehlerhaften Wortes bezüglich des Bezugssatzes zu identifizieren. Bei der in Betracht gezogenen Anwendung ermöglicht dieser Schritt die Identifizierung des Ranges i, an dem sich ein Aussprachefehler eines Wortes befindet, und diese Identifikation wird in Abhängigkeit von dem von der Vorrichtung zur Spracherkennung erkannten Satz ausgeführt. Tatsächlich gibt es nur zwei bestimmte Fälle in Abhängigkeit von dem erkannten Satz.

– Entweder sind der erkannte Satz und der Bezugssatz gleich, dies bedeutet, daß es keinen Aussprachefehler in dem Satz gibt;
– oder der erkannte Satz ist ein anderer Satz des aktiven Vokabulars. Wenn das aktive Vokabular von der ersten Art ist (erste Ausführungsart) und der erkannte Satz der Satz Ph₁(i, j), dann bedeutet dies, daß es einen Fehler in dem Wort Mi gibt (d. h., daß das Wort Mi fehlerhaft ist, weil es schlecht ausgesprochen worden ist). Wenn das aktive Vokabular von der zweiten Art ist (zweite Ausführungsart) und wenn der erkannte Satz der Satz Ph₂(i₁ ..., iQ), dann bedeutet dies, daß es einen Fehler in jedem der Worte Mi, bis Mi_Q gibt, die denjenigen der Indizes i₁,..., i_Q entsprechen, die nicht gleich Null sind.

Den erkannten Satz kennend, ist es tatsächlich einfach, diese Indizes durch Vergleich mit der Datei wiederzufinden, welche das aktive Vokabular enthält.
In den beiden Fällen sind die Bezugssätze dem System zum Lehren einer Fremdsprache bekannt (sie resultieren aus dem Entwurf der Software). In diesem Fall können die ersten, zweiten und dritten Schritte vorab für jeden Bezugssatz durchgeführt werden (beispielsweise während des Entwurfs der Software oder aber während ihrer Installation im Mikrocomputer oder aber zu Beginn jedes Laufes der Software). Das oder die entsprechenden aktiven Vokabulare sind in einem Speicher gespeichert, beispielsweise mit der Software selbst (dieser Speicher kann von jedem geeigneten Datenträger gebildet sein, so wie von einer digitalen optischen Platte). Allein der vierte Schritt wird schließlich während des Laufes der Software durchgeführt. Er wird mehrfach wiederholt, einmal für jeden zu erkennenden Satz (d. h. normalerweise für jede Ausspracheübung).
Wie oben gesagt , kann die allgemeine Toleranz des Lehrsystems geändert werden, indem das Verhältnis P/N verändert wird. Für ein besonders tolerantes System, das für Anfänger geeignet ist, kann das Verhältnis P/N 10 % bis 30 % erreichen. Für ein Lehrsystem mit höherem Niveau, das es ermöglicht, subtile Aussprachefehler festzustellen, ist die Toleranz gering. Das Verhältnis P/N ist dann geringer als 1 %. Die Tatsache, ein Verhältnis Pi/N zu haben, das ggf. für jedes Wort verschieden ist, ermöglicht, die Feststellung von Aussprachefehlern allein auf bestimmte Wörter zu fokussieren, indem eine größere Toleranz für die anderen Wörter des Satzes ermöglicht wird. Die Tatsache jedoch, daß Pi = P, wie auch immer i sein mag, vereinfacht die Durchführung des Verfahrens.
Die Erfindung schlägt auch eine Vorrichtung zur Spracherkennung vor, insbesondere für ein Lehrsystem für eine Fremdsprache, welche Mittel zum Identifizieren des Rangs eines fehlerhaften Wortes in einem zu erkennenden Satz bezüglich eines Bezugssatzes umfaßt. Dies ermöglicht bei der in Betracht gezogenen Anwendung, einen Aussprachefehler in einem vom Benutzer ausgesprochenen Satz festzustellen und zu lokalisieren.
Die Vorrichtung zur Spracherkennung umfaßt Mittel zum Vergleichen des zu erkennenden Satzes mit Sätzen eines bestimmten Vokabulars, um denjenigen der Sätze des Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am ähnlichsten ist, um daraus ggf. den Rang eines fehlerhaften Wortes in diesem Satz abzuleiten. In diesem Fall kann die Vorrichtung ein Verfahren zur Spracherkennung so wie oben beschrieben durchführen. Auf vorteilhafte Weise wird das spezifische Vokabular E_Mi iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung benutzt werden.
Die Erfindung schlägt auch ein interaktives System zum Lehren einer Fremdsprache vor, welches eine solche Vorrichtung umfaßt. Gemäß einem Beispiel umfaßt das System über die Vorrichtung zur Spracherkennung hinaus eine oder mehrere der folgenden Elemente: einen Mikrocomputer, eine Software, um diesen arbeiten zu lassen, ein Mikrofon, einen Bildschirm, eine Tastatur, eine Maus, Lautsprecher, eine Vorrichtung zur Sprachsynthese, etc. ....

Claims

Verfahren zur Spracherkennung, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es die folgenden Schritte umfaßt: a) ein Basisvokabular (E) mit N verschiedenen Wörtern wird erzeugt, b) für jedes bestimmte Wort (Mi) eines Bezugssatzes (Ph_R) mit Q verschiedenen Wörtern (Mi, 1 ≤ i ≤ Q wird aus dem Basisvokabular ein spezifisches Vokabular (E_Mi) erzeugt, das sich vom Basisvokabular (E) darin unterscheidet, daß dem Basisvokabular (E) eine Anzahl von P_i phonetisch zu dem Wort (Mi) nächstkommenden Wörtern fehlt, so daß dieses spezifische Vokabular N-P_i Wörter enthält, c) weitere Sätze werden aus dem Bezugssatz als Alternative zu diesem erzeugt, wobei bei jedem der weiteren Sätze an die Stelle mindestens eines der Wörter M_i eines der N-P_i Wörter des zugehörigen spezifischen Vokabulars (E_Mi) gesetzt ist, d) ein zu erkennender Satz wird mit den weiteren Sätzen und dem Bezugssatz (Ph_R) verglichen, um denjenigen Satz zu finden, der dem zu erkennenden Satz phonetisch am nächsten ist, und e) in dem Fall, daß der so erkannte Satz von dem Bezugssatz abweicht, wird mindestens ein gegenüber dem Bezugssatz abweichendes Wort identifiziert.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die in Schritt c) gebildeten weiteren Sätze von einem ersten Typ sind, bei dem der Bezugssatz und sämtliche ausgehend von dem Bezugssatz erhaltenen Sätze gebildet werden, indem jedes Wort Mi, eines nach dem anderen, sukzessive durch N-Pi Wörter des mit diesem Wort Mi verbunden spezifischen Vokabulars E_Mi ersetzt wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die in Schritt c) gebildeten weiteren Sätze von einem zweiten Typ sind, bei dem sämtliche möglichen Kombinationen von Q-Wörtern gebildet wird und jedes Wort mit einem bestimmten Rang i entweder durch das Wort Mi entsprechend dem Bezugssatz oder durch irgendeines der Wörter des mit dem Wort Mi verbundenen spezifischen Vokabulars ersetzt wird.
Verfahren gemäß einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Schritte a) bis c) vorab für zumindest einen Bezugssatz durchgeführt werden, und daß der Schritt d) für mehrere zu erkennende Sätze wiederholt wird.
Verfahren gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Anzahl Pi der entnommenen Wörter des Basisvokabulars E, um das spezifische Vokabular E_Mi zu bilden, das mit dem Wort Mi mit Rang i des Bezugssatzes verbanden ist, für jedes Wortes Mi des Bezugssatzes gleich der Anzahl P ist.
Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß das Verhältnis P/N 10 % bis 30 % erreichen kann.
Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, das Verhältnis P/N unter 1 ist.
Vorrichtung zur Spracherkennung, insbesondere für ein System zum Lehren einer Fremdsprache, welches Mittel umfaßt, um in einem zu erkennenden Satz ein fehlerhaftes Wort bezüglich eines Bezugssatzes aufzuzeigen, dadurch gekennzeichnet, daß es ein Verfahren gemäß einem der Ansprüche 1 bis 7 durchführt.
Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, daß es Mittel zum Vergleichen des zu erkennenden Satzes mit den Sätzen eines bestimmten Vokabulars umfaßt, um denjenigen Satz aus diesem Vokabular zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und für diesen den Rang des fehlerhaften Wortes innerhalb des Satzes abzuleiten.
Vorrichtung gemäß Anspruch 8 oder 9, dadurch gekennzeichnet, daß iterative Mittel zur Erzeugung des spezifischen Vokabulars E_Mi vorgesehen sind.