DE10010232B4 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung Download PDF

Info

Publication number
DE10010232B4
DE10010232B4 DE2000110232 DE10010232A DE10010232B4 DE 10010232 B4 DE10010232 B4 DE 10010232B4 DE 2000110232 DE2000110232 DE 2000110232 DE 10010232 A DE10010232 A DE 10010232A DE 10010232 B4 DE10010232 B4 DE 10010232B4
Authority
DE
Germany
Prior art keywords
sentence
vocabulary
word
words
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2000110232
Other languages
English (en)
Other versions
DE10010232A1 (de
Inventor
Bernard Gaston François Muller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AURALOG
AURALOG MONTIGNY LE BRETONNEUX
Original Assignee
AURALOG
AURALOG MONTIGNY LE BRETONNEUX
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AURALOG, AURALOG MONTIGNY LE BRETONNEUX filed Critical AURALOG
Publication of DE10010232A1 publication Critical patent/DE10010232A1/de
Application granted granted Critical
Publication of DE10010232B4 publication Critical patent/DE10010232B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zur Spracherkennung, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es die folgenden Schritte umfaßt:
a) ein Basisvokabular (E) mit N verschiedenen Wörtern wird erzeugt,
b) für jedes bestimmte Wort (Mi) eines Bezugssatzes (PhR) mit Q verschiedenen Wörtern (Mi, 1 ≤ i ≤ Q wird aus dem Basisvokabular ein spezifisches Vokabular (EMi) erzeugt, das sich vom Basisvokabular (E) darin unterscheidet, daß dem Basisvokabular (E) eine Anzahl von Pi phonetisch zu dem Wort (Mi) nächstkommenden Wörtern fehlt, so daß dieses spezifische Vokabular N-Pi Wörter enthält,
c) weitere Sätze werden aus dem Bezugssatz als Alternative zu diesem erzeugt, wobei bei jedem der weiteren Sätze an die Stelle mindestens eines der Wörter Mi eines der N-Pi Wörter des zugehörigen spezifischen Vokabulars (EMi) gesetzt ist,
d) ein zu erkennender Satz wird mit den weiteren Sätzen und dem Bezugssatz (PhR) verglichen, um denjenigen Satz zu finden,...

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und auf eine Vorrichtung zur Spracherkennung.
  • Die Erfindung betrifft das Gebiet der Spracherkennung. Sie ist bei jeder Vorrichtung zur Spracherkennung anwendbar, die am Eingang eine Gesamtheit (oder ein Vokabular) von vorbestimmten Sätzen sowie einen zu erkennenden Satz annimmt (wobei der Begriff „Satz" in einem weiten Sinn verstanden werden muß und insbesondere ein Wort oder eine Zusammenstellung von Wörtern bezeichnet), und am Ausgang einen erkannten Satz liefert, wobei dieser derjenige Satz aus dem Vokabular ist, der dem zu erkennenden Satz phonetisch am nächsten kommt.
  • Solche Vorrichtungen umfassen gegenständliche (elektronische) Einrichtungen, Software oder beides, beispielsweise sind sie in Mikrocomputern vorhanden. Sie werden dann von Software verwendet, welche eine Spracherkennungsfunktion hat, beispielsweise für die Erfassung von Texten oder Befehlen des Benutzers.
  • Aus EP 0242743 B1 , ist entspricht der DE 37 86 822 T2 ist ein Spracherkennungssystem bekannt, das ein eingehendes Sprachsignal in Worthypothesen umsetzt. Die Worthypothesen werden nachfolgend durch eine Satzerkennungseinheit verarbeitet. Hierbei wird die Spracherkennung bereits auf grammatikalisch als richtig erkannte Sätze begrenzt. Für die sich aus den Worthypothesen ergebenen Satzhypothesen wird nun ein Wert einer vorgegebenen Fehlerfunktion bestimmt. Die Fehlerfunktion gibt einen Fehlerwert für die Satzhypothese bezogen auf den aufgenommenen Satz an. Erkannt wird schließlich der Satz, der den geringsten Fehlerwert aufweist. Das Modell ist insbesondere geeignet, um Überlappungs- und Auslassungsfehler zu überbrücken.
  • Aus WO 98/02862 A1 ist ein interaktiver Sprachtrainer bekannt. Bei diesem Sprachtrainer ist eine Vielzahl von Referenzen bereits abgelegt, die sich in verschiedene Gruppen unterteilen, wobei eine erste Gruppe Antworten mit einer akzeptablen Aussprache enthält. Die zweite Gruppe enthält verschiedene Aussprachefehler. Die gesprochene Sprache wird bei dem Sprachtrainer mit den Referenzsätzen erster und zweiter Art verglichen, wobei zur Verbesserung auch Kombinationen der Referenzsätze eingesetzt werden. Bei dem Sprachtrainer sind nach Möglichkeit sämtliche möglichen Aussprachefehler bereits vorher verfaßt, so daß, wenn ein Fehler erkannt wird, anhand der Referenzsätze angegeben werden kann, welcher Aussprachefehler vorliegt. Nicht erkennen kann der Benutzer aber, in welchem Wort der Aussprachefehler erfolgte, so daß gerade bei längeren Sätzen der Benutzer nicht weiß, in welchem Wort der Aussprachefehler auftrat.
  • Insbesondere betrifft die Erfindung für interaktive Systeme zum Lehren einer Fremdsprache. Ein solches System umfaßt einen Mikrocomputer mit einer Vorrichtung insbesondere zur Spracherkennung und externen Geräten (Bildschirmen, Tastatur, Maus, Mikrofon, Lautsprecher, etc. ...) sowie einer Software, damit der Mikrocomputer die Befehle eines Benutzers ausführt. Auch kommen andere Verwendungen des erfindungsgemäßen Prinzips in Betracht.
  • Der Benutzer eines interaktiven Systems zum Lehren einer Fremdsprache muß gemäß bestimmten praktischen Übungen bestimmte Sätze in der Fremdsprache sprechen. Beispielsweise besteht eine herkömmliche Übung darin, laut einen Satz zu lesen oder zu wiederholen, der vorgegeben wurde, jeweils in sichtbarer Form (auf dem Bildschirm des Mikrocomputers) oder hörbar (mit Hilfe einer Vorrichtung zur Stimmerzeugung des Mikrocomputers). Bei anderen Übungen muß der Benutzer laut auf eine Frage antworten, die ihm in sichtbarer oder hörbarer Form gestellt wurde, wobei die erhaltene Antwort im allgemeinen eine zuvor mittels eines Beispiels bestimmte Struktur hat.
  • Ein so vom Benutzer gesprochener Satz ist ein zu erkennender Satz, der dem Eingang der Vorrichtung zur Spracherkennung zur Verfügung gestellt wird. Diese umfaßt Mittel zum Erzeugen eines erkannten Satzes, so wie weiter oben dargelegt. Der erkannte Satz wird mit einem Bezugssatz verglichen. Dieser Bezugssatz ist der bei korrekter Aus sprache in der Fremdsprache erwartete Satz. Im Fall der Gleichheit setzt die Software die Ausführung fort, um die nachfolgende Übung zu beginnen. Im anderen Fall kann die Software den Benutzer dazu einladen, denselben Satz erneut zu sprechen, um seine Aussprache zu verbessern.
  • Indessen weiß der Benutzer im allgemeinen nicht, inwiefern seine erste Aussprache fehlerhaft war. Er kann somit nicht immer verstehen, in welchem(n) Teilen) des Satzes er seine Sprache verbessern muß.
  • Eine Lösung besteht darin, den erkannten Satz auf dem Bildschirm des Mikrocomputers zu zeigen, um zu ermöglichen, daß sich der Benutzer selbst klar über die Art und Weise wird, in der die Vorrichtung zur Spracherkennung (fälschlicherweise) den Satz verstanden hat, den er gesprochen hat. Dennoch ist die Interpretation des erkannten Satzes durch den Benutzer nicht leicht, besonders wenn der zu sprechende Satz lang ist. Deshalb ermöglichen die bekannten Systemen zum Lehren einer Fremdsprache im allgemeinen nicht das Sprechen von langen Sätzen.
  • Die Aufgabe der Erfindung ist es, das Feststellen und Lokalisieren eines Fehlers bezüglich eines oder mehrerer bestimmter Worte eines von der Vorrichtung zur Spracherkennung erkannten Satzes zu ermöglichen, insbesondere im Hinblick darauf, bei interaktiven Systemen zum Lehren der Aussprache einer Fremdsprache relativ lange Sätze zu ermöglichen.
  • Dieses Ziel wird erfindungsgemäß mit einem Verfahren zur Spracherkennung gemäß Anspruch 1 erreicht, welches die folgenden Schritte umfaßt:
    • a) Erzeugen eines Basisvokabulars E mit N verschiedenen Wörtern, wobei N eine ganze Zahl ist;
    • b) Für jedes bestimmte Wort Mi eines Bezugssatzes (PhR) mit Q verschiedenen Wörtern (Mi, 1 ≤ i ≤ Q), wobei Q eine ganze Zahl größer als 1 ist, Erzeugen eines spezifischen Vokabulars EMi, das sich von dem Basisvokabular E darin unterscheidet, daß dem Basisvokabular eine Anzahl von Pi: phonetisch zu dem Wort (Mi) nächstkommenden Wörtern fehlt, so daß dieses spezifische Vokabular N-Pi Wörter enthält
    • c) weitere Sätze werden aus dem Bezugssatz als Alternative zu diesem erzeugt, wobei bei jedem der weiteren Sätze an die Stelle mindestens eines der Wörter Mi eines der N-Pi Wörter des zugehörigen spezifischen Vokabulars (EMi) gesetzt ist,
    • d) ein zu erkennender Satz wird mit den weiteren Sätzen und dem Bezugssatz (PhR) verglichen, um denjenigen Satz zu finden, der dem zu erkennenden Satz phonetisch am nächsten ist, und
    • e) in dem Fall, daß der so erkannte Satz von dem Bezugssatz abweicht, wird mindestens ein gegenüber dem Bezugssatz abweichendes Wort identifiziert.
  • Auf diese Weise ist es möglich, zumindest einen Fehler im Vergleich zu einem Bezugssatz festzustellen, bezüglich zumindest eines besonderen Wortes in dem vom Benutzer gesprochenen Satz (d. h. in dem zu erkennenden Satz). Diese Lokalisierung ergibt die Identifikation des Ranges i des (oder der) fehlerhaften Wortes (oder Wörter) im erkannten Satz. So kann im Fall eines interaktiven Systems zum Lehren einer Fremdsprache ein evtl. Aussprachefehler von zumindest einem besonderen Wort in dem Satz dem Benutzer angezeigt werden, damit dieser ganz besonders seine Aussprache dieses Wortes verbessert.
  • Überdies kann man, indem man den Wert des Verhältnisses Pi/N verändert, die Toleranz des Systems zum Lehren der Fremdsprache bezüglich des entsprechenden Wortes Mi verändern. Unter Toleranz versteht man die Eigenschaften der Software, geringe Aussprachefehler nicht zu berücksichtigen, d. h. die Eigenschaft, einen Satz als korrekt ausgesprochen zu betrachten, obgleich er tatsächlich nur unvollkommen gewesen ist. Eine bestimmte Toleranz wird als eine gute Eigenschaft eines Systems zum Lehren einer Fremdsprache angesehen.
  • Weitere Merkmale und Vorteile der Erfindung ergeben sich beim Lesen der nachfolgenden detaillierten Beschreibung.
  • In der folgenden Beschreibung ist als nicht begrenzendes Anwendungsbeispiel ein System zum Lehren einer Fremdsprache betrachtet worden. Ein solches System umfaßt eine Software, die auf einem Mikrocomputer unter den Befehlen eines Benutzers ausgeführt wird. Während des Gebrauchs spricht dieser laut Sätze, die erkannt werden müssen, um sie mit Bezugssätzen zu vergleichen.
  • Ein vom Benutzer gesprochener Satz wird mit Hilfe eines Mikrofons in ein elektrisches Signal umgewandelt. Dieses elektrische Signal wird ggf. verstärkt. Dann wird es mittels eines Analog-Digital-Wandlers in digitale Daten umgewandelt. Diese Daten werden mittels einer Vorrichtung zur Spracherkennung des Mikrocomputers verarbeitet. Eine solche Vorrichtung ist beispielsweise eine Software, die auf dem Mikrocomputer ausgeführt wird. Anzumerken ist, daß bei manchen Anwendungen die entsprechenden digitalen Daten in einer Eingangsdatei der Vorrichtung zur Spracherkennung plaziert werden können. Bei einer Abwandlung kann die Erkennungsvorrichtung eine hierfür ausgelegte, elektronische Schaltung sein.
  • Ein Bezugssatz PhR umfaßt beispielsweise Q Wörter (wobei Q eine ganze Zahl größer als 1 ist) und zeigt sich in der folgenden Form (wobei man von der Zeichensetzung abgesehen hat):
    PhR: M1 M2 M3 ... MQ–i MQ
  • Das erfindungsgemäße Verfahren zur Spracherkennung umfaßt im wesentlichen vier Hauptschritte.
  • Der erste Schritt besteht darin, ein N verschiedene Wörter umfassendes Basisvokabular E zu schaffen, wobei N eine ganze Zahl ist. Ein solches Basisvokabular umfaßt Wörter in der betreffenden Fremdsprache, die so ausgewählt sind, daß sie die verschiedenst möglichen Längen und Klänge haben. Anders ausgedrückt, die Wörter des Basisvokabulars E sind vorzugsweise phonetisch verschieden.
  • Eine Methode zum Erzeugen dieses Basisvokabulars besteht darin, diese Wörter zufällig aus einem Wörterbuch mit beträchtlichem Umfang auszuwählen. Diese Auswahl kann automatisch erfolgen, d. h. von einer adaptierten Software oder manuell. Gegebenenfalls können Wörter, die phonetisch anderen Wörtern des Vokabulars zu nahe sind, automatisch oder manuell unterdrückt werden.
  • Das Basisvokabular entspricht somit nicht zwangsläufig einem vollständigen Wörterbuch in der Fremdsprache. Je größer jedoch N ist, desto besser sind die Resultate für den Benutzer, d. h. die Verläßlichkeit des Lehrsystems verbessert sich (ein verläßliches Lehrsystem ist ein Lehrsystem, das eine gleichmäßige Toleranz gegenüber Aussprachefehlern derselben Schwere aufweist). Indessen ist die notwendige Rechenleistung um so bedeutender, je größer N ist. Ein Basisvokabular kann somit einige 10 bis einige 1000 verschiedener Worte umfassen, entsprechend der Rechenkapazität des Mikrocomputers und entsprechend der erwarteten Verläßlichkeit des Lehrsystems.
  • Anzumerken ist, daß es keine besondere Verbindung zwischen den Wörtern des so erzeugten Basisvokabulars und den in den Bezugssätzen enthaltenen Wörtern gibt. Anders gesagt umfaßt das hier fragliche Basisvokabular nicht zwingend Wörter von Bezugssätzen. Das kann jedoch der Fall sein, wenn die Regeln zur Auswahl der Wörter des Basisvokabulars dies nicht ausschließen.
  • Der zweite Schritt besteht darin, für jedes bestimmte Wort Mi eines Bezugssatzes, der Q verschiedene Wörter hat (wobei Q eine ganze Zahl größer als 1 ist), ein spezifisches Vokabular EMi zu erzeugen, ausgehend von dem im ersten Schritt erzeugten Basisvo kabular E. Dies wird ausgeführt, indem dem Basisvokabular die Pi Wörter entnommen werden, die phonetisch dem bestimmten Wort Mi am nächsten kommen (wobei Pi eine ganze Zahl ist, die kleiner als N ist und die Null sein kann).
  • Tatsächlich ist das System toleranter, wenn das spezifische Vokabular keine Wörter umfaßt, die phonetisch den Wörtern der Bezugssätze ähnlich sind. Anzumerken ist, daß man die Toleranz des Systems zum Lehren der Fremdsprache bezüglich eines entsprechenden Wortes Mi verändern kann, indem man den Wert des Verhältnisses Pi/N verändert. Genauer gesagt, ist für einen gegebenen Wert N das System um so toleranter, je größer Pi ist.
  • Dennoch ist dieser zweite Schritt nicht zwingend. Insbesondere in dem Fall, in dem das Basisvokabular kein Wort der Bezugssätze umfaßt, kann die Zahl Pi Null sein. In diesem Fall ist das System wenig tolerant.
  • Überdies ist bei einer vereinfachten Ausführungsform die Zahl Pi der vom Basisvokabular entnommenen Wörter zum Bilden des spezifischen Vokabulars EMi, das mit einem Wort Mi vom Rang i des Bezugssatzes verbunden ist, gleich zu genau einer Zahl P für jedes Wort Mi des Bezugssatzes. Anders ausgedrückt ist Pi gleich P, wie auch immer i sein mag. Man spricht daher zur Bezeichnung des Verhältnisses P/N von der Gesamttoleranz des Lehrsystems.
  • Bei einer vorteilhaften Ausführungsart wird das spezifische Vokabular EMi iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung verwendet werden. Bei der ersten Iteration ist das Eingangsvokabular das Basisvokabular E, und der zu erkennende Satz wird mit dem korrekt ausgesprochenen Wort Mi gebildet. Die Vorrichtung stellt dann das Wort des Basisvokabulars zur Verfügung, das phonetisch einem besonderen Wort Mi am nächsten kommt. Es kann sich dabei um das Wort Mi selbst handeln, wenn dieses in dem Basisvokabular E vorhanden war. Dieses nächst kommende Wort wird dann vom Eingangsvokabular unterdrückt, und die oben erwähnten Schritte werden Pi mal wiederholt, wobei bei jeder Iteration das Eingangsvokabular um ein Wort reduziert wird. Am Ende bildet das erhaltene Eingangsvokabular das spezifische Vokabular EMi. Es wird in einer Datei für spezifische Vokabulare gespeichert.
  • Ein dritter Schritt des Verfahrens besteht darin, ein aktives Vokabular (weitere Sätze) zu erzeugen, welches den Bezugssatz und überdies andere Sätze umfaßt. Diese letzeren unterscheiden sich von dem Bezugssatz durch die Bedeutung zumindest eines Wortes Mi mit einem bestimmten Rang (Position) i im Satz. Jeder dieser Sätze ist einer von Alternativen des Bezugssatzes, der anstelle des Wortes Mi eines der Wörter des spezifischen Vokabulars umfaßt, das mit diesem Wort Mi verbunden ist. Die unten stehenden Angaben sind für den einfachen Fall gegeben, in dem Pi = P, wie auch immer i sein mag. Sie lassen sich leicht auf andere Fälle verallgemeinern.
  • Bei einer ersten Ausführungsart ist das aktive Vokabular, das in dem dritten Schritt erzeugt wird, von einem ersten Typ, weil es von dem Bezugssatz und von sämtlichen Sätzen gewonnen wird, die ausgehend von dem Bezugssatz erhalten wurden, indem nacheinander jedes Wort Mi ersetzt worden ist, sukzessive durch N-Pi Wörter des spezifischen Vokabulars EMi, das mit diesem Wort Mi verbunden ist.
  • In diesem Fall sind, wenn man mit EMi (j) die Wörter des spezifischen Vokabulars EMi bezeichnet (wobei j ein Index zwischen 1 und N-Pi ist), die Sätze des aktiven Vokabulars von der folgenden Art:
    Ph1 (i,j) : M1 M2 ... Mi–1 EMi (j) Mi+1 ... MQ–1 MQ
    wobei i variiert von 1 bis Q
    und j variiert von 1 bis N-Pi
  • Man kann überprüfen, daß das aktive Vokabular dann 1 + (N – P) × Q verschiedene Sätze umfaßt.
  • Bei einer zweiten Ausführungsweise ist das in dem dritten Schritt erzeugte Vokabular von einer zweiten Art, weil es aus sämtlichen verschiedenen möglichen Kombinationen von Q Wörtern gebildet ist, wobei jedes Wort mit einem bestimmten Rang i entweder das Wort Mi entsprechend dem Bezugssatz oder irgendeines der Wörter des spezifischen Vokabulars EMi sein kann, das mit diesem Wort Mi verbunden ist.
  • In diesem Fall sind, wenn man mit EMi(j) die Wörter des spezifischen Vokabulars EMi (wobei j ein Index zwischen 1 und N-Pi ist) bezeichnet, und wenn man mit EMi(0) das Wort Mi bezeichnet, die Sätze des aktiven Vokabulars von der An:
    Ph2 (i1,..., iQ) : EM1(i1) EM2(i2) ... EMj(ij) ... EMQ(iQ)
    mit i1,..., iQ veränderlich von 0 bis N-P.
  • Man kann überprüfen, daß das aktive Vokabular dann (1 + N – P)Q verschiedene Sätze umfaßt.
  • Die erste oben stehende Ausführungsart ermöglicht zugleich die Feststellung eines Fehlers bezüglich eines einzigen Wortes in dem Satz. Anders ausgedrückt ermöglicht das Verfahren daher, nur Aussprachefehler eines einzigen Wortes in einem Satz auf einmal festzustellen. Dies ist bei einfachen Sätzen ausreichend. Die zweite Ausführungsart ist die leistungsfähigere, weil sie ermöglicht, gleichzeitig Fehler in jedem der Wörter des Satzes festzustellen. Jedoch erfordert sie eine ganz beträchtliche Rechenleistung und eine sehr leistungsfähige Vorrichtung zur Stimmerkennung. Wohlgemerkt können Zwischenausführungen in Betracht gezogen werden, um Fehler irgendeiner Anzahl von Worten des Satzes feststellen zu können.
  • Das aktive Vokabular wird in einem Speicher des Mikrocomputers in der Form einer durch 2 Indexfelder indexierten Datei entsprechend den Indizes i und j (für ein Vokabular der ersten An) oder durch Q Indexfelder entsprechend den Indizes i1 ..., iQ (für ein Vokabular der zweiten An) gespeichert.
  • Das Verfahren umfaßt schließlich einen vierten und letzten Schritt, der darin besteht, einen zu erkennenden Satz mit Sätzen des im dritten, vorausgehenden Schritt erzeugten aktiven Vokabulars zu vergleichen, um denjenigen der Sätze dieses Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und, ggf., in Abhängigkeit des so erkannten Satzes den Rang i eines fehlerhaften Wortes bezüglich des Bezugssatzes zu identifizieren. Bei der in Betracht gezogenen Anwendung ermöglicht dieser Schritt die Identifizierung des Ranges i, an dem sich ein Aussprachefehler eines Wortes befindet, und diese Identifikation wird in Abhängigkeit von dem von der Vorrichtung zur Spracherkennung erkannten Satz ausgeführt. Tatsächlich gibt es nur zwei bestimmte Fälle in Abhängigkeit von dem erkannten Satz.
    • – Entweder sind der erkannte Satz und der Bezugssatz gleich, dies bedeutet, daß es keinen Aussprachefehler in dem Satz gibt;
    • – oder der erkannte Satz ist ein anderer Satz des aktiven Vokabulars. Wenn das aktive Vokabular von der ersten Art ist (erste Ausführungsart) und der erkannte Satz der Satz Ph1(i, j), dann bedeutet dies, daß es einen Fehler in dem Wort Mi gibt (d. h., daß das Wort Mi fehlerhaft ist, weil es schlecht ausgesprochen worden ist). Wenn das aktive Vokabular von der zweiten Art ist (zweite Ausführungsart) und wenn der erkannte Satz der Satz Ph2(i1 ..., iQ), dann bedeutet dies, daß es einen Fehler in jedem der Worte Mi, bis MiQ gibt, die denjenigen der Indizes i1,..., iQ entsprechen, die nicht gleich Null sind.
  • Den erkannten Satz kennend, ist es tatsächlich einfach, diese Indizes durch Vergleich mit der Datei wiederzufinden, welche das aktive Vokabular enthält.
  • In den beiden Fällen sind die Bezugssätze dem System zum Lehren einer Fremdsprache bekannt (sie resultieren aus dem Entwurf der Software). In diesem Fall können die ersten, zweiten und dritten Schritte vorab für jeden Bezugssatz durchgeführt werden (beispielsweise während des Entwurfs der Software oder aber während ihrer Installation im Mikrocomputer oder aber zu Beginn jedes Laufes der Software). Das oder die entsprechenden aktiven Vokabulare sind in einem Speicher gespeichert, beispielsweise mit der Software selbst (dieser Speicher kann von jedem geeigneten Datenträger gebildet sein, so wie von einer digitalen optischen Platte). Allein der vierte Schritt wird schließlich während des Laufes der Software durchgeführt. Er wird mehrfach wiederholt, einmal für jeden zu erkennenden Satz (d. h. normalerweise für jede Ausspracheübung).
  • Wie oben gesagt , kann die allgemeine Toleranz des Lehrsystems geändert werden, indem das Verhältnis P/N verändert wird. Für ein besonders tolerantes System, das für Anfänger geeignet ist, kann das Verhältnis P/N 10 % bis 30 % erreichen. Für ein Lehrsystem mit höherem Niveau, das es ermöglicht, subtile Aussprachefehler festzustellen, ist die Toleranz gering. Das Verhältnis P/N ist dann geringer als 1 %. Die Tatsache, ein Verhältnis Pi/N zu haben, das ggf. für jedes Wort verschieden ist, ermöglicht, die Feststellung von Aussprachefehlern allein auf bestimmte Wörter zu fokussieren, indem eine größere Toleranz für die anderen Wörter des Satzes ermöglicht wird. Die Tatsache jedoch, daß Pi = P, wie auch immer i sein mag, vereinfacht die Durchführung des Verfahrens.
  • Die Erfindung schlägt auch eine Vorrichtung zur Spracherkennung vor, insbesondere für ein Lehrsystem für eine Fremdsprache, welche Mittel zum Identifizieren des Rangs eines fehlerhaften Wortes in einem zu erkennenden Satz bezüglich eines Bezugssatzes umfaßt. Dies ermöglicht bei der in Betracht gezogenen Anwendung, einen Aussprachefehler in einem vom Benutzer ausgesprochenen Satz festzustellen und zu lokalisieren.
  • Die Vorrichtung zur Spracherkennung umfaßt Mittel zum Vergleichen des zu erkennenden Satzes mit Sätzen eines bestimmten Vokabulars, um denjenigen der Sätze des Vokabulars zu erkennen, der phonetisch dem zu erkennenden Satz am ähnlichsten ist, um daraus ggf. den Rang eines fehlerhaften Wortes in diesem Satz abzuleiten. In diesem Fall kann die Vorrichtung ein Verfahren zur Spracherkennung so wie oben beschrieben durchführen. Auf vorteilhafte Weise wird das spezifische Vokabular EMi iterativ erzeugt, indem Mittel zur Spracherkennung der Vorrichtung benutzt werden.
  • Die Erfindung schlägt auch ein interaktives System zum Lehren einer Fremdsprache vor, welches eine solche Vorrichtung umfaßt. Gemäß einem Beispiel umfaßt das System über die Vorrichtung zur Spracherkennung hinaus eine oder mehrere der folgenden Elemente: einen Mikrocomputer, eine Software, um diesen arbeiten zu lassen, ein Mikrofon, einen Bildschirm, eine Tastatur, eine Maus, Lautsprecher, eine Vorrichtung zur Sprachsynthese, etc. ....

Claims (10)

  1. Verfahren zur Spracherkennung, insbesondere für ein System zum interaktiven Lehren einer Fremdsprache, dadurch gekennzeichnet, daß es die folgenden Schritte umfaßt: a) ein Basisvokabular (E) mit N verschiedenen Wörtern wird erzeugt, b) für jedes bestimmte Wort (Mi) eines Bezugssatzes (PhR) mit Q verschiedenen Wörtern (Mi, 1 ≤ i ≤ Q wird aus dem Basisvokabular ein spezifisches Vokabular (EMi) erzeugt, das sich vom Basisvokabular (E) darin unterscheidet, daß dem Basisvokabular (E) eine Anzahl von Pi phonetisch zu dem Wort (Mi) nächstkommenden Wörtern fehlt, so daß dieses spezifische Vokabular N-Pi Wörter enthält, c) weitere Sätze werden aus dem Bezugssatz als Alternative zu diesem erzeugt, wobei bei jedem der weiteren Sätze an die Stelle mindestens eines der Wörter Mi eines der N-Pi Wörter des zugehörigen spezifischen Vokabulars (EMi) gesetzt ist, d) ein zu erkennender Satz wird mit den weiteren Sätzen und dem Bezugssatz (PhR) verglichen, um denjenigen Satz zu finden, der dem zu erkennenden Satz phonetisch am nächsten ist, und e) in dem Fall, daß der so erkannte Satz von dem Bezugssatz abweicht, wird mindestens ein gegenüber dem Bezugssatz abweichendes Wort identifiziert.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die in Schritt c) gebildeten weiteren Sätze von einem ersten Typ sind, bei dem der Bezugssatz und sämtliche ausgehend von dem Bezugssatz erhaltenen Sätze gebildet werden, indem jedes Wort Mi, eines nach dem anderen, sukzessive durch N-Pi Wörter des mit diesem Wort Mi verbunden spezifischen Vokabulars EMi ersetzt wird.
  3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß die in Schritt c) gebildeten weiteren Sätze von einem zweiten Typ sind, bei dem sämtliche möglichen Kombinationen von Q-Wörtern gebildet wird und jedes Wort mit einem bestimmten Rang i entweder durch das Wort Mi entsprechend dem Bezugssatz oder durch irgendeines der Wörter des mit dem Wort Mi verbundenen spezifischen Vokabulars ersetzt wird.
  4. Verfahren gemäß einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Schritte a) bis c) vorab für zumindest einen Bezugssatz durchgeführt werden, und daß der Schritt d) für mehrere zu erkennende Sätze wiederholt wird.
  5. Verfahren gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Anzahl Pi der entnommenen Wörter des Basisvokabulars E, um das spezifische Vokabular EMi zu bilden, das mit dem Wort Mi mit Rang i des Bezugssatzes verbanden ist, für jedes Wortes Mi des Bezugssatzes gleich der Anzahl P ist.
  6. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, daß das Verhältnis P/N 10 % bis 30 % erreichen kann.
  7. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, das Verhältnis P/N unter 1 ist.
  8. Vorrichtung zur Spracherkennung, insbesondere für ein System zum Lehren einer Fremdsprache, welches Mittel umfaßt, um in einem zu erkennenden Satz ein fehlerhaftes Wort bezüglich eines Bezugssatzes aufzuzeigen, dadurch gekennzeichnet, daß es ein Verfahren gemäß einem der Ansprüche 1 bis 7 durchführt.
  9. Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, daß es Mittel zum Vergleichen des zu erkennenden Satzes mit den Sätzen eines bestimmten Vokabulars umfaßt, um denjenigen Satz aus diesem Vokabular zu erkennen, der phonetisch dem zu erkennenden Satz am nächsten kommt, und für diesen den Rang des fehlerhaften Wortes innerhalb des Satzes abzuleiten.
  10. Vorrichtung gemäß Anspruch 8 oder 9, dadurch gekennzeichnet, daß iterative Mittel zur Erzeugung des spezifischen Vokabulars EMi vorgesehen sind.
DE2000110232 1999-03-05 2000-03-02 Verfahren und Vorrichtung zur Spracherkennung Expired - Fee Related DE10010232B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9902771 1999-03-05
FR9902771A FR2790586B1 (fr) 1999-03-05 1999-03-05 Procede et dispositif de reconnaissance vocale

Publications (2)

Publication Number Publication Date
DE10010232A1 DE10010232A1 (de) 2000-10-26
DE10010232B4 true DE10010232B4 (de) 2004-08-05

Family

ID=9542878

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000110232 Expired - Fee Related DE10010232B4 (de) 1999-03-05 2000-03-02 Verfahren und Vorrichtung zur Spracherkennung

Country Status (2)

Country Link
DE (1) DE10010232B4 (de)
FR (1) FR2790586B1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752045B2 (en) 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
AT414283B (de) * 2003-12-16 2006-11-15 Siemens Ag Oesterreich Verfahren zur optimierung von spracherkennungsprozessen
CN105206274A (zh) * 2015-10-30 2015-12-30 北京奇艺世纪科技有限公司 一种语音识别的后处理方法及装置和语音识别系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3786822T2 (de) * 1986-04-25 1994-01-13 Texas Instruments Inc Spracherkennungssystem.
WO1998002862A1 (en) * 1996-07-11 1998-01-22 Digispeech (Israel) Ltd. Apparatus for interactive language training

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3786822T2 (de) * 1986-04-25 1994-01-13 Texas Instruments Inc Spracherkennungssystem.
WO1998002862A1 (en) * 1996-07-11 1998-01-22 Digispeech (Israel) Ltd. Apparatus for interactive language training

Also Published As

Publication number Publication date
FR2790586A1 (fr) 2000-09-08
DE10010232A1 (de) 2000-10-26
FR2790586B1 (fr) 2001-05-18

Similar Documents

Publication Publication Date Title
AT390685B (de) System zur textverarbeitung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE19708184A1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP0804788A1 (de) Verfahren zur spracherkennung
DE69425874T2 (de) Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE3853702T2 (de) Spracherkennung.
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69700472T2 (de) Automatische spracherkennung
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
DE4213533C2 (de) Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
EP1214704B1 (de) Verfahren zum erfassen und auswerten von ein wort darstellenden wortsprachsignalen eines benutzers eines spracherkennungssystems
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE3241541C1 (de) Vorrichtung zur Spracherkennung
DE102004048348B4 (de) Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
AT414283B (de) Verfahren zur optimierung von spracherkennungsprozessen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee