DE69834553T2 - Erweiterbares spracherkennungssystem mit einer audio-rückkopplung - Google Patents

Erweiterbares spracherkennungssystem mit einer audio-rückkopplung Download PDF

Info

Publication number
DE69834553T2
DE69834553T2 DE69834553T DE69834553T DE69834553T2 DE 69834553 T2 DE69834553 T2 DE 69834553T2 DE 69834553 T DE69834553 T DE 69834553T DE 69834553 T DE69834553 T DE 69834553T DE 69834553 T2 DE69834553 T2 DE 69834553T2
Authority
DE
Germany
Prior art keywords
user
pronunciation
word
text
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69834553T
Other languages
English (en)
Other versions
DE69834553D1 (de
Inventor
D. Xuedong Woodinville HUANG
J. Michael Issaquah ROZAK
Li Redmond JIANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Application granted granted Critical
Publication of DE69834553D1 publication Critical patent/DE69834553D1/de
Publication of DE69834553T2 publication Critical patent/DE69834553T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

  • TECHNISCHES GEBIET
  • Die Erfindung betrifft allgemein Datenverarbeitungssysteme und insbesondere ein erweiterbares Spracherkennungssystem, das Audiorückmeldungen für einen Benutzer bereitstellt.
  • HINTERGRUND DER ERFINDUNG
  • Spracherkennungssysteme ermöglichen einem Computersystem, mindestens ausgewählte Sprachabschnitte zu erkennen, die in das Computersystem eingegeben werden. Allgemein zerlegen Spracherkennungssysteme eingegebene Sprache in bearbeitbare Segmente, die leicht erkannt werden können. Beispielsweise kann eingegebene Sprache in Phoneme zerlegt werden, die weiter verarbeitet werden, um den Inhalt der Sprache zu erkennen. Normalerweise erkennen Spracherkennungssysteme Wörter in eingegebener Sprache durch Vergleichen der Aussprache des Worts in der eingegebenen Sprache mit Mustern oder Schablonen (Vorlagen), die vom Spracherkennungssystem gespeichert werden. Erzeugt werden die Schablonen mit Hilfe phonetischer Darstellungen des Worts und kontextabhängiger Schablonen für die Phoneme. Viele Spracherkennungssysteme weisen Wörterbücher auf, die die Aussprachen von Begriffen festlegen, die vom Spracherkennungssystem erkannt werden.
  • Eine Stelle, wo Spracherkennungssysteme verwendet werden, liegt in Diktiersystemen. Diktiersysteme wandeln eingegebene Sprache in Text um. In solchen Diktiersystemen werden die Spracherkennungssysteme verwendet, Wörter in der eingegebenen Sprache zu identifizieren, und die Diktiersysteme erzeugen Textausgaben in Entsprechung zu den identifizierten Wörtern. Leider unterliegen diese Diktiersysteme oft einem hohen Fehlerkennungsgrad von Spracheingaben von bestimmten Benutzern. Die in solchen Diktiersystemen eingesetzten Spracherkennungssysteme haben eine oder mehrere Aussprachen für jedes Wort, aber die Aussprachen der Wörter sind statisch und stellen die Aussprache dar, die das Spracherkennungssystem zu hören erwartet. Gebraucht ein Benutzer eine unterschiedliche Aussprache für ein Wort als die vom Spracherkennungssystem erwartete, erkennt das Spracherkennungssystem oft nicht die Benutzereingabe. Besonders ärgerlich kann dieser Nachteil für einen Benutzer sein, wenn ein Begriff mehrere richtige Aussprachen hat und der Benutzer eine der Aussprachen gebraucht, die nicht durch das Wörterbuch des Spracherkennungssystems erfaßt ist.
  • Eine weitere Einschränkung solcher Diktiersysteme ist, daß sie entweder nicht erweiterbar sind (d. h. ein Benutzer kann dem Wörterbuch keinen neuen Begriff zufügen) oder sie das Zufügen neuer Begriffe erlauben, aber ihre eigene Aussprache des neuen Begriffs erzeugen, ohne dem Benutzer zu ermöglichen, die Aussprache(n) festzustellen. Solche Systeme können einen heuristischen Phonetisierungs- bzw. Letter-to-sound-Ansatz verwenden, um die Aussprache eines neu zugefügten Begriffs zu schätzen. Leider ergeben solche heuristischen Ansätze vielfach keine korrekten Ergebnisse. Fügt ein Benutzer einen neuen Begriff zu, um das in einem Diktiersystem verwendete Wörterbuch zu erweitern, gibt der Benutzer oft lediglich den neuen Begriff ohne Hinweis auf eine Aussprache ein, und das Spracherkennungssystem erzeugt eine Aussprache für den neuen Begriff. Diese neue Aussprache kann falsch sein oder kann nicht mit der vom Benutzer antizipierten Aussprache des Worts übereinstimmen. Dadurch liegt oft ein hoher Fehlerkennungsgrad bei Spracheingaben vor, die den neu zugefügten Begriff verwenden oder die den neu zugefügten Begriff aufweisen.
  • Das Dokument "Dragon SpeechTool 1.0 Builds Custom Speaker-Independent Vocabularies for Speech Recognition", 6. November 1996, betrifft eine interaktive Benutzeroberfläche, die den Aufbau eines Spezialvokabulars erleichtert – Entwickler sprechen lediglich das Wort aus SpeechTool übersetzt automatisch ihre Sprache in ein Vokabularmodell und verwendet dann DragonDictate's verfügbare Text-in-Sprache-Fähigkeit, um es für sie auszusprechen. Die Entwickler können sich jede ih rer Aussprachen anhören und modifizieren oder sogar mehrere Aussprachen für dasselbe Wort zwecks vollständiger Flexibilität und Steuerung ihrer Spezialvokabulare erzeugen.
  • Das Dokument "Dictionary Learning: Performance through Consistency", Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), Detroit, 9. bis 12. Mai 1995, Speech, Vol. 1, 9. Mai 1995, Institute of Electrical and Electronics Engineers, Seiten 453 bis 456, betrifft Ergebnisse beim automatischen Vergrößern und Adaptieren phonetischer Wörterbücher für die spontane Spracherkennung.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die zuvor beschriebenen Einschränkungen des Stands der Technik werden durch die Erfindung überwunden. Erfindungsgemäß wird ein Verfahren nach Anspruch 1 bereitgestellt. Ausführungsformen sind in den Unteransprüchen dargelegt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Im folgenden wird eine bevorzugte Ausführungsform der Erfindung anhand der folgenden Zeichnungen näher beschrieben.
  • 1 ist eine Blockdarstellung eines Computersystems, das zur praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung geeignet ist.
  • 2 ist eine Blockdarstellung, die Komponenten des Spracherkennungssystems veranschaulicht.
  • 3 ist eine Darstellung, die einen Beispielabschnitt des Wörterbuchs veranschaulicht.
  • 4 ist ein Ablaufplan der durchgeführten Schritte, damit ein Benutzer die Aussprache eines Begriffs im Wörterbuch ändern kann.
  • 5A bis 5D zeigen Benutzeroberflächenelemente, die vorgesehen sind, damit ein Benutzer die Aussprache eines Begriffs des Wörterbuchs abändern kann.
  • 6 ist ein Ablaufplan der durchgeführten Schritte, um dem Wörterbuch einen neuen Begriff zuzufügen.
  • 7A bis 7D veranschaulichen Benutzeroberflächenelemente, die vorgesehen sind, damit ein Benutzer dem Wörterbuch einen neuen Begriff mit einer bestimmten Aussprache zufügen kann.
  • 8 ist ein Ablaufplan der durchgeführten Schritte, um die im Wörterbuch gespeicherten Aussprachen ohne interaktive Benutzereingabe abzuändern.
  • NÄHERE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die bevorzugte Ausführungsform der Erfindung stellt ein erweiterbares Spracherkennungssystem bereit, das einem Benutzer Audiorückmeldungen liefert. Will also ein Benutzer ein Wort oder einen Begriff einem vom Spracherkennungssystem verwendeten Wörterbuch zufügen, erhält der Benutzer eine Audiorückmeldung darüber, wie der Begriff nach Dafürhalten des Systems ausgesprochen werden sollte. Danach kann der Benutzer diese Aussprache akzeptieren oder die Änderung der Aussprache anfordern. In einer Alternative legt der Benutzer die Aussprache des Worts fest, indem er buchstabiert, wie das Wort klingen sollte. In einer weiteren Alternative stellt das System dem Benutzer eine Liste alternativer Aussprachen für das Wort bereit, und der Benutzer wählt die Aussprache aus.
  • Die bevorzugte Ausführungsform der Erfindung ermöglicht einem Benutzer, die Aussprache jedes der Wörter zu ändern, die sich aktuell im Wörterbuch befinden. Zusätzlich ermöglicht die bevorzugte Ausführungsform der Erfindung einem Benutzer, sich die Aussprache anzuhören, die einem Wort im Wörterbuch aktuell zugeordnet ist. Der Benutzer kann sich die Aussprache anhören und dann die Aussprache bei Bedarf in eine alternative Aussprache ändern. Als Ergebnis kann der Benutzer den Erkennungsgrad von Begriffen stark erhöhen, den das Spracherkennungssystem erreicht.
  • In einer weiteren Alternative wird das vom Spracherkennungssystem verwendete Wörterbuch durch das System automatisch und transparent aktualisiert. Das System verarbeitet einen Korpus von Aussprachedaten, um alternative Aussprachen für Begriffe im Wörterbuch abzuleiten. Spricht der Benutzer einen Begriff aus und wird der Begriff richtig erkannt, identifiziert das System, welche der alternativen Aussprachen der Benutzer gebrauchte. Nach einer festen Anzahl richtiger Erkennungen und Vergleiche erhält das System einen Vertrauensgrad in die vom Benutzer gebrauchte Aussprache und ändert das Wörterbuch (mit Weitergabe der Änderung in beobachteten Ein trägen zu anderen nicht beobachteten Einträgen auf systematische Weise), um diese Aussprache zu nutzen, um so den durch das System realisierten Erkennungsgrad zu erhöhen.
  • Im folgenden wird die bevorzugte Ausführungsform der Erfindung für ein Diktiersystem beschrieben. Im Diktiersystem spricht der Benutzer in ein Audioeingabegerät, z. B. ein Mikrofon, um gesprochenen Text einzugeben. Das Diktiersystem erkennt den gesprochenen Text und erzeugt entsprechenden Text als Teil eines Dokuments. Dem Fachmann wird klar sein, daß die Erfindung auch in anderen Zusammenhängen als einem Diktiersystem praktiziert werden kann. Allgemeiner trifft die Erfindung auf Spracherkennungssysteme zu.
  • 1 ist eine Blockdarstellung eines Computersystems 10, das zur praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung geeignet ist. Das Computersystem 10 weist eine Zentraleinheit (CPU) 12 auf, die Zugriff auf einen Primärspeicher 14 und einen Sekundärspeicher 16 hat. Der Sekundärspeicher 16 kann Wechselmedienlaufwerke aufweisen, z. B. ein CD-ROM-Laufwerk, die Informationen lesen können, die auf einem computerlesbaren Medium (z. B. einer CD-ROM) gespeichert sind. Ferner weist das Computersystem 10 eine Anzahl von Peripheriegeräten auf. Zu diesen Peripheriegeräten können z. B. eine Tastatur 18, eine Maus 20, ein Bildschirm 22, ein Audiolautsprecher 24 und ein Mikrofon 26 gehören. Zusätzlich kann das Computersystem ein Modem 28, eine Soundkarte 29 und einen Netzwerkadapter 30 aufweisen, der ermöglicht, das Computersystem an ein Netzwerk 32 anzuschließen. Der Speicher 14 enthält Programmbefehle und Daten für das Diktiersystem 34. Die Befehle werden in der CPU 12 abgearbeitet, um die bevorzugte Ausführungsform der Erfindung zu realisieren. Das Diktiersystem 34 kann von Anwendungsprogrammen 35 verwendet werden, z. B. Textverarbeitungsprogrammen und Nachrichtenprogrammen. Das Diktiersystem weist ein Spracherkennungssystem 36 auf.
  • Dem Fachmann wird klar sein, daß die in 1 gezeigte Computersystemkonfiguration nur zur Veranschaulichung und nicht zur Einschränkung der Erfindung dienen soll. Die Erfindung kann auch mit alternativen Computersystemkonfigurationen praktiziert werden, u. a. Systemen mit Mehrfachprozessoren und verteilten Systemen. Für die nachstehende Diskussion sei angenommen, daß die durch die bevorzugte Ausführungsform der Erfindung durchgeführten Schritte vom Diktiersystem 34 oder vom Spracherkennungssystem 36 angewiesen werden.
  • Ein geeignetes Spracherkennungssystem zur praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung ist in der US-A-5937384 mit dem Titel "Method and System for Speech Recognition Using Continuous Density Hidden Markov Models", Anmeldung Nr. 08/655273, beschrieben, die am 1. Mai 1996 eingereicht und demselben Rechtsnachfolger wie die vorliegende Anmeldung übertragen wurde. 2 zeigt die Komponenten des Spracherkennungssystems 36, die von besonderem Interesse für die Diskussion der bevorzugten Ausführungsform der Erfindung sind. Das Spracherkennungssystem 36 weist ein Spracherkennungsmodul 40 auf, das ein Wörterbuch 42 und Phonetisierungs- bzw. Letter-to-sound-Regeln 46 nutzt. Das Wörterbuch enthält eine Liste der Begriffe, die vom Spracherkennungsmodul 40 erkannt werden, und der zugehörigen Aussprachen. 3 zeigt ein Beispiel für einen Abschnitt des Wörterbuchs 42. Jeder Eintrag im Wörterbuch 42 verfügt über ein Feld 50 zum Identifizieren des zugehörigen Begriffs und ein Feld 52 zum Festlegen der Aussprache des Begriffs. 3 zeigt ein Beispiel für einen Eintrag für den Begriff "Add" (dt. "zufügen"). Die Identität des Begriffs ist in einem Feld 54 enthalten, und die Aussprache des Begriffs ist in einem Feld 56 enthalten. Die Aussprache des Begriffs ist in Phonemen festgelegt.
  • Das Spracherkennungssystem 36 kann auch ein Text-in-Sprache-Modul 44 zum Umwandeln von Text in Sprachausgaben aufweisen. Das Text-in-Sprache-Modul 44 hat Zugriff auf das Wörterbuch 42 und die Letter-to-sound-Regeln 46, die Textbuchstaben in entsprechende Klänge umwandeln. Das Text-in-Sprache-Modul 44 verwendet zunächst das Wörterbuch 42, um Aussprachen zu suchen, und greift dann auf den Gebrauch der Letter-to-sound-Regeln 46 zurück, wenn das verarbeitete Wort nicht im Wörterbuch steht. Dem Fachmann wird klar sein, daß das Text-in-Sprache-Modul 44 nicht Teil des Spracherkennungs systems zu sein braucht, sondern Teil einer gesonderten Sprachsyntheseeinheit sein kann. Dennoch sei für die nachfolgende Diskussion angenommen, daß das Text-in-Sprache-Modul 44 Teil des Spracherkennungssystems 36 ist. Diskutiert wird ein geeignetes Text-in-Sprache-System in der US-A-5913193 mit dem Titel "Method and System of Run Time Acoustic Unit Selection for Speech Synthesis", Anmeldung Nr. 08/648808, die am 30. April 1996 eingereicht und demselben Rechtsnachfolger wie die vorliegende Anmeldung übertragen wurde. Ferner wird der Fachmann erkennen, daß das Spracherkennungsmodul 40 und das Text-in-Sprache-Modul ihre eigenen jeweiligen Wörterbücher und Letter-to-sound-Regeln haben können.
  • 4 ist ein Ablaufplan, der die Schritte veranschaulicht, die vom Spracherkennungssystem 36 durchgeführt werden, damit ein Benutzer die Aussprache eines Begriffs ändern kann, der im Wörterbuch 42 gespeichert ist. Zu Beginn fordert ein Benutzer an, die Aussprache eines bestimmten Worts zu hören (Schritt 60 in 4). Danach identifiziert der Benutzer den Begriff, für den er die Aussprache hören will (Schritt 62 in 4). 5A zeigt ein Beispiel für ein Benutzeroberflächenelement 78, das angezeigt wird, wenn der Benutzer anfordert, die Aussprache eines Worts zu hören. Das Benutzeroberflächenelement 78 weist eine Liste 80 mit Alternativen für ein gesprochenes Wort auf. Im Beispiel gemäß 5A sind die Wörter alphabetisch geordnet. Der Benutzer kann sich durch die Liste 80 bewegen, um das gewünschte Wort auszuwählen. Im Beispiel von 5A hat der Benutzer das Wort "orange" (dt. "Apfelsine") ausgewählt, das im Auswahlfeld 82 erscheint. Danach kann sich der Benutzer die Aussprache des ausgewählten Worts anhören (Schritt 62 in 4) indem er eine Schaltfläche 84 aktiviert. Eine geeignete Möglichkeit zum Aktivieren der Schaltfläche 84 ist, einen Mauszeiger 85 auf der Schaltfläche 84 zu positionieren und auf eine Maustaste zu klicken, während der Mauszeiger auf die Schaltfläche 84 zeigt.
  • Der Benutzer hört die Aussprache des Worts und kann dann bestimmen, ob die Aussprache korrekt ist. Die ausgegebene Aussprache ist die Standardaussprache, die vom Spracherkennungssystem 36 genutzt wird. Akzeptiert der Benutzer die Aus sprache (siehe Schritt 66 in 4), kann der Benutzer die Schaltfläche "OK" 86 aktivieren. Ist dagegen der Benutzer mit der Aussprache unzufrieden (siehe Schritt 66 in 4), kann der Benutzer die Schaltfläche "Change" (dt. "Ändern") 87 aktivieren. Auf diese Weise fordert der Benutzer die Änderung der Aussprache des ausgewählten Begriffs an (Schritt 68 in 4).
  • Danach identifiziert der Benutzer eine neue Aussprache für den ausgewählten Begriff (Schritt 68 in 4). 5B zeigt eine erste Alternative, durch die das System mehrere alternative Aussprachen für den Begriff bereitstellt und der Benutzer eine dieser Aussprachen auswählt. Insbesondere ist gemäß 5B ein Benutzeroberflächenelement 88 vorgesehen, das den Benutzer auffordert, eine Aussprache aus einer der Aussprachen auszuwählen, die in der Liste 90 aufgeführt sind. Der Benutzer kann das Änderungsverfahren der Aussprache durch Aktivieren der Schaltfläche "Cancel" (dt. "Abbrechen") 94 abbrechen oder kann eine der Aussprachen in der Liste auswählen und die Schaltfläche "OK" 92 betätigen, um die ausgewählte Aussprache als neue Standardaussprache für den Begriff zu akzeptieren.
  • Dem Fachmann wird klar sein, daß es mehrere Möglichkeiten der Erzeugung der alternativen Aussprachen für die Begriffe geben kann. Das System kann den Korpus verarbeitet haben, um mehrere Aussprachen für jeden Begriff zu erzeugen, der im Wörterbuch gespeichert ist. Alternativ kann das System mit mehreren Schablonen für jeden Begriff versehen sein, die unterschiedliche Aussprachen anwenden. Weiterhin können die mehreren Aussprachen aus unterschiedlichen Aussprachen empirisch abgeleitet sein, die Benutzer in das Spracherkennungssystem 36 eingegeben haben.
  • Eine zweite Alternative ist in 5C gezeigt. In der zweiten Alternative stellt das System keine alternative Aussprache bereit; statt dessen gibt der Benutzer die alternative Aussprache ein. Ein Benutzeroberflächenelement 96 wie das in 5C gezeigte wird angezeigt, und der Benutzer buchstabiert die neue Aussprache in einem Textfeld 98. Der Benutzer braucht nicht die Phoneme für die Aussprache einzugeben, son dern braucht nur eine Buchstabenfolge (d. h. eine Zeichenfolge) einzugeben, die die gewünschte Aussprache des Worts erfaßt. Will der Benutzer z. B. die Aussprachen des Worts "orange" buchstabieren, könnte der Benutzer die Folge "ornj" eingeben. Danach kann sich der Benutzer anhören, wie das System die Folge interpretiert, die im Textfeld 98 eingegeben wurde, indem er eine Schaltfläche 100 aktiviert. Das Spracherkennungssystem 36 verarbeitet die Zeichenfolge, die im Textfeld 98 eingegeben wurde, mit Hilfe der Letter-to-sound-Regeln und des Wörterbuchs. Ist der Benutzer mit der resultierenden ausgegebenen Aussprache des Begriffs zufrieden, kann der Benutzer die Schaltfläche "OK" 102 aktivieren. Will der Benutzer die Aussprache nicht ändern, kann der Benutzer die Schaltfläche "Cancel" 104 aktivieren. Ist der Benutzer mit der ausgegebenen Aussprache unzufrieden, will aber versuchen, eine weitere Aussprache einzugeben, tippt der Benutzer die alternative Aussprache im Textfeld 98 ein und wiederholt das Verfahren.
  • Dem Fachmann wird deutlich sein, daß andere Alternativen verwendet werden können. Zum Beispiel können Aussprachen dem Benutzer nicht als auswählbare Zeichenfolgen (wie in der ersten Alternative) dargestellt werden, sondern können statt dessen speziellen Benutzeroberflächenelementen, z. B. Schaltflächen, zugeordnet sein, die der Benutzer aktivieren kann, um sich alternative Aussprachen anzuhören. 5D zeigt ein Beispiel, in dem Schaltflächen 93 angezeigt werden und jede Schaltfläche aktivierbar ist, um eine Audioausgabe für eine gesonderte Aussprache zu erzeugen.
  • Nachdem der Benutzer eine akzeptable neue Aussprache identifiziert hat (d. h. Schritt 68 in 4), muß das System das Wörterbuch entsprechend aktualisieren. Insbesondere ersetzt das System die Aussprache des Begriffs im Wörterbuch mit der neu identifizierten Aussprache, mit der der Benutzer zufrieden ist (Schritt 70 in 4). Außerdem kann das System die Änderung des spezifischen Begriffs auf systematische Weise an andere Begriffe weitergeben. Spricht z. B. ein Benutzer "what" (dt. "was") als "HH W AH T" aus, so kann die Änderung an alle Wörter weitergegeben werden, die mit "wh" beginnen (z. B. "where" (dt. "wo") und "which" (dt. "welche")). Dem Fachmann wird klar sein, daß in alternativen Ausführungsformen das Wörterbuch mehrere Aussprachen enthalten und eine einzelne Aussprache als Standardaussprache haben kann. In solchen alternativen Ausführungsformen ist die Ausspracheänderung lediglich eine Änderung der Standardaussprache, die vom Spracherkennungssystem 36 genutzt wird.
  • Das Spracherkennungssystem der bevorzugten Ausführungsform der Erfindung ist dadurch erweiterbar, daß dem Wörterbuch neue Begriffe zugefügt werden können. 6 ist ein Ablaufplan der durchgeführten Schritte, wenn ein Benutzer dem Wörterbuch einen neuen Begriff zufügen will. Zunächst fordert der Benutzer an, dem Wörterbuch einen neuen Begriff zuzufügen (Schritt 110 in 6). 7A zeigt ein Beispiel für einen Benutzeroberflächenmechanismus, der vom Diktiersystem 34 bereitgestellt sein kann, damit ein Benutzer dem Wörterbuch 42 einen Begriff zufügen kann. 7A zeigt ein Fenster 126 eines Anwendungsprogramms, das das Diktiersystem 34 nutzt. Das Fenster 126 weist eine Menüleiste 132 auf, zu der ein Menü Edit (Bearbeiten) 134 gehört. Positioniert der Benutzer einen Mauszeiger über dem Menü Edit 134 und drückt eine Maustaste, wird das Menü 136 angezeigt, das einen Menüpunkt 138 zum Zufügen eines neuen Begriffs zum Wörterbuch aufweist. Ein Benutzer kann den Punkt 138 auswählen, indem er den Mauszeiger so positioniert, daß er auf den Punkt 138 zeigt, und die Maustaste betätigt oder auf den Punkt klickt. Das Fenster 126 enthält Text 128, der durch Interpretieren von Spracheingaben des Benutzers mit einem Mikrofon 26 durch das Diktiersystem 34 erzeugt wird, das das Spracherkennungssystem 36 verwendet. Die aktuelle Zeigerposition 130 ist in 7A dargestellt.
  • Nachdem der Benutzer einen Menüpunkteintrag 138 auswählt, wird ein Dialogfeld wie das in 7B gezeigte angezeigt. Dieses Dialogfeld 140 fordert den Benutzer auf, den Text für den Begriff einzugeben, den der Benutzer dem Wörterbuch zufügen will. Ein Textfeld 142 ist im Dialogfeld 140 vorgesehen. Nachdem der Benutzer den Text eingibt, kann der Benutzer das Verfahren zum Zufügen des neuen Begriffs durch Klicken auf die Schaltfläche "OK" 144 fortsetzen oder kann das Verfahren durch Klicken auf die Schaltfläche "Cancel" 146 beenden. Somit stellt der Benutzer den Text für den Begriff bereit, der dem Wörterbuch zuzufügen ist (Schritt 112 von 6). Das Diktiersystem 34 gibt den Text an das Spracherkennungssystem 36 weiter. Das Spracherkennungssystem führt den Text zum Wörterbuch 42 und zu den Letter-to-sound-Regeln 46, um eine Aussprache für den neuen Begriff zu erzeugen (Schritt 114 in 6). Danach wird die resultierende Aussprache über den Audiolautsprecher 24 für den Benutzer ausgegeben (Schritt 116 in 6), so daß der Benutzer erkennen kann, wie das Spracherkennungssystem 36 erwartet, daß der Begriff ausgesprochen wird. Ein Benutzeroberflächenelement 150 wie das in 7C gezeigte kann anschließend angezeigt werden, damit der Benutzer die Aussprache annehmen oder ablehnen kann. Für das Beispiel in 7C fragt das Benutzeroberflächenelement 150 den Benutzer, ob er die Aussprache des neuen Begriffs akzeptiert, und weist eine Schaltfläche "Yes" (Ja) 152 zum Annehmen der Aussprache, eine Schaltfläche "No" (Nein) 154 zum Ablehnen der Aussprache und eine Audioausgabeschaltfläche 153 zum Erzeugen einer Audioausgabe für die Aussprache des neuen Begriffs auf. Durch Aktivieren dieser Schaltflächen akzeptiert der Benutzer die durch das Text-in-Sprache-Modul 44 erzeugte Aussprache oder lehnt sie ab (siehe Schritt 118 in 6).
  • Akzeptiert der Benutzer die Aussprache, werden der Begriff und die zugehörige Aussprache dem Wörterbuch 42 zugefügt (Schritt 120 in 6). Die zugehörige Aussprache wird beim Erkennen künftiger gesprochener Instanzen des Begriffs verwendet. Akzeptiert der Benutzer die Aussprache dagegen nicht, fordert das System den Benutzer dann zur Eingabe der Aussprache auf (Schritt 122 in 6). Das Spracherkennungssystem 36 erkennt, daß die durch das Wörterbuch 42 und die Letter-to-sound-Regeln 46 erzeugte Aussprache nicht vom Benutzer akzeptiert wurde und fordert daher den Benutzer auf, eine Darstellung der Aussprache für das Wort zu erzeugen. Das Spracherkennungssystem 36 zeigt ein Dialogfeld 160 wie das in 7D gezeigte an, um den Benutzer aufzufordern, die Aussprache für den neuen Begriff einzugeben. Das Dialogfeld 160 weist ein Textfeld 162 auf, in dem ein Benutzer eine Zeichenfolge eingeben kann, die buchstabiert, wie der neue Begriff klingen sollte. Nachdem der Benutzer Text in das Textfeld 162 eingegeben hat, kann der Benutzer eine Schaltfläche 164 aktivieren, um sich anzuhören, wie das System den Text interpretiert, der im Textfeld eingegeben ist. Insbesondere erzeugt das System eine gesprochene Darstellung der im Textfeld 162 eingegebenen Aussprache, die über den Lautsprecher 24 ausgegeben wird. Sobald der Benutzer eine Zeichenfolge eingegeben hat, die eine akzeptable Aussprache erzeugt, kann der Benutzer die Aussprache durch Aktivieren der Schaltfläche "OK" 166 ändern. Der Benutzer kann auch die Änderung der Aussprache abbrechen, indem er die Schaltfläche "Cancel" 168 aktiviert. Im allgemeinen fordert das System den Benutzer zur Eingabe der Aussprache auf (Schritt 122), empfängt die vom Benutzer eingegebene Aussprache (Schritt 124) und gibt die Aussprache aus, die vom Benutzer empfangen wurde, bis der Benutzer die resultierende Aussprache akzeptiert. Alternativ kann das System die aktuelle Aussprache mit neu zugefügter, vom Benutzer eingegebener Aussprache vergleichen und bei ausreichend enger Übereinstimmung den Benutzer nicht nochmals zur Annahme oder Ablehnung auffordern.
  • Das System kann auch die im Wörterbuch 42 gespeicherten Aussprachen ohne explizite Benutzeranforderung transparent aktualisieren. Dieser Mechanismus kann unabhängig von dem zuvor beschriebenen, vom Benutzer ausgelösten Weg zum Aktualisieren der Aussprache eines im Wörterbuch 42 gespeicherten Begriffs oder in Verbindung mit diesem Weg genutzt werden. Anfangs wird dem System ein Korpus von Aussprachedaten bereitgestellt, und das System wendet einen Algorithmus an, z. B. einen Klassifizierungs- und Regressionsbaum-("CART"-) Algorithmus, um alternative Aussprachen für die zugeordneten Begriffe abzuleiten (Schritt 170 in 8). CART-Algorithmen sind in der Technik bekannt und in zahlreichen Veröffentlichungen beschrieben, u. a. Breiman et al., Classification and Regression Trees, 1984. Dem Fachmann wird deutlich sein, daß andere heuristische Ansätze angewendet werden können, die Aussprachen abzuleiten. Die abgeleiteten alternativen Aus sprachen werden zum späteren Gebrauch gespeichert. Spricht ein Benutzer einen Begriff aus und wird der Begriff erkannt, vergleicht das System, wie der Benutzer den Begriff ausgesprochen hat, mit den für den Begriff gespeicherten alternativen Aussprachen (Schritt 172 in 8). Dieses Verfahren wird wiederholt (siehe Rückpfeil zu Schritt 172 in 8), bis das System sicher ist, daß es genau identifizieren kann, welche der alternativen Aussprachen der Benutzer verwendet (siehe Schritt 174 in 8). Beispielsweise kann das System fordern, daß eine Sollanzahl von Treffern für eine der alternativen Aussprachen empfangen wird, bevor das System einen ausreichenden Vertrauensgrad erreicht, um diese Aussprache als die vom Benutzer verwendete Aussprache zu identifizieren. Das Spracherkennungssystem 36 ändert dann das Wörterbuch 42, um die vom Benutzer favorisierte Aussprache zu verwenden (d. h. die Aussprache, die das System als die vom Benutzer verwendete identifizierte) (Schritt 176 in 8).
  • Während die Erfindung anhand einer bevorzugten Ausführungsform beschrieben wurde, dürfte dem Fachmann klar sein, daß verschiedene Änderungen in Form und Detail vorgenommen werden können, ohne vom angestrebten Schutzumfang der Erfindung gemäß der Festlegung in den beigefügten Ansprüchen abzuweichen.

Claims (7)

  1. Verfahren für ein computerimplementiertes Spracherkennungssystem, das Spracheingaben von einem Benutzer erkennt und das eine Audioausgabevorrichtung und eine Anzeigevorrichtung aufweist, wobei das Verfahren die folgenden computerimplementierten Schritte aufweist: Empfangen einer Texteingabe eines bestimmten Worts vom Benutzer; Bereitstellen eines Text-in-Sprache-Mechanismus zum Erzeugen einer gesprochenen Version des Texts; für ein bestimmtes Textwort erfolgendes Verwenden des Text-in-Sprache-Mechanismus, um eine gesprochene Version des bestimmten Worts zu erzeugen; Ausgeben der erzeugten gesprochenen Version des bestimmten Worts als erwartete Aussprache des bestimmten Worts auf der Audioausgabevorrichtung, die die Art und Weise darstellt, wie das Spracherkennungssystem erwartet, daß das bestimmte Wort durch den Benutzer auszusprechen ist; und Bereitstellen eines Benutzeroberflächenelements für den Benutzer, um eine unterschiedliche Aussprache des bestimmten Worts anzufordern, und wobei eine gesprochene Version der unterschiedlichen Aussprache des bestimmten Worts als Reaktion darauf ausgegeben wird, daß der Benutzer die unterschiedliche Aussprache des bestimmten Worts über das Benutzeroberflächenelement anfordert.
  2. Verfahren nach Anspruch 1, wobei das Benutzeroberflächenelement eine aktivierbare Schaltfläche ist, die der Benutzer aktiviert, um eine richtige Aussprache eines Textabschnitts anzufordern.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Spracherkennungssystem eine Liste von Wörtern, die das Spracherkennungssystem erkennt, und einen Mechanismus für den Benutzer aufweist, um Wörter der Liste zuzufügen, und wobei der Verwendungsschritt und der Ausgabeschritt durch den Benutzer ausgelöst werden, der ein neues Wort der Liste zufügt, so daß eine gesprochene Version des neuen Worts ausgegeben wird.
  4. Verfahren nach Anspruch 1, 2 oder 3, ferner mit den folgenden Schritten: Empfangen einer Kennzeichnung einer unterschiedlichen Aussprache des bestimmten Worts vom Benutzer als richtige Aussprache des bestimmten Worts; und Modifizieren der Art und Weise, wie das Spracherkennungssystem erwartet, daß das bestimmte Wort auszusprechen ist, um die unterschiedlichen Aussprachen des bestimmten Worts widerzuspiegeln, die durch den Benutzer gekennzeichnet wurden.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Spracherkennungssystem in einem Diktiersystem zum Umwandeln gesprochener Sprache in Text verwendet wird.
  6. Verfahren nach einem der Ansprüche 1 bis 5, wobei das Spracherkennungssystem mindestens eine erwartete Aussprache für das bestimmte Wort hat und die durch den Text-in-Sprache-Mechanismus erzeugte gesprochene Version des bestimmten Worts der erwarteten Aussprache des bestimmten Worts entspricht.
  7. Verfahren nach einem der Ansprüche 1 bis 6, ferner mit den folgenden Schritten: Erfassen von Statistiken darüber, wie oft das bestimmte Wort gesprochener Sprache vom Sprecher durch das Spracherkennungssystem falsch erkannt wird; und Auffordern des Benutzers durch Erzeugen von Ausgaben auf der Anzeigevorrichtung, die erwartete Aussprache des bestimmten Worts zu korrigieren, wenn die Statistiken zeigen, daß das bestimmte Wort öfter als ein Schwellwert falsch erkannt wird.
DE69834553T 1997-04-10 1998-04-08 Erweiterbares spracherkennungssystem mit einer audio-rückkopplung Expired - Lifetime DE69834553T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/833,916 US5933804A (en) 1997-04-10 1997-04-10 Extensible speech recognition system that provides a user with audio feedback
US833916 1997-04-10
PCT/US1998/006923 WO1998045834A1 (en) 1997-04-10 1998-04-08 Extensible speech recognition system that provides a user with audio feedback

Publications (2)

Publication Number Publication Date
DE69834553D1 DE69834553D1 (de) 2006-06-22
DE69834553T2 true DE69834553T2 (de) 2007-04-26

Family

ID=25265611

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69834553T Expired - Lifetime DE69834553T2 (de) 1997-04-10 1998-04-08 Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69842190T Expired - Lifetime DE69842190D1 (de) 1997-04-10 1998-04-08 Erweiterbares Spracherkennungssystem mit einer Audio-Rückkopplung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69842190T Expired - Lifetime DE69842190D1 (de) 1997-04-10 1998-04-08 Erweiterbares Spracherkennungssystem mit einer Audio-Rückkopplung

Country Status (6)

Country Link
US (1) US5933804A (de)
EP (2) EP0974141B1 (de)
JP (1) JP4570176B2 (de)
CN (2) CN1196105C (de)
DE (2) DE69834553T2 (de)
WO (1) WO1998045834A1 (de)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2219008C (en) * 1997-10-21 2002-11-19 Bell Canada A method and apparatus for improving the utility of speech recognition
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6462616B1 (en) 1998-09-24 2002-10-08 Ericsson Inc. Embedded phonetic support and TTS play button in a contacts database
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6324507B1 (en) 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
EP1074973B1 (de) * 1999-06-30 2006-03-15 International Business Machines Corporation Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
ATE320650T1 (de) 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US7149690B2 (en) * 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US7493559B1 (en) * 2002-01-09 2009-02-17 Ricoh Co., Ltd. System and method for direct multi-modal annotation of objects
KR100467590B1 (ko) * 2002-06-28 2005-01-24 삼성전자주식회사 발음 사전 갱신 장치 및 방법
DE10304229A1 (de) * 2003-01-28 2004-08-05 Deutsche Telekom Ag Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8719021B2 (en) * 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US20080104537A1 (en) * 2006-10-30 2008-05-01 Sherryl Lee Lorraine Scott Method of improved viewing of visual objects on a display, and handheld electronic device
WO2008096310A1 (en) * 2007-02-06 2008-08-14 Nuance Communications Austria Gmbh Method and system for creating or updating entries in a speech recognition lexicon
US8484034B2 (en) * 2008-03-31 2013-07-09 Avaya Inc. Arrangement for creating and using a phonetic-alphabet representation of a name of a party to a call
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US9077933B2 (en) 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US8160881B2 (en) * 2008-12-15 2012-04-17 Microsoft Corporation Human-assisted pronunciation generation
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
CN101739459A (zh) * 2009-12-21 2010-06-16 中兴通讯股份有限公司 一种移动终端的词库添加方法和移动终端
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
KR101179915B1 (ko) 2011-12-29 2012-09-06 주식회사 예스피치 통계적 언어 모델이 적용된 음성인식 시스템의 발화 데이터 정제 장치 및 방법
US9721587B2 (en) * 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
US20150310851A1 (en) * 2014-04-24 2015-10-29 Ford Global Technologies, Llc Method and Apparatus for Extra-Vehicular Voice Recognition Training Including Vehicular Updating
US9613140B2 (en) * 2014-05-16 2017-04-04 International Business Machines Corporation Real-time audio dictionary updating system
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN104598791A (zh) * 2014-11-29 2015-05-06 深圳市金立通信设备有限公司 一种语音解锁方法
CN104505089B (zh) * 2014-12-17 2018-05-18 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US10706210B2 (en) * 2016-08-31 2020-07-07 Nuance Communications, Inc. User interface for dictation application employing automatic speech recognition
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN109635096B (zh) * 2018-12-20 2020-12-25 广东小天才科技有限公司 一种听写提示方法及电子设备
CN111081084B (zh) * 2019-07-11 2021-11-26 广东小天才科技有限公司 一种听写内容的播报方法及电子设备
US11676572B2 (en) * 2021-03-03 2023-06-13 Google Llc Instantaneous learning in text-to-speech during dialog

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4516260A (en) * 1978-04-28 1985-05-07 Texas Instruments Incorporated Electronic learning aid or game having synthesized speech
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4749353A (en) * 1982-05-13 1988-06-07 Texas Instruments Incorporated Talking electronic learning aid for improvement of spelling with operator-controlled word list
JPS6221199A (ja) * 1985-07-22 1987-01-29 株式会社東芝 音声認識装置
JPS6287994A (ja) * 1985-10-14 1987-04-22 株式会社リコー 音声認識辞書更新方式
JPS63281196A (ja) * 1987-05-14 1988-11-17 沖電気工業株式会社 音声認識装置
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system
JPH0778183A (ja) * 1993-06-25 1995-03-20 Ricoh Co Ltd デ−タベ−ス検索システム
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
JPH07306851A (ja) * 1994-05-12 1995-11-21 Ricoh Co Ltd 発音記号編集装置
US5681108A (en) * 1995-06-28 1997-10-28 Miller; Alan Golf scorekeeping system
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
JPH09292255A (ja) * 1996-04-26 1997-11-11 Pioneer Electron Corp ナビゲーション方法及び装置

Also Published As

Publication number Publication date
CN1264468A (zh) 2000-08-23
JP2002511154A (ja) 2002-04-09
WO1998045834A1 (en) 1998-10-15
JP4570176B2 (ja) 2010-10-27
EP0974141A1 (de) 2000-01-26
EP1693827B1 (de) 2011-03-16
CN1604187A (zh) 2005-04-06
EP1693827A3 (de) 2007-05-30
CN1280782C (zh) 2006-10-18
US5933804A (en) 1999-08-03
EP0974141B1 (de) 2006-05-17
DE69842190D1 (de) 2011-04-28
CN1196105C (zh) 2005-04-06
DE69834553D1 (de) 2006-06-22
EP1693827A2 (de) 2006-08-23

Similar Documents

Publication Publication Date Title
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE68928097T2 (de) Spracherkennungssystem
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE3788488T2 (de) Sprachenübersetzungssystem.
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60122352T2 (de) Augenverfolgung für kontextabhängige spracherkennung
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60125397T2 (de) Sprachunabhängige stimmbasierte benutzeroberfläche
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars

Legal Events

Date Code Title Description
8364 No opposition during term of opposition