DE69834553T2

DE69834553T2 - Erweiterbares spracherkennungssystem mit einer audio-rückkopplung

Info

Publication number: DE69834553T2
Application number: DE69834553T
Authority: DE
Inventors: D. Xuedong Woodinville HUANG; J. Michael Issaquah ROZAK; Li Redmond JIANG
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1997-04-10
Filing date: 1998-04-08
Publication date: 2007-04-26
Anticipated expiration: 2018-04-09
Also published as: CN1264468A; JP2002511154A; WO1998045834A1; JP4570176B2; EP0974141A1; EP1693827B1; CN1604187A; EP1693827A3; CN1280782C; US5933804A; EP0974141B1; DE69842190D1; CN1196105C; DE69834553D1; EP1693827A2

Description

TECHNISCHES GEBIET
Die Erfindung betrifft allgemein Datenverarbeitungssysteme und insbesondere ein erweiterbares Spracherkennungssystem, das Audiorückmeldungen für einen Benutzer bereitstellt.
HINTERGRUND DER ERFINDUNG
Spracherkennungssysteme ermöglichen einem Computersystem, mindestens ausgewählte Sprachabschnitte zu erkennen, die in das Computersystem eingegeben werden. Allgemein zerlegen Spracherkennungssysteme eingegebene Sprache in bearbeitbare Segmente, die leicht erkannt werden können. Beispielsweise kann eingegebene Sprache in Phoneme zerlegt werden, die weiter verarbeitet werden, um den Inhalt der Sprache zu erkennen. Normalerweise erkennen Spracherkennungssysteme Wörter in eingegebener Sprache durch Vergleichen der Aussprache des Worts in der eingegebenen Sprache mit Mustern oder Schablonen (Vorlagen), die vom Spracherkennungssystem gespeichert werden. Erzeugt werden die Schablonen mit Hilfe phonetischer Darstellungen des Worts und kontextabhängiger Schablonen für die Phoneme. Viele Spracherkennungssysteme weisen Wörterbücher auf, die die Aussprachen von Begriffen festlegen, die vom Spracherkennungssystem erkannt werden.
Eine Stelle, wo Spracherkennungssysteme verwendet werden, liegt in Diktiersystemen. Diktiersysteme wandeln eingegebene Sprache in Text um. In solchen Diktiersystemen werden die Spracherkennungssysteme verwendet, Wörter in der eingegebenen Sprache zu identifizieren, und die Diktiersysteme erzeugen Textausgaben in Entsprechung zu den identifizierten Wörtern. Leider unterliegen diese Diktiersysteme oft einem hohen Fehlerkennungsgrad von Spracheingaben von bestimmten Benutzern. Die in solchen Diktiersystemen eingesetzten Spracherkennungssysteme haben eine oder mehrere Aussprachen für jedes Wort, aber die Aussprachen der Wörter sind statisch und stellen die Aussprache dar, die das Spracherkennungssystem zu hören erwartet. Gebraucht ein Benutzer eine unterschiedliche Aussprache für ein Wort als die vom Spracherkennungssystem erwartete, erkennt das Spracherkennungssystem oft nicht die Benutzereingabe. Besonders ärgerlich kann dieser Nachteil für einen Benutzer sein, wenn ein Begriff mehrere richtige Aussprachen hat und der Benutzer eine der Aussprachen gebraucht, die nicht durch das Wörterbuch des Spracherkennungssystems erfaßt ist.
Eine weitere Einschränkung solcher Diktiersysteme ist, daß sie entweder nicht erweiterbar sind (d. h. ein Benutzer kann dem Wörterbuch keinen neuen Begriff zufügen) oder sie das Zufügen neuer Begriffe erlauben, aber ihre eigene Aussprache des neuen Begriffs erzeugen, ohne dem Benutzer zu ermöglichen, die Aussprache(n) festzustellen. Solche Systeme können einen heuristischen Phonetisierungs- bzw. Letter-to-sound-Ansatz verwenden, um die Aussprache eines neu zugefügten Begriffs zu schätzen. Leider ergeben solche heuristischen Ansätze vielfach keine korrekten Ergebnisse. Fügt ein Benutzer einen neuen Begriff zu, um das in einem Diktiersystem verwendete Wörterbuch zu erweitern, gibt der Benutzer oft lediglich den neuen Begriff ohne Hinweis auf eine Aussprache ein, und das Spracherkennungssystem erzeugt eine Aussprache für den neuen Begriff. Diese neue Aussprache kann falsch sein oder kann nicht mit der vom Benutzer antizipierten Aussprache des Worts übereinstimmen. Dadurch liegt oft ein hoher Fehlerkennungsgrad bei Spracheingaben vor, die den neu zugefügten Begriff verwenden oder die den neu zugefügten Begriff aufweisen.
Das Dokument "Dragon SpeechTool 1.0 Builds Custom Speaker-Independent Vocabularies for Speech Recognition", 6. November 1996, betrifft eine interaktive Benutzeroberfläche, die den Aufbau eines Spezialvokabulars erleichtert – Entwickler sprechen lediglich das Wort aus SpeechTool übersetzt automatisch ihre Sprache in ein Vokabularmodell und verwendet dann DragonDictate's verfügbare Text-in-Sprache-Fähigkeit, um es für sie auszusprechen. Die Entwickler können sich jede ih rer Aussprachen anhören und modifizieren oder sogar mehrere Aussprachen für dasselbe Wort zwecks vollständiger Flexibilität und Steuerung ihrer Spezialvokabulare erzeugen.
Das Dokument "Dictionary Learning: Performance through Consistency", Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), Detroit, 9. bis 12. Mai 1995, Speech, Vol. 1, 9. Mai 1995, Institute of Electrical and Electronics Engineers, Seiten 453 bis 456, betrifft Ergebnisse beim automatischen Vergrößern und Adaptieren phonetischer Wörterbücher für die spontane Spracherkennung.
ZUSAMMENFASSUNG DER ERFINDUNG
Die zuvor beschriebenen Einschränkungen des Stands der Technik werden durch die Erfindung überwunden. Erfindungsgemäß wird ein Verfahren nach Anspruch 1 bereitgestellt. Ausführungsformen sind in den Unteransprüchen dargelegt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Im folgenden wird eine bevorzugte Ausführungsform der Erfindung anhand der folgenden Zeichnungen näher beschrieben.
1 ist eine Blockdarstellung eines Computersystems, das zur praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung geeignet ist.
2 ist eine Blockdarstellung, die Komponenten des Spracherkennungssystems veranschaulicht.
3 ist eine Darstellung, die einen Beispielabschnitt des Wörterbuchs veranschaulicht.
4 ist ein Ablaufplan der durchgeführten Schritte, damit ein Benutzer die Aussprache eines Begriffs im Wörterbuch ändern kann.
5A bis 5D zeigen Benutzeroberflächenelemente, die vorgesehen sind, damit ein Benutzer die Aussprache eines Begriffs des Wörterbuchs abändern kann.
6 ist ein Ablaufplan der durchgeführten Schritte, um dem Wörterbuch einen neuen Begriff zuzufügen.
7A bis 7D veranschaulichen Benutzeroberflächenelemente, die vorgesehen sind, damit ein Benutzer dem Wörterbuch einen neuen Begriff mit einer bestimmten Aussprache zufügen kann.
8 ist ein Ablaufplan der durchgeführten Schritte, um die im Wörterbuch gespeicherten Aussprachen ohne interaktive Benutzereingabe abzuändern.
NÄHERE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Die bevorzugte Ausführungsform der Erfindung stellt ein erweiterbares Spracherkennungssystem bereit, das einem Benutzer Audiorückmeldungen liefert. Will also ein Benutzer ein Wort oder einen Begriff einem vom Spracherkennungssystem verwendeten Wörterbuch zufügen, erhält der Benutzer eine Audiorückmeldung darüber, wie der Begriff nach Dafürhalten des Systems ausgesprochen werden sollte. Danach kann der Benutzer diese Aussprache akzeptieren oder die Änderung der Aussprache anfordern. In einer Alternative legt der Benutzer die Aussprache des Worts fest, indem er buchstabiert, wie das Wort klingen sollte. In einer weiteren Alternative stellt das System dem Benutzer eine Liste alternativer Aussprachen für das Wort bereit, und der Benutzer wählt die Aussprache aus.
Die bevorzugte Ausführungsform der Erfindung ermöglicht einem Benutzer, die Aussprache jedes der Wörter zu ändern, die sich aktuell im Wörterbuch befinden. Zusätzlich ermöglicht die bevorzugte Ausführungsform der Erfindung einem Benutzer, sich die Aussprache anzuhören, die einem Wort im Wörterbuch aktuell zugeordnet ist. Der Benutzer kann sich die Aussprache anhören und dann die Aussprache bei Bedarf in eine alternative Aussprache ändern. Als Ergebnis kann der Benutzer den Erkennungsgrad von Begriffen stark erhöhen, den das Spracherkennungssystem erreicht.
In einer weiteren Alternative wird das vom Spracherkennungssystem verwendete Wörterbuch durch das System automatisch und transparent aktualisiert. Das System verarbeitet einen Korpus von Aussprachedaten, um alternative Aussprachen für Begriffe im Wörterbuch abzuleiten. Spricht der Benutzer einen Begriff aus und wird der Begriff richtig erkannt, identifiziert das System, welche der alternativen Aussprachen der Benutzer gebrauchte. Nach einer festen Anzahl richtiger Erkennungen und Vergleiche erhält das System einen Vertrauensgrad in die vom Benutzer gebrauchte Aussprache und ändert das Wörterbuch (mit Weitergabe der Änderung in beobachteten Ein trägen zu anderen nicht beobachteten Einträgen auf systematische Weise), um diese Aussprache zu nutzen, um so den durch das System realisierten Erkennungsgrad zu erhöhen.
Im folgenden wird die bevorzugte Ausführungsform der Erfindung für ein Diktiersystem beschrieben. Im Diktiersystem spricht der Benutzer in ein Audioeingabegerät, z. B. ein Mikrofon, um gesprochenen Text einzugeben. Das Diktiersystem erkennt den gesprochenen Text und erzeugt entsprechenden Text als Teil eines Dokuments. Dem Fachmann wird klar sein, daß die Erfindung auch in anderen Zusammenhängen als einem Diktiersystem praktiziert werden kann. Allgemeiner trifft die Erfindung auf Spracherkennungssysteme zu.
1 ist eine Blockdarstellung eines Computersystems 10, das zur praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung geeignet ist. Das Computersystem 10 weist eine Zentraleinheit (CPU) 12 auf, die Zugriff auf einen Primärspeicher 14 und einen Sekundärspeicher 16 hat. Der Sekundärspeicher 16 kann Wechselmedienlaufwerke aufweisen, z. B. ein CD-ROM-Laufwerk, die Informationen lesen können, die auf einem computerlesbaren Medium (z. B. einer CD-ROM) gespeichert sind. Ferner weist das Computersystem 10 eine Anzahl von Peripheriegeräten auf. Zu diesen Peripheriegeräten können z. B. eine Tastatur 18, eine Maus 20, ein Bildschirm 22, ein Audiolautsprecher 24 und ein Mikrofon 26 gehören. Zusätzlich kann das Computersystem ein Modem 28, eine Soundkarte 29 und einen Netzwerkadapter 30 aufweisen, der ermöglicht, das Computersystem an ein Netzwerk 32 anzuschließen. Der Speicher 14 enthält Programmbefehle und Daten für das Diktiersystem 34. Die Befehle werden in der CPU 12 abgearbeitet, um die bevorzugte Ausführungsform der Erfindung zu realisieren. Das Diktiersystem 34 kann von Anwendungsprogrammen 35 verwendet werden, z. B. Textverarbeitungsprogrammen und Nachrichtenprogrammen. Das Diktiersystem weist ein Spracherkennungssystem 36 auf.
Dem Fachmann wird klar sein, daß die in 1 gezeigte Computersystemkonfiguration nur zur Veranschaulichung und nicht zur Einschränkung der Erfindung dienen soll. Die Erfindung kann auch mit alternativen Computersystemkonfigurationen praktiziert werden, u. a. Systemen mit Mehrfachprozessoren und verteilten Systemen. Für die nachstehende Diskussion sei angenommen, daß die durch die bevorzugte Ausführungsform der Erfindung durchgeführten Schritte vom Diktiersystem 34 oder vom Spracherkennungssystem 36 angewiesen werden.
Ein geeignetes Spracherkennungssystem zur praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung ist in der US-A-5937384 mit dem Titel "Method and System for Speech Recognition Using Continuous Density Hidden Markov Models", Anmeldung Nr. 08/655273, beschrieben, die am 1. Mai 1996 eingereicht und demselben Rechtsnachfolger wie die vorliegende Anmeldung übertragen wurde. 2 zeigt die Komponenten des Spracherkennungssystems 36, die von besonderem Interesse für die Diskussion der bevorzugten Ausführungsform der Erfindung sind. Das Spracherkennungssystem 36 weist ein Spracherkennungsmodul 40 auf, das ein Wörterbuch 42 und Phonetisierungs- bzw. Letter-to-sound-Regeln 46 nutzt. Das Wörterbuch enthält eine Liste der Begriffe, die vom Spracherkennungsmodul 40 erkannt werden, und der zugehörigen Aussprachen. 3 zeigt ein Beispiel für einen Abschnitt des Wörterbuchs 42. Jeder Eintrag im Wörterbuch 42 verfügt über ein Feld 50 zum Identifizieren des zugehörigen Begriffs und ein Feld 52 zum Festlegen der Aussprache des Begriffs. 3 zeigt ein Beispiel für einen Eintrag für den Begriff "Add" (dt. "zufügen"). Die Identität des Begriffs ist in einem Feld 54 enthalten, und die Aussprache des Begriffs ist in einem Feld 56 enthalten. Die Aussprache des Begriffs ist in Phonemen festgelegt.
Das Spracherkennungssystem 36 kann auch ein Text-in-Sprache-Modul 44 zum Umwandeln von Text in Sprachausgaben aufweisen. Das Text-in-Sprache-Modul 44 hat Zugriff auf das Wörterbuch 42 und die Letter-to-sound-Regeln 46, die Textbuchstaben in entsprechende Klänge umwandeln. Das Text-in-Sprache-Modul 44 verwendet zunächst das Wörterbuch 42, um Aussprachen zu suchen, und greift dann auf den Gebrauch der Letter-to-sound-Regeln 46 zurück, wenn das verarbeitete Wort nicht im Wörterbuch steht. Dem Fachmann wird klar sein, daß das Text-in-Sprache-Modul 44 nicht Teil des Spracherkennungs systems zu sein braucht, sondern Teil einer gesonderten Sprachsyntheseeinheit sein kann. Dennoch sei für die nachfolgende Diskussion angenommen, daß das Text-in-Sprache-Modul 44 Teil des Spracherkennungssystems 36 ist. Diskutiert wird ein geeignetes Text-in-Sprache-System in der US-A-5913193 mit dem Titel "Method and System of Run Time Acoustic Unit Selection for Speech Synthesis", Anmeldung Nr. 08/648808, die am 30. April 1996 eingereicht und demselben Rechtsnachfolger wie die vorliegende Anmeldung übertragen wurde. Ferner wird der Fachmann erkennen, daß das Spracherkennungsmodul 40 und das Text-in-Sprache-Modul ihre eigenen jeweiligen Wörterbücher und Letter-to-sound-Regeln haben können.
4 ist ein Ablaufplan, der die Schritte veranschaulicht, die vom Spracherkennungssystem 36 durchgeführt werden, damit ein Benutzer die Aussprache eines Begriffs ändern kann, der im Wörterbuch 42 gespeichert ist. Zu Beginn fordert ein Benutzer an, die Aussprache eines bestimmten Worts zu hören (Schritt 60 in 4). Danach identifiziert der Benutzer den Begriff, für den er die Aussprache hören will (Schritt 62 in 4). 5A zeigt ein Beispiel für ein Benutzeroberflächenelement 78, das angezeigt wird, wenn der Benutzer anfordert, die Aussprache eines Worts zu hören. Das Benutzeroberflächenelement 78 weist eine Liste 80 mit Alternativen für ein gesprochenes Wort auf. Im Beispiel gemäß 5A sind die Wörter alphabetisch geordnet. Der Benutzer kann sich durch die Liste 80 bewegen, um das gewünschte Wort auszuwählen. Im Beispiel von 5A hat der Benutzer das Wort "orange" (dt. "Apfelsine") ausgewählt, das im Auswahlfeld 82 erscheint. Danach kann sich der Benutzer die Aussprache des ausgewählten Worts anhören (Schritt 62 in 4) indem er eine Schaltfläche 84 aktiviert. Eine geeignete Möglichkeit zum Aktivieren der Schaltfläche 84 ist, einen Mauszeiger 85 auf der Schaltfläche 84 zu positionieren und auf eine Maustaste zu klicken, während der Mauszeiger auf die Schaltfläche 84 zeigt.
Der Benutzer hört die Aussprache des Worts und kann dann bestimmen, ob die Aussprache korrekt ist. Die ausgegebene Aussprache ist die Standardaussprache, die vom Spracherkennungssystem 36 genutzt wird. Akzeptiert der Benutzer die Aus sprache (siehe Schritt 66 in 4), kann der Benutzer die Schaltfläche "OK" 86 aktivieren. Ist dagegen der Benutzer mit der Aussprache unzufrieden (siehe Schritt 66 in 4), kann der Benutzer die Schaltfläche "Change" (dt. "Ändern") 87 aktivieren. Auf diese Weise fordert der Benutzer die Änderung der Aussprache des ausgewählten Begriffs an (Schritt 68 in 4).
Danach identifiziert der Benutzer eine neue Aussprache für den ausgewählten Begriff (Schritt 68 in 4). 5B zeigt eine erste Alternative, durch die das System mehrere alternative Aussprachen für den Begriff bereitstellt und der Benutzer eine dieser Aussprachen auswählt. Insbesondere ist gemäß 5B ein Benutzeroberflächenelement 88 vorgesehen, das den Benutzer auffordert, eine Aussprache aus einer der Aussprachen auszuwählen, die in der Liste 90 aufgeführt sind. Der Benutzer kann das Änderungsverfahren der Aussprache durch Aktivieren der Schaltfläche "Cancel" (dt. "Abbrechen") 94 abbrechen oder kann eine der Aussprachen in der Liste auswählen und die Schaltfläche "OK" 92 betätigen, um die ausgewählte Aussprache als neue Standardaussprache für den Begriff zu akzeptieren.
Dem Fachmann wird klar sein, daß es mehrere Möglichkeiten der Erzeugung der alternativen Aussprachen für die Begriffe geben kann. Das System kann den Korpus verarbeitet haben, um mehrere Aussprachen für jeden Begriff zu erzeugen, der im Wörterbuch gespeichert ist. Alternativ kann das System mit mehreren Schablonen für jeden Begriff versehen sein, die unterschiedliche Aussprachen anwenden. Weiterhin können die mehreren Aussprachen aus unterschiedlichen Aussprachen empirisch abgeleitet sein, die Benutzer in das Spracherkennungssystem 36 eingegeben haben.
Eine zweite Alternative ist in 5C gezeigt. In der zweiten Alternative stellt das System keine alternative Aussprache bereit; statt dessen gibt der Benutzer die alternative Aussprache ein. Ein Benutzeroberflächenelement 96 wie das in 5C gezeigte wird angezeigt, und der Benutzer buchstabiert die neue Aussprache in einem Textfeld 98. Der Benutzer braucht nicht die Phoneme für die Aussprache einzugeben, son dern braucht nur eine Buchstabenfolge (d. h. eine Zeichenfolge) einzugeben, die die gewünschte Aussprache des Worts erfaßt. Will der Benutzer z. B. die Aussprachen des Worts "orange" buchstabieren, könnte der Benutzer die Folge "ornj" eingeben. Danach kann sich der Benutzer anhören, wie das System die Folge interpretiert, die im Textfeld 98 eingegeben wurde, indem er eine Schaltfläche 100 aktiviert. Das Spracherkennungssystem 36 verarbeitet die Zeichenfolge, die im Textfeld 98 eingegeben wurde, mit Hilfe der Letter-to-sound-Regeln und des Wörterbuchs. Ist der Benutzer mit der resultierenden ausgegebenen Aussprache des Begriffs zufrieden, kann der Benutzer die Schaltfläche "OK" 102 aktivieren. Will der Benutzer die Aussprache nicht ändern, kann der Benutzer die Schaltfläche "Cancel" 104 aktivieren. Ist der Benutzer mit der ausgegebenen Aussprache unzufrieden, will aber versuchen, eine weitere Aussprache einzugeben, tippt der Benutzer die alternative Aussprache im Textfeld 98 ein und wiederholt das Verfahren.
Dem Fachmann wird deutlich sein, daß andere Alternativen verwendet werden können. Zum Beispiel können Aussprachen dem Benutzer nicht als auswählbare Zeichenfolgen (wie in der ersten Alternative) dargestellt werden, sondern können statt dessen speziellen Benutzeroberflächenelementen, z. B. Schaltflächen, zugeordnet sein, die der Benutzer aktivieren kann, um sich alternative Aussprachen anzuhören. 5D zeigt ein Beispiel, in dem Schaltflächen 93 angezeigt werden und jede Schaltfläche aktivierbar ist, um eine Audioausgabe für eine gesonderte Aussprache zu erzeugen.
Nachdem der Benutzer eine akzeptable neue Aussprache identifiziert hat (d. h. Schritt 68 in 4), muß das System das Wörterbuch entsprechend aktualisieren. Insbesondere ersetzt das System die Aussprache des Begriffs im Wörterbuch mit der neu identifizierten Aussprache, mit der der Benutzer zufrieden ist (Schritt 70 in 4). Außerdem kann das System die Änderung des spezifischen Begriffs auf systematische Weise an andere Begriffe weitergeben. Spricht z. B. ein Benutzer "what" (dt. "was") als "HH W AH T" aus, so kann die Änderung an alle Wörter weitergegeben werden, die mit "wh" beginnen (z. B. "where" (dt. "wo") und "which" (dt. "welche")). Dem Fachmann wird klar sein, daß in alternativen Ausführungsformen das Wörterbuch mehrere Aussprachen enthalten und eine einzelne Aussprache als Standardaussprache haben kann. In solchen alternativen Ausführungsformen ist die Ausspracheänderung lediglich eine Änderung der Standardaussprache, die vom Spracherkennungssystem 36 genutzt wird.
Das Spracherkennungssystem der bevorzugten Ausführungsform der Erfindung ist dadurch erweiterbar, daß dem Wörterbuch neue Begriffe zugefügt werden können. 6 ist ein Ablaufplan der durchgeführten Schritte, wenn ein Benutzer dem Wörterbuch einen neuen Begriff zufügen will. Zunächst fordert der Benutzer an, dem Wörterbuch einen neuen Begriff zuzufügen (Schritt 110 in 6). 7A zeigt ein Beispiel für einen Benutzeroberflächenmechanismus, der vom Diktiersystem 34 bereitgestellt sein kann, damit ein Benutzer dem Wörterbuch 42 einen Begriff zufügen kann. 7A zeigt ein Fenster 126 eines Anwendungsprogramms, das das Diktiersystem 34 nutzt. Das Fenster 126 weist eine Menüleiste 132 auf, zu der ein Menü Edit (Bearbeiten) 134 gehört. Positioniert der Benutzer einen Mauszeiger über dem Menü Edit 134 und drückt eine Maustaste, wird das Menü 136 angezeigt, das einen Menüpunkt 138 zum Zufügen eines neuen Begriffs zum Wörterbuch aufweist. Ein Benutzer kann den Punkt 138 auswählen, indem er den Mauszeiger so positioniert, daß er auf den Punkt 138 zeigt, und die Maustaste betätigt oder auf den Punkt klickt. Das Fenster 126 enthält Text 128, der durch Interpretieren von Spracheingaben des Benutzers mit einem Mikrofon 26 durch das Diktiersystem 34 erzeugt wird, das das Spracherkennungssystem 36 verwendet. Die aktuelle Zeigerposition 130 ist in 7A dargestellt.
Nachdem der Benutzer einen Menüpunkteintrag 138 auswählt, wird ein Dialogfeld wie das in 7B gezeigte angezeigt. Dieses Dialogfeld 140 fordert den Benutzer auf, den Text für den Begriff einzugeben, den der Benutzer dem Wörterbuch zufügen will. Ein Textfeld 142 ist im Dialogfeld 140 vorgesehen. Nachdem der Benutzer den Text eingibt, kann der Benutzer das Verfahren zum Zufügen des neuen Begriffs durch Klicken auf die Schaltfläche "OK" 144 fortsetzen oder kann das Verfahren durch Klicken auf die Schaltfläche "Cancel" 146 beenden. Somit stellt der Benutzer den Text für den Begriff bereit, der dem Wörterbuch zuzufügen ist (Schritt 112 von 6). Das Diktiersystem 34 gibt den Text an das Spracherkennungssystem 36 weiter. Das Spracherkennungssystem führt den Text zum Wörterbuch 42 und zu den Letter-to-sound-Regeln 46, um eine Aussprache für den neuen Begriff zu erzeugen (Schritt 114 in 6). Danach wird die resultierende Aussprache über den Audiolautsprecher 24 für den Benutzer ausgegeben (Schritt 116 in 6), so daß der Benutzer erkennen kann, wie das Spracherkennungssystem 36 erwartet, daß der Begriff ausgesprochen wird. Ein Benutzeroberflächenelement 150 wie das in 7C gezeigte kann anschließend angezeigt werden, damit der Benutzer die Aussprache annehmen oder ablehnen kann. Für das Beispiel in 7C fragt das Benutzeroberflächenelement 150 den Benutzer, ob er die Aussprache des neuen Begriffs akzeptiert, und weist eine Schaltfläche "Yes" (Ja) 152 zum Annehmen der Aussprache, eine Schaltfläche "No" (Nein) 154 zum Ablehnen der Aussprache und eine Audioausgabeschaltfläche 153 zum Erzeugen einer Audioausgabe für die Aussprache des neuen Begriffs auf. Durch Aktivieren dieser Schaltflächen akzeptiert der Benutzer die durch das Text-in-Sprache-Modul 44 erzeugte Aussprache oder lehnt sie ab (siehe Schritt 118 in 6).
Akzeptiert der Benutzer die Aussprache, werden der Begriff und die zugehörige Aussprache dem Wörterbuch 42 zugefügt (Schritt 120 in 6). Die zugehörige Aussprache wird beim Erkennen künftiger gesprochener Instanzen des Begriffs verwendet. Akzeptiert der Benutzer die Aussprache dagegen nicht, fordert das System den Benutzer dann zur Eingabe der Aussprache auf (Schritt 122 in 6). Das Spracherkennungssystem 36 erkennt, daß die durch das Wörterbuch 42 und die Letter-to-sound-Regeln 46 erzeugte Aussprache nicht vom Benutzer akzeptiert wurde und fordert daher den Benutzer auf, eine Darstellung der Aussprache für das Wort zu erzeugen. Das Spracherkennungssystem 36 zeigt ein Dialogfeld 160 wie das in 7D gezeigte an, um den Benutzer aufzufordern, die Aussprache für den neuen Begriff einzugeben. Das Dialogfeld 160 weist ein Textfeld 162 auf, in dem ein Benutzer eine Zeichenfolge eingeben kann, die buchstabiert, wie der neue Begriff klingen sollte. Nachdem der Benutzer Text in das Textfeld 162 eingegeben hat, kann der Benutzer eine Schaltfläche 164 aktivieren, um sich anzuhören, wie das System den Text interpretiert, der im Textfeld eingegeben ist. Insbesondere erzeugt das System eine gesprochene Darstellung der im Textfeld 162 eingegebenen Aussprache, die über den Lautsprecher 24 ausgegeben wird. Sobald der Benutzer eine Zeichenfolge eingegeben hat, die eine akzeptable Aussprache erzeugt, kann der Benutzer die Aussprache durch Aktivieren der Schaltfläche "OK" 166 ändern. Der Benutzer kann auch die Änderung der Aussprache abbrechen, indem er die Schaltfläche "Cancel" 168 aktiviert. Im allgemeinen fordert das System den Benutzer zur Eingabe der Aussprache auf (Schritt 122), empfängt die vom Benutzer eingegebene Aussprache (Schritt 124) und gibt die Aussprache aus, die vom Benutzer empfangen wurde, bis der Benutzer die resultierende Aussprache akzeptiert. Alternativ kann das System die aktuelle Aussprache mit neu zugefügter, vom Benutzer eingegebener Aussprache vergleichen und bei ausreichend enger Übereinstimmung den Benutzer nicht nochmals zur Annahme oder Ablehnung auffordern.
Das System kann auch die im Wörterbuch 42 gespeicherten Aussprachen ohne explizite Benutzeranforderung transparent aktualisieren. Dieser Mechanismus kann unabhängig von dem zuvor beschriebenen, vom Benutzer ausgelösten Weg zum Aktualisieren der Aussprache eines im Wörterbuch 42 gespeicherten Begriffs oder in Verbindung mit diesem Weg genutzt werden. Anfangs wird dem System ein Korpus von Aussprachedaten bereitgestellt, und das System wendet einen Algorithmus an, z. B. einen Klassifizierungs- und Regressionsbaum-("CART"-) Algorithmus, um alternative Aussprachen für die zugeordneten Begriffe abzuleiten (Schritt 170 in 8). CART-Algorithmen sind in der Technik bekannt und in zahlreichen Veröffentlichungen beschrieben, u. a. Breiman et al., Classification and Regression Trees, 1984. Dem Fachmann wird deutlich sein, daß andere heuristische Ansätze angewendet werden können, die Aussprachen abzuleiten. Die abgeleiteten alternativen Aus sprachen werden zum späteren Gebrauch gespeichert. Spricht ein Benutzer einen Begriff aus und wird der Begriff erkannt, vergleicht das System, wie der Benutzer den Begriff ausgesprochen hat, mit den für den Begriff gespeicherten alternativen Aussprachen (Schritt 172 in 8). Dieses Verfahren wird wiederholt (siehe Rückpfeil zu Schritt 172 in 8), bis das System sicher ist, daß es genau identifizieren kann, welche der alternativen Aussprachen der Benutzer verwendet (siehe Schritt 174 in 8). Beispielsweise kann das System fordern, daß eine Sollanzahl von Treffern für eine der alternativen Aussprachen empfangen wird, bevor das System einen ausreichenden Vertrauensgrad erreicht, um diese Aussprache als die vom Benutzer verwendete Aussprache zu identifizieren. Das Spracherkennungssystem 36 ändert dann das Wörterbuch 42, um die vom Benutzer favorisierte Aussprache zu verwenden (d. h. die Aussprache, die das System als die vom Benutzer verwendete identifizierte) (Schritt 176 in 8).
Während die Erfindung anhand einer bevorzugten Ausführungsform beschrieben wurde, dürfte dem Fachmann klar sein, daß verschiedene Änderungen in Form und Detail vorgenommen werden können, ohne vom angestrebten Schutzumfang der Erfindung gemäß der Festlegung in den beigefügten Ansprüchen abzuweichen.

Claims

Verfahren für ein computerimplementiertes Spracherkennungssystem, das Spracheingaben von einem Benutzer erkennt und das eine Audioausgabevorrichtung und eine Anzeigevorrichtung aufweist, wobei das Verfahren die folgenden computerimplementierten Schritte aufweist: Empfangen einer Texteingabe eines bestimmten Worts vom Benutzer; Bereitstellen eines Text-in-Sprache-Mechanismus zum Erzeugen einer gesprochenen Version des Texts; für ein bestimmtes Textwort erfolgendes Verwenden des Text-in-Sprache-Mechanismus, um eine gesprochene Version des bestimmten Worts zu erzeugen; Ausgeben der erzeugten gesprochenen Version des bestimmten Worts als erwartete Aussprache des bestimmten Worts auf der Audioausgabevorrichtung, die die Art und Weise darstellt, wie das Spracherkennungssystem erwartet, daß das bestimmte Wort durch den Benutzer auszusprechen ist; und Bereitstellen eines Benutzeroberflächenelements für den Benutzer, um eine unterschiedliche Aussprache des bestimmten Worts anzufordern, und wobei eine gesprochene Version der unterschiedlichen Aussprache des bestimmten Worts als Reaktion darauf ausgegeben wird, daß der Benutzer die unterschiedliche Aussprache des bestimmten Worts über das Benutzeroberflächenelement anfordert.
Verfahren nach Anspruch 1, wobei das Benutzeroberflächenelement eine aktivierbare Schaltfläche ist, die der Benutzer aktiviert, um eine richtige Aussprache eines Textabschnitts anzufordern.
Verfahren nach Anspruch 1 oder 2, wobei das Spracherkennungssystem eine Liste von Wörtern, die das Spracherkennungssystem erkennt, und einen Mechanismus für den Benutzer aufweist, um Wörter der Liste zuzufügen, und wobei der Verwendungsschritt und der Ausgabeschritt durch den Benutzer ausgelöst werden, der ein neues Wort der Liste zufügt, so daß eine gesprochene Version des neuen Worts ausgegeben wird.
Verfahren nach Anspruch 1, 2 oder 3, ferner mit den folgenden Schritten: Empfangen einer Kennzeichnung einer unterschiedlichen Aussprache des bestimmten Worts vom Benutzer als richtige Aussprache des bestimmten Worts; und Modifizieren der Art und Weise, wie das Spracherkennungssystem erwartet, daß das bestimmte Wort auszusprechen ist, um die unterschiedlichen Aussprachen des bestimmten Worts widerzuspiegeln, die durch den Benutzer gekennzeichnet wurden.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das Spracherkennungssystem in einem Diktiersystem zum Umwandeln gesprochener Sprache in Text verwendet wird.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Spracherkennungssystem mindestens eine erwartete Aussprache für das bestimmte Wort hat und die durch den Text-in-Sprache-Mechanismus erzeugte gesprochene Version des bestimmten Worts der erwarteten Aussprache des bestimmten Worts entspricht.
Verfahren nach einem der Ansprüche 1 bis 6, ferner mit den folgenden Schritten: Erfassen von Statistiken darüber, wie oft das bestimmte Wort gesprochener Sprache vom Sprecher durch das Spracherkennungssystem falsch erkannt wird; und Auffordern des Benutzers durch Erzeugen von Ausgaben auf der Anzeigevorrichtung, die erwartete Aussprache des bestimmten Worts zu korrigieren, wenn die Statistiken zeigen, daß das bestimmte Wort öfter als ein Schwellwert falsch erkannt wird.