-
TECHNISCHES GEBIET
-
Die
Erfindung betrifft allgemein Datenverarbeitungssysteme und insbesondere
ein erweiterbares Spracherkennungssystem, das Audiorückmeldungen
für einen
Benutzer bereitstellt.
-
HINTERGRUND
DER ERFINDUNG
-
Spracherkennungssysteme
ermöglichen
einem Computersystem, mindestens ausgewählte Sprachabschnitte zu erkennen,
die in das Computersystem eingegeben werden. Allgemein zerlegen Spracherkennungssysteme
eingegebene Sprache in bearbeitbare Segmente, die leicht erkannt
werden können.
Beispielsweise kann eingegebene Sprache in Phoneme zerlegt werden,
die weiter verarbeitet werden, um den Inhalt der Sprache zu erkennen. Normalerweise
erkennen Spracherkennungssysteme Wörter in eingegebener Sprache
durch Vergleichen der Aussprache des Worts in der eingegebenen Sprache
mit Mustern oder Schablonen (Vorlagen), die vom Spracherkennungssystem
gespeichert werden. Erzeugt werden die Schablonen mit Hilfe phonetischer
Darstellungen des Worts und kontextabhängiger Schablonen für die Phoneme.
Viele Spracherkennungssysteme weisen Wörterbücher auf, die die Aussprachen
von Begriffen festlegen, die vom Spracherkennungssystem erkannt
werden.
-
Eine
Stelle, wo Spracherkennungssysteme verwendet werden, liegt in Diktiersystemen.
Diktiersysteme wandeln eingegebene Sprache in Text um. In solchen
Diktiersystemen werden die Spracherkennungssysteme verwendet, Wörter in
der eingegebenen Sprache zu identifizieren, und die Diktiersysteme erzeugen
Textausgaben in Entsprechung zu den identifizierten Wörtern. Leider
unterliegen diese Diktiersysteme oft einem hohen Fehlerkennungsgrad von
Spracheingaben von bestimmten Benutzern. Die in solchen Diktiersystemen
eingesetzten Spracherkennungssysteme haben eine oder mehrere Aussprachen für jedes
Wort, aber die Aussprachen der Wörter
sind statisch und stellen die Aussprache dar, die das Spracherkennungssystem
zu hören
erwartet. Gebraucht ein Benutzer eine unterschiedliche Aussprache
für ein
Wort als die vom Spracherkennungssystem erwartete, erkennt das Spracherkennungssystem
oft nicht die Benutzereingabe. Besonders ärgerlich kann dieser Nachteil
für einen
Benutzer sein, wenn ein Begriff mehrere richtige Aussprachen hat und
der Benutzer eine der Aussprachen gebraucht, die nicht durch das
Wörterbuch
des Spracherkennungssystems erfaßt ist.
-
Eine
weitere Einschränkung
solcher Diktiersysteme ist, daß sie
entweder nicht erweiterbar sind (d. h. ein Benutzer kann dem Wörterbuch
keinen neuen Begriff zufügen)
oder sie das Zufügen
neuer Begriffe erlauben, aber ihre eigene Aussprache des neuen Begriffs
erzeugen, ohne dem Benutzer zu ermöglichen, die Aussprache(n)
festzustellen. Solche Systeme können
einen heuristischen Phonetisierungs- bzw. Letter-to-sound-Ansatz verwenden,
um die Aussprache eines neu zugefügten Begriffs zu schätzen. Leider
ergeben solche heuristischen Ansätze
vielfach keine korrekten Ergebnisse. Fügt ein Benutzer einen neuen
Begriff zu, um das in einem Diktiersystem verwendete Wörterbuch
zu erweitern, gibt der Benutzer oft lediglich den neuen Begriff
ohne Hinweis auf eine Aussprache ein, und das Spracherkennungssystem
erzeugt eine Aussprache für
den neuen Begriff. Diese neue Aussprache kann falsch sein oder kann
nicht mit der vom Benutzer antizipierten Aussprache des Worts übereinstimmen.
Dadurch liegt oft ein hoher Fehlerkennungsgrad bei Spracheingaben
vor, die den neu zugefügten
Begriff verwenden oder die den neu zugefügten Begriff aufweisen.
-
Das
Dokument "Dragon
SpeechTool 1.0 Builds Custom Speaker-Independent Vocabularies for
Speech Recognition",
6. November 1996, betrifft eine interaktive Benutzeroberfläche, die
den Aufbau eines Spezialvokabulars erleichtert – Entwickler sprechen lediglich
das Wort aus SpeechTool übersetzt
automatisch ihre Sprache in ein Vokabularmodell und verwendet dann
DragonDictate's
verfügbare Text-in-Sprache-Fähigkeit,
um es für
sie auszusprechen. Die Entwickler können sich jede ih rer Aussprachen
anhören
und modifizieren oder sogar mehrere Aussprachen für dasselbe
Wort zwecks vollständiger Flexibilität und Steuerung
ihrer Spezialvokabulare erzeugen.
-
Das
Dokument "Dictionary
Learning: Performance through Consistency", Proceedings of the International Conference
on Acoustics, Speech and Signal Processing (ICASSP), Detroit, 9.
bis 12. Mai 1995, Speech, Vol. 1, 9. Mai 1995, Institute of Electrical
and Electronics Engineers, Seiten 453 bis 456, betrifft Ergebnisse
beim automatischen Vergrößern und
Adaptieren phonetischer Wörterbücher für die spontane
Spracherkennung.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Die
zuvor beschriebenen Einschränkungen des
Stands der Technik werden durch die Erfindung überwunden. Erfindungsgemäß wird ein
Verfahren nach Anspruch 1 bereitgestellt. Ausführungsformen sind in den Unteransprüchen dargelegt.
-
KURZE BESCHREIBUNG DER
ZEICHNUNGEN
-
Im
folgenden wird eine bevorzugte Ausführungsform der Erfindung anhand
der folgenden Zeichnungen näher
beschrieben.
-
1 ist
eine Blockdarstellung eines Computersystems, das zur praktischen
Umsetzung der bevorzugten Ausführungsform
der Erfindung geeignet ist.
-
2 ist
eine Blockdarstellung, die Komponenten des Spracherkennungssystems
veranschaulicht.
-
3 ist
eine Darstellung, die einen Beispielabschnitt des Wörterbuchs
veranschaulicht.
-
4 ist
ein Ablaufplan der durchgeführten Schritte,
damit ein Benutzer die Aussprache eines Begriffs im Wörterbuch ändern kann.
-
5A bis 5D zeigen
Benutzeroberflächenelemente,
die vorgesehen sind, damit ein Benutzer die Aussprache eines Begriffs
des Wörterbuchs abändern kann.
-
6 ist
ein Ablaufplan der durchgeführten Schritte,
um dem Wörterbuch
einen neuen Begriff zuzufügen.
-
7A bis 7D veranschaulichen
Benutzeroberflächenelemente,
die vorgesehen sind, damit ein Benutzer dem Wörterbuch einen neuen Begriff mit
einer bestimmten Aussprache zufügen
kann.
-
8 ist
ein Ablaufplan der durchgeführten Schritte,
um die im Wörterbuch
gespeicherten Aussprachen ohne interaktive Benutzereingabe abzuändern.
-
NÄHERE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Die
bevorzugte Ausführungsform
der Erfindung stellt ein erweiterbares Spracherkennungssystem bereit,
das einem Benutzer Audiorückmeldungen liefert.
Will also ein Benutzer ein Wort oder einen Begriff einem vom Spracherkennungssystem
verwendeten Wörterbuch
zufügen,
erhält
der Benutzer eine Audiorückmeldung
darüber,
wie der Begriff nach Dafürhalten
des Systems ausgesprochen werden sollte. Danach kann der Benutzer
diese Aussprache akzeptieren oder die Änderung der Aussprache anfordern. In
einer Alternative legt der Benutzer die Aussprache des Worts fest,
indem er buchstabiert, wie das Wort klingen sollte. In einer weiteren
Alternative stellt das System dem Benutzer eine Liste alternativer
Aussprachen für
das Wort bereit, und der Benutzer wählt die Aussprache aus.
-
Die
bevorzugte Ausführungsform
der Erfindung ermöglicht
einem Benutzer, die Aussprache jedes der Wörter zu ändern, die sich aktuell im
Wörterbuch
befinden. Zusätzlich
ermöglicht
die bevorzugte Ausführungsform
der Erfindung einem Benutzer, sich die Aussprache anzuhören, die
einem Wort im Wörterbuch
aktuell zugeordnet ist. Der Benutzer kann sich die Aussprache anhören und
dann die Aussprache bei Bedarf in eine alternative Aussprache ändern. Als
Ergebnis kann der Benutzer den Erkennungsgrad von Begriffen stark
erhöhen,
den das Spracherkennungssystem erreicht.
-
In
einer weiteren Alternative wird das vom Spracherkennungssystem verwendete
Wörterbuch durch
das System automatisch und transparent aktualisiert. Das System
verarbeitet einen Korpus von Aussprachedaten, um alternative Aussprachen
für Begriffe
im Wörterbuch
abzuleiten. Spricht der Benutzer einen Begriff aus und wird der
Begriff richtig erkannt, identifiziert das System, welche der alternativen
Aussprachen der Benutzer gebrauchte. Nach einer festen Anzahl richtiger
Erkennungen und Vergleiche erhält
das System einen Vertrauensgrad in die vom Benutzer gebrauchte Aussprache
und ändert das
Wörterbuch
(mit Weitergabe der Änderung
in beobachteten Ein trägen
zu anderen nicht beobachteten Einträgen auf systematische Weise),
um diese Aussprache zu nutzen, um so den durch das System realisierten
Erkennungsgrad zu erhöhen.
-
Im
folgenden wird die bevorzugte Ausführungsform der Erfindung für ein Diktiersystem
beschrieben. Im Diktiersystem spricht der Benutzer in ein Audioeingabegerät, z. B.
ein Mikrofon, um gesprochenen Text einzugeben. Das Diktiersystem
erkennt den gesprochenen Text und erzeugt entsprechenden Text als
Teil eines Dokuments. Dem Fachmann wird klar sein, daß die Erfindung
auch in anderen Zusammenhängen
als einem Diktiersystem praktiziert werden kann. Allgemeiner trifft
die Erfindung auf Spracherkennungssysteme zu.
-
1 ist
eine Blockdarstellung eines Computersystems 10, das zur
praktischen Umsetzung der bevorzugten Ausführungsform der Erfindung geeignet
ist. Das Computersystem 10 weist eine Zentraleinheit (CPU) 12 auf,
die Zugriff auf einen Primärspeicher 14 und
einen Sekundärspeicher 16 hat.
Der Sekundärspeicher 16 kann
Wechselmedienlaufwerke aufweisen, z. B. ein CD-ROM-Laufwerk, die
Informationen lesen können,
die auf einem computerlesbaren Medium (z. B. einer CD-ROM) gespeichert sind.
Ferner weist das Computersystem 10 eine Anzahl von Peripheriegeräten auf.
Zu diesen Peripheriegeräten
können
z. B. eine Tastatur 18, eine Maus 20, ein Bildschirm 22,
ein Audiolautsprecher 24 und ein Mikrofon 26 gehören. Zusätzlich kann
das Computersystem ein Modem 28, eine Soundkarte 29 und einen
Netzwerkadapter 30 aufweisen, der ermöglicht, das Computersystem
an ein Netzwerk 32 anzuschließen. Der Speicher 14 enthält Programmbefehle und
Daten für
das Diktiersystem 34. Die Befehle werden in der CPU 12 abgearbeitet,
um die bevorzugte Ausführungsform
der Erfindung zu realisieren. Das Diktiersystem 34 kann
von Anwendungsprogrammen 35 verwendet werden, z. B. Textverarbeitungsprogrammen
und Nachrichtenprogrammen. Das Diktiersystem weist ein Spracherkennungssystem 36 auf.
-
Dem
Fachmann wird klar sein, daß die
in 1 gezeigte Computersystemkonfiguration nur zur
Veranschaulichung und nicht zur Einschränkung der Erfindung dienen
soll. Die Erfindung kann auch mit alternativen Computersystemkonfigurationen praktiziert
werden, u. a. Systemen mit Mehrfachprozessoren und verteilten Systemen.
Für die
nachstehende Diskussion sei angenommen, daß die durch die bevorzugte
Ausführungsform
der Erfindung durchgeführten
Schritte vom Diktiersystem 34 oder vom Spracherkennungssystem 36 angewiesen
werden.
-
Ein
geeignetes Spracherkennungssystem zur praktischen Umsetzung der
bevorzugten Ausführungsform
der Erfindung ist in der US-A-5937384 mit dem Titel "Method and System
for Speech Recognition Using Continuous Density Hidden Markov Models", Anmeldung Nr. 08/655273,
beschrieben, die am 1. Mai 1996 eingereicht und demselben Rechtsnachfolger
wie die vorliegende Anmeldung übertragen
wurde. 2 zeigt die Komponenten des Spracherkennungssystems 36,
die von besonderem Interesse für
die Diskussion der bevorzugten Ausführungsform der Erfindung sind.
Das Spracherkennungssystem 36 weist ein Spracherkennungsmodul 40 auf,
das ein Wörterbuch 42 und
Phonetisierungs- bzw. Letter-to-sound-Regeln 46 nutzt.
Das Wörterbuch
enthält
eine Liste der Begriffe, die vom Spracherkennungsmodul 40 erkannt
werden, und der zugehörigen
Aussprachen. 3 zeigt ein Beispiel für einen
Abschnitt des Wörterbuchs 42.
Jeder Eintrag im Wörterbuch 42 verfügt über ein
Feld 50 zum Identifizieren des zugehörigen Begriffs und ein Feld 52 zum
Festlegen der Aussprache des Begriffs. 3 zeigt
ein Beispiel für
einen Eintrag für
den Begriff "Add" (dt. "zufügen"). Die Identität des Begriffs
ist in einem Feld 54 enthalten, und die Aussprache des Begriffs
ist in einem Feld 56 enthalten. Die Aussprache des Begriffs
ist in Phonemen festgelegt.
-
Das
Spracherkennungssystem 36 kann auch ein Text-in-Sprache-Modul 44 zum
Umwandeln von Text in Sprachausgaben aufweisen. Das Text-in-Sprache-Modul 44 hat
Zugriff auf das Wörterbuch 42 und
die Letter-to-sound-Regeln 46, die Textbuchstaben in entsprechende
Klänge
umwandeln. Das Text-in-Sprache-Modul 44 verwendet
zunächst das
Wörterbuch 42,
um Aussprachen zu suchen, und greift dann auf den Gebrauch der Letter-to-sound-Regeln 46 zurück, wenn
das verarbeitete Wort nicht im Wörterbuch
steht. Dem Fachmann wird klar sein, daß das Text-in-Sprache-Modul 44 nicht
Teil des Spracherkennungs systems zu sein braucht, sondern Teil einer
gesonderten Sprachsyntheseeinheit sein kann. Dennoch sei für die nachfolgende
Diskussion angenommen, daß das Text-in-Sprache-Modul 44 Teil
des Spracherkennungssystems 36 ist. Diskutiert wird ein
geeignetes Text-in-Sprache-System in der US-A-5913193 mit dem Titel "Method and System
of Run Time Acoustic Unit Selection for Speech Synthesis", Anmeldung Nr. 08/648808,
die am 30. April 1996 eingereicht und demselben Rechtsnachfolger
wie die vorliegende Anmeldung übertragen
wurde. Ferner wird der Fachmann erkennen, daß das Spracherkennungsmodul 40 und
das Text-in-Sprache-Modul
ihre eigenen jeweiligen Wörterbücher und
Letter-to-sound-Regeln haben können.
-
4 ist
ein Ablaufplan, der die Schritte veranschaulicht, die vom Spracherkennungssystem 36 durchgeführt werden,
damit ein Benutzer die Aussprache eines Begriffs ändern kann,
der im Wörterbuch 42 gespeichert
ist. Zu Beginn fordert ein Benutzer an, die Aussprache eines bestimmten
Worts zu hören
(Schritt 60 in 4). Danach identifiziert der Benutzer
den Begriff, für
den er die Aussprache hören
will (Schritt 62 in 4). 5A zeigt
ein Beispiel für
ein Benutzeroberflächenelement 78,
das angezeigt wird, wenn der Benutzer anfordert, die Aussprache
eines Worts zu hören.
Das Benutzeroberflächenelement 78 weist
eine Liste 80 mit Alternativen für ein gesprochenes Wort auf.
Im Beispiel gemäß 5A sind
die Wörter
alphabetisch geordnet. Der Benutzer kann sich durch die Liste 80 bewegen,
um das gewünschte
Wort auszuwählen.
Im Beispiel von 5A hat der Benutzer das Wort "orange" (dt. "Apfelsine") ausgewählt, das
im Auswahlfeld 82 erscheint. Danach kann sich der Benutzer
die Aussprache des ausgewählten
Worts anhören
(Schritt 62 in 4) indem er eine Schaltfläche 84 aktiviert.
Eine geeignete Möglichkeit
zum Aktivieren der Schaltfläche 84 ist,
einen Mauszeiger 85 auf der Schaltfläche 84 zu positionieren
und auf eine Maustaste zu klicken, während der Mauszeiger auf die
Schaltfläche 84 zeigt.
-
Der
Benutzer hört
die Aussprache des Worts und kann dann bestimmen, ob die Aussprache
korrekt ist. Die ausgegebene Aussprache ist die Standardaussprache,
die vom Spracherkennungssystem 36 genutzt wird. Akzeptiert
der Benutzer die Aus sprache (siehe Schritt 66 in 4),
kann der Benutzer die Schaltfläche "OK" 86 aktivieren.
Ist dagegen der Benutzer mit der Aussprache unzufrieden (siehe Schritt 66 in 4),
kann der Benutzer die Schaltfläche "Change" (dt. "Ändern") 87 aktivieren. Auf diese
Weise fordert der Benutzer die Änderung
der Aussprache des ausgewählten
Begriffs an (Schritt 68 in 4).
-
Danach
identifiziert der Benutzer eine neue Aussprache für den ausgewählten Begriff
(Schritt 68 in 4). 5B zeigt
eine erste Alternative, durch die das System mehrere alternative
Aussprachen für den
Begriff bereitstellt und der Benutzer eine dieser Aussprachen auswählt. Insbesondere
ist gemäß 5B ein
Benutzeroberflächenelement 88 vorgesehen,
das den Benutzer auffordert, eine Aussprache aus einer der Aussprachen
auszuwählen,
die in der Liste 90 aufgeführt sind. Der Benutzer kann
das Änderungsverfahren
der Aussprache durch Aktivieren der Schaltfläche "Cancel" (dt. "Abbrechen") 94 abbrechen oder kann eine
der Aussprachen in der Liste auswählen und die Schaltfläche "OK" 92 betätigen, um
die ausgewählte
Aussprache als neue Standardaussprache für den Begriff zu akzeptieren.
-
Dem
Fachmann wird klar sein, daß es
mehrere Möglichkeiten
der Erzeugung der alternativen Aussprachen für die Begriffe geben kann.
Das System kann den Korpus verarbeitet haben, um mehrere Aussprachen
für jeden
Begriff zu erzeugen, der im Wörterbuch
gespeichert ist. Alternativ kann das System mit mehreren Schablonen
für jeden
Begriff versehen sein, die unterschiedliche Aussprachen anwenden.
Weiterhin können
die mehreren Aussprachen aus unterschiedlichen Aussprachen empirisch abgeleitet
sein, die Benutzer in das Spracherkennungssystem 36 eingegeben
haben.
-
Eine
zweite Alternative ist in 5C gezeigt. In
der zweiten Alternative stellt das System keine alternative Aussprache
bereit; statt dessen gibt der Benutzer die alternative Aussprache
ein. Ein Benutzeroberflächenelement 96 wie
das in 5C gezeigte wird angezeigt,
und der Benutzer buchstabiert die neue Aussprache in einem Textfeld 98.
Der Benutzer braucht nicht die Phoneme für die Aussprache einzugeben,
son dern braucht nur eine Buchstabenfolge (d. h. eine Zeichenfolge)
einzugeben, die die gewünschte
Aussprache des Worts erfaßt.
Will der Benutzer z. B. die Aussprachen des Worts "orange" buchstabieren, könnte der
Benutzer die Folge "ornj" eingeben. Danach
kann sich der Benutzer anhören,
wie das System die Folge interpretiert, die im Textfeld 98 eingegeben
wurde, indem er eine Schaltfläche 100 aktiviert.
Das Spracherkennungssystem 36 verarbeitet die Zeichenfolge,
die im Textfeld 98 eingegeben wurde, mit Hilfe der Letter-to-sound-Regeln und des Wörterbuchs.
Ist der Benutzer mit der resultierenden ausgegebenen Aussprache
des Begriffs zufrieden, kann der Benutzer die Schaltfläche "OK" 102 aktivieren.
Will der Benutzer die Aussprache nicht ändern, kann der Benutzer die
Schaltfläche "Cancel" 104 aktivieren.
Ist der Benutzer mit der ausgegebenen Aussprache unzufrieden, will
aber versuchen, eine weitere Aussprache einzugeben, tippt der Benutzer
die alternative Aussprache im Textfeld 98 ein und wiederholt
das Verfahren.
-
Dem
Fachmann wird deutlich sein, daß andere
Alternativen verwendet werden können.
Zum Beispiel können
Aussprachen dem Benutzer nicht als auswählbare Zeichenfolgen (wie in
der ersten Alternative) dargestellt werden, sondern können statt
dessen speziellen Benutzeroberflächenelementen,
z. B. Schaltflächen,
zugeordnet sein, die der Benutzer aktivieren kann, um sich alternative
Aussprachen anzuhören. 5D zeigt
ein Beispiel, in dem Schaltflächen 93 angezeigt
werden und jede Schaltfläche
aktivierbar ist, um eine Audioausgabe für eine gesonderte Aussprache
zu erzeugen.
-
Nachdem
der Benutzer eine akzeptable neue Aussprache identifiziert hat (d.
h. Schritt 68 in 4), muß das System
das Wörterbuch
entsprechend aktualisieren. Insbesondere ersetzt das System die
Aussprache des Begriffs im Wörterbuch
mit der neu identifizierten Aussprache, mit der der Benutzer zufrieden
ist (Schritt 70 in 4). Außerdem kann
das System die Änderung
des spezifischen Begriffs auf systematische Weise an andere Begriffe weitergeben.
Spricht z. B. ein Benutzer "what" (dt. "was") als "HH W AH T" aus, so kann die Änderung an
alle Wörter
weitergegeben werden, die mit "wh" beginnen (z. B. "where" (dt. "wo") und "which" (dt. "welche")). Dem Fachmann
wird klar sein, daß in
alternativen Ausführungsformen
das Wörterbuch
mehrere Aussprachen enthalten und eine einzelne Aussprache als Standardaussprache
haben kann. In solchen alternativen Ausführungsformen ist die Ausspracheänderung
lediglich eine Änderung
der Standardaussprache, die vom Spracherkennungssystem 36 genutzt
wird.
-
Das
Spracherkennungssystem der bevorzugten Ausführungsform der Erfindung ist
dadurch erweiterbar, daß dem
Wörterbuch
neue Begriffe zugefügt
werden können. 6 ist
ein Ablaufplan der durchgeführten
Schritte, wenn ein Benutzer dem Wörterbuch einen neuen Begriff
zufügen
will. Zunächst
fordert der Benutzer an, dem Wörterbuch
einen neuen Begriff zuzufügen
(Schritt 110 in 6). 7A zeigt
ein Beispiel für
einen Benutzeroberflächenmechanismus,
der vom Diktiersystem 34 bereitgestellt sein kann, damit
ein Benutzer dem Wörterbuch 42 einen
Begriff zufügen
kann. 7A zeigt ein Fenster 126 eines
Anwendungsprogramms, das das Diktiersystem 34 nutzt. Das
Fenster 126 weist eine Menüleiste 132 auf, zu
der ein Menü Edit
(Bearbeiten) 134 gehört.
Positioniert der Benutzer einen Mauszeiger über dem Menü Edit 134 und drückt eine Maustaste,
wird das Menü 136 angezeigt,
das einen Menüpunkt 138 zum
Zufügen
eines neuen Begriffs zum Wörterbuch
aufweist. Ein Benutzer kann den Punkt 138 auswählen, indem
er den Mauszeiger so positioniert, daß er auf den Punkt 138 zeigt,
und die Maustaste betätigt
oder auf den Punkt klickt. Das Fenster 126 enthält Text 128,
der durch Interpretieren von Spracheingaben des Benutzers mit einem
Mikrofon 26 durch das Diktiersystem 34 erzeugt
wird, das das Spracherkennungssystem 36 verwendet. Die
aktuelle Zeigerposition 130 ist in 7A dargestellt.
-
Nachdem
der Benutzer einen Menüpunkteintrag 138 auswählt, wird
ein Dialogfeld wie das in 7B gezeigte
angezeigt. Dieses Dialogfeld 140 fordert den Benutzer auf,
den Text für
den Begriff einzugeben, den der Benutzer dem Wörterbuch zufügen will.
Ein Textfeld 142 ist im Dialogfeld 140 vorgesehen.
Nachdem der Benutzer den Text eingibt, kann der Benutzer das Verfahren
zum Zufügen
des neuen Begriffs durch Klicken auf die Schaltfläche "OK" 144 fortsetzen
oder kann das Verfahren durch Klicken auf die Schaltfläche "Cancel" 146 beenden.
Somit stellt der Benutzer den Text für den Begriff bereit, der dem Wörterbuch
zuzufügen
ist (Schritt 112 von 6). Das
Diktiersystem 34 gibt den Text an das Spracherkennungssystem 36 weiter.
Das Spracherkennungssystem führt
den Text zum Wörterbuch 42 und
zu den Letter-to-sound-Regeln 46, um eine Aussprache für den neuen
Begriff zu erzeugen (Schritt 114 in 6). Danach
wird die resultierende Aussprache über den Audiolautsprecher 24 für den Benutzer
ausgegeben (Schritt 116 in 6), so daß der Benutzer
erkennen kann, wie das Spracherkennungssystem 36 erwartet, daß der Begriff
ausgesprochen wird. Ein Benutzeroberflächenelement 150 wie
das in 7C gezeigte kann anschließend angezeigt
werden, damit der Benutzer die Aussprache annehmen oder ablehnen kann.
Für das
Beispiel in 7C fragt das Benutzeroberflächenelement 150 den
Benutzer, ob er die Aussprache des neuen Begriffs akzeptiert, und
weist eine Schaltfläche "Yes" (Ja) 152 zum Annehmen
der Aussprache, eine Schaltfläche "No" (Nein) 154 zum Ablehnen
der Aussprache und eine Audioausgabeschaltfläche 153 zum Erzeugen
einer Audioausgabe für
die Aussprache des neuen Begriffs auf. Durch Aktivieren dieser Schaltflächen akzeptiert
der Benutzer die durch das Text-in-Sprache-Modul 44 erzeugte Aussprache
oder lehnt sie ab (siehe Schritt 118 in 6).
-
Akzeptiert
der Benutzer die Aussprache, werden der Begriff und die zugehörige Aussprache dem
Wörterbuch 42 zugefügt (Schritt 120 in 6). Die
zugehörige
Aussprache wird beim Erkennen künftiger
gesprochener Instanzen des Begriffs verwendet. Akzeptiert der Benutzer
die Aussprache dagegen nicht, fordert das System den Benutzer dann zur
Eingabe der Aussprache auf (Schritt 122 in 6).
Das Spracherkennungssystem 36 erkennt, daß die durch
das Wörterbuch 42 und
die Letter-to-sound-Regeln 46 erzeugte Aussprache nicht vom
Benutzer akzeptiert wurde und fordert daher den Benutzer auf, eine
Darstellung der Aussprache für das
Wort zu erzeugen. Das Spracherkennungssystem 36 zeigt ein
Dialogfeld 160 wie das in 7D gezeigte
an, um den Benutzer aufzufordern, die Aussprache für den neuen
Begriff einzugeben. Das Dialogfeld 160 weist ein Textfeld 162 auf,
in dem ein Benutzer eine Zeichenfolge eingeben kann, die buchstabiert,
wie der neue Begriff klingen sollte. Nachdem der Benutzer Text in
das Textfeld 162 eingegeben hat, kann der Benutzer eine
Schaltfläche 164 aktivieren,
um sich anzuhören,
wie das System den Text interpretiert, der im Textfeld eingegeben
ist. Insbesondere erzeugt das System eine gesprochene Darstellung
der im Textfeld 162 eingegebenen Aussprache, die über den
Lautsprecher 24 ausgegeben wird. Sobald der Benutzer eine
Zeichenfolge eingegeben hat, die eine akzeptable Aussprache erzeugt,
kann der Benutzer die Aussprache durch Aktivieren der Schaltfläche "OK" 166 ändern. Der
Benutzer kann auch die Änderung
der Aussprache abbrechen, indem er die Schaltfläche "Cancel" 168 aktiviert. Im allgemeinen
fordert das System den Benutzer zur Eingabe der Aussprache auf (Schritt 122),
empfängt
die vom Benutzer eingegebene Aussprache (Schritt 124) und
gibt die Aussprache aus, die vom Benutzer empfangen wurde, bis der
Benutzer die resultierende Aussprache akzeptiert. Alternativ kann
das System die aktuelle Aussprache mit neu zugefügter, vom Benutzer eingegebener
Aussprache vergleichen und bei ausreichend enger Übereinstimmung
den Benutzer nicht nochmals zur Annahme oder Ablehnung auffordern.
-
Das
System kann auch die im Wörterbuch 42 gespeicherten
Aussprachen ohne explizite Benutzeranforderung transparent aktualisieren.
Dieser Mechanismus kann unabhängig
von dem zuvor beschriebenen, vom Benutzer ausgelösten Weg zum Aktualisieren
der Aussprache eines im Wörterbuch 42 gespeicherten
Begriffs oder in Verbindung mit diesem Weg genutzt werden. Anfangs
wird dem System ein Korpus von Aussprachedaten bereitgestellt, und das
System wendet einen Algorithmus an, z. B. einen Klassifizierungs-
und Regressionsbaum-("CART"-) Algorithmus, um
alternative Aussprachen für
die zugeordneten Begriffe abzuleiten (Schritt 170 in 8). CART-Algorithmen
sind in der Technik bekannt und in zahlreichen Veröffentlichungen
beschrieben, u. a. Breiman et al., Classification and Regression
Trees, 1984. Dem Fachmann wird deutlich sein, daß andere heuristische Ansätze angewendet
werden können, die
Aussprachen abzuleiten. Die abgeleiteten alternativen Aus sprachen
werden zum späteren
Gebrauch gespeichert. Spricht ein Benutzer einen Begriff aus und
wird der Begriff erkannt, vergleicht das System, wie der Benutzer
den Begriff ausgesprochen hat, mit den für den Begriff gespeicherten
alternativen Aussprachen (Schritt 172 in 8).
Dieses Verfahren wird wiederholt (siehe Rückpfeil zu Schritt 172 in 8),
bis das System sicher ist, daß es
genau identifizieren kann, welche der alternativen Aussprachen der
Benutzer verwendet (siehe Schritt 174 in 8).
Beispielsweise kann das System fordern, daß eine Sollanzahl von Treffern
für eine
der alternativen Aussprachen empfangen wird, bevor das System einen
ausreichenden Vertrauensgrad erreicht, um diese Aussprache als die
vom Benutzer verwendete Aussprache zu identifizieren. Das Spracherkennungssystem 36 ändert dann
das Wörterbuch 42,
um die vom Benutzer favorisierte Aussprache zu verwenden (d. h.
die Aussprache, die das System als die vom Benutzer verwendete identifizierte)
(Schritt 176 in 8).
-
Während die
Erfindung anhand einer bevorzugten Ausführungsform beschrieben wurde,
dürfte dem
Fachmann klar sein, daß verschiedene Änderungen
in Form und Detail vorgenommen werden können, ohne vom angestrebten
Schutzumfang der Erfindung gemäß der Festlegung
in den beigefügten Ansprüchen abzuweichen.