-
GEBIET DER
ERFINDUNG
-
Die Erfindung bezieht sich allgemein
auf Spracherkennungssysteme, und bezieht sich genauer auf einen
Lösungsansatz
zur Bewertung der Genauigkeit eines Aussprachewörterbuches in einem Spracherkennungssystem.
-
HINTERGRUND
DER ERFINDUNG
-
Die meisten Spracherkennungssysteme
verwenden ein Aussprachewörterbuch,
um bestimmte Wörter,
die in empfangenen Äußerungen
enthalten sind, zu identifizieren. Der Ausdruck "Äußerung" wird hier verwendet,
um ein oder mehrere Laute zu bezeichnen, die entweder von Menschen
oder von Maschinen erzeugt werden. Beispiele einer Äußerung umfassen,
sind jedoch nicht hierauf beschränkt,
ein einzelner Laut, irgendwelche zwei oder mehr Laute, ein einzelnes
Wort oder zwei oder mehr Wörter.
Im allgemeinen enthält
ein Aussprachewörterbuch
Daten, die erwartete Aussprachen von Äußerungen definieren. Wenn eine Äußerung empfangen
wird, wird die empfangene Äußerung,
oder wenigstens ein Abschnitt der empfangenen Äußerung mit den erwarteten Aussprachen
verglichen, die im Aussprachewörterbuch
enthalten sind. Eine Äußerung wird
erkannt, wenn die empfangene Äußerung,
oder der Abschnitt derselben, mit der erwarteten Aussprache übereinstimmt,
die im Aussprachewörterbuch
enthalten ist.
-
Einer der wichtigsten Punkte bei
Aussprachewörterbüchern ist,
sicherzustellen, daß die
erwarteten Aussprachen von Äußerungen,
die durch das Aussprachewörterbuch
definiert sind, wirkliche Aussprachen der Äußerungen genau widerspiegeln. Wenn
eine wirkliche Aussprache einer bestimmten Äußerung nicht mit der erwarteten
Aussprache übereinstimmt,
kann die erwartete Aussprache der bestimmten Äußerung bei der Identifizierung
der wirklichen Aussprache der bestimmten Äußerung nicht mehr nützlich sein.
-
Wirkliche Aussprachen von Äußerungen können aus
einer Vielfalt von Gründen
falsch dargestellt werden. Zum Beispiel können in flüssiger Sprache einige Geräusche systematisch
unterdrückt
oder angepaßt
werden. Eine Anwendung kann über
diverse geographische Gebiete installiert sein, in denen Benutzer
verschiedene regionale Akzente haben. Die erwarteten Aussprachen
sind tendenziell etwas benutzerabhängig. Eine Änderung der Benutzer einer
bestimmten Anwendung kann daher die Genauigkeit des Spracherkennungssystems
beeinträchtigen.
Dies gilt für
verschiedene Spracheigenschaften von Benutzern, wie z. B. verschiedene
Intonationen und Betonungen in der Aussprache.
-
Herkömmlicherweise werden Aussprachewörterbücher manuell
aktualisiert, um Änderungen der
wirklichen Aussprachen von Äußerungen
in Reaktion auf gemeldete Probleme widerzuspiegeln. Wenn eine Änderung
in einer Anwendung oder ein Benutzer verhindern, daß ein Spracherkennungssystem Äußerungen
erkennt, wird das System dem Administrator des Spracherkennungssystems
gemeldet. Der Administrator identifiziert die problematischen Äußerungen
und aktualisiert manuell das Aussprachewörterbuch, um die Änderungen
für die
Anwendung oder die Benutzer wiederzugeben.
-
Das manuelle Aktualisieren eines
Aussprachewörterbuches,
um Änderungen
an einer Anwendung oder an Benutzern widerzuspiegeln, hat mehrere
signifikante Nachteile. Erstens beruht sie auf Problemen, die dem
Administrator des Spracherkennungssystems gemeldet werden. Probleme
können für lange
Zeitperioden existieren, bevor sie gemeldet werden. In bestimmten
Situationen kann dies das Ansehen des Unternehmens, daß das Spracherkennungssystem
verwendet, beeinträchtigen.
-
Selbst nachdem die Probleme identifiziert worden
sind, kann ferner eine signifikante Menge an Personalaufwand erforderlich
sein, um das Aussprachewörterbuch
zu aktualisieren, was das Problem erweitert. Die Aktualisie rung
des Aussprachewörterbuches
verwendet z. B. typischerweise das Sammeln einer großen Menge
von wirklichen Aussprachedaten für
die Problemäußerungen.
Die wirklichen Aussprachedaten werden anschließend verarbeitet und verwendet,
um die erwarteten Aussprachedaten zu aktualisieren, die im Aussprachewörterbuch
enthalten sind. Indessen ist das Spracherkennungssystem unfähig, die
Problemäußerungen
zu erkennen, bis das System aktualisiert ist, was für Kunden
und andere Benutzer des Systems sehr frustrierend sein kann. Das
Dokument "A New
Approach to Speaker Adaption by Modelling Pronunciation in Automatic Speech
Recognition" von
Schiel, Speech Communication 13 (1993), S. 281–286, offenbart, verschiedene
Aussprachen eines Wortes in einem Lexikon zu modellieren.
-
Auf der Grundlage des Vorangehenden
besteht daher ein Bedarf an einem automatisierten Lösungsansatz
zur Ermittlung der Genauigkeit eines Aussprachewörterbuches in einem Spracherkennungssystem.
-
Es besteht ein besonderer Bedarf
an einem automatisierten Lösungsansatz
zur Ermittlung der Genauigkeit eines Aussprachewörterbuches in einem Spracherkennungssystem,
das bestimmte erwartete Aussprachedarstellungen identifiziert, die nicht
die spezifizierten Genauigkeitskriterien erfüllen und daher aktualisiert
werden müssen.
-
Es besteht ferner ein besonderer
Bedarf an einem automatisierten Lösungsansatz zum Ermitteln der
Genauigkeit eines Aussprachewörterbuches
in einem Spracherkennungssystem, daß eine reduzierte Menge an
Personalaufwand im Identifizierungsprozeß erfordert.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Gemäß der vorliegenden Erfindung
werden ein Verfahren, ein computerlesbares Medium und ein Spracherkennungs-Diagnosewerkzeug
geschaffen, die jeweils in den Ansprüchen 1, 5 bzw. 9 ausgeführt sind.
-
Die vorangehenden Erfordernisse und
andere Erfordernisse und Aufgaben, die in der folgenden Beschreibung
deutlich werden, werden von der vorliegenden Erfindung gelöst, die
in einem Aspekt ein Verfahren zum Ermitteln der Genauigkeit eines
Aussprachewörterbuches
in einem Spracherkennungssystem umfaßt. Gemäß dem Verfahren wird eine erwartete
Aussprachedarstellung für
eine bestimmte Äußerung aus
dem Aussprachewörterbuch
abgerufen. Anschließend
wird eine Genauigkeitspunktzahl für die erwartete Aussprachedarstellung
erzeugt, indem die erwartete Aussprachedarstellung mit einem Satz
von einen oder mehreren wirklichen Aussprachen der bestimmten Äußerung verglichen
wird.
-
Gemäß einem weiteren Aspekt wird
ein Verfahren zum automatischen Aktualisieren eines Aussprachewörterbuches
in einem Spracherkennungssystem geschaffen, um eine oder mehrere Änderungen
einer wirklichen Aussprache eines bestimmten Wortes widerzuspiegeln,
daß im
Aussprachewörterbuch
dargestellt ist. Gemäß dem Verfahren
wird eine erwartete Aussprachedarstellung für das bestimmte Wort aus dem
Aussprachewörterbuch
abgerufen. Es wird eine Genauigkeitspunktzahl für die erwartete Aussprachedarstellung
erzeugt, indem die erwartete Aussprachedarstellung mit einer oder
mehreren wirklichen Aussprachen des bestimmten Wortes verglichen
wird. Es wird ermittelt, ob die Genauigkeitspunktzahl für die erwartete
Aussprachedarstellung die spezifizierten Genauigkeitskriterien erfüllt. Wenn die
Genauigkeitspunktzahl für
die erwartete Aussprachedarstellung die spezifizierten Genauigkeitskriterien
nicht erfüllt,
wird die erwartete Aussprachedarstellung aktualisiert, um die eine
oder die mehreren wirklichen Aussprachen widerzuspiegeln.
-
Gemäß einem weiteren Aspekt wird
eine Spracherkennungsvorrichtung geschaffen. Die Spracherkennungsvorrichtung
umfaßt
ein Speichermedium mit einem darauf gespeicherten Aussprachewörterbuch,
und einem Diagnosemechanismus, der kommunikativ mit dem Speichermedium
verbunden ist. Der Diagnosemechanismus ist so konfiguriert, daß er eine
erwartete Aussprachedarstellung für eine bestimmte Äußerung aus
dem Aussprachewörterbuch
abruft. Der Diagnosemechanismus ist ferner dafür konfiguriert, eine Genauigkeitspunktzahl
für die erwartete
Aussprachedarstellung zu erzeugen, indem er die erwartete Aussprachedarstellung
mit einem Satz einer oder mehrerer wirklicher Aussprachen der bestimmten Äußerung vergleicht.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
Im folgenden werden Ausführungsformen
lediglich beispielhaft, und nicht einschränkend, in den Figuren der beigefügten Zeichnungen
erläutert,
in welchen ähnliche
Bezugszeichen ähnliche
Elemente bezeichnen, und in welchen:
-
1 ein
Blockschaltbild eines Systems zum automatischen Ermitteln der Genauigkeit
eines Aussprachewörterbuches
in einem Spracherkennungssystem gemäß einer Ausführungsform
ist;
-
2A ein
Blockschaltbild ist, das einen Abschnitt der Inhalte eines Aussprachewörterbuches gemäß einer
Ausführungsform
zeigt;
-
2B ein
Blockschaltbild ist, das die Inhalte einer Phonemkettenkonfiguration
gemäß einer Ausführungsform
zeigt;
-
3A ein
Blockschaltbild ist, das den Vergleich einer Phonemkettendarstellung
einer erwarteten Aussprache eines Wortes mit einer ersten wirklichen
Aussprache eines Wortes gemäß einer
Ausführungsform
zeigt;
-
3B ein
Blockschaltbild ist, das den Vergleich einer Phonemkettendarstellung
einer erwarteten Aussprache eines Wortes mit einer zweiten wirklichen
Aussprache eines Wortes gemäß einer
Ausführungsform
zeigt;
-
3C ein
Blockschaltbild ist, das den Vergleich einer Phonemkettendarstellung
einer erwarteten Aussprache eines Wortes mit einer dritten wirklichen
Aussprache eines Wortes gemäß einer
Ausführungsform
zeigt;
-
4 eine
Tabelle ist, die die Ermittlung einer Genauigkeitspunktzahl für Phonemketten
gemäß einer
Ausführungsform
zeigt;
-
5 ein
Flußdiagramm
eines Prozesses zum automatischen Ermitteln der Genauigkeit eines Aussprachewörterbuches
gemäß einer
Ausführungsform
ist; und
-
6 ein
Blockschaltbild eines Computersystems ist, auf dem die Ausführungsformen
implementiert werden können.
-
GENAUE BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORM
-
In der folgenden Beschreibung sind
zum Zweck der Erläuterung
spezifische Einzelheiten ausgeführt,
um für
ein vollständiges
Verständnis
der Erfindung zu sorgen. Es ist jedoch klar, daß die Erfindung ohne diese
spezifischen Einzelheiten ausgeführt
werden kann. Unter bestimmten Umständen sind bekannte Strukturen
und Vorrichtungen in Blockdiagrammform gezeigt, um eine unnötige Verschleierung
der Erfindung zu vermeiden.
-
Verschiedene Aspekte und Merkmale
der beispielhaften Ausführungsformen
sind in den folgenden Abschnitten genauer beschrieben: (1) Einführung; (2)
Systemüberblick;
(3) Aussprachedarstellung; (4) Ermittlung der Genauigkeit eines
Aussprachewörterbuches;
und (5) Implementierungsmechanismen.
-
1. EINFÜHRUNG
-
Es wird ein Lösungsansatz für die automatische
Ermittlung der Genauigkeit eines Aussprachewörterbuches in einem Spracherkennungssystem beschrieben.
Im allgemeinen wird eine erwartete Aussprachedarstellung für eine bestimmte Äußerung aus
einem Aussprachewörterbuch
mit wirklichen Aussprachen der bestimmten Äußerung verglichen. Es wird
eine Genauigkeitspunktzahl für
die bestimmte Äußerung aus
dem Vergleich der erwarteten und wirklichen Aussprachen der bestimmten Äußerung ermittelt.
Die Genauigkeitspunktzahl wird in bezug auf spezifizierte Genauigkeitskriterien
bewertet, um zu ermitteln, ob die erwartete Aussprache für die bestimmte Äußerung die
spezifizierten Genauigkeitskriterien erfüllt. Wenn die erwartete Aussprache
die spezifizierten Genauigkeitskriterien für die bestimmte Äußerung nicht
erfüllt,
wird die erwartete Aussprache für
die bestimmte Äußerung im
Aussprachewörterbuch
als eine Aktualisierung erfordernd identifiziert. Anschließend können manuelle
oder automatische Aktualisierungsmechanismen verwendet werden, um die
identifizierten erwarteten Aussprachedarstellungen die wirklichen
Aussprachen widerspiegeln zu lassen.
-
2. SYSTEMÜBERLICK
-
1 zeigt
ein System 100, das hier verwendet wird, um verschiedene
Aspekte und Merkmale der Erfindung zu beschreiben. Das System 100 enthält eine
Anwendung 102, die mit einem Spracherkennungssystem (SRS) 104 interagiert.
Die Anwendung 102 ist ein Element, daß die Spracherkennungsdienste
des SRS 104 nutzt. Beispiele der Anwendung 102 umfassen,
sind jedoch nicht hierauf beschränkt,
ein sprachaktiviertes System oder einen Dienst auf Telephonbasis,
die in Form eines oder mehrerer Computerprogramme oder Prozesse
implementiert sind. Die Anwendung 102 ist kommunikativ über eine
Verbindung 106 mit dem SRS 104 verbunden.
-
Das SRS 104 enthält eine
Erkennungsvorrichtung 108, einen nichtflüchtigen
Speicher 110, der ein Aussprachewörterbuch 112 enthält, und
ein Aussprachediagnosewerkzeug 114. Die Erkennungsvorrichtung 108 ist
kommunikativ mit einem nichtflüchtigen
Speicher 110 über
eine Verbindung 116 verbunden. Das Diagnosewerkzeug 114 ist
operativ über eine
Verbindung 118 mit dem nichtflüchtigen Speicher 110 verbunden.
Die Verbindungen 116, 118 können unter Verwendung beliebiger
Mechanismen implementiert werden, um für einen Datenaustausch zwischen
ihren jeweiligen verbundenen Entitäten zu sorgen. Beispiele für Verbindungen 116, 118 umfassen, sind
jedoch nicht hierauf beschränkt,
Netzverbindungen, Kabel, Glasfaserverbindungen und Funkverbindungen.
Der nichtflüchtige
Speicher 110 kann z. B. ein oder mehrere Plattenlaufwerke
umfassen.
-
Die Erkennungsvorrichtung 108 ist
ein Mechanismus, der dafür
konfiguriert ist, empfangene Äußerung unter
Verwendung eines Aussprachewörterbuches 112 zu
erkennen. Die Erkennungsvorrichtung 108 kann ferner eine
Interaktion mit anderen Komponenten im SRS 104 erfordern,
die hier nicht gezeigt oder beschrieben sind, um eine Verschleierung
der verschiedenen Merkmale und Aspekte der Erfindung zu vermeiden.
-
Das Aussprachewörterbuch 112 enthält Daten,
die erwartete Aussprachen für Äußerungen
definieren, die von SRS 104 erkannt werden können. Das
Aussprachewörterbuch 112 wird
in diesem Dokument genauer beschrieben.
-
Gemäß einer Ausführungsform
ist das Aussprachediagnosewerkzeug 114 dafür konfiguriert, automatisch
die Genauigkeit des Aussprachewörterbuches 112 zu
ermitteln und bestimmte erwartete Aussprachen zu identifizieren,
die nicht spezifizierte Genauigkeitskriterien erfüllen. Die
erwarteten Aussprachen, die die spezifizierten Genauigkeitskriterien nicht
erfüllen,
können
anschließend
aktualisiert werden, um die wirklichen Aussprachen der empfangenen Äußerungen
genauer widerzuspiegeln.
-
Das SRS 104 kann andere
Komponenten enthalten, die hier nicht gezeigt und beschrieben sind,
um die Verschleierung der verschiedenen Aspekte und Merkmale der
Erfindung zu vermeiden. Zum Beispiel kann das SRS 104 verschiedene
Softwareentwicklungswerkzeuge und Anwendungstestwerkzeuge enthalten,
die zur Verfügung
stehen, um den Entwicklungsprozeß zu unterstützen. Ein
solches Werkzeug ist ein im Handel erhältliches Paket von wiederverwendbaren
Sprachsoftwaremodulen, bekannt als DialogModules® und
zur Verfügung
gestellt von Speechworks International Inc., Boston, Massachusetts.
-
3. AUSSPRACHEDARSTELLUNG
-
2A ist
ein Blockschaltbild 200, das eine Beispielimplementierung
des Aussprachewörterbuches 112 zeigt.
Andere Implementierungen des Aussprachewörterbuches 112 können verwendet
werden, wobei die Erfindung nicht auf irgendeine bestimmte Implementierung
des Aussprachewörterbuches 112 beschränkt ist.
-
Zum Zweck der Erläuterung werden hier im Zusammenhang
mit den bekannten Wörtern
verschiedene Ausführungsformen
beschrieben. Die Ausführungsformen
der Erfindung sind jedoch auf einen beliebigen Typ von Äußerung anwendbar.
Im vorliegenden Beispiel enthält
das Aussprachewörterbuch 112 ein
oder mehrere Einträge 202,
von denen jeder einer bestimmten erwarteten Aussprache für ein bestimmtes
Wort entspricht. Jeder Eintrag 202 enthält einen Wortidentifiziererwert
und erwartete Aussprachedarstellungsdaten.
-
Ein Wortidentifiziererwert entspricht
irgendwelchen Daten, die ein bestimmtes Wort spezifizieren, mit
dem ein Eintrag 202 in Verbindung gebracht wird. Zum Beispiel
kann ein Wortidentifizierer das wirkliche Wort sein, das mit einem
bestimmten Eintrag 202 in Verbindung gebracht wird, wie
z. B. "Karussell" "Apfel" oder "Zoo".
Als ein weiteres Beispiel kann ein Wortidentifiziererwert andere
Daten umfassen, als das Wort selbst, wie z. B. Wort1 oder Wort2, die
ermöglichen,
einen Eintrag 202 auf ein bestimmtes Wort abzubilden. Die
Erfindung ist nicht auf irgendeine bestimmte Implementierung von
Wortidentifiziererwerten beschränkt.
-
Erwartete Aussprachedarstellungsdaten sind
beliebige Daten, die eine erwartete Aussprache des Wortes spezifizieren,
das dem Eintrag zugeordnet ist, der die erwarteten Aussprachedarstellungsdaten
enthält.
Gemäß einer
Ausführungsform
spezifizieren die Aussprachedarstellungsdaten ein oder mehrere Phoneme,
im folgenden als auch als "Phonemkette" bezeichnet. Der
Ausdruck "Phonem", wie er hier verwendet
wird, bezieht sich auf den kleinsten unterscheidbaren Laut in einem
Dialekt einer Sprache.
-
Zum Beispiel ist dem Eintrag 204 ein
Wortidentifiziererwert Wort 1 zugeordnet und enthält erwartete
Aussprachedarstellungsdaten Daten 1, die eine erwartete Aussprache
für Wort
1 definieren. 2B ist
ein Blockschaltbild, das eine Beispielphonemkette 208 für Daten
1 gemäß einer
Ausführungsform
zeigt. Die Phonemkette 208 enthält eine Anzahl N von Phonemen,
die mit P1, P2, P3 bis PN bezeichnet sind. Die Phonemkette 208 definiert
eine erwartete Aussprache für
Wort 1. Die Phonemkette 208 kann eine beliebige Anzahl
von Phonemen enthalten, wobei die Erfindung nicht auf Phonemketten
irgendeiner bestimmten Länge
beschränkt
ist.
-
Wie in 2 gezeigt
ist, weisen bestimmte Wörter
im Aussprachewörterbuch 212,
wie z. B. Wort1 und Wort4, nur einen einzigen Eintrag 202 auf, und
somit nur eine einzige erwartete Aussprache. Andere Wörter weisen
mehrere erwartete Aussprachen auf. Zum Beispiel weist das Wort2
drei Einträge 202 und
somit drei erwartete Aussprachen auf. Wort3 weist zwei erwartete
Aussprachen auf, während Wort5
vier erwartete Aussprachen aufweist. Somit kann das Aussprachewörterbuch 112 eine
beliebige Anzahl von Aussprachen für eine beliebige Anzahl von
Wörtern
spezifizieren, wobei die Erfindung nicht auf Aussprachewörterbücher mit
irgendeiner Anzahl von Wörtern
oder irgendeiner Anzahl von erwarteten Aussprachen für ein bestimmtes
Wort beschränkt
ist.
-
4. ERMITTLUNG
DER GENAUIGKEIT EINES AUSSPRACHEWÖRTERBUCHES
-
Gemäß einer Ausführungsform
wird die Genauigkeit des Aussprachewörterbuches 112 automatisch
ermittelt, indem ein erster Satz von Phonemketten, der im Aussprachewörterbuch 112 enthalten
ist, und die erwartete Aussprachen von Wörtern repräsentieren, mit wirklichen Aussprachen
der Wörter verglichen
werden. Phonemketten, die im Aussprachewörterbuch enthalten sind, werden
hinsichtlich der Genauigkeit auf der Grundlage des Vergleichs mit
den wirklichen Aussprachen bewertet. Die Genauigkeitspunktzahlen
werden in bezug auf spezifische Genauigkeitskriterien bewertet,
um diejenigen im Aussprachewörterbuch
enthaltenen Phonemketten zu identifizieren, die aktualisiert werden
müssen, um
die wirklichen Aussprachen genauer widerzuspiegeln.
-
A. VERGLEICHEN DER ERWARTETEN
UND WIRKLICHEN AUSSPRACHEN UNTER VERWENDUNG VON PHONEMKETTEN
-
Die 3A, 3B und 3C sind jeweils Blockschaltbilder 300, 310, 320,
die einen Lösungsansatz zum
automatischen Ermitteln der Genauigkeit einer erwarteten Aussprachedarstellung
aus einem Aussprachewörterbuch
gemäß einer
Ausführungsform zeigen.
Die Phonemkette 302 repräsentiert eine erwartete Aussprache
eines bestimmten Wortes und enthält
Phoneme P1, P2, P3, P4 bis PN.
-
Gemäß einer Ausführungsform
wird die Phonemkette 302 mit einer ersten wirklichen Aussprache des
bestimmten Wortes auf phonem-weiser Grundlage verglichen, um zu
ermitteln, wie gut die erwartete Aussprache des bestimmten Wortes
mit Schätzungen
der ersten wirklichen Aussprache des bestimmten Wortes übereinstimmt.
Die erste wirkliche Aussprache des bestimmten Wortes wird auf die
Phonemkette 102 projiziert, wobei ein Satz von Punktwerten
S1, S2, S3, S4 ... SN, die durch das Bezugszeichen 304 repräsentiert
werden, ermittelt wird. Jeder Punktwert zeigt eine Korrelation zwischen
einem bestimmten Phonem und der ersten wirklichen Aussprache an.
Zum Beispiel zeigt in 3A der
Punktwert S1 die Korrelation zwischen dem Phonem P1 und der ersten
wirklichen Aussprache an. Ein hoher Punktwert zeigt typischerweise
eine höhere
Korrelation an als ein relativ niedrigerer Punktwert. Zum Beispiel
kann ein Punktwert von (0,90) eine relativ höhere Korrelation zwischen einem
bestimmten Phonem und einer wirklichen Aussprache anzeigen, als
ein Punktwert von (0,30). Im Beispiel der 3A stimmt die erste wirkliche Aussprache
des bestimmten Wortes sehr genau mit der erwarteten Aussprache des bestimmten
Wortes, dargestellt durch die Phonemkette 302, überein.
Die genaue Übereinstimmung wird
in einem relativ hohen Satz von Punktwerten S1, S2, S3, S4 ... SN
widergespiegelt. Es ist somit wahrscheinlich, daß die Phonemkette 302 für die Erkennungsvorrichtung 108 (1) bei der Erkennung der ersten
wirklichen Aussprache des bestimmten Wortes brauchbar ist.
-
Im Blockschaltbild 310 der 3B wird die erwartete Aussprache
gegenüber
einer zweiten wirklichen Aussprache des bestimmten Wortes bewertet. In
diesem Beispiel weist die erwartete Aussprache eine hohe Korrelation
zu einer zweiten wirklichen Aussprache auf, mit Ausnahme des Phonems
P3, wie durch den Punktwert S3 gezeigt ist. Somit ist der Punktwert
S3 ein relativ niedrigerer Punktwert als z. B. der Punktwert S1.
Der relativ niedrigere Punktwert für den Punktwert S3 im Vergleich
zum Punktwert S2 zeigt, daß das
Phonem P3 nicht so streng dargestellt wurde, wie das Phonem P1 in
der zweiten wirklichen Aussprache des bestimmten Wortes. Da die
erwartete Aussprache bezüglich
der meisten der Phoneme gut bewertet wird, ist es trotzdem wahrscheinlich, daß die Phonemkette 302 für die Erkennungsvorrichtung 108 (1) bei der Erkennung der
zweiten wirklichen Aussprache des bestimmten Wortes brauchbar ist.
-
Im Blockschaltbild 302 der 3C wird die erwartete Aussprache
in bezug auf eine dritte wirkliche Aussprache des bestimmten Wortes
bewertet. In diesem Beispiel wird angenommen, daß die erwartete Aussprache,
dargestellt durch die Phonemkette 302 bezüglich der
dritten wirklichen Aussprache des bestimmten Wortes nicht gut bewertete
wird. Das heißt,
es existiert eine relativ geringe Korrelation zwischen den in der
Phonemkette 302 enthaltenen Phonemen und der dritten wirklichen
Aussprache des bestimmten Wortes. Die Folge der signifikanten Unterschiede
zwischen der erwarteten Aussprache und der dritten wirklichen Aussprache
ist, daß die
Phonemkette 302 wahrscheinlich für die Erkennungsvorrichtung 108 (1) bei der Erkennung der
dritten wirklichen Aussprache des bestimmten Wortes unbrauchbar
ist.
-
B. BEWERTUNG DER PHONEMKETTEN
-
Sobald die Phonemketten von einem
Aussprachewörterbuch
mit den wirklichen Aussprachen der Wörter verglichen worden sind,
werden die Phonemketten in bezug auf die Genauigkeit bewertet. Gemäß einer
Ausführungsform
beruht die Genauigkeit einer bestimmten Phonemkette bezüglich einer bestimmten
wirklichen Aussprache auf der Grundlage der Punktwerte für jedes
Phonem, die in der erwarteten Phonemkette enthalten sind. Zum Beispiel kann
in 3A eine erwartete
Phonemkette 302 einen Punktwert von (1,00) annehmen, um
anzuzeigen, daß die
erste wirkliche Aussprache sehr genau mit der erwarteten Aussprache übereinstimmt.
In 3B stimmt die zweite
wirkliche Aussprache nicht gut mit der erwarteten Aussprache überein.
Dementsprechend würde
die erwartete Phonemkette 302 einen relativ niedrigeren
Punktwert bezüglich
der zweiten wirklichen Aussprache annehmen, wie z. B. (0,80) oder
(0,90). In 3C stimmt
die dritte wirkliche Aussprache sehr schlecht mit der erwarteten Aussprache überein.
-
Dementsprechend würde eine erwartete Aussprachekette 302 einen
relativ niedrigen Punktwert bezüglich
der dritten wirklichen Aussprache annehmen, wie z. B. (0,10) oder
(0,20).
-
Sobald eine bestimmte Phonemkette
in bezug auf eine oder mehrere wirkliche Aussprachen bewertet worden
ist, werden die Punktzahlen in bezug auf spezifizierte Genauigkeitskriterien
bewertet, um zu ermitteln, ob die bestimmte Phonemkette aktualisiert
werden muß,
um die wirklichen Aussprachen des zugehörigen Wortes genauer widerzuspiegeln. Gemäß einer
Ausführungsform
enthalten die spezifizierten Genauigkeitskriterien eine minimale
Durchschnittspunktwertschwelle, die einer minimalen durchschnittlichen
Korrelation zwischen Phonemen und einer oder mehreren wirklichen
Ansprachen entspricht. Wenn die durchschnittliche Punktzahl für ein be stimmtes
Phonem in bezug auf ein oder mehrere wirkliche Aussprachen kleiner
ist als die minimale durchschnittliche Punktzahlschwelle, erfüllt die
Phonemkette, die dem bestimmten Phonem zugeordnet ist, nicht die
spezifizierten Genauigkeitskriterien und muß aktualisiert werden, um die
wirklichen Aussprachen des entsprechenden Wortes genauer widerzuspiegeln.
-
Gemäß einer weiteren Ausführungsform
enthalten die spezifizierten Genauigkeitskriterien eine minimale
Punktzahlschwelle, die die minimale annehmbare Punktzahl (Korrelation)
für ein
bestimmtes Phonem in bezug auf irgendeine wirkliche Aussprache spezifiziert.
Wenn die Punktzahl für
das bestimmte Phonem in bezug auf irgendeine wirkliche Aussprache
kleiner ist als die minimale Punktzahlschwelle, erfüllt die
Phonemkette, die dem bestimmten Phonem zugeordnet ist, nicht die
spezifizierten Genauigkeitskriterien und muß aktualisiert werden, um die
wirklichen Aussprachen des entsprechenden Wortes genauer widerzuspiegeln.
Die minimale Punktzahlschwelle kann ebenfalls erfordern, daß eine spezifizierte
Anzahl oder ein Bruchteil von Punktzahlen die minimale Punktzahlschwelle
erfüllt oder überschreitet,
um die Genauigkeitskriterien zu erfüllen.
-
Die Bewertung der Phonemketten wird
im folgenden mit Bezug auf Tabelle 400 der 4 genauer beschrieben. Im allgemeinen
enthält
die Tabelle 400 die Ergebnisse der Bewertung einer bestimmten Phonemkette
für ein
bestimmtes Wort, daß die Phoneme
P1, P2, P3, P4 und P5 umfaßt,
in bezug auf drei wirkliche Aussprachen des bestimmten Wortes. Tabelle
400 enthält
fünf Einträge 402, 404, 406, 408, 410 die
dem Testen der fünf
Phoneme P1, P2, P3, P4 bzw. PF in bezug auf drei wirkliche Aussprachen
entsprechen.
-
Jedes Phonem wird in bezug auf drei
wirkliche Aussprachen bewertet, wobei der vorher beschriebene Lösungsansatz
verwendet wird, und wobei die Ergebnisse in den Spalten 412 angegeben sind.
Die mittlere Punktzahl für
jedes Phonem in bezug auf alle drei wirklichen Aussprachen ist in
Spalte 414 angegeben und wird aus den Punktzahlen in den Spalten 412 berechnet.
Eine beispielhafte minimale mittlere Punktzahlschwelle von (0,50)
und eine beispielhafte minimale Punktzahlschwelle von (0,30) sind
in den Spalten 416 bzw. 418 für jedes Phonem gezeigt. Die
Anzahl der Punktzahlen für
jedes Phonem, das unter die minimale Punktzahlschwelle fällt, ist
in Spalte 420 angegeben.
-
Wie durch die Einträge 402, 406 gezeigt
ist, erfüllen
gemäß den ersten
und dritten Phonemen jeweils die mittleren Punktzahlen für die ersten
und dritte Phoneme von (0,79) und (0,93) die minimale mittlere Punktzahlschwelle
von (0,50). Ferner liegt keine der Punktzahlen der ersten oder dritten
Phoneme unterhalb der minimalen Punktzahlschwelle von (0,30). Dementsprechend
erfüllen
sowohl das erste als auch das dritte Phonem die spezifizierten Genauigkeitskriterien.
-
Wie mit dem Eintrag 404 gezeigt
ist, fällt
gemäß dem zweiten
Phonem P2 die mittlere Punktzahl von (0,47) für das zweite Phonem P2 unter
die minimale mittlere Punktzahlschwelle von (0,50). Daher erfüllt das
zweite Phonem nicht die spezifizierten Genauigkeitskriterien.
-
Wie mit den Einträgen 408, 410 gezeigt
ist, erfüllen
entsprechend den vierten und fünften
Phonemen jeweils die mittlere Punktzahlen sowohl für das vierte
als auch das fünfte
Phonem von (0,68) und (0,51) jeweils die minimale mittlere Punktzahlschwelle
von (0,50). Jedoch weisen die vierten und fünften Phoneme jeweils ein und
zwei Punktzahlen auf, die unter die minimale Punktzahlschwelle fallen.
Dementsprechend bewirken die vierten und fünften Phoneme, daß die bestimmte
Phonemkette nicht die spezifizierten Genauigkeitskriterien erfüllt. Dieses
Beispiel zeigt verschiedene Techniken, die verwendet werden können, um
die Punktzahlen für
Phoneme in einer Phonemkette zu bewerten. Es ist klar, daß die Punktzahl
für ein
einzelnes Phonem bewirken kann, daß die zugehörige Phonemkette aktualisiert
werden muß.
Da z. B. die mittlere Punktzahl von (0,47) für das Phonem P2 unter die mittlere
Punktzahlschwelle von (0,50) fällt,
muß die
zugehörige
Phonemkette aktualisiert werden und die Punktzahlen für anderen Phoneme
brauchen nicht bewertet werden.
-
Dieses Beispiel nimmt an, daß unter
den spezifizierten Genauigkeitskriterien eine einzelne Punktzahl
unterhalb der minimalen Punktzahlschwelle die spezifizierten Genauigkeitskriterien
nicht erfüllt. Unter
anderen Umständen
können
die spezifizierten Genauigkeitskriterien spezifizieren, daß eine bestimme
Anzahl von Punktzahlen unter der minimalen Punktzahlschwelle bewirkt,
daß eine
Phonemkette die spezifizierten Genauigkeitskriterien verfehlt. Zum Beispiel
können
die spezifizierten Genauigkeitskriterien spezifizieren, daß nur eine
Phonemkette, die zwei oder mehr Phonempunktzahlen unterhalb der minimalen
Punktzahlschwelle aufweist, die spezifizierten Genauigkeitskriterien
nicht erfüllt.
Unter diesen Umständen
würden
die Punktzahlen für
das vierte Phonem nicht bewirken, daß die bestimmte Phonemkette
die spezifizierten Genauigkeitskriterien nicht erfüllt, jedoch
würden
die Punktzahlen für
das fünfte
Phonem dies bewirken.
-
Der Lösungsansatz zur Ermittlung
der Genauigkeit einer bestimmten erwarteten Aussprache aus einem
Aussprachewörterbuch
in einem Spracherkennungssystem wird im folgenden mit Bezug sowohl
auf die Tabelle 400 der 4 als
auch ein Flußdiagramm 500 der 5 beschrieben. Nach dem
Start in Schritt 502 wird im Schritt 504 eine
bestimmte erwartete Aussprachedarstellung aus einem Aussprachewörterbuch,
z. B. dem Aussprachewörterbuch 112 der 1, abgerufen. Erwartete
Darstellungen, die im Aussprachewörterbuch 112 enthalten sind,
können
selektiv abgerufen und bewertet oder systematisch abgerufen und
bewertet werden, als Teil einer regelmäßigen Aussprachewörterbuch-"Abstimmungs"-Prozedur.
-
Im Schritt 508 wird die
bestimmte erwartete Aussprachedarstellung mit einer oder mehreren
wirklichen Aussprachen verglichen, wobei Genauigkeitspunktzahlen
für die
bestimmte erwartete Aussprache ermittelt werden. Wie durch Tabelle 400 gezeigt
ist, werden die Phoneme in der bestimmten Aussprachedarstellung
in bezug auf drei wirkliche Aussprachen bewertet. Eine Genauigkeitspunktzahl
wird für
jedes Phonem mit Bezug auf jede wirkliche Aussprache auf der Grundlage
davon ermittelt, wie gut die wirklichen Aussprachen mit den Phonemen
korrelieren. Zum Beispiel wird eine mittlere Genauigkeitspunktzahl von
(0,79) für
das erste Phonem mit Bezug auf die drei wirklichen Aussprachen in
Spalte 414 gespeichert.
-
Im Schritt 510 werden die
Genauigkeitspunktzahlen in bezug auf spezifizierte Genauigkeitskriterien
bewertet. Zum Beispiel wird die durchschnittliche Genauigkeitspunktzahl
für das
erste Phonem von (0,79) mit der minimalen mittleren Punktzahlschwelle
von (0,50) in Spalte 416 verglichen. Außerdem werden die Genauigkeitspunktzahlen
für das erste
Phonem in bezug auf die drei wirklichen Aussprachen von (0,90),
(0,80) bzw. (0,67) mit der minimalen Punktzahlschwelle von (0,30)
aus Spalte 418 verglichen.
-
Im Schritt 512 wird ermittelt,
ob die mittlere Punktzahl die minimale mittlere Punktzahlschwelle erfüllt. Falls
nicht, erfüllt
die bestimmte erwartete Aussprachedarstellung nicht die spezifizierten
Genauigkeitskriterien, wobei im Schritt 514 die bestimmte
erwartete Darstellung aktualisiert wird. Zum Beispiel liegt die
mittlere Genauigkeitspunktzahl von (0,47) für das zweite Phonem P2, wie
durch den Eintrag 404 dargestellt, unterhalb der mittleren
Punktzahlschwelle von (0,50).
-
Wenn im Schritt 512 die
mittlere Punktzahl nicht die minimale mittlere Punktzahlschwelle
erfüllt, wird
im Schritt 516 ermittelt, ob die Genauigkeitspunktzahlen
für die
bestimmte erwartete Aussprachedarstellung die minimale Punktzahlschwelle
erfüllen.
Wie oben beschrieben worden ist, werden dann, wenn mehrere Genauigkeitspunktzahlen
für die
bestimmte erwartete Aussprachedarstellung unter die minimale Punktzahlschwellen
fallen, die spezifizierten Genauigkeitskriterien nicht erfüllt. Falls
nicht, rückt
die Steuerung zum Schritt 514 vor, wo die bestimmte erwartete
Darstellung aktualisiert wird, um die aktuellen Aussprachen des
entsprechenden Wortes widerzuspiegeln. Zum Beispiel weist das vierte Phonem
eine Genauigkeitspunktzahl unterhalb der minimalen Punktzahlschwelle
auf, während
das fünfte
Phänomen
zwei Genauigkeitspunktzahl unterhalb der minimalen Punktzahlschwelle
aufweist. Falls jedoch im Schritt 516 die Genauigkeitspunktzahlen
die minimale Punktzahlschwelle erfüllen, werden die spezifizierten
Genauigkeitspunktzahlen erfüllt.
Der Prozeß wird
anschließend
im Schritt 518 beendet.
-
Obwohl hier im Kontext der Ermittlung
der Genauigkeit der erwarteten Aussprachen von Wörtern Ausführungsformen beschrieben worden
sind, kann der hier beschriebene Lösungsansatz mit einem beliebigen
Typ von Äußerung verwendet
werden, wobei die Erfindung nicht auf den Kontext von Wörtern beschränkt ist.
-
5. IMPLEMENTIERUNGSMECHANISMEN
-
A. ÜBERBLICK
-
Der hier beschriebene Lösungsansatz
für die automatische
Ermittlung der Genauigkeit eines Aussprachewörterbuches in einem Spracherkennungssystem
kann in Computersoftware, in einer Hardwareschaltung oder als eine
Kombination von Computersoftware und Hardwareschaltung implementiert werden.
Dementsprechend ist die Erfindung nicht auf eine bestimmte Computersoftware-
oder Hardwareschaltungs-Implementierung beschränkt. Wie z. B. in 1 gezeigt ist, kann der
Lösungsansatz
in einem Aussprachediagnosewerkzeug 114 als Teil des SRS 104 implementiert
sein. Als ein weiteres Beispiel kann der Lösungsansatz als Teil der Erkennungsvorrichtung 108 implementiert
sein. Der Lösungsansatz kann
auch als ein selbständiger
Mechanismus implementiert sein, der außerhalb des SRS 104 angeordnet
ist, und der verwendet wird, um die Genauigkeit des Aussprachewörterbuches 112 abzuschätzen und Empfehlungen
für die
erwarteten Aussprachedarstellungen im Aussprachewörterbuch 112,
die nicht die spezifizierten Genauigkeitskriterien erfüllen, bereitzustellen.
-
B. IMPLEMENTIERUNGSHARDWARE
-
6 ist
ein Blockschaltbild, das ein beispielhaftes Computersystem 600 zeigt,
auf dem eine Ausführungsform
der Erfindung implementiert werden kann. Das Computersystem 600 enthält einen Bus 602 oder
einen anderen Kommunikationsmechanismus zum Austausch von Informationen,
wobei ein Prozessor 604 mit dem Bus 602 für die Verarbeitung
von Informationen verbunden ist. Das Computersystem 600 enthält ferner
einen Hauptspeicher 606, wie z. B. einen Schreib/Lese-Speicher
(RAM) oder eine andere dynamische Speichervorrichtung, die mit dem
Bus 602 gekoppelt ist, um Informationen und Befehle, die
vom Prozessor 604 auszuführen sind, zu speichern. Der
Hauptspeicher 606 kann ferner zum Speichern vorübergehender
Variablen oder andere Zwischeninformationen während der Ausführung der
Befehle, die vom Prozessor 604 auszuführen sind, verwendet werden.
Das Computersystem 600 enthält ferner einen Nur-Lese-Speicher
(ROM) 608 oder eine andere statische Speichervorrichtung, die
mit dem Bus 602 gekoppelt ist, um statische Informationen
und Befehle für
den Prozessor 604 zu speichern. Eine Speichervorrichtung 610,
wie z. B. ein Magnetplattenlaufwerk oder ein optisches Plattenlaufwerk,
ist vorgesehen und mit dem Bus 602 verbunden, um Informationen
und Befehle zu speichern.
-
Das Computersystem 600 kann über den Bus 602 mit
einer Anzeigevorrichtung 612 verbunden sein, wie z. B.
einer Katodenstrahlröhre
(CRT), um Informationen für
einen Computerbenutzer anzuzeigen. Eine Eingabevorrichtung 614,
die alphanumerische Tasten oder andere Tasten enthält, ist
mit dem Bus 602 verbunden, um Informationen und Befehlsauswahlen
für den
Prozessor 604 einzugeben. Ein weiterer Typ von Benutzereingabevorrichtung
ist eine Cursor-Kontrolle 616, wie z. B. eine Maus, eine
Steuerungskugel, oder Cursorrichtungstasten für die Eingabe von Richtungsinformationen
und Befehlsauswahlen für
den Prozessor 604 und zum Steuern der Cursorbewegung auf
der Anzeigevorrichtung 612. Diese Eingabevorrichtung weist
typischerweise zwei Freiheitsgrade in zwei Achsen auf, einer ersten
Achse (z. B. x) und einer zweiten Achse (z. B. y), die der Vorrichtung
erlauben, Positionen in einer Ebene zu spezifizieren.
-
Die Erfindung bezieht sich auf die
Verwendung eines Computersystems 600 für die automatische Ermittlung
der Genauigkeit eines Aussprachewörterbuches. Gemäß einer
Ausführungsform
der Erfindung wird ein Mechanismus zum automatischen Ermitteln der
Genauigkeit eines Aussprachewörterbuches
vom Computersystem 600 in Reaktion auf den Prozessor 604 bereitgestellt,
der eine oder mehrere Sequenzen eines oder mehrerer Befehle ausführt, die
im Hauptspeicher 606 enthalten sind. Solche Befehle können in
den Hauptspeicher 606 von einem weiteren computerlesbaren
Medium wie z. B. einer Speichervorrichtung 610 eingelesen
werden. Die Ausführung
der Befehlssequenzen, die im Hauptspeicher 606 enthalten
sind, veranlaßt
den Prozessor 604, die hier beschriebenen Prozeßschritte
auszuführen.
Es können
auch ein oder mehrere Prozessoren in einer Multiprozessoranordnung
verwendet werden, um die Befehlssequenzen, die im Hauptspeicher 606 enthalten
sind, auszuführen.
In alternativen Ausführungsformen
kann eine festverdrahtete Schaltung anstelle von oder in Kombination
mit Softwarebefehlen verwendet werden, um die Erfindung zu implementieren.
Die Ausführungsformen
der Erfindung sind daher nicht auf irgendeine spezifische Kombination
von Hardwareschaltung und Software beschränkt.
-
Der Ausdruck "computerlesbares Medium", wie er hier verwendet
wird, bezieht sich auf irgendein Medium, das bei der Bereitstellung
von Befehlen für den
Prozessor 604 zur Ausführung
teilnimmt. Ein solches Medium kann viele Formen annehmen, einschließlich, jedoch
nicht hierauf beschränkt,
nichtflüchtiger
Medien, flüchtiger
Medien und Übertragungsmedien.
Nichtflüchtige
Medien umfassen z. B. optische oder magnetische Platten, wie z.
B. die Speichervorrichtung 610. Flüchtige Medien umfassen dynamischen
Speicher, wie z. B. den Hauptspeicher 606. Übertragungsmedien
umfassen Koaxialkabel, Kupferdraht und Glasfasern, einschließlich der Drähte, die
den Bus 602 bilden. Übertragungsmedien können auch
die Form von akustischen Wellen oder Lichtwellen annehmen, wie z.
B. diejenigen, die während
Hochfrequenz- und Infrarot-Datenkommunikationsvorgängen erzeugt
werden.
-
Gewöhnliche Formen von computerlesbaren Medien
umfassen z. B. eine Diskette, eine flexible Platte, eine Festplatte,
ein Magnetband oder irgendein anderes magnetisches Medium, einen CD-ROM,
irgendein anderes optisches Medium, Lochkarten, Papierband, irgendein
anderes physikalisches Medium mit Lochmustern, einen RAM, einen PROM,
und EPROM, einen FLASH-EPROM, irgendeinen anderen Speicherchip oder
eine Kassette, eine Trägerwelle,
wie im folgenden beschrieben wird, oder irgendein anderes Medium,
von dem ein Computer lesen kann.
-
Verschiedene Formen von computerlesbaren
Medien können
verwendet werden, um eine oder mehrere Sequenzen von einem oder
mehreren Befehlen für
die Ausführung
durch den Prozessor 604 zu tragen. Zum Beispiel können sich
die Befehle anfangs auf einer Magnetscheibe eines entfernten Computers
befinden. Der entfernte Computer kann die Befehle in seinem dynamischen
Speicher laden und die Befehle über
eine Telephonleitung unter Verwendung eines Modems senden. Ein Modem,
daß beim
Computersystem 600 angeordnet ist, kann die Daten auf der
Telephonleitung empfangen und einen Infrarotsender verwenden, um
die Daten in ein Infrarotsignal umzusetzen. Ein Infrarotdetektor,
der mit dem Bus 602 verbunden ist, kann die im Infrarotsignal
enthaltenen Daten empfangen und die Daten auf dem Bus 602 plazieren.
Der Bus 602 liefert die Daten an dem Hauptspeicher 606,
von wo der Prozessor 604 die Befehle abruft und ausführt. Die
Befehle, die vom Hauptspeicher 606 empfangen werden, können optional
auf der Speichervorrichtung 610 entweder vor oder nach
der Ausführung
durch den Prozessor 604 gespeichert werden.
-
Das Computersystem 600 enthält ferner
eine Kommunikationsschnittstelle 618, die mit dem Bus 602 verbunden
ist. Die Kommunikationsschnittstelle 618 sorgt für eine Zweiwege-Datenkommunikationsverbindung
mit einer Netzverbindung 620, die mit einem lokalen Netz 622 verbunden
ist. Zum Beispiel kann die Kommunikationsschnittstelle 618 eine ISDN-Karte
(ISDN = Integrated Services Digital Network) oder ein Modem sein,
um eine Datenkommunikationsverbindung mit einem entsprechenden Typ von
Telephonleitung zur Verfügung
zu stellen. Als weiteres Beispiel kann die Kommunikationsschnittstelle 618 eine
lokale Netzkarte (LAN-Karte) sein, um eine Datenkommunikationsverbindung
mit einem kompatiblen LAN zur Verfügung zu stellen. Drahtlose Verbindungen
können
ebenfalls implementiert werden. Bei jeder solchen Implementierung
sendet und empfängt
die Kommunikationsschnittstelle 618 elektrische, elektromagnetische
oder optische Signale, die digitale Datenströme führen, die verschiedene Typen
von Informationen repräsentieren.
-
Die Netzverbindung 620 sorgt
typischerweise für
einen Datenaustausch über
ein oder mehrere Netze oder Datenvorrichtungen. Zum Beispiel kann die
Netzverbindung 620 eine Verbindung über ein lokales Netz 622 zu
einem Host-Computer 624 oder zu einer Datenanlage, die
von einem Internet-Dienstanbieter
(ISP) 626 betrieben wird, bereitstellen. Der ISP 626 kann
seinerseits Datenkommunikationsdienste über das weltweite Paketdatenkommunikationsnetz bereitstellen,
das derzeit gewöhnlich
als "Internet" 628 bezeichnet wird.
Das lokale Netz 622 und das Internet 628 verwenden
beide elektrische, elektromagnetische oder optische Signale, die
digitale Datenströme
führen.
Die Signale durch die verschiedenen Netze und die Signale auf der
Netzverbindung 620 und durch die Kommunikationsschnittstelle 618,
die die digitalen Daten zum und vom Computersystem 600 führen, sind
beispielhafte Formen von Trägerwellen,
die Informationen transportieren.
-
Das Computersystem 600 kann über die
Netze, die Netzverbindung 620 und die Kommunikationsschnittstelle 618 Nachrichten
senden und Daten empfangen, einschließlich Programmcode. Bei dem Internet-Beispiel
kann ein Server 630 einen angeforderten Code für ein Anwendungsprogramm über das Internet 628,
den ISP 626, das lokale Netz 622 und die Kommunikationsschnittstelle 618 senden.
Gemäß der Endung
sorgt eine solche heruntergeladene Anwendung für die automatische Ermittlung
der Genauigkeit des Aussprachewörterbuches,
wie hier beschrieben worden ist.
-
Der empfangene Code kann vom Prozessor 604 ausgeführt werden,
wenn er empfangen worden ist, und/oder in der Speichervorrichtung 610 oder
in einem anderen nichtflüchtigen
Speicher für
eine spätere
Ausführung
gespeichert werden. Auf diese Weise kann das Computersystem 600 Anwendungscode in
Form einer Trägerwelle
erhalten.
-
Der in diesem Dokument beschriebene
Lösungsansatz
zur automatischen Ermittlung der Genauigkeit eines Aussprachewörterbuches
bietet mehrere Vorteile gegenüber
früheren
Lösungsansätzen. Genauer
reduziert die Verwendung eines automatisierten Mechanismus die Menge
an Personalaufwand, die zum Ermitteln der Genauigkeit eines Aussprachewörterbuches
erforderlich ist. Dies erlaubt, die Genauigkeit eines Aussprachewörterbuches
periodisch abzuschätzen
und zu korrigieren, ohne darauf warten zu müssen, daß Benutzer Probleme mit bestimmten
Wörtern
identifizieren. Außerdem
erlaubt der automatisierte Lösungsansatz,
ein Aussprachewörterbuch
schneller zu aktualisieren, um Änderungen
einer Anwendung, von Benutzern oder Kontext widerzuspiegeln, als
frühere
manuelle Lösungsansätze. Die
automatisierte Eigenart des Lösungsansatzes
kann ferner die Genauigkeit des Aussprachewörterbuches 112 erhöhen, da:
(1) der Lösungsansatz
Eigenschaften des Spracherkennungssystems 104 berücksichtigen
kann; und (2) manuell angepaßte
Aussprachen weniger genau sein können,
aufgrund von voreingenommenen linguistischen Vorurteilen.
-
In der vorangehenden Beschreibung
wurden bestimmte Ausführungsformen
beschrieben. Es ist jedoch klar, daß daran verschiedene Abwandlungen und Änderungen
vorgenommen werden können, ohne
vom Umfang der Erfindung abzuweichen, wie er durch die beigefügten Ansprüche definiert
wird. Die Beschreibung und die Zeichnungen sind daher als erläuternd und
nicht in einem einschränkenden Sinn
aufzufassen.