-
Die
Erfindung betrifft ein Verfahren und eine Vorrichtung zur Spracherkennung
zum Erkennen von Wörtern
einer bestimmten Fremdsprache, die in einer Sprachäußerung enthalten
sind, die von einem Sprecher gemacht wird, der eine bestimmte Muttersprache
hat, zum Beispiel ein Verfahren und eine Vorrichtung zur Spracherkennung
zum Erkennen einer von einem Japaner gemachten englischen Sprachäußerung,
um Daten (Textdaten) auszugeben, die eine in der Sprachäußerung enthaltene
englische Wortgruppe anzeigen.
-
Die
Beschreibung stellt auch eine Vorrichtung zur Korrektur der Aussprache
und ein Verfahren dar, mittels dem ein Sprecher in der korrekten
Aussprache unterrichtet werden kann, um die Aussprache unter Verwendung
von Daten (Kandidatenwortdaten), die in der Vorrichtung zur Spracherkennung und
im Verlauf der Anwendung des Verfahrens erhalten wurden, zu korrigieren.
-
Eine
Vorrichtung zur Spracherkennung ist bis jetzt zum Erkennen von Wörtern benutzt
worden, die in einer von einem unbestimmten Sprecher gemachten Sprachäußerung enthalten
waren, um die Wörter
als Textdaten auszugeben.
-
Die
japanischen Patentanmeldungen JP-A-6012483, JP-A-8050493 und JP-A-9022297
offenbaren zum Beispiel ein solches Verfahren zur Spracherkennung.
-
Wenn
zum Beispiel von einer englischen Spracherkennungsvorrichtung zum
Erkennen englischer Wörter
aus einer englischen Sprachäußerung unter
Verwendung eines herkömmlichen
Spracherkennungsverfahrens englische Textdaten aus einer von einem
Japaner gemachten englischen Sprachäußerung erzeugt werden, ist
die Erkennungsquote gering. Dies ist so, weil die englische Sprache
Laute enthält,
die es in der japanischen Sprache nicht gibt (th usw.), oder Laute,
die in der japanischen Sprache schwer zu unterscheiden sind (l,
r usw.), und weil Japaner im Allgemeinen solche englischen Laute
nicht richtig aussprechen können,
so dass die englische Spracherkennungsvorrichtung eine unrichtige
Aussprache so, wie sie ist, in ein Wort übersetzt. Wenn ein Japaner
zum Beispiel auf Englisch „rice" aussprechen möchte, kann
die englische Spracherkennungsvorrichtung diese Aussprache als „lice" oder „louse" erkennen.
-
Solche
Ungenauigkeiten können
in verschiedenen Situationen auftreten, wenn z.B. als Gegenstück zum Obigen
ein Amerikaner, dessen Muttersprache Englisch ist, eine Spracherkennungsvorrichtung
zum Erstellen eines japanischen Textes aus einer japanischen Sprachäußerung benutzt,
wenn ein Brite, dessen Muttersprache britisches Englisch ist, eine
Spracherkennungsvorrichtung benutzt, die auf amerikanisches Englisch
abgestimmt ist, oder wenn eine spezielle Person aus irgendeinem
Grund Schwierigkeiten hat, richtig auszusprechen.
-
Die
in den obigen Bezügen
offenbarten Vorrichtungen zur Spracherkennung können jedoch solche Unzulänglichkeiten
nicht lösen.
-
Wenn
die englische Aussprache des Sprechers verbessert wird und sich
der Aussprache eines Muttersprachlers annähert, verbessert sich natürlich die
Erkennungsquote der Spracherkennungsvorrichtung, und es ist tatsächlich wünschenswert
für einen Sprecher,
seine englische Konversation zu verbessern.
-
Zum
Beispiel wird in PUPA4-54965 eine Lernvorrichtung zum Erkennen einer
englischen Sprachäußerung eines
Sprechers offenbart, die den Sprecher veranlasst, die erkannte englische
Sprachäußerung zu
bestätigen
(Bezug 4).
-
Ebenso
offenbart zum Beispiel die japanische Patentanmeldung JP-A-60123884
eine Maschine zum Englischlernen, bei der ein Sprecher unter Benutzung
eines LSI-Sprachsynthesizers (Bezug 5) zum Lernen einer
Sprachäußerung zuhört.
-
Eine
Lernvorrichtung zum Erlernen der Aussprache einer Fremdsprache wird
in vielen anderen Veröffentlichungen,
darunter die Dokumente PUPA44-7162, PUPA7-117807, JP-A-61018068, JP-A-8027588,
JP-A-62111278, JP-A-62299985, PUPA3-75869, JP-B-6027971, JP-B-8012535 und JP-A-3226785
(Bezüge
6 bis 14), offenbart.
-
Der
Sprecher kann jedoch bei Benutzung der in diesen Bezügen offenbarten
Lernvorrichtung nicht unbedingt einen zufrieden stellenden Lerneffekt
erreichen, weil der Sprecher (die Sprecherin) seine oder ihre eigene
Aussprache mit einer dargebotenen Aussprache vergleichen muss, oder
er oder sie findet nicht heraus, welcher Teil seiner oder ihrer
Aussprache falsch ist.
-
Die
US-Patentschrift US-A-5 170 432 offenbart den Vorschlag eines Satzes
von Hypothesen zur syntaktischen Analyse, um die gesprochene Wortverbindung
zu bestimmen.
-
Die
vorliegende Erfindung wurde im Hinblick auf die oben beschriebenen
Probleme der herkömmlichen
Technologie gemacht und zielt darauf ab, ein Verfahren und eine
Vorrichtung zur Spracherkennung zum Erkennen von Wörtern bereitzustellen,
die in einer Sprachäußerung einer
vorbestimmten Sprache enthalten sind, die von einem Sprecher gemacht wird,
dessen Muttersprache eine andere als die vorbestimmte Sprache ist
(Nicht-Muttersprachler), und zum Übersetzen der Wörter in
die vom Sprecher gemeinten Wörter
der vorbestimmten Sprache, um richtige Textdaten zu erzeugen.
-
Es
ist auch eine Aufgabe der vorliegenden Erfindung, ein Verfahren
und eine Vorrichtung zur Spracherkennung zum Übersetzen einer von einem Sprecher
in irgendeiner Region gemachten Sprachäußerung in ein vom Sprecher
gemeintes Wort bereitzustellen, um die Erzeugung richtiger Textdaten zu
ermöglichen,
selbst wenn die Aussprache derselben Sprache aufgrund der Unterschiede
der Regionen, in denen die Sprache gesprochen wird, variiert.
-
Es
ist ebenfalls eine Aufgabe der vorliegenden Erfindung, ein Verfahren
und eine Vorrichtung zur Spracherkennung bereitzustellen, das die
Unterschiede in der Aussprache einzelner Personen kompensiert, um
eine konstant hohe Erkennungsquote aufrecht zu erhalten.
-
Die
Beschreibung stellt auch eine Vorrichtung zur Korrektur der Aussprache
und ein Verfahren zum Aufzeigen eines Problems der Aussprache eines
Sprechers und zur Hinführung
des Sprechers auf das Erlernen der Aussprache des Muttersprachlers dar,
um die Aussprache des Sprechers durch Verwendung der in der Spracherkennungsvorrichtung und
im Verlauf der Anwendung des Verfahrens erhaltenen Daten zu berichtigen.
-
Die
Beschreibung stellt auch eine Vorrichtung zur Sprachkorrektur und
ein Verfahren zur Korrektur der Aussprache dar, welches automatisch
die Aussprache eines Sprechers mit einer richtigen Aussprache vergleichen
kann, um einen Fehler aufzuzeigen und detaillierte Informationen
vorzulegen, die anzeigt, wie der Sprecher die Aussprache berichtigen sollte.
-
Um
die obigen Ziele zu erreichen, stellt die vorliegende Erfindung
eine Vorrichtung zur Spracherkennung wie in Anspruch 1 beansprucht,
ein Verfahren zur Spracherkennung wie in Anspruch 6 beansprucht
und ein Computerprogrammprodukt wie in Anspruch 8 beansprucht bereit.
-
Die
Vorrichtung zur Spracherkennung der vorliegenden Erfindung erkennt
zum Erzeugen von Textdaten ein Wort, das in einer englischen Sprachäußerung (stimmlich)
enthalten ist, die von einem Sprecher (zum Beispiel einem Japaner)
gemacht wird, dessen Muttersprache (zum Beispiel japanische Sprache)
eine andere als eine vorbestimmte Sprache (zum Beispiel englische
Sprache) ist, und der hauptsächlich
die Muttersprache spricht und sie in ein englisches Wort umsetzt.
-
In
der Vorrichtung zur Spracherkennung der vorliegenden Erfindung wird
eine von einem Japaner gemachte, durch ein Mikrofon usw. eingegebene
und in digitale Daten umgewandelte englische Sprachäußerung (Sprachdaten)
in quantisierte Vektordaten umgesetzt, betreffend Klangmerkmale
(Lautstärke, Intensität und Intonation
usw. des Klangs), und zur Ausgabe an das Kandidatenwort-Korrelierungsmittel weiter
umgewandelt in Klangdaten, die ähnlich
einem phonetischen Symbol sind und als Label bezeichnet werden.
-
Das
Kandidatenwort-Korrelierungsmittel verarbeitet die zu einem Label
umgewandelten Sprachdaten Wort für
Wort oder als Folge einer Vielzahl von Wörtern und korreliert die Sprachdaten
mit einem einzigen englischen Wort oder einer Kombination einer
Vielzahl englischer Wörter
(zusammenfassend als Kandidatenwort bezeichnet) als Kandidat des
Ergebnisses der Erkennung der Sprachdaten.
-
Das
Speichermittel für
analoge Wörter
speichert Wörterbuchdaten
zum Abrufen, in denen zum Beispiel ein einzelnes englisches Wort
oder eine Kombination einer Vielzahl englischer Wörter, die Sprachdaten
entsprechen können
(zusammenfassend als analoges Wort bezeichnet), wenn ein Japaner
etwas englisch ausspricht, und dies gegebenenfalls nicht in der
richtigen englischen Aussprache, im Voraus mit einem einzelnen englischen
Wort oder einer Kombination einer Vielzahl englischer Wörter korreliert
wird oder werden, die ein Kandidatenwort sein können.
-
Um
zum Beispiel mit einer ungenauen englischen Aussprache eines Japaners
umzugehen, wird ein einzelnes englisches Wort „lead", das ein Kandidatenwort sein kann,
mit dem analogen Wort „read" in den Wörterbuchdaten
korreliert (in Betracht dessen, dass „l"" und „r" für Japaner
schwierig zu unterscheiden sind; Japaner können im allgemeinen „r" nicht richtig aussprechen).
Gelegentlich gibt es zu einem englischen Wort kein analoges Wort.
In solch einem Fall wird ein analoges Wort zu einem englischen Wort
nicht korreliert.
-
Das
Korrelierungsmittel für
analoge Wörter durchsucht
die in dem Speichermittel für
analoge Wörter
gespeicherten Wörterbuchdaten,
um ein mit einem Kandidatenwort korreliertes analoges Wort auszulesen,
und korreliert das analoge Wort mit dem Kandidatenwort. Im obigen
Beispiel werden Sprachdaten, die einem von einem Japaner gesprochenen englischen
Wort „read" entsprechen, mit
einem englischen Wort „lead" und einem analogen
Wort „read" korreliert.
-
Das
Spracherkennungsmittel wählt
entweder ein mit Sprachdaten korreliertes Kandidatenwort oder ein
analoges Wort als Ergebnis der Erkennung aus, basierend auf einer
syntaktischen Analyse einer Reihe bisher erkannter englischer Wörter oder
zum Beispiel in Reaktion auf eine Auswahl eines Benutzers.
-
Die
Komponenten der Vorrichtung zur Spracherkennung der vorliegenden
Erfindung verarbeiten Sprachdaten, die eine nach der anderen in
der oben beschriebenen Weise eingegeben wurden, um in den Sprachdaten
enthaltene englische Wörter
zu erkennen, und erzeugen Textdaten, die die erkannten englischen
Wörter
verknüpfen.
-
Während bisher
als Beispiel eine englische Sprachäußerung eines Japaners beschrieben
worden ist, kann die Vorrichtung zur Spracherkennung der vorliegenden
Erfindung sowohl eine englische Sprachäußerung in einer britischen
Aussprache als auch eine in einer amerikanischen Aussprache erkennen,
um dadurch Textdaten zu erzeugen, indem das Speichermittel für analoge
Wörter
so modifiziert wird, dass es Wörterbuchdaten speichert,
die ein analoges Wort, das Sprachdaten entsprechen kann, mit einem
Kandidatenwort korrelieren, wenn die Sprachäußerung in einer britisch-englischen
Aussprache ausgesprochen wird, die sich von amerikanisch-englischer
Aussprache unterscheidet.
-
Auf
diese Weise wird der Umfang der obigen „vorbestimmten Sprache" definiert als ein
Umfang, in dem Sprachdaten mit einer zufriedenstellenden Erkennungsquote
mit einem Wort korreliert werden können. Deswegen sind Dialekte
(zum Beispiel englische Sprachen in den USA, England, Australien
und Südafrika
usw., und spanische Sprachen in Spanien und Südamerika), für die eine
zufriedenstellende Erkennungsquote nur durch ein Kandidatenwort-Korrelierungsmittel,
das auf einen der Dialekte eingestellt ist, nicht erreicht wird,
in einem selben Umfang der „vorbestimmten
Sprache" nicht enthalten,
selbst wenn sie normalerweise als dieselbe Sprache bezeichnet werden,
weil sie aufgrund geografischer Trennung unterschiedlich ausgesprochen
werden. Dasselbe trifft zu, wenn die Aussprache einer einzelnen
Person aus irgendeinem Grund undeutlich ist, oder wenn nur mit einem
Kandidatenwort-Korrelierungsmittel,
das auf die Muttersprache (die hauptsächlich gesprochene Sprache)
eingestellt ist, eine zufriedenstellende Erkennungsquote nicht erreicht wird.
-
In
der Vorrichtung zur Sprachkorrektur der vorliegenden Erfindung korrelieren
das Kandidatenwort-Korrelierungsmittel und das Korrelierungsmittel für analoge
Wörter
die Sprachdatenelemente mit den Kandidatenwörtern und den analogen Wörtern in
einer Weise, die der oben beschriebenen Vorrichtung zu Spracherkennung
der vorliegenden Erfindung ähnlich
ist.
-
Wenn
der Sprecher etwas so korrekt ausspricht wie der Muttersprachler,
werden das vom Sprecher gemeinte Wort und das Ergebnis der Erkennung
der Sprachdaten im Kandidatenwort enthalten sein. Wenn andererseits
die Aussprache des Sprechers falsch oder undeutlich ist, ist das
Ergebnis der Erkennung des Sprachdatenelements im analogen Wort
enthalten, obwohl das vom Sprecher gemeinte Wort im Kandidatenwort
enthalten ist. Deswegen bedeutet es, wenn einem Sprecher ein Wort
zum Aussprechen gegeben wird und er das Wort ausspricht und wenn
dieses Wort als Ergebnis der Erkennung des Sprachdatenelements mit
einem analogen Wort übereinstimmt,
dass die Aussprache eines Benutzers (Sprechers) irgendeinen Fehler
enthält oder
dass die Aussprache undeutlich ist.
-
Wenn
das dem Sprecher gegebene Wort mit einem analogen Wort übereinstimmt,
zeigt das Ausgabemittel für
Sprachkorrekturdaten auf einem Monitor Informationen an, die den
Fehler oder die Undeutlichkeit der Aussprache korrigieren (zum Beispiel Bilddaten,
die die Bewegung des Mundes und der Zunge eines Muttersprachlers
beim richtigen Aussprechen zeigen, und Textdaten, die einen Satz
darstellen, der aussagt, welcher Teil der Aussprache des Sprechers
verglichen mit einem Muttersprachler falsch ist), den Sprecher veranlassend,
die Aussprache zu korrigieren, und das Lernen so unterstützend, dass
die Aussprache des Sprechers sich der Aussprache eines Muttersprachlers
annähert.
-
Ausführungsformen
der Erfindung sowie Ausführungsbeispiele,
die nicht in Übereinstimmung mit
der Erfindung stehen, werden nun mit Bezug auf die begleitenden
Zeichnungen beschrieben, in denen:
-
1 eine
Darstellung ist, die ein Beispiel einer Konfiguration des Computers
zeigt, der die Vorrichtung zur Spracherkennung der vorliegenden
Erfindung verwirklicht;
-
2 eine
Darstellung ist, die die Konfiguration der Software zeigt, die den
Arbeitsprozess der Spracherkennung der vorliegenden Erfindung verwirklicht;
-
3 eine
Darstellung ist, die eine Konfiguration des Spracherkennungsprogramms
aus 2 zeigt;
-
4 ein
Beispiel für
Daten zeigt, die in der Indextabelle von Wortdaten enthalten sind;
-
5 ein
Beispiel für
Daten zeigt, die im Wortdatensatz von Wortdaten enthalten sind;
-
6 ein
Beispiel für
Daten zeigt, die im Datensatz analoger Wörter von Wortdaten enthalten sind;
-
7 ein
Beispiel einer Fehlerinformationscode-Tabelle von Wortdaten zeigt;
-
8 eine
Datenstruktur des Eingabedatensatzes (InWord) zeigt, den die Kandidatenwort-Erzeugungskomponente
an die Hinzufügungskomponente
für analoge
Wörter
ausgibt;
-
9 eine
Datenstruktur der Eingabedatensatz-Matrix (InMatrix) zeigt, die
die Kandidatenwort-Erzeugungskomponente
an die Hinzufügungskomponente
für analoge
Wörter
ausgibt;
-
10 die
Datenstruktur eines Ausgabedatensatzes (OutWord) zeigt, den die
Hinzufügungskomponente
für analoge
Wörter
an die Auswahlkomponente ausgibt;
-
11 die
Datenstruktur einer Ausgabedatensatz-Matrix (OutMatrix) zeigt, die
die Hinzufügungskomponente
für analoge
Wörter
an die Auswahlkomponente ausgibt;
-
12 ein
Flussdiagramm ist, das den Arbeitsprozess der Spracherkennung der
vorliegenden Erfindung im Computer zeigt;
-
13 eine
Darstellung ist, die die Konfiguration eines Computers zeigt, der
den Spracherkennungsprozess und das Aussprachekorrekturverfahren
der vorliegenden Erfindung durchführt;
-
14 eine
Darstellung ist, die eine Software zeigt, die den Spracherkennungsprozess
und das Aussprachekorrekturverfahren der vorliegenden Erfindung
verwirklicht;
-
15 eine
Darstellung ist, die die Konfiguration des in 14 gezeigten
Spracherkennungs-/-korrekturprogramms zeigt;
-
16 eine
Darstellung ist, die ein Beispiel des Ausspracheführungsbildes
zeigt, das die in 15 gezeigte Kontrollkomponente
anzeigt;
-
17(A), (B) Darstellungen sind, die ein Beispiel
eines Korrekturinformationsindexes zeigt, der von der in 15 gezeigten
Wortdatenbankkomponente erzeugt wird, wobei (A) ein Aussprachekorrekturbild
zeigt, um die Aussprache von „r" zu korrigieren,
und (B) ein Aussprachekorrekturbild zeigt, um die Aussprache von „l" zu korrigieren;
-
18 eine
Darstellung ist, die einen Datensatz analoger Wörter zeigt, der von der Wortdatenbankkomponente
im zweiten Ausführungsbeispiel
erzeugt wird;
-
19 eine
Darstellung ist, die ein Beispiel eines ersten Aussprachekorrekturbildes
zeigt, das durch den in 17(A) gezeigten
Korrekturinformationsindex indiziert wird;
-
20 ein
Flussdiagramm ist, das den Prozess (S20) des Spracherkennungs-/-korrekturprogramms 22 (15)
in der zweiten Ausführungsform zeigt;
-
21 eine
Darstellung ist, die ein Beispiel des zweiten Aussprachekorrekturbildes
zeigt, das in dem Aussprachelernverfahren verwendet wird, das als
zweite Ausführungsform
gezeigt wird;
-
22 eine
Darstellung ist, dies ein Beispiel des dritten Aussprachekorrekturbildes
zeigt, das in dem Aussprachelernverfahren verwendet wird, das als
drittes Ausführungsbeispiel
gezeigt wird;
-
23 eine
Darstellung ist, die ein Beispiel des vierten Aussprachekorrekturbildes
zeigt, das in dem Aussprachelernverfahren verwendet wird, das als
viertes Ausführungsbeispiel
gezeigt wird;
-
24 ein
Flussdiagramm ist, das den Betrieb (S30) des Spracherkennungs-/-korrekturprogramms 22 (15)
in der dritten Ausführungsform zeigt;
-
25 eine
Darstellung ist, die ein Beispiel einer Liste von Lernelementen
zeigt, die in dem in 24 gezeigten Auflistungsprozess
(S300) der Lernelemente erzeugt wird.
-
Aus
Gründen
der Zweckmäßigkeit
und zur Verdeutlichung der Beschreibung wird die Vorrichtung zur
Spracherkennung der vorliegenden Erfindung für ein spezielles Beispiel beschrieben,
in dem die Vorrichtung auf die Erkennung von Englisch eingestellt
ist, das von einem Japaner gesprochen wird, sofern es nicht ausdrücklich anders
erwähnt
ist.
-
Ein
Computer 1, der die Vorrichtung zur Spracherkennung der
vorliegenden Erfindung verwirklicht, wird mit Bezug auf 1 beschrieben.
Wie in 1 gezeigt, ist der Computer 1 zum Beispiel
ein Personal Computer mit einer Spracheingabe/-ausgabe-Funktion und umfasst eine Computereinheit 10 mit
einer CPU, einen Speicher und Peripherieeinrichtungen dafür, ein Ausgabeeinrichtung 100,
eine Speichereinrichtung 110 inklusive einer magnetisch-optischen
Platteneinrichtung, einer Festplatteneinrichtung oder einer Disketteneinrichtung
und eine Eingabeeinrichtung 120.
-
Die
Ausgabeeinrichtung 100 enthält einen Monitor 102 wie
zum Beispiel eine Katodenstrahl-Anzeigeeinrichtung, einen Lautsprecher 104 zur
Stimmausgabe und einen Drucker 106 usw.
-
Die
Eingabeeinrichtung 120 enthält ein Mikrofon 122,
eine Spracheingabekarte 124, eine Tastatur 126 und
eine Maus 128.
-
In
der Ausgabeeinrichtung 100 werden einem Benutzer das Bild
einer grafischen Benutzeroberfläche
sowie Textdaten angezeigt, die die Computereinheit 10 durch
Erkennen der Sprachäußerung erhalten
hat. Der Lautsprecher 104 wird zum Beispiel zur Ausgabe
von Textdaten als Sprache benutzt, die die Computereinheit 10 durch
Erkennen der Sprachäußerung erhalten
hat. Der Drucker wird zum Beispiel zur Ausgabe eines Ausdrucks von
Textdaten benutzt, die die Computereinheit 10 durch Erkennen der
Sprachäußerung erhalten
hat. Die Speichereinrichtung 110 wird von der Computereinheit 10 gesteuert
und speichert Textdaten, die die Computereinheit 10 durch
Erkennen der Sprachäußerung erhalten
hat.
-
Die
Speichereinrichtung 110 speichert auch für Spracherkennung
notwendige Daten (solche Daten werden zusammenfassend als Wortdaten
bezeichnet) und ein Programm und gibt die gespeicherten Wortdaten
und das gespeicherte Programm an die Computereinheit 10 aus.
-
Die
in der Speichereinrichtung 110 gespeicherten Wortdaten
werden durch ein Spracherkennungsprogramm 16 vorbereitet
oder durch ein Aufnahmemedium wie zum Beispiel eine Diskette geliefert
und enthalten eine Labelzeichenkettentabelle, eine Indextabelle,
einen Wortdatensatz, einen Datensatz analoger Wörter und eine Fehlerinformationscode-Tabelle
(Details darüber
werden später
mit Bezug auf 4 bis 7 beschrieben,
ausgenommen die Labelzeichenkettentabelle).
-
Das
Mikrofon 122 nimmt eine Sprachäußerung eines Benutzers auf
und wandelt sie in ein Stimmsignal in analoger Form zur Ausgabe
an die Spracheingabekarte 124 um. Die Spracheingabekarte 124 wird
von der Computereinheit 10 gesteuert; sie tastet ein vom
Mikrofon 122 übergebenes
Sprachsignal ab, wandelt es in Stimmdaten in digitaler Form um,
die der Verlaufsform des Sprachsignals entsprechen, und gibt es
an die Computereinheit 10 aus.
-
Die
von der Tastatur 126 und der Maus 128 registrierten
Benutzereingaben werden auf der grafischen Benutzeroberfläche sichtbar,
die auf dem Monitor angezeigt wird, und als Bedienungseingabe an die
Computereinheit 10 ausgegeben.
-
Die
Konfiguration der Software, die den Arbeitsprozess der Spracherkennung
der vorliegenden Erfindung ausführt,
wird nun mit Bezug auf 2 beschrieben. 2 ist
eine Darstellung, die die Konfiguration der Software 14 zeigt,
die den Arbeitsprozess der Spracherkennung der vorliegenden Erfindung
ausführt.
In 2 sind jene Komponenten der Software, die für die Ausführung des
Arbeitsprozesses der Spracherkennung nicht relevant sind, ausgelassen.
-
Wie
in 2 gezeigt, umfasst die Software 14 eine
Hardware (H/W)-Unterstützungskomponente 142,
ein Betriebssystem (OS) 148 und eine Anwendungskomponente.
-
Die
Hardware-Unterstützungskomponente 142 enthält einen
Treiber für
die Spracheinrichtung 144 und einen Treiber für die Speichereinrichtung 146.
-
Das
Betriebssystem 148 ist ein allgemeines Betriebssystem wie
zum Beispiel OS/2 (Warenzeichen von IBM) oder Windows (Warenzeichen
von Microsoft) und enthält
eine Sprachschnittstellen-(IF-)komponente 150 und eine
Schnittstellenkomponente für
die Speichereinrichtung 152.
-
Die
Software 14 enthält
ein Spracherkennungsprogramm 16 als Anwendungskomponente.
-
Diese
Komponenten der Software 14 sind in der Speichereinrichtung 110 gespeichert
und werden in einen Speicher der Computereinheit 10 geladen, wenn
sie zur Ausführung
benötigt
werden.
-
Der
Treiber für
die Spracheinrichtung 144 steuert die Spracheingabekarte
in der Weise, dass sie ein vom Mikrofon eingegebenes Sprachsignal
in Sprachdaten in der Hardware-Unterstützungskomponente 142 umwandeln
kann.
-
Der
Treiber für
die Spracheinrichtung 144 erfüllt auch eine Schnittstellenfunktion,
um von der Spracheingabekarte 124 eingegebene Sprachdaten an
die Sprachschnittstellenkomponente 150 auszugeben.
-
Der
Treiber für
die Spracheinrichtung 144 steuert auch Operationen wie
zum Beispiel die Änderung
der Einstellung einer Abtastperiode der Spracheingabekarte 124 und
den Start und das Ende der Abtastung entsprechend der Steuerung
durch die Sprachschnittstellenkomponente 150 des Betriebssystems 148.
-
Der
Treiber für
die Speichereinrichtung 146 steuert die Funktion der Speichereinrichtung 110 in Reaktion
auf eine Anfrage (Steuerung) einer Schnittstellenkomponente für die Speichereinrichtung 152 des
Betriebssystems 148, Wortdaten und Textdaten zu speichern,
die als Ergebnis der Spracherkennung erhalten wurden, oder diese
in der Speichereinrichtung 110 gespeicherten Daten auszulesen.
-
Der
Treiber für
die Speichereinrichtung 146 erfüllt auch eine Schnittstellenfunktion,
um von der Speichereinrichtung 110 eingegebene Wortdaten und
Textdaten an die Schnittstellenkomponente für die Speichereinrichtung 152 auszugeben,
oder um von der Schnittstellenkomponente für die Speichereinrichtung 152 eingegebene
Daten an den Treiber für
die Speichereinrichtung 146 auszugeben.
-
Das
Betriebssystem 148 führt
auf dem Monitor 102 auch einen Prozess des Anzeigens vom Spracherkennungsprogramm 16 ausgegebener
Textdaten und des Bildes der grafischen Benutzeroberfläche durch,
einen Prozess des Umwandelns der Textdaten in ein Sprachsignal zur
Ausgabe über
den Lautsprecher 104, einen zum Drucken eines Ausdrucks
im Drucker 106 erforderlichen Prozess und einen Prozess
des Registrierens von Benutzeraktionen auf der Tastatur 126 und
der Maus 128.
-
Die
Sprachschnittstellenkomponente 150 steuert im Betriebssystem 148 den
Treiber für
die Spracheinrichtung 144 in Reaktion auf eine Anfrage (Steuerung)
des Spracherkennungsprogramms 16.
-
Die
Sprachschnittstellenkomponente 150 erfüllt auch eine Schnittstellenfunktion,
um vom Treiber für
die Spracheinrichtung 144 eingegebene Sprachdaten an das
Spracherkennungsprogramm 16 auszugeben.
-
Die
Schnittstellenkomponente für
die Speichereinrichtung 152 steuert einen Speicherbereich der
Speichereinrichtung 110.
-
Die
Schnittstellenkomponente für
die Speichereinrichtung 152 steuert auch den Treiber für die Speichereinrichtung 146 in
Reaktion auf eine Anfrage (Steuerung) des Spracherkennungsprogramms 16,
Wortdaten und Textdaten auszulesen, die vom Spracherkennungsprogramm 16 angefragt
wurden, und die ausgelesenen Wortdaten und Textdaten an das Spracherkennungsprogramm 16 auszugeben. Die
Schnittstellenkomponente für
die Speichereinrichtung 152 sorgt auch dafür, dass
die vom Spracherkennungsprogramm 16 eingegebenen Wortdaten
und Textdaten in einem freien Speicherbereich der Speichereinrichtung 110 über den
Treiber für
die Speichereinrichtung 146 gespeichert werden.
-
Das
Spracherkennungsprogramm 16 wird nun im Folgenden mit Bezug
auf 3 beschrieben. 3 ist eine
Darstellung, die eine Konfiguration des in 2 gezeigten
Spracherkennungsprogramms 16 zeigt.
-
Wie
in 3 gezeigt, umfasst das Spracherkennungsprogramm 16 eine
Wortdatenbank 160, eine Steuerkomponente 162 und
eine Spracherkennungskomponente 18.
-
Die
Spracherkennungskomponente 18 umfasst eine Vektorerzeugungskomponente 180,
eine Labelerzeugungskomponente 182, eine Kandidatenwort-Erzeugungskomponente 184,
eine Hinzufügungskomponente
für analoge
Wörter 186 und
eine Auswahlkomponente 188.
-
Mit
diesen Komponenten zeigt das Spracherkennungsprogramm 16 das
Bild einer grafischen Benutzeroberfläche zur Bedienung an, erkennt
entsprechend der Bedienung des Benutzers auf dem angezeigten Bild
der grafischen Benutzeroberfläche von
der Sprachschnittstellenkomponente 150 eingegebene Sprachdaten
unter Verwendung von Wortdaten, die von der Schnittstellenkomponente
für die Speichereinrichtung 152 eingegeben
wurden, und gibt eine als Ergebnis der Erkennung erhaltene Wortzeichenkette
als Textdaten über
das Betriebssystem 148 aus.
-
Die
Steuerkomponente 162 zeigt das Bild einergrafischen Benutzeroberfläche auf
dem Monitor 102 zur Bedienung an und empfängt eine
Bedienung, die ein Benutzer auf dem angezeigten Bild der grafischen
Benutzeroberfläche
unter Verwendung der Tastatur 126 und der Maus 128 der
Eingabeeinrichtung 120 ausführt.
-
Die
Steuerkomponente 162 steuert auch die Sprachschnittstellenkomponente 150 und
die Schnittstellenkomponente für
die Speichereinrichtung 152 des Betriebssystems 148 in
Reaktion auf die empfangenen Bedienungseingaben.
-
Die
Steuerkomponente 162 steuert auch die Wortdatenbank 160 in
Reaktion auf die empfangenen Bedienungseingaben und erzeugt oder
aktualisiert Wortdaten, darunter eine Labelzeichenkettentabelle, die
von der Kandidatenwort-Erzeugungskomponente 184 benutzt
wird, um Sprachdaten mit einem Kandidatenwort zu korrelieren, eine
Indextabelle, die von der Hinzufügungskomponente
für analoge
Wörter 186 benutzt
wird, um ein analoges Wort mit einem Kandidatenwort zu korrelieren,
einen Wortdatensatz, einen Datensatz analoger Wörter und eine Fehlerinformationscode-Tabelle
(wird später
mit Bezug auf 4 bis 7 beschrieben)
zur Speicherung in der Speichereinrichtung 110 über die
Schnittstellenkomponente für
die Speichereinrichtung 152 usw.
-
Die
Steuerkomponente 162 zeigt auch ein Kandidatenwort und
ein analoges Wort an, die mit Teilen der Sprachdaten korreliert
sind, und veranlasst die Auswahlkomponente 188, in Reaktion
auf eine Bedienungseingabe zu den angezeigten Wörtern aus dem Kandidatenwort
und dem analogen Wort eines auszuwählen, um es zum Endergebnis
der Erkennung zu machen.
-
Ein
Beispiel eines Verfahrens, ein Kandidatenwort und ein analoges Wort
anzuzeigen, ist ein Verfahren, in dem ein von der Kandidatenwort-Erzeugungskomponente 184 und
der Hinzufügungskomponente
für analoge
Wörter 186 korreliertes
Kandidatenwort in invertierter Form auf dem Monitor 102 angezeigt
wird und das Kandidatenwort und das analoge Wort in Reaktion auf
Benutzerbedienungen auf der Tastatur 126 nacheinander angezeigt
werden, oder der Benutzer findet und klickt ein falsches Kandidatenwort
an, das auf dem Monitor 102 angezeigt ist, wodurch in einem
Fenster eine Liste von Kandidatenwörtern und analogen Wörtern angezeigt
wird, die mit dem angeklickten Kandidatenwort korreliert sind.
-
Die
Wortdatenbankkomponente 160 erzeugt oder aktualisiert Wortdaten
entsprechend der Steuerung durch die Steuerkomponente 162,
wie oben beschrieben, um sie für Steuerungszwecke
in der Speichereinrichtung 110 speichern zu lassen.
-
Die
Wortdatenbankkomponente 160 gibt auch Wortdaten (Labelzeichenkettentabelle)
an die Kandidatenwort-Erzeugungskomponente 184 aus.
-
Die
Wortdatenbankkomponente 162 durchsucht Wortdaten (Indextabelle,
Wortdatensatz, Datensatz analoger Wörter und Fehlerinformationscode-Tabelle, 4 bis 7)
in Reaktion auf eine Anfrage der Hinzufügungskomponente für analoge Wörter 186 und
gibt einen Wortdatensatz, Datensatz analoger Wörter und Fehlerinformationen
an die Hinzufügungskomponente
für analoge
Wörter 186 aus, die
als Ergebnis der Suche erhalten werden und einem ersten in die Hinzufügungskomponente
für analoge
Wörter 186 eingegebenen
Kandidatenwort entsprechen.
-
Um
das Verständnis
der folgenden Erklärung zu
unterstützen,
werden hier Wortdaten (Indextabelle, Wortdatensatz, Datensatz analoger
Wörter
und Fehlerinformationstabelle) mit Bezug auf 4 bis 7 erklärt, außer der
Labelzeichenkettentabelle. 4 zeigt
ein Beispiel von Daten, die in der Indextabelle von Wortdaten enthalten
sind.
-
Die
Indextabelle wird für
die Wortdatenbank 160 benutzt, um einen Wortdatensatz zu
suchen, der durch die Anfangsbuchstaben (A bis Z) der Wörter klassifiziert
ist.
-
Die
Indextabelle umfasst einen Zeiger, der die Spitze der jeweiligen
Aufnahmebereiche der Anfangsbuchstaben A bis Z anzeigt, und, zu
den Zeigern in Beziehung gesetzt, die Zahl der Wortdatensätze für jeden
Anfangsbuchstaben A bis Z.
-
5 zeigt
ein Beispiel für
im Wortdatensatz von Wortdaten enthaltene Daten. Wie in 5 gezeigt,
umfasst der Wortdatensatz ein Indexwort (TarWord), das in der Hinzufügungskomponente
für analoge
Wörter 186 zusammengeführt und
mit den ersten von der Kandidatenwort-Erzeugungskomponente 184 erzeugten
Kandidatenwortdaten [Kandidatenwortdaten (1)] verglichen wird, einen
Zeiger (NextP) auf das nächste
Indexwort, die Anzahl von Analogwörtern, die im Wortdatensatz
enthalten sind (#Can), und den Datensatz analoger Wörter (CanWord),
miteinander korreliert.
-
Während in 5 gezeigt
wird, dass der Datensatz analoger Wörter direkt mit dem Wortdatensatz
korreliert ist, kann aber jedes Verfahren verwendet werden, z.B.
eines, bei dem ein Zeiger des Datensatzes analoger Wörter mit
dem Wortdatensatz korreliert wird, wobei der Datensatz analoger
Wörter und
der Wortdatensatz in separate Dateien getrennt werden.
-
Ebenso
kann eine Vielzahl von Indexwörtern (TarWords)
so mit einem Wortdatensatz verbunden werden, dass ein Label, das
einer Vielzahl aufeinander folgender Wörter entspricht, mit einem
Indexwort korreliert wird, das eine Vielzahl von Wörtern enthält.
-
6 zeigt
ein Beispiel für
im Datensatz analoger Wörter
von Wortdaten enthaltene Daten. Wie in 6 gezeigt,
umfasst der Datensatz analoger Wörter
die Anzahl eingegebener Wörter
(#m; m ist eine ganze Zahl größer als
0), eingegebene Kandidatenwörter
(aWord, aWord-1, Word-2, ......, aword-m-1), die Anzahl der ausgegebenen
Wörter (#n;
n ist eine ganze Zahl größer oder
gleich 0), analoge Wörter
(COWord, COWord-1, ....., COWord-n) und einen Fehlercode (Ecode),
miteinander korreliert.
-
Hierbei
gibt die Anzahl eingegebener Wörter (#m)
die Anzahl vorhergehender und folgender Kandidatenwörter an,
auf die Bezug genommen wird (ein Beispiel, bei dem auf m-1 Wörter, die
dem ersten Kandidatenwort folgen, Bezug genommen wird, wird im Folgenden
beschrieben), wenn die Hinzufügungskomponente
für analoge
Wörter 186 das
von der Kandidatenwort-Erzeugungskomponente 184 eingegebene
erste Kandidatenwort mit einem analogen Wort korreliert.
-
Die
eingegebenen Kandidatenwörter (aWord,
aWord-1, aWord-2,
......, aWord-m-1) sind eine Wortzeichenkette, die zusammengeführt und verglichen
wird mit den ersten Kandidatenwörtern (TarWord,
TarWord-1, TarWord-2, ......, TarWord-m-1), die aufeinander folgend
von der Kandidatenwort-Erzeugungskomponente 184 in
die Hinzufügungskomponente
für analoge
Wörter 186 eingegeben
werden.
-
In
anderen Worten, in der Hinzufügungskomponente
für analoge
Wörter 186 wird
das p-te erste Kandidatenwort (TarWord) nicht sofort, nachdem es eingegeben
wurde, mit einem analogen Wort korreliert, und, nachdem m-1 erste
Kandidatenwörter
in die Hinzufügungskomponente
für analoge
Wörter 186 eingegeben
worden sind, wird jedes von m aufeinander folgenden p-ten bis p+m-1-ten
ersten Kandidatenwörtern
(TarWord, TarWord-1, TarWord-2, ......, TarWord-m-1) verglichen
mit jedem der m eingegebenen Kandidatenwörter (aWord, aWord-1, aWord-2,
......, aWord-m-1). Nur, wenn es eine Übereinstimmung gibt, wird das
p-te erste Kandidatenwort (aWord = TarWord) mit n analogen Wörtern korreliert, die
dem eingegebenen Kandidatenwort im Datensatz analoger Wörter (COWord,
COWord-1, ....., COWord-n) folgen.
-
Wenn
es kein analoges Wort gibt, ist der Wert der Anzahl der ausgegebenen
Wörter
0, und innerhalb des Datensatzes analoger Wörter wird kein analoges Wort
korreliert.
-
Das
in 6 gezeigte Verfahren zum Mapping zwischen dem
ersten Kandidatenwort und einem analogen Wort im Datensatz analoger
Wörter wird
nun weiter erläutert.
-
Als
Verfahren zum Korrelieren (Mapping) zwischen den ersten Kandidatenwörtern und
den analogen Wörtern
sind die vier im Folgenden angegebenen Verfahren möglich.
-
Um
einen Fall zu behandeln, in dem ein einzelnes Wort irrtümlicherweise
als ein anderes einzelnes Wort erkannt wird, wird ein analoges Wort,
das nur ein einzelnes Wort enthält,
mit dem ersten Kandidatenwort korreliert, das nur ein einzelnes
Wort enthält.
Ein Beispiel für
das erste Verfahren kann ein Fall sein, in dem ein erstes Kandidatenwort „read" mit einem analogen
Wort „lead" korreliert wird
in einem möglichen
Fall, in dem „r" des ersten Kandidatenwortes „read" nicht richtig ausgesprochen
wird. Beispiele für
die Korrelierung nach dem ersten Verfahren sind die Korrelierung
von sink" mit think" fell" mit fill" seat" mit „sit", better" mit bitter" nut" mit not" fund" mit found" „boat" mit „bought" und „coal" mit „call".
-
Um
einen Fall zu behandeln, in dem ein einzelnes Wort irrtümlicherweise
als Vielzahl von Wörtern
erkannt wird, wird ein analoges Wort, das eine Vielzahl von Wörtern enthält, mit einem
ersten Kandidatenwort korreliert, das nur ein einzelnes Wort enthält. Ein
Beispiel kann der Fall sein, in dem ein erstes Kandidatenwort „jumped" mit analogen Wörtern „jump", „and" korreliert wird
in einem möglichen
Fall, in dem „ed" des ersten Kandidatenwortes „jumped" nicht richtig als „t" ausgesprochen wird.
Ein weiteres Beispiel für
Korrelierung nach dem zweiten Verfahren ist die Korrelierung von „check
in" mit „chicken".
-
Um
einen Fall zu behandeln, in dem eine Vielzahl von Wörtern irrtümlicherweise
als einzelnes Wort erkannt werden, wird ein analoges Wort, das nur
ein einzelnes Wort enthält,
mit einem ersten Kandidatenwort korreliert, das eine Vielzahl von
Wörtern enthält. Ein
Beispiel für
das dritte Verfahren kann die Korrelierung der ersten Kandidatenwörter „have", „to" mit einem analogen
Wort „hat" sein in einem möglichen
Fall, in dem die ersten Kandidatenwörter „have", „to" zusammenhängend ausgesprochen
werden. Ein weiteres Beispiel für
die Korrelierung nach dem dritten Verfahren ist das Korrelieren
von „I
will" mit „aisle".
-
Um
einen Fall zu behandeln, in dem eine Vielzahl von Wörtern irrtümlicherweise
als andere Vielzahl von Wörtern
erkannt wird, wird ein analoges Wort, das eine Vielzahl von Wörtern enthält, mit
dem ersten Kandidatenwort korreliert, das eine Vielzahl von Wörtern enthält.
-
Da
in Betracht gezogen werden kann, dass jedes des ersten bis dritten
Verfahrens ein Verfahren ist, das dem vierten Verfahren gewisse
Einschränkungen
auferlegt, wird der Datensatz analoger Wörter wie in 6 gezeigt
auf der Basis des vierten Verfahrens aufgestellt, und das erste Kandidatenwort, das
eine Vielzahl von Wörtern
enthält,
wird mit einem analogen Wort korreliert, das eine Vielzahl von Wörtern enthält.
-
Das
analoge Wort wird an Stelle eines Kandidatenwortes ausgewählt, wenn
die Aussprache eines Sprechers (Benutzers), der den Computer 1 benutzt,
unrichtig ist. Deswegen bedeutet es, dass der Sprecher einen Fehler
in der englischen Aussprache begeht, der dem ausgewählten analogen
Wort entspricht, wenn schließlich
statt eines Kandidatenwortes ein analoges Wort ausgewählt wird.
-
Unter
diesem Gesichtspunkt wird dem Datensatz analoger Wörter der
Fehlercode (Ecode) hinzugefügt,
um einen Aussprachefehler, der dem schließlich ausgewählten analogen
Wort entspricht, in der Form eines Fehlercodes anzuzeigen.
-
7 zeigt
ein Beispiel einer Fehlerinformationscode-Tabelle der Wortdaten.
Wie in 7 gezeigt, umfasst die Fehlerinformationscode-Tabelle
einen Fehlercode (Ecode; 0, 1, 2, ...) und Informationen, die den
Inhalt des Fehlers anzeigen (Fehlerinformationen wie zum Beispiel „r wurde
als l ausgesprochen", „l wurde
als r ausgesprochen", „th wurde als
s ausgesprochen" usw.),
miteinander korreliert.
-
In
der Spracherkennungskomponente 18 verarbeitet die Vektorerzeugungskomponente 180 von
der Sprachschnittstellenkomponente 150 eingegebene Sprachdaten,
um Merkmale der Sprachäußerung (Ton,
Intensität,
Intonation usw. eines Klangs) zu quantisieren, und erzeugt Vektordaten,
die Werte der Merkmale enthalten, zur Ausgabe an die Steuerkomponente 162.
Wenn zum Beispiel die Aufnahmefrequenz von Sprachdaten 11 kHz beträgt, verarbeitet
die Vektorerzeugungskomponente 180 die Sprachdaten jede
1/100 Sekunde, um eine Vielzahl von Merkmalsarten der Sprachdaten
für die
Erzeugung von Vektordaten zu quantisieren, die eine Vielzahl von
Elementen umfassen.
-
Die
Labelerzeugungskomponente 182 wandelt von der Vektorerzeugungskomponente 180 eingegebene
Vektordaten in Daten um, die als Label bezeichnet werden, welches
einem Aussprachesymbol entspricht, und gibt sie Satz für Satz an
eine Kandidatenwort-Erzeugungskomponente 184 aus. Die Labelerzeugungskomponente 182 tut
dies durch Auswahl eines Labels, das einer Vielzahl von aufeinander
folgenden Vektordatenelementen entspricht, unter Verwendung einer
Labeltabelle, die ein Label, das aus einer Aufnahme einer zum Beispiel
von einer Vielfalt von Personen (Erwachsener, Kind, männlich, weiblich
usw.) gesprochenen tatsächlichen
Sprachäußerung erzeugt
wurde, mit einer Struktur einer Vielzahl von aufeinander folgenden
Vektordatenelementen korreliert.
-
Übrigens
entspricht der in dieser Beschreibung verwendete Ausdruck „Satz" nicht notwendigerweise
einem wirklichen Satz in einem wirklichen Text und bedeutet einfach
eine Verarbeitungseinheit in der Spracherkennung.
-
Die
Kandidatenwort-Erzeugungskomponente 184 benutzt eine Labelzeichenkettentabelle,
die die Korrelierung mit englischen Wörtern anzeigt, um ein oder
mehrere aufeinander folgende Labelzeichenketten, die einem oder
mehreren englischen Wörtern
entsprechen, mit ein oder mehreren Kombinationen aus einem oder
mehreren englischen Wörtern
zu korrelieren, die von der Labelzeichenkette angezeigt wurden,
und gibt an die Kandidatenwort-Erzeugungskomponente 186 eine
Kombination englischer Wörter
als erstes Kandidatenwort aus. (Um die Erklärung zu vereinfachen, wird
im Folgenden ein Fall erklärt,
in dem die Kandidatenwort-Erzeugungskomponente 184 ein
Label, das einem einzelnen englischen Wort entspricht, mit einem
ersten Kandidatenwort korreliert, das nur ein einzelnes englisches Wort
enthält.
-
Die
Kandidatenwort-Erzeugungskomponente 184 wandelt in diesem
Fall eine Labelzeichenkette direkt in ein englisches Wort (erstes
Kandidatenwort) um, statt zum Beispiel den durch das Label angezeigten
Klang in einen Buchstaben umzuwandeln und dann die umgewandelte
Buchstabenreihe in ein englisches Wort umzuwandeln. In anderen Worten,
beim Erzeugen von „read" als erstes Kandidatenwort
korreliert die Kandidatenwort-Erzeugungskomponente 184 die
Labelzeichenkette direkt mit einem Wort „read", anstatt die Labelzeichenkette durch
vier Buchstaben „r", „e", „a", „d" zu ersetzen und
dann das Wort „read" als erstes Kandidatenwort
zu korrelieren.
-
Die
Kandidatenwort-Erzeugungskomponente 184 gibt das erzeugte
erste Kandidatenwort Satz für
Satz in der Form eines Eingabedatensatzes (InWord), wie in 8 gezeigt,
und einer Eingabedatensatz-Matrix (InMatrix), wie in 9 gezeigt,
an die Hinzufügungskomponente
für analoge
Wörter 186 aus. 8 zeigt
eine Datenstruktur des Eingabedatensatzes (InWord), den die Kandidatenwort-Erzeugungskomponente 184 an
die Hinzufügungskomponente
für analoge
Wörter 186 ausgibt. 9 zeigt eine
Datenstruktur der Eingabedatensatz-Matrix (InMatrix), die Kandidatenwort-Erzeugungskomponente 184 an
die Hinzufügungskomponente
für analoge Wörter 186 ausgibt.
-
Wie
in 8 gezeigt, fügt
die Kandidatenwort-Erzeugungskomponente 184 Daten,
die anzeigen, dass das Wort das i-te Wort in einem einzelnen Satz
und das j-te erste Kandidatenwort des i-ten Wortes in einem einzelnen
Satz ist zu den Daten (Inword) hinzu, die ein mit einer Labelzeichenkette
korreliertes Wort und die Länge
des Wortes anzeigen, und erzeugt einen Eingabedatensatz zur Ausgabe
an die Hinzufügungskomponente
für analoge
Wörter 186,
in dem i und j ganze Zahlen sind, wobei i kleiner oder gleich der
maximalen Anzahl an Wörtern
(Maxi) ist, während
j kleiner oder gleich der maximalen Anzahl an Kandidatenwörtern (Maxj)
ist. Wie in 8 gezeigt, erzeugt die Kandidatenwort-Erzeugungskomponente 184 des
Weiteren Wahrscheinlichkeitsdaten, die den Grad der Übereinstimmung
zwischen der von der Labelerzeugungskomponente 182 eingegebenen Labelkette
und der Labelkette in der Labelzeichenkettentabelle, die dem ausgewählten englischen Wort
entspricht, anzeigen, in anderen Worten, die Wahrscheinlichkeit,
mit der die Labelkette das erste Kandidatenwort anzeigt, und fügt sie den
Daten, die das Wort des Eingabedatensatzes und die Länge des Wortes
anzeigen, zur Ausgabe an die Hinzufügungskomponente für analoge
Wörter 186 hinzu.
-
Wenn
ein Eingabedatensatz (InWord) für
einen Satz erzeugt worden ist, erzeugt die Kandidatenwort-Erzeugungskomponente 184 außerdem eine Eingabedatensatz-Matrix,
die die maximale Anzahl der in dem Satz enthaltenen Wörter (Maxi)
anzeigt, die maximale Anzahl der Kandidaten (Maxj), was anzeigt,
wie viele erste Kandidatenwörter
höchstens
mit derselben Labelzeichenkette (phonetischer Klang) korreliert
sind, und einen Merker FLG(ij), der anzeigt, dass ein j-tes Wort
in einem i-ten Wort vorhanden ist, und gibt sie zusammen mit einem
Eingabedatensatz eines Satzes an die Hinzufügungskomponente für analoge
Wörter 186 aus.
-
Wenn
es der Kandidatenwort-Erzeugungskomponente 184 nicht gelingt,
ein erstes Kandidatenwort aus einer Labelzeichenkette auszuwählen, das dem
i-ten Wort entspricht, wird der Merker FLG(il) auf einen Wert (zum
Beispiel 0) gesetzt, der anzeigt, dass im i-ten Wort kein erstes
Wort vorhanden ist.
-
Obwohl
die Hinzufügungskomponente
für analoge
Wörter 186 von
der Kandidatenwort-Erzeugungskomponente 184 eingegebene
Eingabedatensätze
nicht mit Labelzeichenketten korrelieren kann, fügt sie unter Beachtung der
Besonderheit der englischen Aussprache durch einen Japaner dem ersten Kandidatenwort
ein englisches Wort hinzu, das möglicherweise
dem ersten Kandidatenwort ähnelt,
um ein zweites Kandidatenwort zur Ausgabe an die Auswahlkomponente 188 zu
erzeugen.
-
Die
Funktion der Hinzufügungskomponente für analoge
Wörter 186 wird
im Detail weiter erklärt.
-
Die
Hinzufügungskomponente
für analoge Wörter 186 gibt
als Erstes das p-te erste Kandidatenwort, das in einem Eingabedatensatz
(InWord) eines Satzes enthalten ist, aufeinander folgend an die Wortdatenbankkomponente 160 aus
und erfragt den Erhalt eines Wortdatensatzes. Die Wortdatenbankkomponente 160 sucht
einen Wortdatensatz (5) unter Verwendung der Indextabelle
(4), um einen Wortdatensatz zu erhalten, der ein
Indexwort (TarWord) hat, das mit einem Wort im Eingabedatensatz
(InWord) übereinstimmt, und
gibt ihn an die Hinzufügungskomponente
für analoge
Wörter 186 aus.
-
Wenn
die Hinzufügungskomponente
für analoge
Wörter 186 einen
Wortindex des p-ten ersten Kandidatenwortes erhält, vergleicht sie das p-te
bis (p+m-1)-te Wort (InWord-p.j, InWord-p+1.j, ....., InWord-p+m-1.j) mit m
eingegebenen Wörtern
(aWord, aWord-1, aWord-2, ....., aWord-m-1) der Datensätze analoger
Wörter,
die, eingegeben von der Wortdatenbankkomponente 160, dem
Wortdatensatz hinzugefügt
werden, und wenn sie nicht übereinstimmen,
fügt sie
dem p-ten ersten Kandidatenwort n analoge Wörter (COWord-1, COWord-2, ....., COWord-n)
hinzu, um ein zweites Kandidatenwort zu generieren.
-
Es
ist möglich,
das Verfahren so zu modifizieren, dass die Hinzufügungskomponente
für analoge
Wörter 186 das
erste Kandidatenwort durch ein analoges Wort ersetzt, um ein zweites
Kandidatenwort zu generieren. In diesem Fall kann das analoge Wort
das erste Kandidatenwort enthalten oder nicht.
-
Des
Weiteren gibt die Hinzufügungskomponente
für analoge
Wörter 186 an
die Wortdatenbankkomponente 160 einen Fehlercode (Ecode)
aus, der dem Datensatz analoger Wörter entspricht, der dem ersten
Kandidatenwort hinzugefügt
wurde, und erfragt den Erhalt von Fehlerinformationen, die durch den
Fehlercode codiert sind. Die Wortdatenbankkomponente 160 durchsucht
in Reaktion auf diese Anfrage die Fehlerinformationscode-Tabelle
(7), um die Fehlerinformationen zu erhalten, und
gibt sie an die Hinzufügungskomponente
für analoge
Wörter 186 aus.
-
10 zeigt
die Datenstruktur eines Ausgabedatensatzes (OutWord), den die Hinzufügungskomponente
für analoge
Wörter 186 an
die Auswahlkomponente 188 ausgibt. 11 zeigt
die Datenstruktur einer Ausgabedatensatz-Matrix (OutMatrix), die
die Hinzufügungskomponente
für analoge
Wörter 186 an
die Auswahlkomponente 188 ausgibt.
-
Die
Hinzufügungskomponente
für analoge Wörter 186 fügt ein zweites
Kandidatenwort, die Länge
des Wortes anzeigende Daten, Wahrscheinlichkeitsdaten, Fehlerinformationen
(oder Fehlerinformationscode) und Daten, die anzeigen, dass das
Wort das i-te in einem Satz und das j-te erste Kandidatenwort des
i-ten Wortes eines Satzes ist, hinzu und gibt dies an die Auswahlkomponente 188 in
der Form eines Ausgabedatensatzes (OutWord) aus, der eine ähnliche
Form wie der Eingabedatensatz (8) hat, wie
in 10 gezeigt.
-
Wenn
ein Ausgabedatensatz (OutWord) eines Satzes erzeugt worden ist,
erzeugt die Hinzufügungskomponente
für analoge
Wörter 186 eine
Ausgangsdatensatz-Matrix, die die maximale Anzahl der in diesem
Satz enthaltenen Wörter
(Maxi) anzeigt, die maximale Anzahl der Kandidaten (Maxj), was anzeigt,
wie viele zweite Kandidatenwörter
höchstens mit
derselben Labelzeichenkette (phonetischer Klang) korreliert sind,
und ein Merker FLG(i'j'), der anzeigt, dass
ein j-tes Wort in einem i-ten Wort vorhanden ist, und gibt sie zusammen
mit einem Ausgabedatensatz an die Auswahlkomponente 188 aus,
in ähnlicher
Weise wie bei der Eingabedatensatz-Matrix (9), wie
in 11 gezeigt.
-
Die
Auswahlkomponente 188 zeigt das von der Hinzufügungskomponente
für analoge
Wörter 186 als Ausgabedatensatz
eingegebene zweite Kandidatenwort an, wählt als ein Endergebnis der
Erkennung in Reaktion auf Benutzerbedienungen oder basierend auf
dem Ergebnis eines syntaktischen Parsings der bislang erkannten
Wortreihe eines der zweiten Kandidatenwörter aus, erzeugt Textdaten, die
eine Folge der ausgewählten
Wörter
umfassen, und gibt sie an den Monitor 102, den Lautsprecher 104 oder
den Drucker 106 aus.
-
Die
Erzeugung von Textdaten durch die Auswahlkomponente 188 wird
weiter erklärt.
-
Wenn
es zum Beispiel n1 zweite Kandidatenwörter (OutWord-1.1, OutWord-1.2,
....., OutWord-1.n1) für
das erste Wort eines Satzes und n2 zweite Kandidatenwörter für das zweite
Wort gibt, zeigt die Auswahlkomponente 188 auf dem Monitor 102 in
der Reihenfolge der Wörter
eines der zweiten Kandidatenwörter
jedes Wortes an, d.h. eines der zweiten Kandidatenwörter des
ersten Wortes und eines der zweiten Kandidatenwörter des zweiten Wortes und
so weiter.
-
Wenn
der Benutzer zum Beispiel unter Verwendung der Maus 128 das
zweite Kandidatenwort, das im Fenster des Bildes der grafischen
Benutzeroberfläche
angezeigt ist, anklickt, zeigt die Steuerkomponente 162 das
angeklickte zweite Kandidatenwort in invertiertem Bild und ändert das
angezeigte zweite Kandidatenwort jedes Mal, wenn der Benutzer denselben
Abschnitt anklickt. Wenn der Benutzer schließlich das zweite Kandidatenwort
auswählt
und zu diesem Zweck die Maus 128 oder die Tastatur 126 bedient,
oder wenn er zur Auswahl des nächsten Wortes übergeht,
macht die Auswahlkomponente 188 das zuletzt angezeigte
zweite Kandidatenwort zum letztlich ausgewählten Ergebnis der Erkennung.
-
Der
Benutzer wiederholt diesen Vorgang nach Bedarf, und die Auswahlkomponente 188 wählt in Reaktion
auf diese Bedienung ein Wort aus, um Textdaten zu erzeugen.
-
Übrigens
ist es zweckmäßig, wenn
man die Auswahlkomponente 188 so arbeiten lässt, dass
sie auf dem Monitor 102 nur ein zweites Kandidatenwort anzeigt,
das mit hoher Wahrscheinlichkeit als Endergebnis der Erkennung ausgewählt wird,
oder zweite Kandidatenwörter
in der Reihenfolge höherer
Wahrscheinlichkeit, als Endergebnis der Erkennung ausgewählt zu werden,
durch Verwenden des Nachbarverhältnisses
der Wörter
beim Anzeigen der zweiten Kandidatenwörter.
-
Um
die Beschreibung zu vereinfachen, wird nun ein spezielles Beispiel
für das
Erkennen japanischer Sprache gegeben. Die Kandidatenwort-Erzeugungskomponente 184 erkennt
ein aus japanischen Sprachdaten „akai-hana" (mit der Bedeutung „rote Blume") erhaltenes Label
als „takai-hana" („takai" bedeutet „teure" und „hana" bedeutet „Blume") und „takai-hana" (dieselbe Aussprache,
aber „takai" bedeutet „hervorstehende" und „hana" bedeutet „Nase"). Die Hinzufügungskomponente
für analoge
Wörter 186 fügt des Weiteren
ein analoges Wort „akaiwana" („akai" bedeutet „rote" und „wana" bedeutet „Falle") zu den beiden obigen
Wörtern
hinzu und gibt möglicherweise
diese drei Wörter
als zweite Kandidatenwörter
an die Auswahlkomponente 188 aus. Wenn in diesem Fall in
der Auswahlkomponente 188 festgestellt wird, dass die erste
Hälfte
des zweiten Kandidatenwortes „akai" („rot") ist, wird in Betracht
gezogen, dass die Wahrscheinlichkeit der zweiten Hälfte des zweiten
Kandidaten wahrscheinlich die Reihenfolge „hana" („Blume"), „hana" („Nase") und „wana" („Falle") haben wird. In
einem solchen Fall kann die Auswahl eines Benutzers dadurch minimiert
werden, dass man die Auswahlkomponente 188 auf „akai" („rote") folgend nur „hana" („Blume") und „hana" („Nase") anzeigen lässt, oder
auf „akai" („rote") folgend hana" (Blume") hana" (Nase") und wana" (Falle") und zwar in dieser
Reihenfolge.
-
Zum
weiteren Verständnis
wird nun ein anderes spezielles Beispiel für das Erkennen englischer Sprache,
die von einem Nicht-Muttersprachler gesprochen wird, gegeben. Die
Kandidatenwort-Erzeugungskomponente 184 erkennt ein Label,
das aus englischen Sprachdaten „red rose", von einem Nicht-Muttersprachler gesprochen, erhalten
wurde, als „red
rose" und „lead roads". Die Hinzufügungskomponente
für analoge
Wörter 186 fügt des Weiteren
ein analoges Wort „red
nose" zu den obigen
beiden Wörtern
hinzu und gibt möglicherweise
diese drei Wörter
als zweite Kandidatenwörter
an die Auswahlkomponente 188 aus. Wenn in diesem Fall festgestellt
wird, dass die erste Hälfte
des zweiten Kandidatenwortes „red" ist, wird in Betracht
gezogen, dass die zweite Hälfte
des zweiten Kandidatenwortes in der Reihenfolge „rose" und „nose" wahrscheinlich ist. In einem solchen
Fall kann die Auswahl eines Benutzers dadurch minimiert werden,
dass man die Auswahlkomponente 188 auf „red" folgend nur „rose" und „nose" anzeigen lässt.
-
Wenn
die Verarbeitung in der Auswahlkomponente 188 so modifiziert
wird, dass auf dem Monitor 102 nur ein zweites Kandidatenwort
angezeigt wird, das Wahrscheinlichkeitsdaten entspricht, die einen
Wert größer oder
gleich einem zum Beispiel von einem Benutzer festgelegten Grenzwert
haben, unter Verwendung von Wahrscheinlichkeitsdaten, die dem Ausgabedatensatz
hinzugefügt
sind, der von der Hinzufügungskomponente
für analoge
Wörter 186 eingegeben
wurde, wird auf dem Monitor 102 nur ein zweites Kandidatenwort
angezeigt, das mit hoher Wahrscheinlichkeit als Endergebnis der
Erkennung ausgewählt
wird, wodurch eine erforderliche Auswahloperation des Benutzers
eingeschränkt
wird.
-
Im
Folgenden wird nun der Arbeitsprozess der Spracherkennung im Computer 1 mit
Bezug auf 12 beschrieben. 12 ist
ein Flussdiagramm, das den Arbeitsprozess der Spracherkennung der vorliegenden
Erfindung im Computer 1 zeigt.
-
Um
die Erklärung
zu vereinfachen, wird in 12 nur
der Grundprozess unter den Spracherkennungsprozessen der vorliegenden
Erfindung gezeigt, und Arbeitsprozesse, die wie oben beschrieben
die Wahrscheinlichkeitsdaten oder die Fehlerinformationen verwenden,
sind weggelassen, wo dies angebracht ist.
-
Wie
in 12 gezeigt, verarbeiten die Vektordaten-Erzeugungskomponente 180 und
die Labelerzeugungskomponente 182 in Schritt 100 (S100) Sprachdaten
eines von einem japanischen Benutzer ausgesprochenen Satzes (Einheit),
um sie in eine Labelzeichenkette umzuwandeln. Die Labelzeichenkette
eines Satzes, die von der Vektordaten-Erzeugungskomponente 180 und
der Labelerzeugungskomponente 182 erzeugt wurde, wird in
die Kandidatenwort-Erzeugungskomponente 184 eingegeben.
-
In
Schritt 102 (S102) korreliert die Kandidatenwort-Erzeugungskomponente 184 die
von der Labelerzeugungskomponente 182 eingegebene Labelzeichenkette
eines Satzes mit einem ersten Kandidatenwort, gibt es an die Hinzufügungskomponente für analoge
Wörter 186 in
Form eines Eingabedatensatzes (InWord) wie in 8 gezeigt
aus, und erzeugt des Weiteren eine Eingabedatensatz-Matrix (InMatrix),
wie in 9 gezeigt, um sie an die Hinzufügungskomponente
für analoge
Wörter 186 auszugeben.
-
In
Schritt 104 (S104) fragt die Hinzufügungskomponente für analoge
Wörter 186 bei
der Wortdatenbankkomponente 160 an, einen Wortdatensatz (5)
eines ersten Kandidatenwortes abzurufen, das in einem Eingabedatensatz
enthalten ist, der zu verarbeiten ist. Die Wortdatenbankkomponente sucht
in Reaktion auf die Anfrage der Hinzufügungskomponente für analoge
Wörter 186 unter
Verwendung einer Indextabelle (4) und gibt,
wenn als Ergebnis der Suche ein dem ersten Kandidatenwort (Eingabedatensatz)
entsprechender Wortdatensatz erhalten wird, den erhaltenen Wortdatensatz
an die Hinzufügungskomponente
für analoge
Wörter 186 aus
und geht zum Prozess S106 über.
Wenn kein Wortdatensatz, der dem ersten Kandidatenwort (Eingabedatensatz)
entspricht, erhalten wird, geht die Wortdatenbankkomponente 160 zum
Prozess S110 über.
-
In
Schritt 106 (S106) verarbeitet die Hinzufügungskomponente
für analoge
Wörter 186 einen
Datensatz analoger Wörter
(6) eines von der Wortdatenbankkomponente 160 eingegebenen
Wortdatensatzes und erhält
ein dem ersten Kandidatenwort (Eingabedatensatz) entsprechendes
analoges Wort.
-
In
Schritt 108 (S108) wird das erhaltene analoge Wort dem
ersten Kandidatenwort hinzugefügt, um
ein zweites Kandidatenwort zu erzeugen.
-
In
Schritt 110 (S110) ermittelt die Hinzufügungskomponente für analoge
Wörter 186,
ob alle in einem Satz enthaltenen Eingabedatensätze verarbeitet worden sind
oder nicht, und geht, wenn alle Eingabedatensätze verarbeitet worden sind,
zum Prozess S112 über.
Wenn noch nicht alle Eingabedatensätze verarbeitet worden sind,
wechselt die Hinzufügungskomponente
für analoge
Wörter 186 auf den
nächsten
Eingabedatensatz als zu verarbeitendes Element und kehrt zum Prozess 5104 zurück.
-
In
Schritt 112 (S112) gibt die Hinzufügungskomponente für analoge
Wörter 186 das
in S108 erzeugte zweite Kandidatenwort in Form eines Ausgabedatensatzes,
wie in 10 gezeigt, an die Auswahlkomponente 188 aus.
Des Weiteren erzeugt die Hinzufügungskomponente
für analoge
Wörter 186 eine
Ausgabedatensatz-Matrix (11), die
dem zweiten Kandidatenwort entspricht, und gibt sie an die Auswahlkomponente 188 aus.
Die Auswahlkomponente 188 zeigt das eingegebene zweite
Kandidatenwort im Fenster des Bildes der grafischen Benutzeroberfläche auf
dem Monitor 102 an und gibt das Endergebnis der Erkennung
in Reaktion auf Benutzeraktionen als englische Textdaten aus.
-
Wenn
das Verfahren der Auswahlkomponente 188 so modifiziert
wird, dass auf dem Monitor 102 dem ausgewählten Wort
hinzugefügte
Fehlerinformationen angezeigt werden, wenn der Benutzer als Endergebnis
der Erkennung ein Wort auswählt,
das dem zweiten Kandidatenwort als analoges Wort in der Hinzufügungskomponente
für analoge
Wörter 186 hinzugefügt wurde,
kann der Benutzer einen Fehler in seiner englischen Aussprache erkennen,
so dass der Benutzer den Computer 1 zusätzlich zur Verwendung als Vorrichtung
zur Spracherkennung als Vorrichtung zum Lernen englischer Aussprache verwenden kann.
Als Verfahren zur Anzeige von Fehlerinformationen kann die Form
des Mundes für
richtige Aussprache angezeigt werden, oder eine richtige Aussprache
kann zum Anhören
durch den Benutzer sprachsynthetisiert werden.
-
Während in
der oben beschriebenen Verfahrensweise beispielhaft ein Verfahren
des Erkennens eines englischen Textes aus einem von einem Japaner
gesprochenen Englisch gezeigt wird, ist der Arbeitsprozess der Spracherkennung
der vorliegenden Erfindung aber nicht auf einen solchen Fall begrenzt und
kann breit angewendet werden, um mit der Verringerung der Erkennungsquote
umzugehen, bis zu einem Fall, in dem die Aussprache sogar in derselben
Sprache unterschiedlich ist, so wie ein Fall, in dem ein Amerikaner,
der amerikanisches Englisch spricht, unter Verwendung einer Spracherkennungsvorrichtung,
die auf britisches Englisch eingestellt ist, einen Text aufbereitet,
oder ein Fall, in dem eine bestimmte Person eine Besonderheit oder
Undeutlichkeit in der Aussprache hat.
-
Da
im Verfahren zur Spracherkennung der vorliegenden Erfindung in der
Hinzufügungskomponente
für analoge
Wörter 186 dem
ersten Kandidatenwort, das von der Kandidatenwort-Erzeugungskomponente 184 erkannt
wurde, ein analoges Wort hinzugefügt wird, um ein zweites Kandidatenwort
zu erzeugen, wird wie oben beschrieben die Spracherkennungsquote
verbessert. Zweckmäßigerweise wird
als spezielles Beispiel ein Fall beschrieben, in dem japanische
Sprache durch den Computer 1 erkannt wird.
-
Zum
Beispiel kann die Aussprache des „a"-Lautes aus irgendeinem Grund unklar
sein, selbst wenn ein Benutzer „akai hana" („rote
Blume") auf Japanisch
aussprechen möchte,
, und die Labelerzeugungskomponente 182 kann eine Labelzeichenkette erzeugen,
die weder „akai
hana" („rote Blume") noch "takai hana" („hervorstehende
Nase") bedeutet.
-
Oder
es kann als anderes Beispiel die Aussprache des „r"-Lautes
aus irgendeinem Grund unklar sein, selbst wenn ein Benutzer „red rose" auf Englisch aussprechen
möchte,
, und die Labelerzeugungskomponente 182 kann eine Labelzeichenkette erzeugen,
die weder „red
rose" noch „lead nose" bedeutet.
-
Selbst
wenn die Kandidatenwort-Erzeugungskomponente 184 „takai-hana" („hervorstehende
Nase") als ein dieser
Labelzeichenkette entsprechendes erstes Kandidatenwort auswählt und
es an die Hinzufügungskomponente
für analoge
Wörter 186 ausgibt,
kann die Hinzufügungskomponente
für analoge
Wörter 186 dem
ersten Kandidatenwort als erstes der zweiten Kandidatenwörter „akai-hana" („rote Nase") und „takai-hana" („rote Blume") hinzufügen, wenn
der Wortdatensatz passend vorbereitet ist. Deswegen wird das gemeinte „akai-hana" („rote Blume"), das im von der
Kandidatenwort-Erzeugungskomponente 184 vorbereiteten
Kandidatenwort nicht enthalten war, auch auf dem Monitor 102 angezeigt, was
dem Benutzer erlaubt, aus den zweiten Kandidatenwörtern ein
richtiges Erkennungsergebnis auszuwählen.
-
Oder
die Hinzufügungskomponente
für analoge
Wörter 186 kann
dem ersten Kandidatenwort „red
rose" und „red nose" hinzufügen, selbst
wenn die Kandidatenwort-Erzeugungskomponente 184 „leads nose" als ein dieser Labelzeichenkette
entsprechendes erstes Kandidatenwort auswählt und es an die Hinzufügungskomponente
für analoge
Wörter 186 ausgibt.
Deswegen wird das gemeinte „red
nose", das im von
der Kandidatenwort-Erzeugungskomponente 184 vorbereiteten
Kandidatenwort nicht enthalten war, auch auf dem Monitor 102 angezeigt,
was dem Benutzer erlaubt, aus den zweiten Kandidatenwörtern ein
richtiges Erkennungsergebnis auszuwählen.
-
Während ein
Verfahren zur Spracherkennung herkömmlicherweise in einer reinen
Sprachverarbeitung durch Kombinieren eines grammatikalischen Analyse-Verfahrens
(ein Substantiv wird gewöhnlich
auf einer bestimmten Position in einem Satz platziert usw.) und
eines Sprachmusterverfahrens (Wahrscheinlichkeit einer Reihe von
Wörtern)
ausgeführt
wird, wird die Spracherkennungsquote deutlich verbessert und eine
bemerkenswerte Wirkung erzielt, wenn entsprechend dem Verfahren
zur Spracherkennung der vorliegenden Erfindung ein analoges Wort
hinzugefügt
wird, bevor solche Verfahren durchgeführt werden.
-
Wenn
in dem in 3 gezeigten Spracherkennungsprogramm 16 als
Ergebnis der Spracherkennung ein Kandidatenwort ausgewählt wird,
bedeutet dies, dass sich die Aussprache des Benutzers (Sprechers)
einem Muttersprachler annähert
und so korrekt ist, dass sie mit hoher Erkennungsquote erkannt werden
kann, selbst unter Verwendung einer herkömmlichen, anderen Vorrichtung
zur Spracherkennung als bei der vorliegenden Erfindung. Wenn umgekehrt
ein analoges Wort ausgewählt
wird, bedeutet dies, dass die Aussprache des Sprechers irgendeinen
Fehler oder eine Unklarheit enthält.
Dies trifft zu für
einen Fall, in dem das vom Benutzer gemeinte Wort im Spracherkennungsprogramm 16 im analogen
Wort enthalten ist.
-
Dementsprechend
ist zu sehen, dass der Sprecher beim Erlernen der Aussprache unterstützt wird
und die Aussprache des Benutzers dadurch korrigiert werden kann,
dass dem Sprecher Informationen (Aussprachekorrekturinformationen)
darüber vorgelegt
werden, in welcher Weise die Aussprache falsch ist und wie der Sprecher
aussprechen sollte, um richtig auszusprechen, wenn das vom Benutzer gemeinte
Wort als analoges Wort erkannt wird.
-
Das
Verfahren zur Aussprachekorrektur, das im Folgenden als zweite Ausführungsform
gezeigt wird, konzentriert sich auf diesen Punkt und modifiziert
das als erste Ausführungsform
gezeigte Spracherkennungsverfahren so, dass ein Bild angezeigt wird,
das dem Sprecher Aussprachekorrekturinformationen zeigt, wenn festgestellt
wird, dass die Aussprache des Sprechers unrichtig ist.
-
13 ist
eine Darstellung, die die Konfiguration eines Computers 2 zeigt,
der das Spracherkennungsverfahren und das Verfahren zur Aussprachekorrektur
der vorliegenden Erfindung durchführt. Wenn nicht anders erwähnt, sind
die in den folgenden Zeichnungen gezeigten Komponenten dieselben wie
die in den vorangehenden Zeichnungen unter denselben Bezugszahlen
gezeigten.
-
Wie
in 13 gezeigt, verwendet der Computer 2 eine
Konfiguration, bei der die Eingabeeinrichtung 120 des Computers 1 (1)
durch eine Eingabeeinrichtung 130 ersetzt wird, die eine
Struktur hat, in der der Eingabeeinrichtung 120 eine Bildeingabekarte 132 hinzugefügt ist.
Die Bildeingabekarte 132 wird verwendet, um Bilddaten zum
Beispiel mit einer Videokamera zu erfassen, die für ein Aussprachekorrekturbild
(19) verwendet werden.
-
14 ist
eine Darstellung, dies eine Software 20 zeigt, die das
Spracherkennungsverfahren und das Verfahren zur Aussprachekorrektur
der vorliegenden Erfindung durchführt. Wie in 14 gezeigt,
verwendet die Software 20 eine Konfiguration, bei der das
Spracherkennungsprogramm 16 der Software 14 (2)
durch ein Spracherkennungs-/-korrekturprogramm 22 ersetzt
wird.
-
Außer zwischen
den Komponenten der Software 14 eingegebenen und ausgegebenen
Daten wird auf einem Monitor 102 oder dergleichen statt des
Erkennungsergebnisses (Textdaten) in der Software 14 ein
Bild angezeigt, das Aussprachekorrekturinformationen zeigt (Aussprachekorrekturbild),
um die Aussprache des Benutzers (Sprechers) zu korrigieren.
-
15 ist
eine Darstellung, die die Konfiguration des in 14 gezeigten
Spracherkennungs-/-korrekturprogramms 22 zeigt. Wie in 15 gezeigt,
umfasst das Spracherkennungs-/-korrekturprogramm 22 ein
Spracherkennungsprogramm 16 (3) und ein
Aussprachekorrekturprogramm 24 (die Auswahlkomponente 188 ist
weggelassen).
-
Im
Gegensatz zum Spracherkennungsprogramm 16 gibt die Hinzufügungskomponente
für analoge
Wörter 186 im
Spracherkennungs-/-korrekturprogramm 22 einen Datensatz
analoger Wörter (18)
an eine Vergleichskomponente 240 und eine Anzeigekomponente
für Aussprachekorrekturinformationen 242 aus.
-
16 ist
eine Darstellung, die ein Beispiel für das Ausspracheaufforderungsbild
zeigt, das die in 15 gezeigte Steuerkomponente 162 anzeigt. 17(A), (B) sind Darstellungen, die ein
Beispiel für einen
Korrekturinformationsindex zeigen, der von der in 15 gezeigten
Wortdatenbankkomponente 160 erzeugt wurde, in dem (A) ein
Aussprachekorrekturbild zur Korrektur der Aussprache von „r" zeigt, und (B) ein
Aussprachekorrekturbild zur Korrektur der Aussprache von „l". 18 ist
eine Darstellung, die einen Datensatz analoger Wörter zeigt, der von der Wortdatenbankkomponente 160 im
zweiten Ausführungsbeispiel
erzeugt wurde.
-
Wie
aus 16 ersichtlich, zeigt die Steuerkomponente 162 dem
Benutzer ein Wort zum Aussprechen an („read" in 16), erzeugt
zur Anzeige auf dem Monitor 102 ein Ausspracheaufforderungsbild,
um ihn zum Aussprechen eines Wortes aufzufordern (in 16 ein
Bild, das einen Text „Bitte
sprechen Sie ,read' aus" enthält), und
gibt ein dem Benutzer zum Aussprechen angezeigtes Wort (target word) an
die Vergleichskomponente 240 aus.
-
Wenn
ein Korrekturinformationscode (Ccode; 18) von
der Anzeigekomponente für Aussprachekorrekturbilder 242 eingegeben
wird, gibt die Steuerkomponente 162 den Korrekturinformationscode
an die Wortdatenbankkomponente 160 aus und erhält von der
Wortdatenbankkomponente 160 einen Korrekturinformationsindex
(17(A), (B)), der durch den Korrekturinformationscode
codiert ist. Des Weiteren liest die Steuerkomponente 162 aus der
Speichereinrichtung 110 Bilddaten und Textdaten aus, die
durch n Eingaben (n ist eine ganze Zahl; n=8 in 17(A),
(B)) indiziert werden, die im Korrekturinformationsindex enthalten
sind, und gibt sie an die Anzeigekomponente für Aussprachekorrekturbilder 242 aus.
-
19 ist
eine Darstellung, die ein Beispiel für ein erstes Aussprachekorrekturbild
zeigt, das durch den in 17(A) gezeigten
Korrekturinformationsindex indiziert ist. In 19 sind
die Textdaten, die den in 17(A) gezeigten
Eingaben 5 bis 7 entsprechen, weggelassen, um die Veranschaulichung zu
vereinfachen.
-
Die
Kontrollkomponente 162 speichert zudem einen im Korrekturinformationsindex
gemäß 17(A) enthaltenen Eintrag sowie Bilddaten (Image)
und Textdaten (Text), wie in 19 gezeigt, in
Korrelation miteinander in der Speichereinrichtung 110.
-
Der
in 17(A) gezeigte Korrekturinformationsindex
wird benutzt, um die Aussprache des Benutzers von „r" zu korrigieren,
und enthält
Einträgen (Einträge 1 bis
4, 8), die indizieren: Textdaten, die einen zu korrigierenden Punkt
der Aussprache anzeigen, Bilddaten, die die Form des Mundes beim
Aussprechen von „r" anzeigen, Bilddaten,
die die Form des Mundes beim Aussprechen von „l" anzeigen, Textdaten, die einen Ratschlag
zur Aussprache von „r" geben, ein Beispiel
für ein
Wort, das „r" enthält, ein Beispiel
für ein
Wort, das „l" enthält, Textdaten,
die ein Beispiel für
ein Wort zeigen, das „r" und „l" enthält, und
Textdaten, die ein Beispiel für
einen Satz zeigen, in dem „r" und „l" vorkommen. Ein Aussprachekorrekturbild
wie in 19 gezeigt wird aus dem in 17(A) gezeigten Korrekturinformationsindex
erzeugt und auf dem Monitor 102 angezeigt.
-
Der
in 17(B) gezeigte Korrekturinformationsindex
wird benutzt, um die Aussprache des Benutzers von „l" zu korrigieren und
enthält:
Textdaten, die einen zu korrigierenden Punkt der Aussprache anzeigen,
Bilddaten der Form des Mundes beim Aussprechen von „l", Bilddaten der Form
des Mundes beim Aussprechen von „r", Textdaten, die einen Ratschlag zur
Aussprache von „l" geben, ein Beispiel
für ein
Wort, das „l" enthält, ein
Beispiel für
ein Wort, das „r" enthält, Textdaten,
die ein Beispiel für
ein Wort zeigen, das „r" und „l" enthält, und
Textdaten, die ein Beispiel für
einen Satz zeigen, in dem „r" und „l" vorkommen.
-
Die
Wortdatenbankkomponente 160 erzeugt den in 17(A),
(B) gezeigten Korrekturinformationsindex an Stelle der Fehlerinformationscode-Tabelle
(7) im Unterschied zu demjenigen in der Software 14 und
speichert ihn in der Speichereinrichtung 110 als Wortdaten.
-
Die
Wortdatenbank 160 fügt
dem Datensatz analoger Wörter
an Stelle des Fehlercodes (Ecode; 6) auch
einen Korrekturinformationscode (Ccode; Korrekturcode) hinzu, der
einen der Korrekturinformationsindizes codiert, und speichert ihn
wie in 18 gezeigt in der Speichereinrichtung 110.
-
Wenn
ein Korrekturinformationscode von der Anzeigekomponente für Aussprachekorrekturbilder 242 über die
Steuerkomponente 162 eingegeben wird, liest die Wortdatenbankkomponente 160 auch einen
Korrekturinformationsindex (17(A),
(B)), der dem eingegebenen Korrekturinformationscode (18)
entspricht, aus der Speichereinrichtung 110 aus und gibt
ihn an die Steuerkomponente 162 aus.
-
Die
Vergleichskomponente 240 (15) vergleicht
jedes der analogen Wörter,
die in dem von der Hinzufügungskomponente
für analoge
Wörter 186 eingegebenen
Datensatz analoger Wörter (18)
enthalten sind, mit dem von der Steuerkomponente 162 eingegebenen
Zielwort, um zu ermitteln, mit welchem der analogen Wörter das
Zielwort übereinstimmt.
Wenn das Zielwort mit dem analogen Wort übereinstimmt, benachrichtigt
die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242 über dieses
Ergebnis. Wenn der Vergleich zu keiner Übereinstimmung führt, benachrichtigt
die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242 über dieses
Ergebnis.
-
Wenn
die Vergleichskomponente 240 feststellt, dass das analoge
Wort mit einem der Zielwörter übereinstimmt,
fragt die Anzeigekomponente für Aussprachekorrekturbilder 242 bei
der Steuerkomponente 162 an, Bilddaten und Textdaten zu
erhalten, die von dem Korrekturinformationsindex (17(A), (B))
indiziert sind, der durch den dem Datensatz analoger Wörter (18)
hinzugefügten
Korrekturinformationscode (Ccode) codiert ist.
-
Wenn
die Steuerkomponente 162 die Bilddaten und die Textdaten
aus der Speichereinheit 110 ausliest und sie an die Anzeigekomponente
für Aussprachekorrekturbilder 242 ausgibt,
setzt die Anzeigekomponente für
Aussprachekorrekturbilder 242 diese Daten auf Positionen,
die in 19 mit (a) bis (e) bezeichnet
sind, und erzeugt ein Aussprachekorrekturbild zur Anzeige auf dem
Monitor 102.
-
Im
Folgenden wird nun die Arbeitsweise des Spracherkennungs-/-korrekturprogramms 22 beschrieben.
-
20 ist
ein Flussdiagramm, das den Ablauf (S20) des Spracherkennungs-/-korrekturprogramms 22 (15)
in der zweiten Ausführungsform zeigt.
In Schritt 200 (S200) von 20 zeigt
die Kontrollkomponente 162 in Reaktion auf eine Bedienungseingabe
durch den Benutzer auf dem Monitor 102 ein Ausspracheaufforderungsbild
an, das den Benutzer dazu veranlasst, ein Wort „read" auszusprechen, wie in 16 gezeigt.
Die Steuerkomponente 162 gibt ein Zielwort „read" an die Vergleichskomponente 240 aus.
-
Wenn
der Benutzer in Reaktion auf das Ausspracheaufforderungsbild „read" ausspricht, erkennen
die Vektordaten-Erzeugungskomponente 180, die Labeldaten-Erzeugungskomponente 182,
die Kandidatenwort-Erzeugungskomponente 184 und die
Hinzufügungskomponente
für analoge
Wörter 186 des
Spracherkennungsprogramms 16 (15) die
vom Benutzer gemachte Sprachäußerung und geben
einen Datensatz analoger Wörter
an die Vergleichskomponente 240 und die Anzeigekomponente für Aussprachekorrekturbilder 242 aus.
-
Wenn
der Benutzer „read" richtig ausspricht, gibt
die Kandidatenwort-Erzeugungskomponente 184 Kandidatenwörter, unter
denen sich das Wort „read" befindet, an die
Hinzufügungskomponente
für analoge
Wörter 186 aus,
die im Gegenzug einen Datensatz analoger Wörter (18), der
das Wort „lead" und ähnliches
als analoges Wort enthält,
an die Vergleichskomponente 240 und die Anzeigekomponente
für Aussprachekorrekturbilder 242 ausgibt, wie
in der ersten Ausführungsform
beschrieben.
-
Wenn
hingegen der Benutzer „read" zum Beispiel dadurch
falsch ausspricht, dass er es nicht schafft, zwischen der Aussprache
von „r" und „l" zu unterscheiden,
gibt die Kandidatenwort-Erzeugungskomponente 184 Kandidatenwörter, darunter
ein Wort „lead" und ähnliches,
als analoges Wort an die Hinzufügungskomponente
für analoge
Wörter 186 aus,
die im Gegenzug einen Datensatz analoger Wörter, der das Wort „read" und ähnliches
als analoges Wort enthält,
an die Vergleichskomponente 240 und die Anzeigekomponente
für Aussprachekorrekturbilder 242 aus.
-
In
Schritt 202 (S202) vergleicht die Vergleichskomponente 240 das
von der Steuerkomponente 162 eingegebene Zielwort mit den
analogen Wörtern,
die in dem von der Hinzufügungskomponente
für analoge
Wörter 186 eingegebenen
Datensatz analoger Wörter
enthalten sind. Wenn das Zielwort mit keinem der analogen Wörter übereinstimmt, benachrichtigt
die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242 über dieses
Ergebnis, beendet den Prozess des Korrigierens/Erlernens der Aussprache
von „read", und geht zum Beispiel
zum Prozess des Korrigierens/Erlernens der Aussprache des nächsten Wortes über. Andernfalls
benachrichtigt die Vergleichskomponente 240 die Anzeigekomponente
für Aussprachekorrekturbilder 242,
dass das Zielwort mit einem der analogen Wörter übereinstimmt, und geht zum
Prozess S204 über.
-
In
Schritt 204 (S204) erhält
die Anzeigekomponente für
Aussprachekorrekturbilder 242 einen Korrekturinformationscode
(Ccode) aus dem Datensatz analoger Wörter. Die Anzeigekomponente
für Aussprachekorrekturbilder 242 gibt
des Weiteren einen Korrekturinformationsdatensatz an die Steuerkomponente 162 aus
und erfragt Bilddaten und Textdaten, die im Aussprachekorrekturbild
verwendet werden.
-
Die
Steuerkomponente 162 erhält von der Wortdatenbankkomponente 160 in
Reaktion auf die Anfrage der Anzeigekomponente für Aussprachekorrekturbilder 242 einen
Korrekturinformationsindex, wie in 17(A) gezeigt,
und liest Bilddaten und Textdaten, die von entsprechenden Einträgen (Einträge 1 bis
4, 8) des Korrekturinformationsindex indiziert sind, zur Ausgabe
an die Anzeigekomponente für
Aussprachekorrekturbilder 242 aus.
-
In
Schritt 206 (S206) erzeugt die Anzeigekomponente für Aussprachekorrekturbilder 242 ein Aussprachekorrekturbild,
in dem Bilddaten und Textdaten, die den jeweiligen Einträgen (Einträge 1 bis
4, 8) des von der Steuerkomponente 162 eingegebenen Korrekturinformationsindexes
entsprechen, zur Anzeige auf dem Monitor 102 in in 19 gezeigte Positionen
(a) bis (e) gesetzt werden, beendet den Prozess für „read" und geht zum Beispiel
zum Prozess des Korrigierens/Erlernens der Aussprache des nächsten Wortes über.
-
Während die
zweite Ausführungsform
einen Fall zeigt, in dem die Aussprachekorrekturinformationen nur
Textdaten und Bilddaten enthalten, können die Aussprachekorrekturinformationen
aber auch andere Arten von Daten enthalten. Zum Beispiel können die
Aussprachekorrekturinformationen Sprachdaten einer richtigen Aussprache
enthalten und auf dem Monitor 102 angezeigt werden, während Sprachdaten über den
Lautsprecher 104 ausgegeben werden.
-
Während die
zweite Ausführungsform
einen Fall zeigt, in dem die analogen Wörter und der Aussprachekorrekturinformationscode
in Korrelation miteinander behandelt werden, kann das Spracherkennungs-/-korrekturprogramm 22 darüber hinaus
auch so konfiguriert sein, dass sie so behandelt werden, dass sie
im in 6 gezeigten Datensatz analoger Wörter enthalten
sind.
-
Während die
zweite Ausführungsform
einen Fall zeigt, in dem das Spracherkennungs-/-korrekturprogramm 22 nur
die Aussprachekorrekturinformationen ausgibt, kann es darüber hinaus
auch so konfiguriert sein, dass es sowohl die Aussprachekorrekturinformationen
als auch die Fehlerinformationen ausgibt.
-
Während die
zweite Ausführungsform
einen Fall zeigt, in dem die Steuerkomponente ein Ausspracheaufforderungsbild
und die Anzeigekomponente für
Aussprachekorrekturbilder 242 Aussprachekorrekturinformationen
auf dem Monitor 102 anzeigt, kann darüber hinaus das Spracherkennungs-/-korrekturprogramm
22 auch so konfiguriert sein, dass eine dieser Komponenten diese
beiden Bilder auf dem Monitor 102 anzeigt.
-
Überdies
muss nicht notwendigerweise jede im Aussprachekorrekturbild (19)
angezeigte Information im Korrekturinformationsindex registriert sein.
-
Zum
Beispiel können
der zu korrigierende Punkt und die in 17(A) gezeigten
Textdaten, die veranlassen, die Aussprache zu wiederholen, im Korrekturinformationsindex
registriert sein oder im Voraus in das Aussprachekorrekturbild geschrieben
worden sein, anstatt im Korrekturinformationsindex registriert zu
sein, abhängig
davon, auf welche Weise man das Spracherkennungs-/-korrekturprogramm 22 (15)
strukturiert.
-
Ein
Verfahren zum Erlernen der Aussprache, auf das das als zweite Ausführungsform
gezeigte Verfahren zur Korrektur der Aussprache angewendet wird,
wird nun als drittes Ausführungsbeispiel
beschrieben. Das Verfahren zum Erlernen der Aussprache verbessert
die Funktion des in 20 gezeigten Ausspracheerkennungs-/-korrekturprogramms 22 und
lässt zusätzlich zu
dem Aussprachekorrekturbild, das das in 16/19 gezeigte
Ausspracheaufforderungsbild anzeigt, ein Aussprachekorrekturbild (21 bis 23)
sichtbar machen, das ein erweitertes Lernen sowie Grundlagen der
Aussprache zur Bequemlichkeit des Erlernens der Aussprache durch den
Benutzer anzeigt.
-
21 bis 23 sind
Darstellungen, die Beispiele des zweiten bis vierten Aussprachekorrekturbildes
zeigen, die im Verfahren zum Erlernen der Aussprache verwendet werden,
das als dritte Ausführungsform
gezeigt wird. In der dritten Ausführungsform stellt das Spracherkennungs-/-korrekturprogramm 22 zusätzlich zu
den in 16 und 19 gezeigten
Aussprachekorrekturbildern die in 21 bis 23 gezeigten
Aussprachekorrekturbilder dar.
-
Das
in 21 gezeigte zweite Aussprachekorrekturbild wird
dargestellt, wenn das Spracherkennungs-/-korrekturprogramm 22 feststellt,
dass der Benutzer durch das Betrachten des ersten Aussprachekorrekturbildes
(19) „read" richtig ausgesprochen
hat, und wird verwendet, um zu bestätigen, dass der Benutzer mit
korrekter Unterscheidung zwischen „r" und „l" ausspricht.
-
Das
zweite Aussprachekorrekturbild wird erst dargestellt, wenn der Benutzer
auf das erste Aussprachekorrekturbild hin „read" richtig ausspricht, und es wird so
lange wiederholt dargestellt, bis der Benutzer alle der Wörter „write", „raw", „long", „light" ausspricht, die
im zweiten Aussprachekorrekturbild angezeigt werden.
-
Das
zweite Aussprachekorrekturbild enthält auch die Einträge 5 und
6 des Korrekturinformationsindexes (17(A)),
was im ersten Aussprachekorrekturbild ausgelassen war.
-
Das
in 22 gezeigte dritte Aussprachekorrekturbild wird
dargestellt, wenn das Spracherkennungs-/-korrekturprogramm 22 feststellt,
dass der Benutzer die Wörter
im zweiten Aussprachekorrekturbild (21) richtig
ausgesprochen hat, und es wird für
weiteres fortgeschrittenes Training der Unterscheidung zwischen „r" und „l" verwendet.
-
Das
dritte Aussprachekorrekturbild wird erst dargestellt, wenn der Benutzer
alle im zweiten Aussprachekorrekturbild angezeigten Wörter richtig
ausspricht, und so lange wiederholt dargestellt, bis der Benutzer
alle im dritten Aussprachekorrekturbild angezeigten Sätze „write
letters", „great
trouble" ausspricht.
-
Das
zweite Aussprachekorrekturbild enthält auch den Eintrag 7 des Korrekturinformationsindexes (17(A)), die im ersten Aussprachekorrekturbild ausgelassen
war. Das in 23 gezeigte vierte Aussprachekorrekturbild
wird dargestellt, wenn das Spracherkennungs-/-korrekturprogramm 22 feststellt,
dass der Benutzer alle Sätze
im dritten Aussprachekorrekturbild (22) richtig
ausgesprochen hat, und es wird verwendet, um zu bestätigen, dass der
Benutzer „r" und „l" deutlich unterschiedlich
aussprechen kann.
-
Das
vierte Aussprachekorrekturbild wird erst dargestellt, wenn der Benutzer
alle im dritten Aussprachekorrekturbild angezeigten Sätze richtig
ausspricht, und es wird so lange wiederholt dargestellt, bis der
Benutzer den Satz „The
river rose several feet and finally overflowed its banks" richtig ausspricht.
-
Im
Folgenden wird die Arbeitsweise des Spracherkennungs-/-korrekturprogramms 22 in
der dritten Ausführungsform
beschrieben.
-
24 ist
ein Flussdiagramm, das die Arbeitsweise des Spracherkennungs-/-korrekturprogramms 22 (S30)
in der dritten Ausführungsform zeigt. 25 ist
eine Darstellung, die ein Beispiel einer Liste von Lernelementen
zeigt, die in dem in 24 gezeigten Auflistungsprozess
(S300) der Lernelemente erzeugt wird.
-
Wie
in 24 gezeigt, vergleicht das Spracherkennungs-/-korrekturprogramm 22 in
Schritt 300 (S300) ein Zielwort mit analogen Wörtern, um
ein Zielwort zu erhalten, das mit einem analogen Wort übereinstimmt.
Das Spracherkennungs-/-korrekturprogramm 22 ermittelt
des Weiteren, welche Aussprache der Benutzer im erhaltenen Zielwort
nicht gut ausspricht (zum Beispiel „r", „th"), und listet sie
wie in 25 gezeigt als Lernelement auf.
-
In
Schritt 302 (S302) stellt das Spracherkennungs-/-korrekturprogramm 22 fest,
ob das im Prozess S300 aufgelistete Lernelement ungelernt bleibt oder
nicht. Das Spracherkennungs-/-korrekturprogramm 22 geht
zum Prozess S304 über,
wenn ein Lernelement bleibt, während
es anderenfalls den Prozess beendet.
-
In
Schritt 304 (S304) nimmt das Spracherkennungs-/-korrekturprogramm 22 eines
der Prozess S300 aufgelisteten Lernelemente heraus.
-
In
Schritt 306 (S306) zeigt das Spracherkennungs-/-korrekturprogramm 22 ein
Ausspracheaufforderungsbild (16) und
ein Aussprachekorrekturbild (19) an,
wie in der zweiten Ausführungsform
gezeigt, um den Benutzer die Aussprache lernen zu lassen.
-
In
Schritt 308 (S308) erkennt das Spracherkennungs-/-korrekturprogramm 22 die
Aussprache des Benutzers und stellt fest, dass der Benutzer richtig
ausgesprochen hat, wenn das als ein Ergebnis der Erkennung erhaltene
Wort mit einem Kandidatenwort übereinstimmt,
und geht zum Prozess S310 über.
Anderenfalls wird festgestellt, dass der Benutzer nicht richtig
ausgesprochen hat, und das Spracherkennungs-/-korrekturprogramm 22 kehrt
zum Prozess S306 zurück.
-
In
Schritt 310 (S310) stellt das Spracherkennungs-/-korrekturprogramm 22 fest,
ob es eine Übung
gibt, die beim Lernen nicht verwendet wurde (zweites bis viertes
Aussprachekorrekturbild; 21 bis 23).
Wenn eine Übung
verbleibt, geht das Spracherkennungs-/-korrekturprogramm 22 zum Prozess
S312 über,
während
es anderenfalls zum Prozess S302 übergeht.
-
In
Schritt 312 (S312) zeigt das Spracherkennungs-/-korrekturprogramm 22 eines
der zweiten bis vierten Aussprachekorrekturbilder an, um den Benutzer
die Aussprache lernen zu lassen.
-
In
Schritt 314 (S314) stellt das Spracherkennungs-/-korrekturprogramm 22 fest,
ob der Benutzer richtig aussprechen konnte, und geht zum Prozess S316 über, wenn
der Benutzer richtig ausgesprochen hat. Anderenfalls kehrt es zum
Prozess S312 zurück.
-
In
Schritt 316 (S316) stellt das Spracherkennungs-/-korrekturprogramm 22 fest,
ob es in der Aussprache des Benutzers einen anderen Fehler als die im
Prozess S300 aufgelisteten Lernelemente gibt. Wenn es solch einen
Fehler gibt, geht das Spracherkennungs-/-korrekturprogramm 22 zum
Prozess S318 über,
während
es anderenfalls zum Prozess S310 zurückkehrt.
-
In
Schritt 318 (S318) fügt
das Spracherkennungs-/-korrekturprogramm 22 den
im Prozess S316 gefundenen Fehler in der Aussprache des Benutzers den
Lernelementen hinzu und kehrt zum Prozess S310 zurück.