DE69828141T2

DE69828141T2 - Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number: DE69828141T2
Application number: DE69828141T
Authority: DE
Inventors: Ayako Yokohama-shi Minematsu
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1997-11-17
Filing date: 1998-10-26
Publication date: 2005-11-03
Anticipated expiration: 2018-10-27
Also published as: US6249763B1; US6347300B1; EP0917129B1; DE69828141D1; EP0917129A2; EP0917129A3; JPH11202889A; JP4267101B2

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Spracherkennung zum Erkennen von Wörtern einer bestimmten Fremdsprache, die in einer Sprachäußerung enthalten sind, die von einem Sprecher gemacht wird, der eine bestimmte Muttersprache hat, zum Beispiel ein Verfahren und eine Vorrichtung zur Spracherkennung zum Erkennen einer von einem Japaner gemachten englischen Sprachäußerung, um Daten (Textdaten) auszugeben, die eine in der Sprachäußerung enthaltene englische Wortgruppe anzeigen.
Die Beschreibung stellt auch eine Vorrichtung zur Korrektur der Aussprache und ein Verfahren dar, mittels dem ein Sprecher in der korrekten Aussprache unterrichtet werden kann, um die Aussprache unter Verwendung von Daten (Kandidatenwortdaten), die in der Vorrichtung zur Spracherkennung und im Verlauf der Anwendung des Verfahrens erhalten wurden, zu korrigieren.
Eine Vorrichtung zur Spracherkennung ist bis jetzt zum Erkennen von Wörtern benutzt worden, die in einer von einem unbestimmten Sprecher gemachten Sprachäußerung enthalten waren, um die Wörter als Textdaten auszugeben.
Die japanischen Patentanmeldungen JP-A-6012483, JP-A-8050493 und JP-A-9022297 offenbaren zum Beispiel ein solches Verfahren zur Spracherkennung.
Wenn zum Beispiel von einer englischen Spracherkennungsvorrichtung zum Erkennen englischer Wörter aus einer englischen Sprachäußerung unter Verwendung eines herkömmlichen Spracherkennungsverfahrens englische Textdaten aus einer von einem Japaner gemachten englischen Sprachäußerung erzeugt werden, ist die Erkennungsquote gering. Dies ist so, weil die englische Sprache Laute enthält, die es in der japanischen Sprache nicht gibt (th usw.), oder Laute, die in der japanischen Sprache schwer zu unterscheiden sind (l, r usw.), und weil Japaner im Allgemeinen solche englischen Laute nicht richtig aussprechen können, so dass die englische Spracherkennungsvorrichtung eine unrichtige Aussprache so, wie sie ist, in ein Wort übersetzt. Wenn ein Japaner zum Beispiel auf Englisch „rice" aussprechen möchte, kann die englische Spracherkennungsvorrichtung diese Aussprache als „lice" oder „louse" erkennen.
Solche Ungenauigkeiten können in verschiedenen Situationen auftreten, wenn z.B. als Gegenstück zum Obigen ein Amerikaner, dessen Muttersprache Englisch ist, eine Spracherkennungsvorrichtung zum Erstellen eines japanischen Textes aus einer japanischen Sprachäußerung benutzt, wenn ein Brite, dessen Muttersprache britisches Englisch ist, eine Spracherkennungsvorrichtung benutzt, die auf amerikanisches Englisch abgestimmt ist, oder wenn eine spezielle Person aus irgendeinem Grund Schwierigkeiten hat, richtig auszusprechen.
Die in den obigen Bezügen offenbarten Vorrichtungen zur Spracherkennung können jedoch solche Unzulänglichkeiten nicht lösen.
Wenn die englische Aussprache des Sprechers verbessert wird und sich der Aussprache eines Muttersprachlers annähert, verbessert sich natürlich die Erkennungsquote der Spracherkennungsvorrichtung, und es ist tatsächlich wünschenswert für einen Sprecher, seine englische Konversation zu verbessern.
Zum Beispiel wird in PUPA4-54965 eine Lernvorrichtung zum Erkennen einer englischen Sprachäußerung eines Sprechers offenbart, die den Sprecher veranlasst, die erkannte englische Sprachäußerung zu bestätigen (Bezug 4).
Ebenso offenbart zum Beispiel die japanische Patentanmeldung JP-A-60123884 eine Maschine zum Englischlernen, bei der ein Sprecher unter Benutzung eines LSI-Sprachsynthesizers (Bezug 5) zum Lernen einer Sprachäußerung zuhört.
Eine Lernvorrichtung zum Erlernen der Aussprache einer Fremdsprache wird in vielen anderen Veröffentlichungen, darunter die Dokumente PUPA44-7162, PUPA7-117807, JP-A-61018068, JP-A-8027588, JP-A-62111278, JP-A-62299985, PUPA3-75869, JP-B-6027971, JP-B-8012535 und JP-A-3226785 (Bezüge 6 bis 14), offenbart.
Der Sprecher kann jedoch bei Benutzung der in diesen Bezügen offenbarten Lernvorrichtung nicht unbedingt einen zufrieden stellenden Lerneffekt erreichen, weil der Sprecher (die Sprecherin) seine oder ihre eigene Aussprache mit einer dargebotenen Aussprache vergleichen muss, oder er oder sie findet nicht heraus, welcher Teil seiner oder ihrer Aussprache falsch ist.
Die US-Patentschrift US-A-5 170 432 offenbart den Vorschlag eines Satzes von Hypothesen zur syntaktischen Analyse, um die gesprochene Wortverbindung zu bestimmen.
Die vorliegende Erfindung wurde im Hinblick auf die oben beschriebenen Probleme der herkömmlichen Technologie gemacht und zielt darauf ab, ein Verfahren und eine Vorrichtung zur Spracherkennung zum Erkennen von Wörtern bereitzustellen, die in einer Sprachäußerung einer vorbestimmten Sprache enthalten sind, die von einem Sprecher gemacht wird, dessen Muttersprache eine andere als die vorbestimmte Sprache ist (Nicht-Muttersprachler), und zum Übersetzen der Wörter in die vom Sprecher gemeinten Wörter der vorbestimmten Sprache, um richtige Textdaten zu erzeugen.
Es ist auch eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Spracherkennung zum Übersetzen einer von einem Sprecher in irgendeiner Region gemachten Sprachäußerung in ein vom Sprecher gemeintes Wort bereitzustellen, um die Erzeugung richtiger Textdaten zu ermöglichen, selbst wenn die Aussprache derselben Sprache aufgrund der Unterschiede der Regionen, in denen die Sprache gesprochen wird, variiert.
Es ist ebenfalls eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Spracherkennung bereitzustellen, das die Unterschiede in der Aussprache einzelner Personen kompensiert, um eine konstant hohe Erkennungsquote aufrecht zu erhalten.
Die Beschreibung stellt auch eine Vorrichtung zur Korrektur der Aussprache und ein Verfahren zum Aufzeigen eines Problems der Aussprache eines Sprechers und zur Hinführung des Sprechers auf das Erlernen der Aussprache des Muttersprachlers dar, um die Aussprache des Sprechers durch Verwendung der in der Spracherkennungsvorrichtung und im Verlauf der Anwendung des Verfahrens erhaltenen Daten zu berichtigen.
Die Beschreibung stellt auch eine Vorrichtung zur Sprachkorrektur und ein Verfahren zur Korrektur der Aussprache dar, welches automatisch die Aussprache eines Sprechers mit einer richtigen Aussprache vergleichen kann, um einen Fehler aufzuzeigen und detaillierte Informationen vorzulegen, die anzeigt, wie der Sprecher die Aussprache berichtigen sollte.
Um die obigen Ziele zu erreichen, stellt die vorliegende Erfindung eine Vorrichtung zur Spracherkennung wie in Anspruch 1 beansprucht, ein Verfahren zur Spracherkennung wie in Anspruch 6 beansprucht und ein Computerprogrammprodukt wie in Anspruch 8 beansprucht bereit.
Die Vorrichtung zur Spracherkennung der vorliegenden Erfindung erkennt zum Erzeugen von Textdaten ein Wort, das in einer englischen Sprachäußerung (stimmlich) enthalten ist, die von einem Sprecher (zum Beispiel einem Japaner) gemacht wird, dessen Muttersprache (zum Beispiel japanische Sprache) eine andere als eine vorbestimmte Sprache (zum Beispiel englische Sprache) ist, und der hauptsächlich die Muttersprache spricht und sie in ein englisches Wort umsetzt.
In der Vorrichtung zur Spracherkennung der vorliegenden Erfindung wird eine von einem Japaner gemachte, durch ein Mikrofon usw. eingegebene und in digitale Daten umgewandelte englische Sprachäußerung (Sprachdaten) in quantisierte Vektordaten umgesetzt, betreffend Klangmerkmale (Lautstärke, Intensität und Intonation usw. des Klangs), und zur Ausgabe an das Kandidatenwort-Korrelierungsmittel weiter umgewandelt in Klangdaten, die ähnlich einem phonetischen Symbol sind und als Label bezeichnet werden.
Das Kandidatenwort-Korrelierungsmittel verarbeitet die zu einem Label umgewandelten Sprachdaten Wort für Wort oder als Folge einer Vielzahl von Wörtern und korreliert die Sprachdaten mit einem einzigen englischen Wort oder einer Kombination einer Vielzahl englischer Wörter (zusammenfassend als Kandidatenwort bezeichnet) als Kandidat des Ergebnisses der Erkennung der Sprachdaten.
Das Speichermittel für analoge Wörter speichert Wörterbuchdaten zum Abrufen, in denen zum Beispiel ein einzelnes englisches Wort oder eine Kombination einer Vielzahl englischer Wörter, die Sprachdaten entsprechen können (zusammenfassend als analoges Wort bezeichnet), wenn ein Japaner etwas englisch ausspricht, und dies gegebenenfalls nicht in der richtigen englischen Aussprache, im Voraus mit einem einzelnen englischen Wort oder einer Kombination einer Vielzahl englischer Wörter korreliert wird oder werden, die ein Kandidatenwort sein können.
Um zum Beispiel mit einer ungenauen englischen Aussprache eines Japaners umzugehen, wird ein einzelnes englisches Wort „lead", das ein Kandidatenwort sein kann, mit dem analogen Wort „read" in den Wörterbuchdaten korreliert (in Betracht dessen, dass „l"" und „r" für Japaner schwierig zu unterscheiden sind; Japaner können im allgemeinen „r" nicht richtig aussprechen). Gelegentlich gibt es zu einem englischen Wort kein analoges Wort. In solch einem Fall wird ein analoges Wort zu einem englischen Wort nicht korreliert.
Das Korrelierungsmittel für analoge Wörter durchsucht die in dem Speichermittel für analoge Wörter gespeicherten Wörterbuchdaten, um ein mit einem Kandidatenwort korreliertes analoges Wort auszulesen, und korreliert das analoge Wort mit dem Kandidatenwort. Im obigen Beispiel werden Sprachdaten, die einem von einem Japaner gesprochenen englischen Wort „read" entsprechen, mit einem englischen Wort „lead" und einem analogen Wort „read" korreliert.
Das Spracherkennungsmittel wählt entweder ein mit Sprachdaten korreliertes Kandidatenwort oder ein analoges Wort als Ergebnis der Erkennung aus, basierend auf einer syntaktischen Analyse einer Reihe bisher erkannter englischer Wörter oder zum Beispiel in Reaktion auf eine Auswahl eines Benutzers.
Die Komponenten der Vorrichtung zur Spracherkennung der vorliegenden Erfindung verarbeiten Sprachdaten, die eine nach der anderen in der oben beschriebenen Weise eingegeben wurden, um in den Sprachdaten enthaltene englische Wörter zu erkennen, und erzeugen Textdaten, die die erkannten englischen Wörter verknüpfen.
Während bisher als Beispiel eine englische Sprachäußerung eines Japaners beschrieben worden ist, kann die Vorrichtung zur Spracherkennung der vorliegenden Erfindung sowohl eine englische Sprachäußerung in einer britischen Aussprache als auch eine in einer amerikanischen Aussprache erkennen, um dadurch Textdaten zu erzeugen, indem das Speichermittel für analoge Wörter so modifiziert wird, dass es Wörterbuchdaten speichert, die ein analoges Wort, das Sprachdaten entsprechen kann, mit einem Kandidatenwort korrelieren, wenn die Sprachäußerung in einer britisch-englischen Aussprache ausgesprochen wird, die sich von amerikanisch-englischer Aussprache unterscheidet.
Auf diese Weise wird der Umfang der obigen „vorbestimmten Sprache" definiert als ein Umfang, in dem Sprachdaten mit einer zufriedenstellenden Erkennungsquote mit einem Wort korreliert werden können. Deswegen sind Dialekte (zum Beispiel englische Sprachen in den USA, England, Australien und Südafrika usw., und spanische Sprachen in Spanien und Südamerika), für die eine zufriedenstellende Erkennungsquote nur durch ein Kandidatenwort-Korrelierungsmittel, das auf einen der Dialekte eingestellt ist, nicht erreicht wird, in einem selben Umfang der „vorbestimmten Sprache" nicht enthalten, selbst wenn sie normalerweise als dieselbe Sprache bezeichnet werden, weil sie aufgrund geografischer Trennung unterschiedlich ausgesprochen werden. Dasselbe trifft zu, wenn die Aussprache einer einzelnen Person aus irgendeinem Grund undeutlich ist, oder wenn nur mit einem Kandidatenwort-Korrelierungsmittel, das auf die Muttersprache (die hauptsächlich gesprochene Sprache) eingestellt ist, eine zufriedenstellende Erkennungsquote nicht erreicht wird.
In der Vorrichtung zur Sprachkorrektur der vorliegenden Erfindung korrelieren das Kandidatenwort-Korrelierungsmittel und das Korrelierungsmittel für analoge Wörter die Sprachdatenelemente mit den Kandidatenwörtern und den analogen Wörtern in einer Weise, die der oben beschriebenen Vorrichtung zu Spracherkennung der vorliegenden Erfindung ähnlich ist.
Wenn der Sprecher etwas so korrekt ausspricht wie der Muttersprachler, werden das vom Sprecher gemeinte Wort und das Ergebnis der Erkennung der Sprachdaten im Kandidatenwort enthalten sein. Wenn andererseits die Aussprache des Sprechers falsch oder undeutlich ist, ist das Ergebnis der Erkennung des Sprachdatenelements im analogen Wort enthalten, obwohl das vom Sprecher gemeinte Wort im Kandidatenwort enthalten ist. Deswegen bedeutet es, wenn einem Sprecher ein Wort zum Aussprechen gegeben wird und er das Wort ausspricht und wenn dieses Wort als Ergebnis der Erkennung des Sprachdatenelements mit einem analogen Wort übereinstimmt, dass die Aussprache eines Benutzers (Sprechers) irgendeinen Fehler enthält oder dass die Aussprache undeutlich ist.
Wenn das dem Sprecher gegebene Wort mit einem analogen Wort übereinstimmt, zeigt das Ausgabemittel für Sprachkorrekturdaten auf einem Monitor Informationen an, die den Fehler oder die Undeutlichkeit der Aussprache korrigieren (zum Beispiel Bilddaten, die die Bewegung des Mundes und der Zunge eines Muttersprachlers beim richtigen Aussprechen zeigen, und Textdaten, die einen Satz darstellen, der aussagt, welcher Teil der Aussprache des Sprechers verglichen mit einem Muttersprachler falsch ist), den Sprecher veranlassend, die Aussprache zu korrigieren, und das Lernen so unterstützend, dass die Aussprache des Sprechers sich der Aussprache eines Muttersprachlers annähert.
Ausführungsformen der Erfindung sowie Ausführungsbeispiele, die nicht in Übereinstimmung mit der Erfindung stehen, werden nun mit Bezug auf die begleitenden Zeichnungen beschrieben, in denen:
1 eine Darstellung ist, die ein Beispiel einer Konfiguration des Computers zeigt, der die Vorrichtung zur Spracherkennung der vorliegenden Erfindung verwirklicht;
2 eine Darstellung ist, die die Konfiguration der Software zeigt, die den Arbeitsprozess der Spracherkennung der vorliegenden Erfindung verwirklicht;
3 eine Darstellung ist, die eine Konfiguration des Spracherkennungsprogramms aus 2 zeigt;
4 ein Beispiel für Daten zeigt, die in der Indextabelle von Wortdaten enthalten sind;
5 ein Beispiel für Daten zeigt, die im Wortdatensatz von Wortdaten enthalten sind;
6 ein Beispiel für Daten zeigt, die im Datensatz analoger Wörter von Wortdaten enthalten sind;
7 ein Beispiel einer Fehlerinformationscode-Tabelle von Wortdaten zeigt;
8 eine Datenstruktur des Eingabedatensatzes (InWord) zeigt, den die Kandidatenwort-Erzeugungskomponente an die Hinzufügungskomponente für analoge Wörter ausgibt;
9 eine Datenstruktur der Eingabedatensatz-Matrix (InMatrix) zeigt, die die Kandidatenwort-Erzeugungskomponente an die Hinzufügungskomponente für analoge Wörter ausgibt;
10 die Datenstruktur eines Ausgabedatensatzes (OutWord) zeigt, den die Hinzufügungskomponente für analoge Wörter an die Auswahlkomponente ausgibt;
11 die Datenstruktur einer Ausgabedatensatz-Matrix (OutMatrix) zeigt, die die Hinzufügungskomponente für analoge Wörter an die Auswahlkomponente ausgibt;
12 ein Flussdiagramm ist, das den Arbeitsprozess der Spracherkennung der vorliegenden Erfindung im Computer zeigt;
13 eine Darstellung ist, die die Konfiguration eines Computers zeigt, der den Spracherkennungsprozess und das Aussprachekorrekturverfahren der vorliegenden Erfindung durchführt;
14 eine Darstellung ist, die eine Software zeigt, die den Spracherkennungsprozess und das Aussprachekorrekturverfahren der vorliegenden Erfindung verwirklicht;
15 eine Darstellung ist, die die Konfiguration des in 14 gezeigten Spracherkennungs-/-korrekturprogramms zeigt;
16 eine Darstellung ist, die ein Beispiel des Ausspracheführungsbildes zeigt, das die in 15 gezeigte Kontrollkomponente anzeigt;
17(A), (B) Darstellungen sind, die ein Beispiel eines Korrekturinformationsindexes zeigt, der von der in 15 gezeigten Wortdatenbankkomponente erzeugt wird, wobei (A) ein Aussprachekorrekturbild zeigt, um die Aussprache von „r" zu korrigieren, und (B) ein Aussprachekorrekturbild zeigt, um die Aussprache von „l" zu korrigieren;
18 eine Darstellung ist, die einen Datensatz analoger Wörter zeigt, der von der Wortdatenbankkomponente im zweiten Ausführungsbeispiel erzeugt wird;
19 eine Darstellung ist, die ein Beispiel eines ersten Aussprachekorrekturbildes zeigt, das durch den in 17(A) gezeigten Korrekturinformationsindex indiziert wird;
20 ein Flussdiagramm ist, das den Prozess (S20) des Spracherkennungs-/-korrekturprogramms 22 (15) in der zweiten Ausführungsform zeigt;
21 eine Darstellung ist, die ein Beispiel des zweiten Aussprachekorrekturbildes zeigt, das in dem Aussprachelernverfahren verwendet wird, das als zweite Ausführungsform gezeigt wird;
22 eine Darstellung ist, dies ein Beispiel des dritten Aussprachekorrekturbildes zeigt, das in dem Aussprachelernverfahren verwendet wird, das als drittes Ausführungsbeispiel gezeigt wird;
23 eine Darstellung ist, die ein Beispiel des vierten Aussprachekorrekturbildes zeigt, das in dem Aussprachelernverfahren verwendet wird, das als viertes Ausführungsbeispiel gezeigt wird;
24 ein Flussdiagramm ist, das den Betrieb (S30) des Spracherkennungs-/-korrekturprogramms 22 (15) in der dritten Ausführungsform zeigt;
25 eine Darstellung ist, die ein Beispiel einer Liste von Lernelementen zeigt, die in dem in 24 gezeigten Auflistungsprozess (S300) der Lernelemente erzeugt wird.
Aus Gründen der Zweckmäßigkeit und zur Verdeutlichung der Beschreibung wird die Vorrichtung zur Spracherkennung der vorliegenden Erfindung für ein spezielles Beispiel beschrieben, in dem die Vorrichtung auf die Erkennung von Englisch eingestellt ist, das von einem Japaner gesprochen wird, sofern es nicht ausdrücklich anders erwähnt ist.
Ein Computer 1, der die Vorrichtung zur Spracherkennung der vorliegenden Erfindung verwirklicht, wird mit Bezug auf 1 beschrieben. Wie in 1 gezeigt, ist der Computer 1 zum Beispiel ein Personal Computer mit einer Spracheingabe/-ausgabe-Funktion und umfasst eine Computereinheit 10 mit einer CPU, einen Speicher und Peripherieeinrichtungen dafür, ein Ausgabeeinrichtung 100, eine Speichereinrichtung 110 inklusive einer magnetisch-optischen Platteneinrichtung, einer Festplatteneinrichtung oder einer Disketteneinrichtung und eine Eingabeeinrichtung 120.
Die Ausgabeeinrichtung 100 enthält einen Monitor 102 wie zum Beispiel eine Katodenstrahl-Anzeigeeinrichtung, einen Lautsprecher 104 zur Stimmausgabe und einen Drucker 106 usw.
Die Eingabeeinrichtung 120 enthält ein Mikrofon 122, eine Spracheingabekarte 124, eine Tastatur 126 und eine Maus 128.
In der Ausgabeeinrichtung 100 werden einem Benutzer das Bild einer grafischen Benutzeroberfläche sowie Textdaten angezeigt, die die Computereinheit 10 durch Erkennen der Sprachäußerung erhalten hat. Der Lautsprecher 104 wird zum Beispiel zur Ausgabe von Textdaten als Sprache benutzt, die die Computereinheit 10 durch Erkennen der Sprachäußerung erhalten hat. Der Drucker wird zum Beispiel zur Ausgabe eines Ausdrucks von Textdaten benutzt, die die Computereinheit 10 durch Erkennen der Sprachäußerung erhalten hat. Die Speichereinrichtung 110 wird von der Computereinheit 10 gesteuert und speichert Textdaten, die die Computereinheit 10 durch Erkennen der Sprachäußerung erhalten hat.
Die Speichereinrichtung 110 speichert auch für Spracherkennung notwendige Daten (solche Daten werden zusammenfassend als Wortdaten bezeichnet) und ein Programm und gibt die gespeicherten Wortdaten und das gespeicherte Programm an die Computereinheit 10 aus.
Die in der Speichereinrichtung 110 gespeicherten Wortdaten werden durch ein Spracherkennungsprogramm 16 vorbereitet oder durch ein Aufnahmemedium wie zum Beispiel eine Diskette geliefert und enthalten eine Labelzeichenkettentabelle, eine Indextabelle, einen Wortdatensatz, einen Datensatz analoger Wörter und eine Fehlerinformationscode-Tabelle (Details darüber werden später mit Bezug auf 4 bis 7 beschrieben, ausgenommen die Labelzeichenkettentabelle).
Das Mikrofon 122 nimmt eine Sprachäußerung eines Benutzers auf und wandelt sie in ein Stimmsignal in analoger Form zur Ausgabe an die Spracheingabekarte 124 um. Die Spracheingabekarte 124 wird von der Computereinheit 10 gesteuert; sie tastet ein vom Mikrofon 122 übergebenes Sprachsignal ab, wandelt es in Stimmdaten in digitaler Form um, die der Verlaufsform des Sprachsignals entsprechen, und gibt es an die Computereinheit 10 aus.
Die von der Tastatur 126 und der Maus 128 registrierten Benutzereingaben werden auf der grafischen Benutzeroberfläche sichtbar, die auf dem Monitor angezeigt wird, und als Bedienungseingabe an die Computereinheit 10 ausgegeben.
Die Konfiguration der Software, die den Arbeitsprozess der Spracherkennung der vorliegenden Erfindung ausführt, wird nun mit Bezug auf 2 beschrieben. 2 ist eine Darstellung, die die Konfiguration der Software 14 zeigt, die den Arbeitsprozess der Spracherkennung der vorliegenden Erfindung ausführt. In 2 sind jene Komponenten der Software, die für die Ausführung des Arbeitsprozesses der Spracherkennung nicht relevant sind, ausgelassen.
Wie in 2 gezeigt, umfasst die Software 14 eine Hardware (H/W)-Unterstützungskomponente 142, ein Betriebssystem (OS) 148 und eine Anwendungskomponente.
Die Hardware-Unterstützungskomponente 142 enthält einen Treiber für die Spracheinrichtung 144 und einen Treiber für die Speichereinrichtung 146.
Das Betriebssystem 148 ist ein allgemeines Betriebssystem wie zum Beispiel OS/2 (Warenzeichen von IBM) oder Windows (Warenzeichen von Microsoft) und enthält eine Sprachschnittstellen-(IF-)komponente 150 und eine Schnittstellenkomponente für die Speichereinrichtung 152.
Die Software 14 enthält ein Spracherkennungsprogramm 16 als Anwendungskomponente.
Diese Komponenten der Software 14 sind in der Speichereinrichtung 110 gespeichert und werden in einen Speicher der Computereinheit 10 geladen, wenn sie zur Ausführung benötigt werden.
Der Treiber für die Spracheinrichtung 144 steuert die Spracheingabekarte in der Weise, dass sie ein vom Mikrofon eingegebenes Sprachsignal in Sprachdaten in der Hardware-Unterstützungskomponente 142 umwandeln kann.
Der Treiber für die Spracheinrichtung 144 erfüllt auch eine Schnittstellenfunktion, um von der Spracheingabekarte 124 eingegebene Sprachdaten an die Sprachschnittstellenkomponente 150 auszugeben.
Der Treiber für die Spracheinrichtung 144 steuert auch Operationen wie zum Beispiel die Änderung der Einstellung einer Abtastperiode der Spracheingabekarte 124 und den Start und das Ende der Abtastung entsprechend der Steuerung durch die Sprachschnittstellenkomponente 150 des Betriebssystems 148.
Der Treiber für die Speichereinrichtung 146 steuert die Funktion der Speichereinrichtung 110 in Reaktion auf eine Anfrage (Steuerung) einer Schnittstellenkomponente für die Speichereinrichtung 152 des Betriebssystems 148, Wortdaten und Textdaten zu speichern, die als Ergebnis der Spracherkennung erhalten wurden, oder diese in der Speichereinrichtung 110 gespeicherten Daten auszulesen.
Der Treiber für die Speichereinrichtung 146 erfüllt auch eine Schnittstellenfunktion, um von der Speichereinrichtung 110 eingegebene Wortdaten und Textdaten an die Schnittstellenkomponente für die Speichereinrichtung 152 auszugeben, oder um von der Schnittstellenkomponente für die Speichereinrichtung 152 eingegebene Daten an den Treiber für die Speichereinrichtung 146 auszugeben.
Das Betriebssystem 148 führt auf dem Monitor 102 auch einen Prozess des Anzeigens vom Spracherkennungsprogramm 16 ausgegebener Textdaten und des Bildes der grafischen Benutzeroberfläche durch, einen Prozess des Umwandelns der Textdaten in ein Sprachsignal zur Ausgabe über den Lautsprecher 104, einen zum Drucken eines Ausdrucks im Drucker 106 erforderlichen Prozess und einen Prozess des Registrierens von Benutzeraktionen auf der Tastatur 126 und der Maus 128.
Die Sprachschnittstellenkomponente 150 steuert im Betriebssystem 148 den Treiber für die Spracheinrichtung 144 in Reaktion auf eine Anfrage (Steuerung) des Spracherkennungsprogramms 16.
Die Sprachschnittstellenkomponente 150 erfüllt auch eine Schnittstellenfunktion, um vom Treiber für die Spracheinrichtung 144 eingegebene Sprachdaten an das Spracherkennungsprogramm 16 auszugeben.
Die Schnittstellenkomponente für die Speichereinrichtung 152 steuert einen Speicherbereich der Speichereinrichtung 110.
Die Schnittstellenkomponente für die Speichereinrichtung 152 steuert auch den Treiber für die Speichereinrichtung 146 in Reaktion auf eine Anfrage (Steuerung) des Spracherkennungsprogramms 16, Wortdaten und Textdaten auszulesen, die vom Spracherkennungsprogramm 16 angefragt wurden, und die ausgelesenen Wortdaten und Textdaten an das Spracherkennungsprogramm 16 auszugeben. Die Schnittstellenkomponente für die Speichereinrichtung 152 sorgt auch dafür, dass die vom Spracherkennungsprogramm 16 eingegebenen Wortdaten und Textdaten in einem freien Speicherbereich der Speichereinrichtung 110 über den Treiber für die Speichereinrichtung 146 gespeichert werden.
Das Spracherkennungsprogramm 16 wird nun im Folgenden mit Bezug auf 3 beschrieben. 3 ist eine Darstellung, die eine Konfiguration des in 2 gezeigten Spracherkennungsprogramms 16 zeigt.
Wie in 3 gezeigt, umfasst das Spracherkennungsprogramm 16 eine Wortdatenbank 160, eine Steuerkomponente 162 und eine Spracherkennungskomponente 18.
Die Spracherkennungskomponente 18 umfasst eine Vektorerzeugungskomponente 180, eine Labelerzeugungskomponente 182, eine Kandidatenwort-Erzeugungskomponente 184, eine Hinzufügungskomponente für analoge Wörter 186 und eine Auswahlkomponente 188.
Mit diesen Komponenten zeigt das Spracherkennungsprogramm 16 das Bild einer grafischen Benutzeroberfläche zur Bedienung an, erkennt entsprechend der Bedienung des Benutzers auf dem angezeigten Bild der grafischen Benutzeroberfläche von der Sprachschnittstellenkomponente 150 eingegebene Sprachdaten unter Verwendung von Wortdaten, die von der Schnittstellenkomponente für die Speichereinrichtung 152 eingegeben wurden, und gibt eine als Ergebnis der Erkennung erhaltene Wortzeichenkette als Textdaten über das Betriebssystem 148 aus.
Die Steuerkomponente 162 zeigt das Bild einergrafischen Benutzeroberfläche auf dem Monitor 102 zur Bedienung an und empfängt eine Bedienung, die ein Benutzer auf dem angezeigten Bild der grafischen Benutzeroberfläche unter Verwendung der Tastatur 126 und der Maus 128 der Eingabeeinrichtung 120 ausführt.
Die Steuerkomponente 162 steuert auch die Sprachschnittstellenkomponente 150 und die Schnittstellenkomponente für die Speichereinrichtung 152 des Betriebssystems 148 in Reaktion auf die empfangenen Bedienungseingaben.
Die Steuerkomponente 162 steuert auch die Wortdatenbank 160 in Reaktion auf die empfangenen Bedienungseingaben und erzeugt oder aktualisiert Wortdaten, darunter eine Labelzeichenkettentabelle, die von der Kandidatenwort-Erzeugungskomponente 184 benutzt wird, um Sprachdaten mit einem Kandidatenwort zu korrelieren, eine Indextabelle, die von der Hinzufügungskomponente für analoge Wörter 186 benutzt wird, um ein analoges Wort mit einem Kandidatenwort zu korrelieren, einen Wortdatensatz, einen Datensatz analoger Wörter und eine Fehlerinformationscode-Tabelle (wird später mit Bezug auf 4 bis 7 beschrieben) zur Speicherung in der Speichereinrichtung 110 über die Schnittstellenkomponente für die Speichereinrichtung 152 usw.
Die Steuerkomponente 162 zeigt auch ein Kandidatenwort und ein analoges Wort an, die mit Teilen der Sprachdaten korreliert sind, und veranlasst die Auswahlkomponente 188, in Reaktion auf eine Bedienungseingabe zu den angezeigten Wörtern aus dem Kandidatenwort und dem analogen Wort eines auszuwählen, um es zum Endergebnis der Erkennung zu machen.
Ein Beispiel eines Verfahrens, ein Kandidatenwort und ein analoges Wort anzuzeigen, ist ein Verfahren, in dem ein von der Kandidatenwort-Erzeugungskomponente 184 und der Hinzufügungskomponente für analoge Wörter 186 korreliertes Kandidatenwort in invertierter Form auf dem Monitor 102 angezeigt wird und das Kandidatenwort und das analoge Wort in Reaktion auf Benutzerbedienungen auf der Tastatur 126 nacheinander angezeigt werden, oder der Benutzer findet und klickt ein falsches Kandidatenwort an, das auf dem Monitor 102 angezeigt ist, wodurch in einem Fenster eine Liste von Kandidatenwörtern und analogen Wörtern angezeigt wird, die mit dem angeklickten Kandidatenwort korreliert sind.
Die Wortdatenbankkomponente 160 erzeugt oder aktualisiert Wortdaten entsprechend der Steuerung durch die Steuerkomponente 162, wie oben beschrieben, um sie für Steuerungszwecke in der Speichereinrichtung 110 speichern zu lassen.
Die Wortdatenbankkomponente 160 gibt auch Wortdaten (Labelzeichenkettentabelle) an die Kandidatenwort-Erzeugungskomponente 184 aus.
Die Wortdatenbankkomponente 162 durchsucht Wortdaten (Indextabelle, Wortdatensatz, Datensatz analoger Wörter und Fehlerinformationscode-Tabelle, 4 bis 7) in Reaktion auf eine Anfrage der Hinzufügungskomponente für analoge Wörter 186 und gibt einen Wortdatensatz, Datensatz analoger Wörter und Fehlerinformationen an die Hinzufügungskomponente für analoge Wörter 186 aus, die als Ergebnis der Suche erhalten werden und einem ersten in die Hinzufügungskomponente für analoge Wörter 186 eingegebenen Kandidatenwort entsprechen.
Um das Verständnis der folgenden Erklärung zu unterstützen, werden hier Wortdaten (Indextabelle, Wortdatensatz, Datensatz analoger Wörter und Fehlerinformationstabelle) mit Bezug auf 4 bis 7 erklärt, außer der Labelzeichenkettentabelle. 4 zeigt ein Beispiel von Daten, die in der Indextabelle von Wortdaten enthalten sind.
Die Indextabelle wird für die Wortdatenbank 160 benutzt, um einen Wortdatensatz zu suchen, der durch die Anfangsbuchstaben (A bis Z) der Wörter klassifiziert ist.
Die Indextabelle umfasst einen Zeiger, der die Spitze der jeweiligen Aufnahmebereiche der Anfangsbuchstaben A bis Z anzeigt, und, zu den Zeigern in Beziehung gesetzt, die Zahl der Wortdatensätze für jeden Anfangsbuchstaben A bis Z.
5 zeigt ein Beispiel für im Wortdatensatz von Wortdaten enthaltene Daten. Wie in 5 gezeigt, umfasst der Wortdatensatz ein Indexwort (TarWord), das in der Hinzufügungskomponente für analoge Wörter 186 zusammengeführt und mit den ersten von der Kandidatenwort-Erzeugungskomponente 184 erzeugten Kandidatenwortdaten [Kandidatenwortdaten (1)] verglichen wird, einen Zeiger (NextP) auf das nächste Indexwort, die Anzahl von Analogwörtern, die im Wortdatensatz enthalten sind (#Can), und den Datensatz analoger Wörter (CanWord), miteinander korreliert.
Während in 5 gezeigt wird, dass der Datensatz analoger Wörter direkt mit dem Wortdatensatz korreliert ist, kann aber jedes Verfahren verwendet werden, z.B. eines, bei dem ein Zeiger des Datensatzes analoger Wörter mit dem Wortdatensatz korreliert wird, wobei der Datensatz analoger Wörter und der Wortdatensatz in separate Dateien getrennt werden.
Ebenso kann eine Vielzahl von Indexwörtern (TarWords) so mit einem Wortdatensatz verbunden werden, dass ein Label, das einer Vielzahl aufeinander folgender Wörter entspricht, mit einem Indexwort korreliert wird, das eine Vielzahl von Wörtern enthält.
6 zeigt ein Beispiel für im Datensatz analoger Wörter von Wortdaten enthaltene Daten. Wie in 6 gezeigt, umfasst der Datensatz analoger Wörter die Anzahl eingegebener Wörter (#m; m ist eine ganze Zahl größer als 0), eingegebene Kandidatenwörter (aWord, aWord-1, Word-2, ......, aword-m-1), die Anzahl der ausgegebenen Wörter (#n; n ist eine ganze Zahl größer oder gleich 0), analoge Wörter (COWord, COWord-1, ....., COWord-n) und einen Fehlercode (Ecode), miteinander korreliert.
Hierbei gibt die Anzahl eingegebener Wörter (#m) die Anzahl vorhergehender und folgender Kandidatenwörter an, auf die Bezug genommen wird (ein Beispiel, bei dem auf m-1 Wörter, die dem ersten Kandidatenwort folgen, Bezug genommen wird, wird im Folgenden beschrieben), wenn die Hinzufügungskomponente für analoge Wörter 186 das von der Kandidatenwort-Erzeugungskomponente 184 eingegebene erste Kandidatenwort mit einem analogen Wort korreliert.
Die eingegebenen Kandidatenwörter (aWord, aWord-1, aWord-2, ......, aWord-m-1) sind eine Wortzeichenkette, die zusammengeführt und verglichen wird mit den ersten Kandidatenwörtern (TarWord, TarWord-1, TarWord-2, ......, TarWord-m-1), die aufeinander folgend von der Kandidatenwort-Erzeugungskomponente 184 in die Hinzufügungskomponente für analoge Wörter 186 eingegeben werden.
In anderen Worten, in der Hinzufügungskomponente für analoge Wörter 186 wird das p-te erste Kandidatenwort (TarWord) nicht sofort, nachdem es eingegeben wurde, mit einem analogen Wort korreliert, und, nachdem m-1 erste Kandidatenwörter in die Hinzufügungskomponente für analoge Wörter 186 eingegeben worden sind, wird jedes von m aufeinander folgenden p-ten bis p+m-1-ten ersten Kandidatenwörtern (TarWord, TarWord-1, TarWord-2, ......, TarWord-m-1) verglichen mit jedem der m eingegebenen Kandidatenwörter (aWord, aWord-1, aWord-2, ......, aWord-m-1). Nur, wenn es eine Übereinstimmung gibt, wird das p-te erste Kandidatenwort (aWord = TarWord) mit n analogen Wörtern korreliert, die dem eingegebenen Kandidatenwort im Datensatz analoger Wörter (COWord, COWord-1, ....., COWord-n) folgen.
Wenn es kein analoges Wort gibt, ist der Wert der Anzahl der ausgegebenen Wörter 0, und innerhalb des Datensatzes analoger Wörter wird kein analoges Wort korreliert.
Das in 6 gezeigte Verfahren zum Mapping zwischen dem ersten Kandidatenwort und einem analogen Wort im Datensatz analoger Wörter wird nun weiter erläutert.
Als Verfahren zum Korrelieren (Mapping) zwischen den ersten Kandidatenwörtern und den analogen Wörtern sind die vier im Folgenden angegebenen Verfahren möglich.
Um einen Fall zu behandeln, in dem ein einzelnes Wort irrtümlicherweise als ein anderes einzelnes Wort erkannt wird, wird ein analoges Wort, das nur ein einzelnes Wort enthält, mit dem ersten Kandidatenwort korreliert, das nur ein einzelnes Wort enthält. Ein Beispiel für das erste Verfahren kann ein Fall sein, in dem ein erstes Kandidatenwort „read" mit einem analogen Wort „lead" korreliert wird in einem möglichen Fall, in dem „r" des ersten Kandidatenwortes „read" nicht richtig ausgesprochen wird. Beispiele für die Korrelierung nach dem ersten Verfahren sind die Korrelierung von sink" mit think" fell" mit fill" seat" mit „sit", better" mit bitter" nut" mit not" fund" mit found" „boat" mit „bought" und „coal" mit „call".
Um einen Fall zu behandeln, in dem ein einzelnes Wort irrtümlicherweise als Vielzahl von Wörtern erkannt wird, wird ein analoges Wort, das eine Vielzahl von Wörtern enthält, mit einem ersten Kandidatenwort korreliert, das nur ein einzelnes Wort enthält. Ein Beispiel kann der Fall sein, in dem ein erstes Kandidatenwort „jumped" mit analogen Wörtern „jump", „and" korreliert wird in einem möglichen Fall, in dem „ed" des ersten Kandidatenwortes „jumped" nicht richtig als „t" ausgesprochen wird. Ein weiteres Beispiel für Korrelierung nach dem zweiten Verfahren ist die Korrelierung von „check in" mit „chicken".
Um einen Fall zu behandeln, in dem eine Vielzahl von Wörtern irrtümlicherweise als einzelnes Wort erkannt werden, wird ein analoges Wort, das nur ein einzelnes Wort enthält, mit einem ersten Kandidatenwort korreliert, das eine Vielzahl von Wörtern enthält. Ein Beispiel für das dritte Verfahren kann die Korrelierung der ersten Kandidatenwörter „have", „to" mit einem analogen Wort „hat" sein in einem möglichen Fall, in dem die ersten Kandidatenwörter „have", „to" zusammenhängend ausgesprochen werden. Ein weiteres Beispiel für die Korrelierung nach dem dritten Verfahren ist das Korrelieren von „I will" mit „aisle".
Um einen Fall zu behandeln, in dem eine Vielzahl von Wörtern irrtümlicherweise als andere Vielzahl von Wörtern erkannt wird, wird ein analoges Wort, das eine Vielzahl von Wörtern enthält, mit dem ersten Kandidatenwort korreliert, das eine Vielzahl von Wörtern enthält.
Da in Betracht gezogen werden kann, dass jedes des ersten bis dritten Verfahrens ein Verfahren ist, das dem vierten Verfahren gewisse Einschränkungen auferlegt, wird der Datensatz analoger Wörter wie in 6 gezeigt auf der Basis des vierten Verfahrens aufgestellt, und das erste Kandidatenwort, das eine Vielzahl von Wörtern enthält, wird mit einem analogen Wort korreliert, das eine Vielzahl von Wörtern enthält.
Das analoge Wort wird an Stelle eines Kandidatenwortes ausgewählt, wenn die Aussprache eines Sprechers (Benutzers), der den Computer 1 benutzt, unrichtig ist. Deswegen bedeutet es, dass der Sprecher einen Fehler in der englischen Aussprache begeht, der dem ausgewählten analogen Wort entspricht, wenn schließlich statt eines Kandidatenwortes ein analoges Wort ausgewählt wird.
Unter diesem Gesichtspunkt wird dem Datensatz analoger Wörter der Fehlercode (Ecode) hinzugefügt, um einen Aussprachefehler, der dem schließlich ausgewählten analogen Wort entspricht, in der Form eines Fehlercodes anzuzeigen.
7 zeigt ein Beispiel einer Fehlerinformationscode-Tabelle der Wortdaten. Wie in 7 gezeigt, umfasst die Fehlerinformationscode-Tabelle einen Fehlercode (Ecode; 0, 1, 2, ...) und Informationen, die den Inhalt des Fehlers anzeigen (Fehlerinformationen wie zum Beispiel „r wurde als l ausgesprochen", „l wurde als r ausgesprochen", „th wurde als s ausgesprochen" usw.), miteinander korreliert.
In der Spracherkennungskomponente 18 verarbeitet die Vektorerzeugungskomponente 180 von der Sprachschnittstellenkomponente 150 eingegebene Sprachdaten, um Merkmale der Sprachäußerung (Ton, Intensität, Intonation usw. eines Klangs) zu quantisieren, und erzeugt Vektordaten, die Werte der Merkmale enthalten, zur Ausgabe an die Steuerkomponente 162. Wenn zum Beispiel die Aufnahmefrequenz von Sprachdaten 11 kHz beträgt, verarbeitet die Vektorerzeugungskomponente 180 die Sprachdaten jede 1/100 Sekunde, um eine Vielzahl von Merkmalsarten der Sprachdaten für die Erzeugung von Vektordaten zu quantisieren, die eine Vielzahl von Elementen umfassen.
Die Labelerzeugungskomponente 182 wandelt von der Vektorerzeugungskomponente 180 eingegebene Vektordaten in Daten um, die als Label bezeichnet werden, welches einem Aussprachesymbol entspricht, und gibt sie Satz für Satz an eine Kandidatenwort-Erzeugungskomponente 184 aus. Die Labelerzeugungskomponente 182 tut dies durch Auswahl eines Labels, das einer Vielzahl von aufeinander folgenden Vektordatenelementen entspricht, unter Verwendung einer Labeltabelle, die ein Label, das aus einer Aufnahme einer zum Beispiel von einer Vielfalt von Personen (Erwachsener, Kind, männlich, weiblich usw.) gesprochenen tatsächlichen Sprachäußerung erzeugt wurde, mit einer Struktur einer Vielzahl von aufeinander folgenden Vektordatenelementen korreliert.
Übrigens entspricht der in dieser Beschreibung verwendete Ausdruck „Satz" nicht notwendigerweise einem wirklichen Satz in einem wirklichen Text und bedeutet einfach eine Verarbeitungseinheit in der Spracherkennung.
Die Kandidatenwort-Erzeugungskomponente 184 benutzt eine Labelzeichenkettentabelle, die die Korrelierung mit englischen Wörtern anzeigt, um ein oder mehrere aufeinander folgende Labelzeichenketten, die einem oder mehreren englischen Wörtern entsprechen, mit ein oder mehreren Kombinationen aus einem oder mehreren englischen Wörtern zu korrelieren, die von der Labelzeichenkette angezeigt wurden, und gibt an die Kandidatenwort-Erzeugungskomponente 186 eine Kombination englischer Wörter als erstes Kandidatenwort aus. (Um die Erklärung zu vereinfachen, wird im Folgenden ein Fall erklärt, in dem die Kandidatenwort-Erzeugungskomponente 184 ein Label, das einem einzelnen englischen Wort entspricht, mit einem ersten Kandidatenwort korreliert, das nur ein einzelnes englisches Wort enthält.
Die Kandidatenwort-Erzeugungskomponente 184 wandelt in diesem Fall eine Labelzeichenkette direkt in ein englisches Wort (erstes Kandidatenwort) um, statt zum Beispiel den durch das Label angezeigten Klang in einen Buchstaben umzuwandeln und dann die umgewandelte Buchstabenreihe in ein englisches Wort umzuwandeln. In anderen Worten, beim Erzeugen von „read" als erstes Kandidatenwort korreliert die Kandidatenwort-Erzeugungskomponente 184 die Labelzeichenkette direkt mit einem Wort „read", anstatt die Labelzeichenkette durch vier Buchstaben „r", „e", „a", „d" zu ersetzen und dann das Wort „read" als erstes Kandidatenwort zu korrelieren.
Die Kandidatenwort-Erzeugungskomponente 184 gibt das erzeugte erste Kandidatenwort Satz für Satz in der Form eines Eingabedatensatzes (InWord), wie in 8 gezeigt, und einer Eingabedatensatz-Matrix (InMatrix), wie in 9 gezeigt, an die Hinzufügungskomponente für analoge Wörter 186 aus. 8 zeigt eine Datenstruktur des Eingabedatensatzes (InWord), den die Kandidatenwort-Erzeugungskomponente 184 an die Hinzufügungskomponente für analoge Wörter 186 ausgibt. 9 zeigt eine Datenstruktur der Eingabedatensatz-Matrix (InMatrix), die Kandidatenwort-Erzeugungskomponente 184 an die Hinzufügungskomponente für analoge Wörter 186 ausgibt.
Wie in 8 gezeigt, fügt die Kandidatenwort-Erzeugungskomponente 184 Daten, die anzeigen, dass das Wort das i-te Wort in einem einzelnen Satz und das j-te erste Kandidatenwort des i-ten Wortes in einem einzelnen Satz ist zu den Daten (Inword) hinzu, die ein mit einer Labelzeichenkette korreliertes Wort und die Länge des Wortes anzeigen, und erzeugt einen Eingabedatensatz zur Ausgabe an die Hinzufügungskomponente für analoge Wörter 186, in dem i und j ganze Zahlen sind, wobei i kleiner oder gleich der maximalen Anzahl an Wörtern (Maxi) ist, während j kleiner oder gleich der maximalen Anzahl an Kandidatenwörtern (Maxj) ist. Wie in 8 gezeigt, erzeugt die Kandidatenwort-Erzeugungskomponente 184 des Weiteren Wahrscheinlichkeitsdaten, die den Grad der Übereinstimmung zwischen der von der Labelerzeugungskomponente 182 eingegebenen Labelkette und der Labelkette in der Labelzeichenkettentabelle, die dem ausgewählten englischen Wort entspricht, anzeigen, in anderen Worten, die Wahrscheinlichkeit, mit der die Labelkette das erste Kandidatenwort anzeigt, und fügt sie den Daten, die das Wort des Eingabedatensatzes und die Länge des Wortes anzeigen, zur Ausgabe an die Hinzufügungskomponente für analoge Wörter 186 hinzu.
Wenn ein Eingabedatensatz (InWord) für einen Satz erzeugt worden ist, erzeugt die Kandidatenwort-Erzeugungskomponente 184 außerdem eine Eingabedatensatz-Matrix, die die maximale Anzahl der in dem Satz enthaltenen Wörter (Maxi) anzeigt, die maximale Anzahl der Kandidaten (Maxj), was anzeigt, wie viele erste Kandidatenwörter höchstens mit derselben Labelzeichenkette (phonetischer Klang) korreliert sind, und einen Merker FLG(ij), der anzeigt, dass ein j-tes Wort in einem i-ten Wort vorhanden ist, und gibt sie zusammen mit einem Eingabedatensatz eines Satzes an die Hinzufügungskomponente für analoge Wörter 186 aus.
Wenn es der Kandidatenwort-Erzeugungskomponente 184 nicht gelingt, ein erstes Kandidatenwort aus einer Labelzeichenkette auszuwählen, das dem i-ten Wort entspricht, wird der Merker FLG(il) auf einen Wert (zum Beispiel 0) gesetzt, der anzeigt, dass im i-ten Wort kein erstes Wort vorhanden ist.
Obwohl die Hinzufügungskomponente für analoge Wörter 186 von der Kandidatenwort-Erzeugungskomponente 184 eingegebene Eingabedatensätze nicht mit Labelzeichenketten korrelieren kann, fügt sie unter Beachtung der Besonderheit der englischen Aussprache durch einen Japaner dem ersten Kandidatenwort ein englisches Wort hinzu, das möglicherweise dem ersten Kandidatenwort ähnelt, um ein zweites Kandidatenwort zur Ausgabe an die Auswahlkomponente 188 zu erzeugen.
Die Funktion der Hinzufügungskomponente für analoge Wörter 186 wird im Detail weiter erklärt.
Die Hinzufügungskomponente für analoge Wörter 186 gibt als Erstes das p-te erste Kandidatenwort, das in einem Eingabedatensatz (InWord) eines Satzes enthalten ist, aufeinander folgend an die Wortdatenbankkomponente 160 aus und erfragt den Erhalt eines Wortdatensatzes. Die Wortdatenbankkomponente 160 sucht einen Wortdatensatz (5) unter Verwendung der Indextabelle (4), um einen Wortdatensatz zu erhalten, der ein Indexwort (TarWord) hat, das mit einem Wort im Eingabedatensatz (InWord) übereinstimmt, und gibt ihn an die Hinzufügungskomponente für analoge Wörter 186 aus.
Wenn die Hinzufügungskomponente für analoge Wörter 186 einen Wortindex des p-ten ersten Kandidatenwortes erhält, vergleicht sie das p-te bis (p+m-1)-te Wort (InWord-p.j, InWord-p+1.j, ....., InWord-p+m-1.j) mit m eingegebenen Wörtern (aWord, aWord-1, aWord-2, ....., aWord-m-1) der Datensätze analoger Wörter, die, eingegeben von der Wortdatenbankkomponente 160, dem Wortdatensatz hinzugefügt werden, und wenn sie nicht übereinstimmen, fügt sie dem p-ten ersten Kandidatenwort n analoge Wörter (COWord-1, COWord-2, ....., COWord-n) hinzu, um ein zweites Kandidatenwort zu generieren.
Es ist möglich, das Verfahren so zu modifizieren, dass die Hinzufügungskomponente für analoge Wörter 186 das erste Kandidatenwort durch ein analoges Wort ersetzt, um ein zweites Kandidatenwort zu generieren. In diesem Fall kann das analoge Wort das erste Kandidatenwort enthalten oder nicht.
Des Weiteren gibt die Hinzufügungskomponente für analoge Wörter 186 an die Wortdatenbankkomponente 160 einen Fehlercode (Ecode) aus, der dem Datensatz analoger Wörter entspricht, der dem ersten Kandidatenwort hinzugefügt wurde, und erfragt den Erhalt von Fehlerinformationen, die durch den Fehlercode codiert sind. Die Wortdatenbankkomponente 160 durchsucht in Reaktion auf diese Anfrage die Fehlerinformationscode-Tabelle (7), um die Fehlerinformationen zu erhalten, und gibt sie an die Hinzufügungskomponente für analoge Wörter 186 aus.
10 zeigt die Datenstruktur eines Ausgabedatensatzes (OutWord), den die Hinzufügungskomponente für analoge Wörter 186 an die Auswahlkomponente 188 ausgibt. 11 zeigt die Datenstruktur einer Ausgabedatensatz-Matrix (OutMatrix), die die Hinzufügungskomponente für analoge Wörter 186 an die Auswahlkomponente 188 ausgibt.
Die Hinzufügungskomponente für analoge Wörter 186 fügt ein zweites Kandidatenwort, die Länge des Wortes anzeigende Daten, Wahrscheinlichkeitsdaten, Fehlerinformationen (oder Fehlerinformationscode) und Daten, die anzeigen, dass das Wort das i-te in einem Satz und das j-te erste Kandidatenwort des i-ten Wortes eines Satzes ist, hinzu und gibt dies an die Auswahlkomponente 188 in der Form eines Ausgabedatensatzes (OutWord) aus, der eine ähnliche Form wie der Eingabedatensatz (8) hat, wie in 10 gezeigt.
Wenn ein Ausgabedatensatz (OutWord) eines Satzes erzeugt worden ist, erzeugt die Hinzufügungskomponente für analoge Wörter 186 eine Ausgangsdatensatz-Matrix, die die maximale Anzahl der in diesem Satz enthaltenen Wörter (Maxi) anzeigt, die maximale Anzahl der Kandidaten (Maxj), was anzeigt, wie viele zweite Kandidatenwörter höchstens mit derselben Labelzeichenkette (phonetischer Klang) korreliert sind, und ein Merker FLG(i'j'), der anzeigt, dass ein j-tes Wort in einem i-ten Wort vorhanden ist, und gibt sie zusammen mit einem Ausgabedatensatz an die Auswahlkomponente 188 aus, in ähnlicher Weise wie bei der Eingabedatensatz-Matrix (9), wie in 11 gezeigt.
Die Auswahlkomponente 188 zeigt das von der Hinzufügungskomponente für analoge Wörter 186 als Ausgabedatensatz eingegebene zweite Kandidatenwort an, wählt als ein Endergebnis der Erkennung in Reaktion auf Benutzerbedienungen oder basierend auf dem Ergebnis eines syntaktischen Parsings der bislang erkannten Wortreihe eines der zweiten Kandidatenwörter aus, erzeugt Textdaten, die eine Folge der ausgewählten Wörter umfassen, und gibt sie an den Monitor 102, den Lautsprecher 104 oder den Drucker 106 aus.
Die Erzeugung von Textdaten durch die Auswahlkomponente 188 wird weiter erklärt.
Wenn es zum Beispiel n1 zweite Kandidatenwörter (OutWord-1.1, OutWord-1.2, ....., OutWord-1.n1) für das erste Wort eines Satzes und n2 zweite Kandidatenwörter für das zweite Wort gibt, zeigt die Auswahlkomponente 188 auf dem Monitor 102 in der Reihenfolge der Wörter eines der zweiten Kandidatenwörter jedes Wortes an, d.h. eines der zweiten Kandidatenwörter des ersten Wortes und eines der zweiten Kandidatenwörter des zweiten Wortes und so weiter.
Wenn der Benutzer zum Beispiel unter Verwendung der Maus 128 das zweite Kandidatenwort, das im Fenster des Bildes der grafischen Benutzeroberfläche angezeigt ist, anklickt, zeigt die Steuerkomponente 162 das angeklickte zweite Kandidatenwort in invertiertem Bild und ändert das angezeigte zweite Kandidatenwort jedes Mal, wenn der Benutzer denselben Abschnitt anklickt. Wenn der Benutzer schließlich das zweite Kandidatenwort auswählt und zu diesem Zweck die Maus 128 oder die Tastatur 126 bedient, oder wenn er zur Auswahl des nächsten Wortes übergeht, macht die Auswahlkomponente 188 das zuletzt angezeigte zweite Kandidatenwort zum letztlich ausgewählten Ergebnis der Erkennung.
Der Benutzer wiederholt diesen Vorgang nach Bedarf, und die Auswahlkomponente 188 wählt in Reaktion auf diese Bedienung ein Wort aus, um Textdaten zu erzeugen.
Übrigens ist es zweckmäßig, wenn man die Auswahlkomponente 188 so arbeiten lässt, dass sie auf dem Monitor 102 nur ein zweites Kandidatenwort anzeigt, das mit hoher Wahrscheinlichkeit als Endergebnis der Erkennung ausgewählt wird, oder zweite Kandidatenwörter in der Reihenfolge höherer Wahrscheinlichkeit, als Endergebnis der Erkennung ausgewählt zu werden, durch Verwenden des Nachbarverhältnisses der Wörter beim Anzeigen der zweiten Kandidatenwörter.
Um die Beschreibung zu vereinfachen, wird nun ein spezielles Beispiel für das Erkennen japanischer Sprache gegeben. Die Kandidatenwort-Erzeugungskomponente 184 erkennt ein aus japanischen Sprachdaten „akai-hana" (mit der Bedeutung „rote Blume") erhaltenes Label als „takai-hana" („takai" bedeutet „teure" und „hana" bedeutet „Blume") und „takai-hana" (dieselbe Aussprache, aber „takai" bedeutet „hervorstehende" und „hana" bedeutet „Nase"). Die Hinzufügungskomponente für analoge Wörter 186 fügt des Weiteren ein analoges Wort „akaiwana" („akai" bedeutet „rote" und „wana" bedeutet „Falle") zu den beiden obigen Wörtern hinzu und gibt möglicherweise diese drei Wörter als zweite Kandidatenwörter an die Auswahlkomponente 188 aus. Wenn in diesem Fall in der Auswahlkomponente 188 festgestellt wird, dass die erste Hälfte des zweiten Kandidatenwortes „akai" („rot") ist, wird in Betracht gezogen, dass die Wahrscheinlichkeit der zweiten Hälfte des zweiten Kandidaten wahrscheinlich die Reihenfolge „hana" („Blume"), „hana" („Nase") und „wana" („Falle") haben wird. In einem solchen Fall kann die Auswahl eines Benutzers dadurch minimiert werden, dass man die Auswahlkomponente 188 auf „akai" („rote") folgend nur „hana" („Blume") und „hana" („Nase") anzeigen lässt, oder auf „akai" („rote") folgend hana" (Blume") hana" (Nase") und wana" (Falle") und zwar in dieser Reihenfolge.
Zum weiteren Verständnis wird nun ein anderes spezielles Beispiel für das Erkennen englischer Sprache, die von einem Nicht-Muttersprachler gesprochen wird, gegeben. Die Kandidatenwort-Erzeugungskomponente 184 erkennt ein Label, das aus englischen Sprachdaten „red rose", von einem Nicht-Muttersprachler gesprochen, erhalten wurde, als „red rose" und „lead roads". Die Hinzufügungskomponente für analoge Wörter 186 fügt des Weiteren ein analoges Wort „red nose" zu den obigen beiden Wörtern hinzu und gibt möglicherweise diese drei Wörter als zweite Kandidatenwörter an die Auswahlkomponente 188 aus. Wenn in diesem Fall festgestellt wird, dass die erste Hälfte des zweiten Kandidatenwortes „red" ist, wird in Betracht gezogen, dass die zweite Hälfte des zweiten Kandidatenwortes in der Reihenfolge „rose" und „nose" wahrscheinlich ist. In einem solchen Fall kann die Auswahl eines Benutzers dadurch minimiert werden, dass man die Auswahlkomponente 188 auf „red" folgend nur „rose" und „nose" anzeigen lässt.
Wenn die Verarbeitung in der Auswahlkomponente 188 so modifiziert wird, dass auf dem Monitor 102 nur ein zweites Kandidatenwort angezeigt wird, das Wahrscheinlichkeitsdaten entspricht, die einen Wert größer oder gleich einem zum Beispiel von einem Benutzer festgelegten Grenzwert haben, unter Verwendung von Wahrscheinlichkeitsdaten, die dem Ausgabedatensatz hinzugefügt sind, der von der Hinzufügungskomponente für analoge Wörter 186 eingegeben wurde, wird auf dem Monitor 102 nur ein zweites Kandidatenwort angezeigt, das mit hoher Wahrscheinlichkeit als Endergebnis der Erkennung ausgewählt wird, wodurch eine erforderliche Auswahloperation des Benutzers eingeschränkt wird.
Im Folgenden wird nun der Arbeitsprozess der Spracherkennung im Computer 1 mit Bezug auf 12 beschrieben. 12 ist ein Flussdiagramm, das den Arbeitsprozess der Spracherkennung der vorliegenden Erfindung im Computer 1 zeigt.
Um die Erklärung zu vereinfachen, wird in 12 nur der Grundprozess unter den Spracherkennungsprozessen der vorliegenden Erfindung gezeigt, und Arbeitsprozesse, die wie oben beschrieben die Wahrscheinlichkeitsdaten oder die Fehlerinformationen verwenden, sind weggelassen, wo dies angebracht ist.
Wie in 12 gezeigt, verarbeiten die Vektordaten-Erzeugungskomponente 180 und die Labelerzeugungskomponente 182 in Schritt 100 (S100) Sprachdaten eines von einem japanischen Benutzer ausgesprochenen Satzes (Einheit), um sie in eine Labelzeichenkette umzuwandeln. Die Labelzeichenkette eines Satzes, die von der Vektordaten-Erzeugungskomponente 180 und der Labelerzeugungskomponente 182 erzeugt wurde, wird in die Kandidatenwort-Erzeugungskomponente 184 eingegeben.
In Schritt 102 (S102) korreliert die Kandidatenwort-Erzeugungskomponente 184 die von der Labelerzeugungskomponente 182 eingegebene Labelzeichenkette eines Satzes mit einem ersten Kandidatenwort, gibt es an die Hinzufügungskomponente für analoge Wörter 186 in Form eines Eingabedatensatzes (InWord) wie in 8 gezeigt aus, und erzeugt des Weiteren eine Eingabedatensatz-Matrix (InMatrix), wie in 9 gezeigt, um sie an die Hinzufügungskomponente für analoge Wörter 186 auszugeben.
In Schritt 104 (S104) fragt die Hinzufügungskomponente für analoge Wörter 186 bei der Wortdatenbankkomponente 160 an, einen Wortdatensatz (5) eines ersten Kandidatenwortes abzurufen, das in einem Eingabedatensatz enthalten ist, der zu verarbeiten ist. Die Wortdatenbankkomponente sucht in Reaktion auf die Anfrage der Hinzufügungskomponente für analoge Wörter 186 unter Verwendung einer Indextabelle (4) und gibt, wenn als Ergebnis der Suche ein dem ersten Kandidatenwort (Eingabedatensatz) entsprechender Wortdatensatz erhalten wird, den erhaltenen Wortdatensatz an die Hinzufügungskomponente für analoge Wörter 186 aus und geht zum Prozess S106 über. Wenn kein Wortdatensatz, der dem ersten Kandidatenwort (Eingabedatensatz) entspricht, erhalten wird, geht die Wortdatenbankkomponente 160 zum Prozess S110 über.
In Schritt 106 (S106) verarbeitet die Hinzufügungskomponente für analoge Wörter 186 einen Datensatz analoger Wörter (6) eines von der Wortdatenbankkomponente 160 eingegebenen Wortdatensatzes und erhält ein dem ersten Kandidatenwort (Eingabedatensatz) entsprechendes analoges Wort.
In Schritt 108 (S108) wird das erhaltene analoge Wort dem ersten Kandidatenwort hinzugefügt, um ein zweites Kandidatenwort zu erzeugen.
In Schritt 110 (S110) ermittelt die Hinzufügungskomponente für analoge Wörter 186, ob alle in einem Satz enthaltenen Eingabedatensätze verarbeitet worden sind oder nicht, und geht, wenn alle Eingabedatensätze verarbeitet worden sind, zum Prozess S112 über. Wenn noch nicht alle Eingabedatensätze verarbeitet worden sind, wechselt die Hinzufügungskomponente für analoge Wörter 186 auf den nächsten Eingabedatensatz als zu verarbeitendes Element und kehrt zum Prozess 5104 zurück.
In Schritt 112 (S112) gibt die Hinzufügungskomponente für analoge Wörter 186 das in S108 erzeugte zweite Kandidatenwort in Form eines Ausgabedatensatzes, wie in 10 gezeigt, an die Auswahlkomponente 188 aus. Des Weiteren erzeugt die Hinzufügungskomponente für analoge Wörter 186 eine Ausgabedatensatz-Matrix (11), die dem zweiten Kandidatenwort entspricht, und gibt sie an die Auswahlkomponente 188 aus. Die Auswahlkomponente 188 zeigt das eingegebene zweite Kandidatenwort im Fenster des Bildes der grafischen Benutzeroberfläche auf dem Monitor 102 an und gibt das Endergebnis der Erkennung in Reaktion auf Benutzeraktionen als englische Textdaten aus.
Wenn das Verfahren der Auswahlkomponente 188 so modifiziert wird, dass auf dem Monitor 102 dem ausgewählten Wort hinzugefügte Fehlerinformationen angezeigt werden, wenn der Benutzer als Endergebnis der Erkennung ein Wort auswählt, das dem zweiten Kandidatenwort als analoges Wort in der Hinzufügungskomponente für analoge Wörter 186 hinzugefügt wurde, kann der Benutzer einen Fehler in seiner englischen Aussprache erkennen, so dass der Benutzer den Computer 1 zusätzlich zur Verwendung als Vorrichtung zur Spracherkennung als Vorrichtung zum Lernen englischer Aussprache verwenden kann. Als Verfahren zur Anzeige von Fehlerinformationen kann die Form des Mundes für richtige Aussprache angezeigt werden, oder eine richtige Aussprache kann zum Anhören durch den Benutzer sprachsynthetisiert werden.
Während in der oben beschriebenen Verfahrensweise beispielhaft ein Verfahren des Erkennens eines englischen Textes aus einem von einem Japaner gesprochenen Englisch gezeigt wird, ist der Arbeitsprozess der Spracherkennung der vorliegenden Erfindung aber nicht auf einen solchen Fall begrenzt und kann breit angewendet werden, um mit der Verringerung der Erkennungsquote umzugehen, bis zu einem Fall, in dem die Aussprache sogar in derselben Sprache unterschiedlich ist, so wie ein Fall, in dem ein Amerikaner, der amerikanisches Englisch spricht, unter Verwendung einer Spracherkennungsvorrichtung, die auf britisches Englisch eingestellt ist, einen Text aufbereitet, oder ein Fall, in dem eine bestimmte Person eine Besonderheit oder Undeutlichkeit in der Aussprache hat.
Da im Verfahren zur Spracherkennung der vorliegenden Erfindung in der Hinzufügungskomponente für analoge Wörter 186 dem ersten Kandidatenwort, das von der Kandidatenwort-Erzeugungskomponente 184 erkannt wurde, ein analoges Wort hinzugefügt wird, um ein zweites Kandidatenwort zu erzeugen, wird wie oben beschrieben die Spracherkennungsquote verbessert. Zweckmäßigerweise wird als spezielles Beispiel ein Fall beschrieben, in dem japanische Sprache durch den Computer 1 erkannt wird.
Zum Beispiel kann die Aussprache des „a"-Lautes aus irgendeinem Grund unklar sein, selbst wenn ein Benutzer „akai hana" („rote Blume") auf Japanisch aussprechen möchte, , und die Labelerzeugungskomponente 182 kann eine Labelzeichenkette erzeugen, die weder „akai hana" („rote Blume") noch "takai hana" („hervorstehende Nase") bedeutet.
Oder es kann als anderes Beispiel die Aussprache des „r"-Lautes aus irgendeinem Grund unklar sein, selbst wenn ein Benutzer „red rose" auf Englisch aussprechen möchte, , und die Labelerzeugungskomponente 182 kann eine Labelzeichenkette erzeugen, die weder „red rose" noch „lead nose" bedeutet.
Selbst wenn die Kandidatenwort-Erzeugungskomponente 184 „takai-hana" („hervorstehende Nase") als ein dieser Labelzeichenkette entsprechendes erstes Kandidatenwort auswählt und es an die Hinzufügungskomponente für analoge Wörter 186 ausgibt, kann die Hinzufügungskomponente für analoge Wörter 186 dem ersten Kandidatenwort als erstes der zweiten Kandidatenwörter „akai-hana" („rote Nase") und „takai-hana" („rote Blume") hinzufügen, wenn der Wortdatensatz passend vorbereitet ist. Deswegen wird das gemeinte „akai-hana" („rote Blume"), das im von der Kandidatenwort-Erzeugungskomponente 184 vorbereiteten Kandidatenwort nicht enthalten war, auch auf dem Monitor 102 angezeigt, was dem Benutzer erlaubt, aus den zweiten Kandidatenwörtern ein richtiges Erkennungsergebnis auszuwählen.
Oder die Hinzufügungskomponente für analoge Wörter 186 kann dem ersten Kandidatenwort „red rose" und „red nose" hinzufügen, selbst wenn die Kandidatenwort-Erzeugungskomponente 184 „leads nose" als ein dieser Labelzeichenkette entsprechendes erstes Kandidatenwort auswählt und es an die Hinzufügungskomponente für analoge Wörter 186 ausgibt. Deswegen wird das gemeinte „red nose", das im von der Kandidatenwort-Erzeugungskomponente 184 vorbereiteten Kandidatenwort nicht enthalten war, auch auf dem Monitor 102 angezeigt, was dem Benutzer erlaubt, aus den zweiten Kandidatenwörtern ein richtiges Erkennungsergebnis auszuwählen.
Während ein Verfahren zur Spracherkennung herkömmlicherweise in einer reinen Sprachverarbeitung durch Kombinieren eines grammatikalischen Analyse-Verfahrens (ein Substantiv wird gewöhnlich auf einer bestimmten Position in einem Satz platziert usw.) und eines Sprachmusterverfahrens (Wahrscheinlichkeit einer Reihe von Wörtern) ausgeführt wird, wird die Spracherkennungsquote deutlich verbessert und eine bemerkenswerte Wirkung erzielt, wenn entsprechend dem Verfahren zur Spracherkennung der vorliegenden Erfindung ein analoges Wort hinzugefügt wird, bevor solche Verfahren durchgeführt werden.
Wenn in dem in 3 gezeigten Spracherkennungsprogramm 16 als Ergebnis der Spracherkennung ein Kandidatenwort ausgewählt wird, bedeutet dies, dass sich die Aussprache des Benutzers (Sprechers) einem Muttersprachler annähert und so korrekt ist, dass sie mit hoher Erkennungsquote erkannt werden kann, selbst unter Verwendung einer herkömmlichen, anderen Vorrichtung zur Spracherkennung als bei der vorliegenden Erfindung. Wenn umgekehrt ein analoges Wort ausgewählt wird, bedeutet dies, dass die Aussprache des Sprechers irgendeinen Fehler oder eine Unklarheit enthält. Dies trifft zu für einen Fall, in dem das vom Benutzer gemeinte Wort im Spracherkennungsprogramm 16 im analogen Wort enthalten ist.
Dementsprechend ist zu sehen, dass der Sprecher beim Erlernen der Aussprache unterstützt wird und die Aussprache des Benutzers dadurch korrigiert werden kann, dass dem Sprecher Informationen (Aussprachekorrekturinformationen) darüber vorgelegt werden, in welcher Weise die Aussprache falsch ist und wie der Sprecher aussprechen sollte, um richtig auszusprechen, wenn das vom Benutzer gemeinte Wort als analoges Wort erkannt wird.
Das Verfahren zur Aussprachekorrektur, das im Folgenden als zweite Ausführungsform gezeigt wird, konzentriert sich auf diesen Punkt und modifiziert das als erste Ausführungsform gezeigte Spracherkennungsverfahren so, dass ein Bild angezeigt wird, das dem Sprecher Aussprachekorrekturinformationen zeigt, wenn festgestellt wird, dass die Aussprache des Sprechers unrichtig ist.
13 ist eine Darstellung, die die Konfiguration eines Computers 2 zeigt, der das Spracherkennungsverfahren und das Verfahren zur Aussprachekorrektur der vorliegenden Erfindung durchführt. Wenn nicht anders erwähnt, sind die in den folgenden Zeichnungen gezeigten Komponenten dieselben wie die in den vorangehenden Zeichnungen unter denselben Bezugszahlen gezeigten.
Wie in 13 gezeigt, verwendet der Computer 2 eine Konfiguration, bei der die Eingabeeinrichtung 120 des Computers 1 (1) durch eine Eingabeeinrichtung 130 ersetzt wird, die eine Struktur hat, in der der Eingabeeinrichtung 120 eine Bildeingabekarte 132 hinzugefügt ist. Die Bildeingabekarte 132 wird verwendet, um Bilddaten zum Beispiel mit einer Videokamera zu erfassen, die für ein Aussprachekorrekturbild (19) verwendet werden.
14 ist eine Darstellung, dies eine Software 20 zeigt, die das Spracherkennungsverfahren und das Verfahren zur Aussprachekorrektur der vorliegenden Erfindung durchführt. Wie in 14 gezeigt, verwendet die Software 20 eine Konfiguration, bei der das Spracherkennungsprogramm 16 der Software 14 (2) durch ein Spracherkennungs-/-korrekturprogramm 22 ersetzt wird.
Außer zwischen den Komponenten der Software 14 eingegebenen und ausgegebenen Daten wird auf einem Monitor 102 oder dergleichen statt des Erkennungsergebnisses (Textdaten) in der Software 14 ein Bild angezeigt, das Aussprachekorrekturinformationen zeigt (Aussprachekorrekturbild), um die Aussprache des Benutzers (Sprechers) zu korrigieren.
15 ist eine Darstellung, die die Konfiguration des in 14 gezeigten Spracherkennungs-/-korrekturprogramms 22 zeigt. Wie in 15 gezeigt, umfasst das Spracherkennungs-/-korrekturprogramm 22 ein Spracherkennungsprogramm 16 (3) und ein Aussprachekorrekturprogramm 24 (die Auswahlkomponente 188 ist weggelassen).
Im Gegensatz zum Spracherkennungsprogramm 16 gibt die Hinzufügungskomponente für analoge Wörter 186 im Spracherkennungs-/-korrekturprogramm 22 einen Datensatz analoger Wörter (18) an eine Vergleichskomponente 240 und eine Anzeigekomponente für Aussprachekorrekturinformationen 242 aus.
16 ist eine Darstellung, die ein Beispiel für das Ausspracheaufforderungsbild zeigt, das die in 15 gezeigte Steuerkomponente 162 anzeigt. 17(A), (B) sind Darstellungen, die ein Beispiel für einen Korrekturinformationsindex zeigen, der von der in 15 gezeigten Wortdatenbankkomponente 160 erzeugt wurde, in dem (A) ein Aussprachekorrekturbild zur Korrektur der Aussprache von „r" zeigt, und (B) ein Aussprachekorrekturbild zur Korrektur der Aussprache von „l". 18 ist eine Darstellung, die einen Datensatz analoger Wörter zeigt, der von der Wortdatenbankkomponente 160 im zweiten Ausführungsbeispiel erzeugt wurde.
Wie aus 16 ersichtlich, zeigt die Steuerkomponente 162 dem Benutzer ein Wort zum Aussprechen an („read" in 16), erzeugt zur Anzeige auf dem Monitor 102 ein Ausspracheaufforderungsbild, um ihn zum Aussprechen eines Wortes aufzufordern (in 16 ein Bild, das einen Text „Bitte sprechen Sie ,read' aus" enthält), und gibt ein dem Benutzer zum Aussprechen angezeigtes Wort (target word) an die Vergleichskomponente 240 aus.
Wenn ein Korrekturinformationscode (Ccode; 18) von der Anzeigekomponente für Aussprachekorrekturbilder 242 eingegeben wird, gibt die Steuerkomponente 162 den Korrekturinformationscode an die Wortdatenbankkomponente 160 aus und erhält von der Wortdatenbankkomponente 160 einen Korrekturinformationsindex (17(A), (B)), der durch den Korrekturinformationscode codiert ist. Des Weiteren liest die Steuerkomponente 162 aus der Speichereinrichtung 110 Bilddaten und Textdaten aus, die durch n Eingaben (n ist eine ganze Zahl; n=8 in 17(A), (B)) indiziert werden, die im Korrekturinformationsindex enthalten sind, und gibt sie an die Anzeigekomponente für Aussprachekorrekturbilder 242 aus.
19 ist eine Darstellung, die ein Beispiel für ein erstes Aussprachekorrekturbild zeigt, das durch den in 17(A) gezeigten Korrekturinformationsindex indiziert ist. In 19 sind die Textdaten, die den in 17(A) gezeigten Eingaben 5 bis 7 entsprechen, weggelassen, um die Veranschaulichung zu vereinfachen.
Die Kontrollkomponente 162 speichert zudem einen im Korrekturinformationsindex gemäß 17(A) enthaltenen Eintrag sowie Bilddaten (Image) und Textdaten (Text), wie in 19 gezeigt, in Korrelation miteinander in der Speichereinrichtung 110.
Der in 17(A) gezeigte Korrekturinformationsindex wird benutzt, um die Aussprache des Benutzers von „r" zu korrigieren, und enthält Einträgen (Einträge 1 bis 4, 8), die indizieren: Textdaten, die einen zu korrigierenden Punkt der Aussprache anzeigen, Bilddaten, die die Form des Mundes beim Aussprechen von „r" anzeigen, Bilddaten, die die Form des Mundes beim Aussprechen von „l" anzeigen, Textdaten, die einen Ratschlag zur Aussprache von „r" geben, ein Beispiel für ein Wort, das „r" enthält, ein Beispiel für ein Wort, das „l" enthält, Textdaten, die ein Beispiel für ein Wort zeigen, das „r" und „l" enthält, und Textdaten, die ein Beispiel für einen Satz zeigen, in dem „r" und „l" vorkommen. Ein Aussprachekorrekturbild wie in 19 gezeigt wird aus dem in 17(A) gezeigten Korrekturinformationsindex erzeugt und auf dem Monitor 102 angezeigt.
Der in 17(B) gezeigte Korrekturinformationsindex wird benutzt, um die Aussprache des Benutzers von „l" zu korrigieren und enthält: Textdaten, die einen zu korrigierenden Punkt der Aussprache anzeigen, Bilddaten der Form des Mundes beim Aussprechen von „l", Bilddaten der Form des Mundes beim Aussprechen von „r", Textdaten, die einen Ratschlag zur Aussprache von „l" geben, ein Beispiel für ein Wort, das „l" enthält, ein Beispiel für ein Wort, das „r" enthält, Textdaten, die ein Beispiel für ein Wort zeigen, das „r" und „l" enthält, und Textdaten, die ein Beispiel für einen Satz zeigen, in dem „r" und „l" vorkommen.
Die Wortdatenbankkomponente 160 erzeugt den in 17(A), (B) gezeigten Korrekturinformationsindex an Stelle der Fehlerinformationscode-Tabelle (7) im Unterschied zu demjenigen in der Software 14 und speichert ihn in der Speichereinrichtung 110 als Wortdaten.
Die Wortdatenbank 160 fügt dem Datensatz analoger Wörter an Stelle des Fehlercodes (Ecode; 6) auch einen Korrekturinformationscode (Ccode; Korrekturcode) hinzu, der einen der Korrekturinformationsindizes codiert, und speichert ihn wie in 18 gezeigt in der Speichereinrichtung 110.
Wenn ein Korrekturinformationscode von der Anzeigekomponente für Aussprachekorrekturbilder 242 über die Steuerkomponente 162 eingegeben wird, liest die Wortdatenbankkomponente 160 auch einen Korrekturinformationsindex (17(A), (B)), der dem eingegebenen Korrekturinformationscode (18) entspricht, aus der Speichereinrichtung 110 aus und gibt ihn an die Steuerkomponente 162 aus.
Die Vergleichskomponente 240 (15) vergleicht jedes der analogen Wörter, die in dem von der Hinzufügungskomponente für analoge Wörter 186 eingegebenen Datensatz analoger Wörter (18) enthalten sind, mit dem von der Steuerkomponente 162 eingegebenen Zielwort, um zu ermitteln, mit welchem der analogen Wörter das Zielwort übereinstimmt. Wenn das Zielwort mit dem analogen Wort übereinstimmt, benachrichtigt die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242 über dieses Ergebnis. Wenn der Vergleich zu keiner Übereinstimmung führt, benachrichtigt die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242 über dieses Ergebnis.
Wenn die Vergleichskomponente 240 feststellt, dass das analoge Wort mit einem der Zielwörter übereinstimmt, fragt die Anzeigekomponente für Aussprachekorrekturbilder 242 bei der Steuerkomponente 162 an, Bilddaten und Textdaten zu erhalten, die von dem Korrekturinformationsindex (17(A), (B)) indiziert sind, der durch den dem Datensatz analoger Wörter (18) hinzugefügten Korrekturinformationscode (Ccode) codiert ist.
Wenn die Steuerkomponente 162 die Bilddaten und die Textdaten aus der Speichereinheit 110 ausliest und sie an die Anzeigekomponente für Aussprachekorrekturbilder 242 ausgibt, setzt die Anzeigekomponente für Aussprachekorrekturbilder 242 diese Daten auf Positionen, die in 19 mit (a) bis (e) bezeichnet sind, und erzeugt ein Aussprachekorrekturbild zur Anzeige auf dem Monitor 102.
Im Folgenden wird nun die Arbeitsweise des Spracherkennungs-/-korrekturprogramms 22 beschrieben.
20 ist ein Flussdiagramm, das den Ablauf (S20) des Spracherkennungs-/-korrekturprogramms 22 (15) in der zweiten Ausführungsform zeigt. In Schritt 200 (S200) von 20 zeigt die Kontrollkomponente 162 in Reaktion auf eine Bedienungseingabe durch den Benutzer auf dem Monitor 102 ein Ausspracheaufforderungsbild an, das den Benutzer dazu veranlasst, ein Wort „read" auszusprechen, wie in 16 gezeigt. Die Steuerkomponente 162 gibt ein Zielwort „read" an die Vergleichskomponente 240 aus.
Wenn der Benutzer in Reaktion auf das Ausspracheaufforderungsbild „read" ausspricht, erkennen die Vektordaten-Erzeugungskomponente 180, die Labeldaten-Erzeugungskomponente 182, die Kandidatenwort-Erzeugungskomponente 184 und die Hinzufügungskomponente für analoge Wörter 186 des Spracherkennungsprogramms 16 (15) die vom Benutzer gemachte Sprachäußerung und geben einen Datensatz analoger Wörter an die Vergleichskomponente 240 und die Anzeigekomponente für Aussprachekorrekturbilder 242 aus.
Wenn der Benutzer „read" richtig ausspricht, gibt die Kandidatenwort-Erzeugungskomponente 184 Kandidatenwörter, unter denen sich das Wort „read" befindet, an die Hinzufügungskomponente für analoge Wörter 186 aus, die im Gegenzug einen Datensatz analoger Wörter (18), der das Wort „lead" und ähnliches als analoges Wort enthält, an die Vergleichskomponente 240 und die Anzeigekomponente für Aussprachekorrekturbilder 242 ausgibt, wie in der ersten Ausführungsform beschrieben.
Wenn hingegen der Benutzer „read" zum Beispiel dadurch falsch ausspricht, dass er es nicht schafft, zwischen der Aussprache von „r" und „l" zu unterscheiden, gibt die Kandidatenwort-Erzeugungskomponente 184 Kandidatenwörter, darunter ein Wort „lead" und ähnliches, als analoges Wort an die Hinzufügungskomponente für analoge Wörter 186 aus, die im Gegenzug einen Datensatz analoger Wörter, der das Wort „read" und ähnliches als analoges Wort enthält, an die Vergleichskomponente 240 und die Anzeigekomponente für Aussprachekorrekturbilder 242 aus.
In Schritt 202 (S202) vergleicht die Vergleichskomponente 240 das von der Steuerkomponente 162 eingegebene Zielwort mit den analogen Wörtern, die in dem von der Hinzufügungskomponente für analoge Wörter 186 eingegebenen Datensatz analoger Wörter enthalten sind. Wenn das Zielwort mit keinem der analogen Wörter übereinstimmt, benachrichtigt die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242 über dieses Ergebnis, beendet den Prozess des Korrigierens/Erlernens der Aussprache von „read", und geht zum Beispiel zum Prozess des Korrigierens/Erlernens der Aussprache des nächsten Wortes über. Andernfalls benachrichtigt die Vergleichskomponente 240 die Anzeigekomponente für Aussprachekorrekturbilder 242, dass das Zielwort mit einem der analogen Wörter übereinstimmt, und geht zum Prozess S204 über.
In Schritt 204 (S204) erhält die Anzeigekomponente für Aussprachekorrekturbilder 242 einen Korrekturinformationscode (Ccode) aus dem Datensatz analoger Wörter. Die Anzeigekomponente für Aussprachekorrekturbilder 242 gibt des Weiteren einen Korrekturinformationsdatensatz an die Steuerkomponente 162 aus und erfragt Bilddaten und Textdaten, die im Aussprachekorrekturbild verwendet werden.
Die Steuerkomponente 162 erhält von der Wortdatenbankkomponente 160 in Reaktion auf die Anfrage der Anzeigekomponente für Aussprachekorrekturbilder 242 einen Korrekturinformationsindex, wie in 17(A) gezeigt, und liest Bilddaten und Textdaten, die von entsprechenden Einträgen (Einträge 1 bis 4, 8) des Korrekturinformationsindex indiziert sind, zur Ausgabe an die Anzeigekomponente für Aussprachekorrekturbilder 242 aus.
In Schritt 206 (S206) erzeugt die Anzeigekomponente für Aussprachekorrekturbilder 242 ein Aussprachekorrekturbild, in dem Bilddaten und Textdaten, die den jeweiligen Einträgen (Einträge 1 bis 4, 8) des von der Steuerkomponente 162 eingegebenen Korrekturinformationsindexes entsprechen, zur Anzeige auf dem Monitor 102 in in 19 gezeigte Positionen (a) bis (e) gesetzt werden, beendet den Prozess für „read" und geht zum Beispiel zum Prozess des Korrigierens/Erlernens der Aussprache des nächsten Wortes über.
Während die zweite Ausführungsform einen Fall zeigt, in dem die Aussprachekorrekturinformationen nur Textdaten und Bilddaten enthalten, können die Aussprachekorrekturinformationen aber auch andere Arten von Daten enthalten. Zum Beispiel können die Aussprachekorrekturinformationen Sprachdaten einer richtigen Aussprache enthalten und auf dem Monitor 102 angezeigt werden, während Sprachdaten über den Lautsprecher 104 ausgegeben werden.
Während die zweite Ausführungsform einen Fall zeigt, in dem die analogen Wörter und der Aussprachekorrekturinformationscode in Korrelation miteinander behandelt werden, kann das Spracherkennungs-/-korrekturprogramm 22 darüber hinaus auch so konfiguriert sein, dass sie so behandelt werden, dass sie im in 6 gezeigten Datensatz analoger Wörter enthalten sind.
Während die zweite Ausführungsform einen Fall zeigt, in dem das Spracherkennungs-/-korrekturprogramm 22 nur die Aussprachekorrekturinformationen ausgibt, kann es darüber hinaus auch so konfiguriert sein, dass es sowohl die Aussprachekorrekturinformationen als auch die Fehlerinformationen ausgibt.
Während die zweite Ausführungsform einen Fall zeigt, in dem die Steuerkomponente ein Ausspracheaufforderungsbild und die Anzeigekomponente für Aussprachekorrekturbilder 242 Aussprachekorrekturinformationen auf dem Monitor 102 anzeigt, kann darüber hinaus das Spracherkennungs-/-korrekturprogramm 22 auch so konfiguriert sein, dass eine dieser Komponenten diese beiden Bilder auf dem Monitor 102 anzeigt.
Überdies muss nicht notwendigerweise jede im Aussprachekorrekturbild (19) angezeigte Information im Korrekturinformationsindex registriert sein.
Zum Beispiel können der zu korrigierende Punkt und die in 17(A) gezeigten Textdaten, die veranlassen, die Aussprache zu wiederholen, im Korrekturinformationsindex registriert sein oder im Voraus in das Aussprachekorrekturbild geschrieben worden sein, anstatt im Korrekturinformationsindex registriert zu sein, abhängig davon, auf welche Weise man das Spracherkennungs-/-korrekturprogramm 22 (15) strukturiert.
Ein Verfahren zum Erlernen der Aussprache, auf das das als zweite Ausführungsform gezeigte Verfahren zur Korrektur der Aussprache angewendet wird, wird nun als drittes Ausführungsbeispiel beschrieben. Das Verfahren zum Erlernen der Aussprache verbessert die Funktion des in 20 gezeigten Ausspracheerkennungs-/-korrekturprogramms 22 und lässt zusätzlich zu dem Aussprachekorrekturbild, das das in 16/19 gezeigte Ausspracheaufforderungsbild anzeigt, ein Aussprachekorrekturbild (21 bis 23) sichtbar machen, das ein erweitertes Lernen sowie Grundlagen der Aussprache zur Bequemlichkeit des Erlernens der Aussprache durch den Benutzer anzeigt.
21 bis 23 sind Darstellungen, die Beispiele des zweiten bis vierten Aussprachekorrekturbildes zeigen, die im Verfahren zum Erlernen der Aussprache verwendet werden, das als dritte Ausführungsform gezeigt wird. In der dritten Ausführungsform stellt das Spracherkennungs-/-korrekturprogramm 22 zusätzlich zu den in 16 und 19 gezeigten Aussprachekorrekturbildern die in 21 bis 23 gezeigten Aussprachekorrekturbilder dar.
Das in 21 gezeigte zweite Aussprachekorrekturbild wird dargestellt, wenn das Spracherkennungs-/-korrekturprogramm 22 feststellt, dass der Benutzer durch das Betrachten des ersten Aussprachekorrekturbildes (19) „read" richtig ausgesprochen hat, und wird verwendet, um zu bestätigen, dass der Benutzer mit korrekter Unterscheidung zwischen „r" und „l" ausspricht.
Das zweite Aussprachekorrekturbild wird erst dargestellt, wenn der Benutzer auf das erste Aussprachekorrekturbild hin „read" richtig ausspricht, und es wird so lange wiederholt dargestellt, bis der Benutzer alle der Wörter „write", „raw", „long", „light" ausspricht, die im zweiten Aussprachekorrekturbild angezeigt werden.
Das zweite Aussprachekorrekturbild enthält auch die Einträge 5 und 6 des Korrekturinformationsindexes (17(A)), was im ersten Aussprachekorrekturbild ausgelassen war.
Das in 22 gezeigte dritte Aussprachekorrekturbild wird dargestellt, wenn das Spracherkennungs-/-korrekturprogramm 22 feststellt, dass der Benutzer die Wörter im zweiten Aussprachekorrekturbild (21) richtig ausgesprochen hat, und es wird für weiteres fortgeschrittenes Training der Unterscheidung zwischen „r" und „l" verwendet.
Das dritte Aussprachekorrekturbild wird erst dargestellt, wenn der Benutzer alle im zweiten Aussprachekorrekturbild angezeigten Wörter richtig ausspricht, und so lange wiederholt dargestellt, bis der Benutzer alle im dritten Aussprachekorrekturbild angezeigten Sätze „write letters", „great trouble" ausspricht.
Das zweite Aussprachekorrekturbild enthält auch den Eintrag 7 des Korrekturinformationsindexes (17(A)), die im ersten Aussprachekorrekturbild ausgelassen war. Das in 23 gezeigte vierte Aussprachekorrekturbild wird dargestellt, wenn das Spracherkennungs-/-korrekturprogramm 22 feststellt, dass der Benutzer alle Sätze im dritten Aussprachekorrekturbild (22) richtig ausgesprochen hat, und es wird verwendet, um zu bestätigen, dass der Benutzer „r" und „l" deutlich unterschiedlich aussprechen kann.
Das vierte Aussprachekorrekturbild wird erst dargestellt, wenn der Benutzer alle im dritten Aussprachekorrekturbild angezeigten Sätze richtig ausspricht, und es wird so lange wiederholt dargestellt, bis der Benutzer den Satz „The river rose several feet and finally overflowed its banks" richtig ausspricht.
Im Folgenden wird die Arbeitsweise des Spracherkennungs-/-korrekturprogramms 22 in der dritten Ausführungsform beschrieben.
24 ist ein Flussdiagramm, das die Arbeitsweise des Spracherkennungs-/-korrekturprogramms 22 (S30) in der dritten Ausführungsform zeigt. 25 ist eine Darstellung, die ein Beispiel einer Liste von Lernelementen zeigt, die in dem in 24 gezeigten Auflistungsprozess (S300) der Lernelemente erzeugt wird.
Wie in 24 gezeigt, vergleicht das Spracherkennungs-/-korrekturprogramm 22 in Schritt 300 (S300) ein Zielwort mit analogen Wörtern, um ein Zielwort zu erhalten, das mit einem analogen Wort übereinstimmt. Das Spracherkennungs-/-korrekturprogramm 22 ermittelt des Weiteren, welche Aussprache der Benutzer im erhaltenen Zielwort nicht gut ausspricht (zum Beispiel „r", „th"), und listet sie wie in 25 gezeigt als Lernelement auf.
In Schritt 302 (S302) stellt das Spracherkennungs-/-korrekturprogramm 22 fest, ob das im Prozess S300 aufgelistete Lernelement ungelernt bleibt oder nicht. Das Spracherkennungs-/-korrekturprogramm 22 geht zum Prozess S304 über, wenn ein Lernelement bleibt, während es anderenfalls den Prozess beendet.
In Schritt 304 (S304) nimmt das Spracherkennungs-/-korrekturprogramm 22 eines der Prozess S300 aufgelisteten Lernelemente heraus.
In Schritt 306 (S306) zeigt das Spracherkennungs-/-korrekturprogramm 22 ein Ausspracheaufforderungsbild (16) und ein Aussprachekorrekturbild (19) an, wie in der zweiten Ausführungsform gezeigt, um den Benutzer die Aussprache lernen zu lassen.
In Schritt 308 (S308) erkennt das Spracherkennungs-/-korrekturprogramm 22 die Aussprache des Benutzers und stellt fest, dass der Benutzer richtig ausgesprochen hat, wenn das als ein Ergebnis der Erkennung erhaltene Wort mit einem Kandidatenwort übereinstimmt, und geht zum Prozess S310 über. Anderenfalls wird festgestellt, dass der Benutzer nicht richtig ausgesprochen hat, und das Spracherkennungs-/-korrekturprogramm 22 kehrt zum Prozess S306 zurück.
In Schritt 310 (S310) stellt das Spracherkennungs-/-korrekturprogramm 22 fest, ob es eine Übung gibt, die beim Lernen nicht verwendet wurde (zweites bis viertes Aussprachekorrekturbild; 21 bis 23). Wenn eine Übung verbleibt, geht das Spracherkennungs-/-korrekturprogramm 22 zum Prozess S312 über, während es anderenfalls zum Prozess S302 übergeht.
In Schritt 312 (S312) zeigt das Spracherkennungs-/-korrekturprogramm 22 eines der zweiten bis vierten Aussprachekorrekturbilder an, um den Benutzer die Aussprache lernen zu lassen.
In Schritt 314 (S314) stellt das Spracherkennungs-/-korrekturprogramm 22 fest, ob der Benutzer richtig aussprechen konnte, und geht zum Prozess S316 über, wenn der Benutzer richtig ausgesprochen hat. Anderenfalls kehrt es zum Prozess S312 zurück.
In Schritt 316 (S316) stellt das Spracherkennungs-/-korrekturprogramm 22 fest, ob es in der Aussprache des Benutzers einen anderen Fehler als die im Prozess S300 aufgelisteten Lernelemente gibt. Wenn es solch einen Fehler gibt, geht das Spracherkennungs-/-korrekturprogramm 22 zum Prozess S318 über, während es anderenfalls zum Prozess S310 zurückkehrt.
In Schritt 318 (S318) fügt das Spracherkennungs-/-korrekturprogramm 22 den im Prozess S316 gefundenen Fehler in der Aussprache des Benutzers den Lernelementen hinzu und kehrt zum Prozess S310 zurück.

Claims

Vorrichtung zur Spracherkennung (1) zum Erkennen von Wörtern aus Sprachdatenelementen, die ein oder mehrere in einer Sprachäußerung enthaltene Wörter repräsentieren, umfassend: Kandidatenwort-Korrelierungsmittel zum Korrelieren (184) eines jeden von einem oder mehreren der Sprachdatenelemente mit einem oder mehreren Gruppen von Kandidatenwörtern, die eines oder mehrere der Kandidatenwörter umfassen, die durch Erkennen eines jeden von einem oder mehreren der Sprachdatenelemente erhalten wurden; Korreliermittel für analoge Wörter zum Korrelieren (186) eines jeden der korrelierten Kandidatenwörter mit null oder mehreren Gruppen von einem oder mehreren analogen Wörtern, die einer Aussprache eines jeden der Kandidatenwörter entsprechen; und Sprachdatenerkennungsmittel zum Auswählen (188) eines Wortes aus einer Gruppe, bestehend aus dem Kandidatenwort, das mit jedem von einem oder mehreren der Sprachdatenelemente korreliert wurde, und den analogen Wörtern, die als Ergebnis der Erkennung eines jeden der Sprachdatenelemente der Wörter mit jedem der Kandidatenwörter korreliert wurden.
Vorrichtung zur Spracherkennung nach Anspruch 1, in der: die Sprachdatenelemente ein oder mehrere Wörter repräsentieren, die in einer Sprachäußerung einer vorbestimmten Sprache enthalten sind; das Kandidatenwort-Korrelierungsmittel jedes von einem oder mehreren Sprachdatenelementen der Wörter mit einer oder mehreren Gruppen von Kandidatenwörtern der vorbestimmten Sprache korreliert, die durch Erkennen von jedem der ein oder mehreren Sprachdatenelemente erhalten wurden; das Korrelierungsmittel für analoge Wörter jedes der korrelierten Kandidatenwörter mit null oder mehreren Gruppen von analogen Wörtern der vorbestimmten Sprache korreliert, die der Aussprache eines jeden der Kandidatenwörter entsprechen; und das Sprachdaten-Erkennungsmittel ein Wort auswählt aus einer Gruppe, bestehend aus dem Kandidatenwort, das mit jedem der ein oder mehreren Sprachdatenelemente korreliert wurde, und den analogen Wörtern, die als Ergebnis der Erkennung von jedem der ein oder mehreren Sprachdatenelemente mit jedem der Kandidatenwörter korreliert wurden.
Vorrichtung zur Spracherkennung nach Anspruch 2, in der: das Kandidatenwort-Korrelierungsmittel jedes der mit den Sprachdatenelementen korrelierten Kandidatenwörter mit Wahrscheinlichkeitsdaten verbindet, die eine Wahrscheinlichkeit eines jeden der mit den Sprachdatenelementen korrelierten Kandidatenwörter anzeigen; und das Sprachdaten-Erkennungsmittel als Ergebnis der Erkennung der Sprachdatenelemente nur das Kandidatenwort auswählt, das einen Wert der Wahrscheinlichkeitsdaten innerhalb eines vorbestimmten Bereichs hat.
Vorrichtung zur Spracherkennung nach Anspruch 2, in der: das Kandidatenwort-Korrelierungsmittel jedes der mit den Sprachdatenelementen korrelierten Kandidatenwörter mit Fehlerinformationen verbindet, die einen Aussprachefehler anzeigt, der jedem der Kandidatenwörter entspricht.
Vorrichtung zur Spracherkennung nach Anspruch 1, die weiter umfasst: Ausgabemittel für Aussprachekorrekturdaten zur Ausgabe von Aussprachekorrekturdaten für ein Wort, das von einem oder mehreren Sprachdatenelementen repräsentiert wird, wenn das Wort mit einem analogen Wort übereinstimmt.
Verfahren zur Spracherkennung zum Erkennen von Wörtern aus Sprachdatenelementen, die ein oder mehrere in einer Sprachäußerung enthaltene Wörter repräsentieren, umfassend die Schritte: Korrelieren (184) eines jeden von einem oder mehreren der Sprachdatenelemente von Wörtern mit einer oder mehreren Gruppen von Kandidatenwörtern, die eine Kombination eines oder mehrerer der Kandidatenwörter umfassen, die durch Erkennen eines jeden von einem oder mehreren der Sprachdatenelemente erhalten wurden; Korrelieren (186) eines jeden der korrelierten Kandidatenwörter mit null oder mehreren Gruppen aus einem oder mehreren analogen Wörtern, die einer Aussprache eines jeden der Kandidatenwörter entsprechen; und Auswählen (188) eines Wortes aus einer Gruppe, bestehend aus dem Kandidatenwort, das mit jedem von einem oder mehreren der Sprachdatenelemente korreliert wurde, und den analogen Wörtern, die als Ergebnis der Erkennung von jedem der Sprachdatenelemente mit jedem der Kandidatenwörter korreliert wurden.
Verfahren zur Spracherkennung nach Anspruch 6, weiter umfassend den Schritt: Ausgeben von Aussprachekorrekturdaten für ein Wort, das von einem oder mehreren Sprachdatenelementen repräsentiert wird, wenn das Wort mit einem analogen Wort übereinstimmt.
Computerprogrammprodukt, umfassend einen auf einem computerlesbaren Speichermedium gespeicherten Computerprogrammcode, der, wenn er auf einem Datenverarbeitungssystem ausgeführt wird, das Datenverarbeitungssystem anweist, das Verfahren nach Anspruch 6 oder Anspruch 7 durchzuführen.