DE69928181T2

DE69928181T2 - Verfahren und Vorrichtung zur Spracherkennung unter Verwendung einer Wissensbasis

Info

Publication number: DE69928181T2
Application number: DE69928181T
Authority: DE
Inventors: Naoko Yamamoto; Aruna Rohra Suda; Masanori Wakai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-07-27
Filing date: 1999-07-26
Publication date: 2006-07-13
Anticipated expiration: 2019-07-27
Also published as: EP0977175A3; DE69928181D1; JP2000105596A; JP4438028B2; US6598017B1; EP0977175B1; EP0977175A2

Description

HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf eine Spracherkennung und insbesondere auf ein Verfahren und eine Vorrichtung zum Erkennen von Sprachinformationen basierend auf einer ein zu erkennendes Objekt betreffenden Prädiktion bzw. Vorhersage. Die Erfindung bezieht sich auf ein Speichermedium zum Speichern eines das vorstehende Verfahren realisierenden Programms.
Beschreibung des relevanten Stands der Technik
Die Spracherkennung ist in erster Linie in zwei Arten von Verfahren aufgeteilt, das heißt ein Wortspracherkennungsverfahren und ein Satzgliedspracherkennungsverfahren. Gemäß dem Wortspracherkennungsverfahren wird ein Eingabesprachsignalverlauf analysiert, und es werden Merkmale aus dem Signalverlauf extrahiert, um eine Merkmalszeitreihe zu erzeugen. Daraufhin wird die Ähnlichkeit der Merkmale in Bezug zu dem durch die Merkmalszeitreihe, die auf ähnliche Weise erhalten worden ist, dargestellten Wortverzeichnis berechnet, und das berechnete Wort wird als ein Erkennungsergebnis ausgegeben. Bei dem Satzgliedspracherkennungsverfahren wird eingegebene Rede bzw. Sprache in Phonemfolgen gewandelt, die durch Wortfolgen ersetzt werden. Wortfolgen werden daraufhin geparst und in Zeichenfolgen gewandelt. Daraufhin werden logische Analysen und semantische Analysen bei den Zeichenfolgen ausgebildet, so dass ein Satz erzeugt und ausgegeben wird. Es wird weitere Forschung an einem Verfahren zum Bereitstellen von Wortklasseninformationen für Homonyme und einem Verfahren zum Wandeln von eingegebener Sprache in zusammengesetzte Hauptwörter oder in ein einzelnes Satzglied durchgeführt. Es ist jedoch schwierig, derartige Verfahren zu realisieren.
In den meisten Fällen erkennen Menschen während eines Gesprächs die Stimme bzw. Äußerung des Sprechers, indem sie sie als eine Bedeutung verstehen. Während der Sprecher spricht unterstützt der Zuhörer sein/ihr Verständnis durch ein Vorhersagen des Inhalts der Sprache in gewissem Maße gemäß dem vorhergehenden Thema und dem gesunden Menschenverstand. Folglich versteht der Zuhörer selbst dann, wenn der Sprecher einige Wörter falsch auswählt oder ausspricht, ihn/sie ohne ein Problem. Selbst wenn viele Homonyme in einem Gespräch vorhanden sind, kann der Zuhörer bestimmen, welches Wort der Sprecher meint.
Im Gegensatz dazu führen bekannte Spracherkennungssysteme eine Spracherkennung gemäß einem Mustervergleich durch. Genauer wird ein für ein System bereitgestelltes Verzeichnis nach möglichen Wörtern durchsucht, die zu einem bestimmten Abschnitt eines Eingabesprachsignalverlaufs passen, und die gesuchten Wörter werden ausgegeben. Unter den ausgegebenen Wörtern wird das optimale Wort ausgewählt. Mit dieser Anordnung wird die nachfolgende Verarbeitung verdorben, falls die Spracherkennung fehlschlägt, während sie durchgeführt wird.
Zusätzlich wird es bei den meisten bekannten Spracherkennungssystemen angenommen, dass eine zu erkennende eingegebene Rede die Syntax einer bestimmten Sprache erfüllt. Somit werden in einem Spracherkennungsmodul verschiedene Bestimmungen ausgebildet, und das Bestimmungsergebnis wird zu einem anderen Prozess (anderen Modul) transferiert. Genauer werden in einem Spracherkennungsmodul Sprachinformationen eindeutig als ein Systembefehl bestimmt, indem sie gefiltert (geparst) werden. Nicht nur eine Verarbeitung für grammatikalisch richtige Sprache, sondern auch eine Verarbeitung für unnötige Wörter wie beispielsweise Interjektionen und neu formulierte Wörter und für nicht grammatikalische Sprache wie beispielsweise eine Anastrophe (Inversion) und ein Partikelabwurf werden durch eine Sprachverarbeitung (die derartige Wörter gegen eine Wortdatenbank oder eine Grammatikdatenbank verifiziert) gehandhabt.
Da jedoch das Parsen zum Analysieren der Struktur der Syntax durchgeführt wird, werden andere Elemente als Syntaxinformationen abgelehnt. Selbst wenn nach einem Parsen ein Wort als ein bedeutsames Wort bestimmt wird, werden ein allgemeines Wissen oder ein Wissen eines spezifischen Felds nicht berücksichtigt.
Ein Beispiel für bekannte Spracherkennungssysteme ist in 42 gezeigt. Da der Ablauf der bei eingegebener Sprache ausgeführten Verarbeitung unidirektional ist, fährt die Systemverarbeitung selbst dann fort, in der gleichen Richtung weiterzugehen, wenn das Verarbeitungsergebnis eines Spracherkennungsmoduls unrichtig ist. Eine Eingabe, die als syntaktisch richtig bestimmt wird, aber bei einem Durchführen der Spracherkennung nicht durch das gesamte System verarbeitet werden kann, wird zum Beispiel nachteiligerweise empfangen und kommt als ein Fehler zurück. Das heißt, eine Spracherkennungseinheit und das ganze System führen eine Verarbeitung getrennt durch, ohne zusammenzuarbeiten, wodurch sie es nicht schaffen, eine komplizierte Verarbeitung zu realisieren. Als Folge wird die Leistungsfähigkeit des gesamten Systems ernstlich durch das Ergebnis der Spracherkennung beeinflusst.
Die JP-A-05080793 beschreibt eine interaktive Verständnisvorrichtung, die eine Spracherkennungsvorrichtung und einen Wortprädiktor, der zum Beschränken eines durch die Spracherkennungsvorrichtung verwendeten Vokabulars zum Verbessern einer Erkennungseffizienz arbeitet, einschließt.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß einer Ausgestaltung stellt die Erfindung eine Sprachinformationsverarbeitungsvorrichtung bereit, die umfasst:
eine Kontextbasis zum Speichern von eine Kategorie von anschließend zu erkennenden Wörtern darstellenden Vorhersageinformationen;
eine Erkennungseinrichtung zum Erkennen eines Worts basierend auf der durch die in der Kontextbasis gespeicherten Vorhersageinformationen dargestellten Kategorie von Wörtern;
eine Wissensbasis zum Speichern von eine Kategorie von Sprachinformationen betreffendem Wissen;
eine Vorhersageeinrichtung zum Vorhersagen der Kategorie von anschließend zu erkennenden Wörtern basierend auf zumindest einem vorher erkannten Wort mit Bezug auf das in der Wissensbasis gespeicherte Wissen; und
eine Aktualisierungseinrichtung zum Aktualisieren der in der Kontextbasis gespeicherten Vorhersageinformationen basierend auf der durch die Vorhersageeinrichtung erhaltenen Kategorie von Wörtern;
dadurch gekennzeichnet, dass:
die Vorrichtung ferner eine Bestimmungseinrichtung zum Bestimmen, ob eingegebene Toninformationen Sprachinformationen sind oder nicht, mit Bezug auf das in der Wissensbasis gespeicherte Wissen umfasst; und dass
die Erkennungseinrichtung zum Durchführen der Erkennung bei den eingegebenen Toninformationen, wenn die Bestimmungseinrichtung bestimmt, dass die eingegebenen Toninformationen Sprachinformationen sind, ausgelegt ist.
Gemäß einer anderen Ausgestaltung stellt die vorliegende Erfindung ein Sprachinformationsverarbeitungsverfahren bereit, das umfasst:
einen Erkennungsschritt des Erkennens eines Worts basierend auf einer Kategorie von anschließend zu erkennenden Wörtern, die durch in einer Kontextbasis gespeicherte Vorhersageinformationen dargestellt wird;
einen Vorhersageschritt des Vorhersagens der Kategorie von anschließend zu erkennenden Wörtern basierend auf zumindest einem vorher erkannten Wort mit Bezug auf eine Kategorie von Sprachinformationen betreffendes Wissen, das in einer eine Kategorie von Sprachinformationen betreffenden Wissensbasis gespeichert ist; und
einen Aktualisierungsschritt des Aktualisierens der in der Kontextbasis gespeicherten Vorhersageinformationen basierend auf der in dem Vorhersageschritt erhaltenen Kategorie von Wörtern;
gekennzeichnet durch einen Bestimmungsschritt des Bestimmens, ob eingegebene Toninformationen Sprachinformationen sind oder nicht, mit Bezug auf das in der Wissensbasis gespeicherte Wissen; und dadurch, dass der Erkennungsschritt die Erkennung bei den eingegebenen Toninformationen durchführt, wenn in dem Bestimmungsschritt bestimmt wird, dass die eingegebenen Toninformationen Sprachinformationen sind.
Andere Ziele und Vorteile neben den vorstehend erörterten werden für den Fachmann aus der Beschreibung eines bevorzugten Ausführungsbeispiels der Erfindung ersichtlich, die folgt. In der Beschreibung ist auf beigefügte Zeichnungen Bezug genommen, die einen Teil davon bilden und die ein Beispiel für die Erfindung veranschaulichen. Ein derartiges Beispiel ist jedoch nicht erschöpfend für die verschiedenen Ausführungsbeispiele der Erfindung.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 veranschaulicht den Aufbau der Hardware einer Verarbeitungsvorrichtung für natürliche Sprache gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
2 veranschaulicht eine Systemarchitektur;
3 veranschaulicht eine Realisierungsbetriebsart bei der Spracherkennung;
4 veranschaulicht den Überblick des Verstehens von durch Menschen ausgegebener Sprache;
5 veranschaulicht eine Eingabeverarbeitung;
6 veranschaulicht den Aufbau eines Systems;
7 veranschaulicht einen schematischen Ablauf der Systemverarbeitung;
8 zeigt ein Flussdiagramm, das die durch die gesamte Vorrichtung durchgeführte Verarbeitung schematisch veranschaulicht;
9 zeigt ein Flussdiagramm, das eine Analyseprozedur des Prozessergebnisses veranschaulicht;
10 zeigt ein Flussdiagramm, das die Vorhersageinformationen widerspiegelnde Erkennungsverarbeitung veranschaulicht;
11 zeigt ein Flussdiagramm, das den Ablauf der Spracherkennungsverarbeitung veranschaulicht;
12 zeigt ein Flussdiagramm, das den Ablauf des Bestimmens der Art von eingegebenem Ton veranschaulicht;
13 veranschaulicht zwei Vorhersagetechniken;
14 und 15 veranschaulichen die Klassifizierung der Kategorien von Wörtern;
16 zeigt ein Flussdiagramm, das die Prozedur des Einstellens der Anfangsvorhersage veranschaulicht;
17 zeigt ein Flussdiagramm, das die Worterkennungsverarbeitung veranschaulicht;
18 zeigt ein Flussdiagramm, das die Silbenerkennungsverarbeitung veranschaulicht;
19 zeigt ein Flussdiagramm, das eine Vergleichsverarbeitung zwischen dem Silbenerkennungsergebnis und dem für das System bereitgestellten Wort veranschaulicht;
20 und 21 zeigen Flussdiagramme, die die Verarbeitung des Bestimmens der Ähnlichkeit von Silben veranschaulichen;
22 zeigt ein Flussdiagramm, das die Verarbeitung des Berechnens der Ähnlichkeit des entsprechenden Worts durch ein Nutzen der Ähnlichkeit von Silben und der Erkennungszeit veranschaulicht;
23 zeigt ein Flussdiagramm, das die Angabeverarbeitung veranschaulicht;
24 veranschaulicht die Parametereinstellungs-/ Ergebnisangabebildschirmdarstellung;
25 veranschaulicht ein Beispiel für ein Silbenverzeichnis;
26 veranschaulicht ein Beispiel für ein Wortverzeichnis;
27 veranschaulicht den Zustandsübergang des Kontexts für eine Vorhersage einer nachfolgenden Eingabe;
28 zeigt ein Flussdiagramm, das die Verarbeitung des Erzeugens einer Antwort an den Benutzer veranschaulicht;
29 veranschaulicht ein Beispiel für ein Sprachverzeichnis;
30 veranschaulicht ein Beispiel für ein Konzeptverzeichnis;
31 veranschaulicht ein Beispiel für Regeln;
32 veranschaulicht ein Beispiel für ein Wortverzeichnis;
33 veranschaulicht ein Beispiel für Silbenerkennungsergebnisse;
34 veranschaulicht einen Vergleichsalgorithmus mit dynamischer Programmierung (DP);
35 veranschaulicht ein Beispiel für ein Wortverzeichnis;
36 veranschaulicht ein Beispiel für Silbenerkennungsergebnisse;
37 zeigt ein Flussdiagramm, das die Verarbeitung des Bestimmens eines Erkennungsergebnisses und des Bestimmens, ob das Erkennungsergebnis anzunehmen ist, veranschaulicht;
38 zeigt ein Flussdiagramm, das die Erkennungsergebnisanalyseverarbeitung veranschaulicht;
39 zeigt ein Flussdiagramm, das eine Konzeptanalyse und die Verarbeitung des Bestimmens eines Analyseergebnisses veranschaulicht;
40 zeigt ein Flussdiagramm, das die Ergebnisberichtigungsverarbeitung veranschaulicht;
41 zeigt ein Flussdiagramm, das die Verarbeitung des Neubestimmens des vorhergehenden Erkennungsergebnisses veranschaulicht; und
42 veranschaulicht eine bekannte Eingabeverarbeitung.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung sind nachstehend unter Bezugnahme auf die beigefügten Zeichnungen ausführlich beschrieben.
Erstes Ausführungsbeispiel
Nachstehend ist eine ausführliche Beschreibung eines ersten Ausführungsbeispiels der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen angegeben.
Es wird zuerst eine Erörterung des Aufbaus der Hardware zur Verwendung in einer Verarbeitungsvorrichtung für natürliche Sprache gemäß dem ersten Ausführungsbeispiel der vorliegenden Erfindung angegeben. Mit Bezug auf das in 1 gezeigte Blockschaltbild, das den Aufbau der Hardware veranschaulicht, gibt eine Eingabeeinheit 101 Informationen durch die Verwendung einer natürlichen Sprache ein. Es ist nicht wesentlich, dass die eingegebenen Informationen ein grammatikalisch vollständiger Satz sind, solange sie eine reguläre Struktur aufweisen.
Die Eingabeeinheit 101 ist nicht auf ein Spracherkennungssystem zum Eingeben und Erkennen von Sprache begrenzt und kann eine Tastatur zum Eingeben von Zeichen durch Tasten, eine Zeichenerkennungsleseeinrichtung zum optischen Lesen von Zeichen aus einem Dokument und Erkennen derselben, eine Online-/Offline-Erkennungsleseeinrichtung für handgeschriebene Zeichen oder eine Empfangseinheit zum Empfangen von Informationen von einem anderen System, zum Beispiel von einem Zeichenerkennungssystem, sein. Alternativ können zwei der vorstehenden Eingabeeinheiten kombiniert und selektiv als die Eingabeeinheit 101 genutzt werden.
Eine CPU 102 führt Berechnungen und Boole'sche Operationen für verschiedenartige Verarbeitung durch und steuert die einzelnen mit einem Bus 106 verbundenen Elemente. Eine Ausgabeeinheit 103 gibt analysierte Dateninformationen aus und kann eine Sprachsyntheseeinheit zum Synthetisieren von Sprache aus Zeicheninformationen und Ausgeben derselben, eine Anzeigeeinheit wie beispielsweise eine Kathodenstrahlröhre (CRT) oder eine Flüssigkristallanzeigeeinheit, ein Drucker zum Drucken von Zeichen auf ein Dokument oder eine Übertragungseinrichtung zum Übertragen von Informationen zu einer anderen Einheit wie beispielsweise einer Datenbank sein. Die Ausgabe von der Ausgabeeinheit 103 kann in eine andere Ausgabeeinheit innerhalb der gleichen Vorrichtung, zum Beispiel in eine Konzeptanalyseeinheit, eingegeben werden. Alternativ können zwei der vorstehend beschriebenen Einheiten kombiniert und selektiv als die Ausgabeeinheit 103 genutzt werden.
Ein Programmspeicher 104 speichert ein Programm einschließlich der durch die CPU 102 gesteuerten Verarbeitungsprozedur, die nachstehend unter Bezugnahme auf ein Flussdiagramm beschrieben wird. Der Programmspeicher 104 kann ein Nur-Lese-Speicher (ROM) oder ein Schreib-Lese-Speicher mit wahlfreiem Zugriff (RAM), in den das Programm von einer externen Speichervorrichtung geladen wird, sein.
Ein Datenspeicher 105 speichert nicht nur durch verschiedenartige Verarbeitung erzeugte Daten, sondern auch eine Wissensbasis, die nachstehend erörtert wird. Der Datenspeicher 105 kann ein RAM sein, aber in der Wissensbasis enthaltenes Wissen wird aus einem nichtflüchtigen externen Speichermedium in den Datenspeicher 105 geladen, bevor die Verarbeitung ausgeführt wird, oder wird jedes Mal überprüft, wenn der Bedarf entsteht. Der Bus 106 wird zum Übertragen von Adresssignalen, die den einzelnen durch die CPU 102 gesteuerten Elementen eine Anweisung zuweisen, und zum Transferieren von zwischen den einzelnen Einheiten auszutauschenden Daten verwendet.
2 zeigt ein Blockschaltbild, das den grundlegenden Aufbau einer Informationsverarbeitungsvorrichtung gemäß dem ersten Ausführungsbeispiel veranschaulicht. Die Informationsverarbeitungsvorrichtung führt eine Verarbeitung unter Verwendung von Wissen der Wissensbasis durch. 2 veranschaulicht den Ablauf der unter Verwendung dieses Wissens ausgeführten Verarbeitung.
Die Informationsverarbeitungsvorrichtung umfasst eine Eingabeverarbeitungseinheit 201 zum Ausführen einer Verarbeitung bei den einzelnen eingegebenen Signalen zum Erhalten von eingegebenen Informationen. Eine Kontextaufbau-/Zielfolgerungseinheit 202 führt Konzeptanalysen bei dem Inhalt von von der Eingabeeinheit 101 eingegebenen Informationen von natürlicher Sprache unter Nutzung des Wissens einer Wissensbasis 208 durch, wodurch die Bedeutung verstanden wird.
Eine Planungseinheit 203 bildet eine Planung unter Verwendung einer Kontextbasis 207 und des Wissens der Wissensbasis 208 aus, um ein durch die Kontextaufbau-/ Zielfolgerungseinheit 202 gefolgertes Ziel zu erreichen.
Eine Ausführungseinheit 204 fordert basierend auf dem Verarbeitungsergebnis der Planungseinheit 203 eine Hauptanwendungseinheit 205 zum Ausführen einer Verarbeitung unter Verwendung einer Anwendung, einer Datenbank oder eines mit einem System verbundenen Druckers auf. Die Hauptanwendungseinheit 205 führt daraufhin eine Verarbeitung unter Verwendung einer Anwendung, einer Datenbank oder eines mit dem System verbundenen Druckers aus.
Eine Antwortbestimmungseinheit 206 empfängt das Verarbeitungsergebnis der Ausführungseinheit 204 und bestimmt eine zu einem Benutzer auszugebende Antwort. Bei diesem Ausführungsbeispiel analysiert die Antwortbestimmungseinheit 206 die Ausgabe unter Verwendung der Kontextbasis 207 und des Wissens der Wissensbasis 208 und erzeugt eine Antwort, falls es erforderlich ist, und wählt schließlich ein Verfahren zum Ausgeben der Antwort aus.
Die Kontextbasis 207 stellt das für die Kontextaufbau-/ Zielfolgerungseinheit 202, die Planungseinheit 203 und die Antwortbestimmungseinheit 206 erforderliche Wissen bereit und speichert auch neues Wissen, das erzeugt wird, während die vorstehenden Einheiten eine Verarbeitung ausführen.
Die Wissensbasis 208 stellt das für die Kontextaufbau-/ Zielfolgerungseinheit 202, die Planungseinheit 203 und die Antwortbestimmungseinheit 206 erforderliche Wissen bereit und speichert auch neues Wissen, das erzeugt wird, während die vorstehenden Einheiten eine Verarbeitung ausführen.
3 veranschaulicht den Ablauf der durch die Informationsverarbeitungsvorrichtung des ersten Ausführungsbeispiels durchgeführten Verarbeitung. Eine Eingabeerkennungseinheit 301, die der in 2 gezeigten Eingabeverarbeitungseinheit 201 entspricht, erkennt die eingegebenen Informationen.
Eine Konzeptanalyseeinheit 302, die der Kontextaufbau-/Zielfolgerungseinheit 202, der Planungseinheit 203 und der Ausführungseinheit 204 entspricht, analysiert die Bedeutung der eingegebenen Informationen unter Nutzung einer in dem System enthaltenen Wissensbasis/Kontextbasis 306 gemäß dem Erkennungsergebnis der Eingabeerkennungseinheit 301. Bei Analysen sagt die Konzeptanalyseeinheit 302 anschließend einzugebende Informationen vorher oder fordert eine Hauptanwendungseinheit 303 zum Ausführen einer Verarbeitung auf.
Die Hauptanwendungseinheit 303, die der Hauptanwendungseinheit 205 entspricht, führt eine durch die Konzeptanalyseeinheit 302 angeforderte Verarbeitung aus und transferiert das Ausführungsergebnis zu einer Antworterzeugungseinheit 304.
Die Antworterzeugungseinheit 304, die eine Verarbeitung bei dem Ergebnis der Antwortbestimmungseinheit 206 durchführt, analysiert das Ausführungsergebnis der Hauptanwendung 303 und erzeugt eine zu dem Benutzer auszugebende Antwort und wählt auch das optimale Ausgabeverfahren aus.
Die Antworterzeugungseinheit 304 fordert eine Ausgabesyntheseeinheit 305 zum Ausgeben der Antwort auf. Die Ausgabesyntheseeinheit 305 gibt die durch die Antworterzeugungseinheit 304 erzeugte Antwort gemäß dem ausgewählten Verfahren aus. Die Wissensbasis/Kontextbasis 306 des Systems wird zum Durchführen einer Verarbeitung durch die Antworterzeugungseinheit 304 und die Ausgabesyntheseeinheit 305 verwendet.
Durch ein Anwenden des Aufbaus der Informationsverarbeitungsvorrichtung des ersten Ausführungsbeispiels auf eine Spracherkennung werden die Vorteile der Erkennungsverarbeitung für menschliche Sprache in dieser Vorrichtung realisiert. Ein Beispiel für einen Mechanismus des Erkennens von durch Menschen ausgegebener Sprache ist nachstehend angegeben. Bei diesem Beispiel ist es angenommen, dass eingegebene Sprache "Send mail to May" verarbeitet wird.
4 veranschaulicht den Überblick des Verstehens der Sprache "Send mail to May" durch Menschen. In den meisten Fällen erkennen Menschen die Sprache, indem sie sie eher als eine Bedeutung verstehen als sequentiell einem bestimmten Abschnitt des Eingabesprachsignalverlaufs ähnelnde mögliche Wörter auszuwählen, wie es in derzeitigen Spracherkennungssystemen durchgeführt wird. Dies liegt daran, dass Menschen Sprache nicht nur durch Sprachinformationen erkennen und verstehen, sondern auch durch ein Vorhersagen des vor und nach der Sprache verwendeten Kontexts und in gewissem Grade gesunden Menschenverstand.
Zum Realisieren der Erkennungsoperation des Menschen in einem System können im Voraus Vorhersagen über die eingegebenen Informationen ausgebildet werden. Genauer können dann, wenn "Send mail to May!" als Sprache eingegeben wird, die folgenden Vorhersagen ausgebildet werden. Bei einem Erkennen des Worts "send" wird das nachfolgende Objekt unter Verwendung des Sprachwissens vorhergesagt, und ein Wort "mail" wird ferner unter Verwendung des Domänenwissens vorhergesagt.
Im Allgemeinen kann bei einer Spracherkennung nach möglichen Wörtern "male", "mai", "may" und "mate" gesucht werden. Unter diesen Wörtern kann "mai" anhand des Sprachwissens als ein Personenname vorhergesagt werden, von dem unwahrscheinlich ist, dass er in einem gewöhnlichen Verzeichnis enthalten ist. Da es jedoch nicht wahrscheinlich ist, dass Personennamen unmittelbar nach "send" kommen, wird "mai" abgelehnt. Eine stereotypierte Phrase "send to" wird auch anhand des Sprachwissens vorhergesagt, und es ist nicht wahrscheinlich, dass "mate" ausgewählt wird. Ferner wird "too", das ein Homonym von "to" ist, nicht anhand der Wissensbasis vorhergesagt. Schließlich wird es anhand des Konzeptwissens vorhergesagt, dass XXX in "send to XXX" ein Objekt sein kann, und anhand des Domänenwissens, dass das Ziel von "send to" ein Mensch (Personenname) sein kann. Es wird somit in Betracht gezogen, dass "May" anhand eines Adressbuchs oder eines biographischen Verzeichnisses vorhergesagt werden kann.
Daraufhin wird ein Vergleich zwischen der in 4 gezeigten Spracherkennungsverarbeitung und der durch das in 42 gezeigte bekannte Spracherkennungssystem durchgeführten Verarbeitung ausgebildet.
Gemäß bekannten Eingabeverarbeitungsverfahren werden in einem Erkennungsmodul im Allgemeinen verschiedene Bestimmungen ausgebildet, und das Ergebnis wird zu einem anderen Modul transferiert. Die eingegebenen Informationen werden durch ein Ausführen der Erkennungsverarbeitung erkannt und werden in eine durch eine Anwendung empfangbare Form geformt. Der Ablauf der Verarbeitung ist unidirektional, und die einzelnen Einheiten führen die Verarbeitung eher getrennt durch als zusammenzuarbeiten.
Besonders für die Verarbeitung von eingegebener Sprache wird üblicherweise das folgende Verfahren verwendet, wie es in 42 veranschaulicht ist. Das durch ein Erkennen der Sprache in einer Spracherkennungseinheit 4201 erhaltene Ergebnis wird eindeutig als ein Systembefehl bestimmt, indem es in einer Sprachverarbeitungseinheit 4202 gefiltert (geparst) wird. Nicht nur eine Verarbeitung für grammatikalisch richtige Sprache, sondern auch eine Verarbeitung für unnötige Wörter wie beispielsweise Interjektionen und neu formulierte Wörter und für nicht grammatikalische Sprache wie beispielsweise eine Anastrophe (Inversion) und ein Partikelabwurf werden durch eine Sprachverarbeitung (wobei derartige Wörter gegen eine Wortdatenbank oder eine Grammatikdatenbank verifiziert werden) in der Sprachverarbeitungseinheit 4202 gehandhabt. Ein Parsen wird zum Analysieren der Struktur der Syntax durchgeführt, und entsprechend werden andere Elemente als Syntaxinformationen, die auch verwendbar sein können, abgelehnt. Zusätzlich ist der Ablauf der Verarbeitung unidirektional, und selbst dann, wenn das Verarbeitungsergebnis des Spracherkennungsmoduls unrichtig ist, schließt das System die durch eine Spracheingabeeinheit 4203 durchgeführte Verarbeitung ab und geht zu einer nachfolgenden Stufe, das heißt einer Anwendungseinheit 4207, weiter. Die Verarbeitung wird bei einer Tastatureingabe und einer Bildeingabeeinheit 4206 (einer optischer Zeichenleseeinrichtung (OCR) 4204 und einer Bildverarbeitungseinheit 4205) auf ähnliche Weise durchgeführt.
Gemäß dem vorstehend angeführten Verfahren wird selbst eine Eingabe, die nicht durch das gesamte System verarbeitet werden kann, angenommen und wird von der Anwendungseinheit 4207 als ein Fehler zurückgegeben. Das heißt, die durch die Eingabeeinheiten 4203 und 4206 durchgeführte Verarbeitung bei Sprache und Bildern wird nicht zusammen mit der Verarbeitung des gesamten Systems betrieben, wodurch lediglich eine einfache Operation realisiert wird. Als Ergebnis wird die Leistungsfähigkeit des gesamten Systems ernstlich durch das Ergebnis der Spracherkennung beeinflusst.
Im Gegensatz dazu ist ein Eingabeverarbeitungsverfahren gemäß dem ersten Ausführungsbeispiel in 5 gezeigt. Eingegebene Informationen werden dann, wenn sie Ton angeben, in einer Spracherkennungseinheit 501 erkannt, und wenn sie ein Bild darstellen, werden sie in einer OCR 502 erkannt. Das Ergebnis wird daraufhin in einer Analyseeinheit 503 basierend auf dem gesunden Menschenverstand und Wissen analysiert, und eine nachfolgende Eingabe wird ferner vorhergesagt, oder das Ergebnis von Analysen wird zu einer Anwendungseinheit 504 des Systems transferiert.
Besonders zur Verarbeitung von eingegebener Sprache wird die Spracherkennung Idealerweise durchgeführt, indem eher Sprachinformationen und anderes Wissen umfassend verwendet werden als allein eine Spracherkennung wie in einer bekannten Art und Weise durchzuführen. Das durch die Verarbeitung von Sprache erhaltene Ergebnis wird als das Wissen des ganzen Systems gespeichert und wird zusammen mit dem anderen in dem System enthaltenen Wissen verwendet, wodurch es ermöglicht wird, eher die Bedeutung der Sprache als die Struktur der Sprache zu erkennen. Das heißt, gemäß dem durch die in 5 gezeigten Pfeile 505 und 506 angegebenen Ablauf der Verarbeitung werden die Ergebnisse von Analysen zu der Spracherkennungseinheit 501 und der OCR 502 zurückgeführt, so dass das Erkennungsergebnis und die Analyseergebnisse zusammen gehandhabt werden, wodurch die Leistungsfähigkeit der Eingabeverarbeitung verbessert wird. Gemäß dem durch die in 5 veranschaulichten Pfeile 507 und 508 angegebenen Ablauf der Verarbeitung werden das Analyseergebnis und die Verarbeitung der Anwendungseinheit 504 zusammen gehandhabt, wodurch die Leistungsfähigkeit der Ausführungsverarbeitung vergrößert wird. Als Folge kann die Leistungsfähigkeit des gesamten Systems verbessert werden.
Bei diesem Ausführungsbeispiel sind die in 5 veranschaulichte Eingabeverarbeitung und die in 2 gezeigte Systemarchitektur realisiert. Als Ergebnis kann eine der durch Menschen durchgeführten Spracherkennungsverarbeitung ähnelnde Verarbeitung erreicht werden. Genauer zeigt 6 ein Gesamtdiagramm, das ein gemäß einem Realisierungsverfahren wie beispielsweise dem in 3 gezeigten aufgebautes Spracherkennungssystem veranschaulicht.
Wenn Sprache eingegeben wird, wird durch eine Spracherkennungseinheit 601 eine Spracherkennung gemäß den vorher ausgebildeten Vorhersagen und in einer Wissensbasis/Kontextbasis 606 enthaltenen Informationen durchgeführt. Für die Verarbeitung von Sprachinformationen enthält die Wissensbasis/Kontextbasis 606 nicht nur ohne Rücksicht auf die Art des Wissens für die Verarbeitung wirksames gemeinsames Wissen, sondern auch Sprachinformationen betreffendes Wissen. Das Konzept des Erkennungsergebnisses wird durch eine Konzeptanalyseeinheit 602 unter Nutzung des gesunden Menschenverstands und des in der Wissensbasis/Kontextbasis 606 enthaltenen Wissens des Systems analysiert, wodurch die Bedeutung des Erkennungsergebnisses analysiert wird.
Eine Hauptanwendungseinheit 603 sagt eine nachfolgende Spracheingabe vorher oder führt eine Verarbeitung gemäß dem Zweck durch. Bei einem Ausführen der Verarbeitung durch die Hauptanwendungseinheit 603 kann eine Antwort an den Benutzer erforderlich sein, wobei in diesem Fall eine Antwort in einer Antworterzeugungseinheit 604 erzeugt wird. Falls es bestimmt wird, dass dem Benutzer eine Antwort am geeignetsten in Sprache gegeben wird, wird eine Antwort in einer Sprachsyntheseeinheit 605 in Sprache gewandelt und wird ausgegeben. Die Wissensbasis/Kontextbasis 606 des Systems wird auch für die vorstehende Verarbeitung verwendet.
Es sind in erster Linie zwei Techniken zum Vorhersagen von Sprache vorhanden, und die Einzelheiten sind in 13 gezeigt. Vorhersagen können in zwei Stufen ausgebildet werden. Wenn Sprache erkannt wird, kann ein nachfolgendes eingegebenes Signal vorhergesagt werden. Alternativ kann dann, wenn das ausgegebene Ergebnis einer Spracherkennungseinrichtung für eine interne Verarbeitung verwendet wird, ein anschließend einzugebendes Ergebnis vorhergesagt werden.
Gemäß der ersten Technik wird ein anschließend einzugebendes Wort anhand vorher eingegebener Wörter und des gesunden Menschenverstands unter Nutzung einer Wissensbasis vorhergesagt. Anschließend einzugebende Sprache (Phoneme oder Silben) wird ferner anhand des vorhergesagten Worts vorhergesagt und wird zum Vergrößern der Spracherkennungsrate genutzt. Gemäß der zweiten Technik wird ein anschließend einzugebendes Wort auch anhand von vorher eingegebener Sprache und dem gesunden Menschenverstand unter Nutzung der Wissensbasis vorhergesagt und wird zum reibungslosen Durchführen einer nachfolgenden Verarbeitung verwendet.
Falls zum Beispiel eine Domäne eine Vorrichtung zum Übertragen von Dokumenten oder Mail bzw. Post darstellt, wird der in 27 veranschaulichte Zustandsübergang des Kontexts vorhergesagt. Eine Anfangsvorhersage wird in der Vorrichtung ausgebildet wie folgt. Zuerst wird anhand des allgemeinen Wissens wie beispielsweise "ein Benutzer kann eine Maßnahme zum Betreiben der Vorrichtung ergreifen" eine Vorhersage ausgebildet, dass es wahrscheinlich ist, dass ein Verb eingegeben wird. Daraufhin werden Verben, die durch diese Vorrichtung angenommen werden können, als Handlung kategorisiert, und die Vorrichtung wartet auf eine Eingabe von Sprache, indem sie vorhersagt, dass ein zu der Kategorie Handlung gehörendes Verb einzugeben ist.
Nach einem Erkennen der Eingabe eines zu der Kategorie Handlung gehörenden Verbs tritt der Zustandsübergang der Vorhersagekategorie auf. Das heißt, daraufhin wird eine Vorhersage über zu einer Kategorie Objekt gehörende Sprache ausgebildet. Die Klassifizierung der Kategorien wie beispielsweise Handlung und Objekt ist zum Beispiel in 14 und 15 gezeigt. Die in dieser Vorrichtung gehandhabte Kategorie Objekt umfasst zum Beispiel Post, Dokument usw.
8 zeigt ein Flussdiagramm, das die durch die gesamte Vorrichtung durchgeführte Verarbeitung schematisch veranschaulicht. Ein zu erkennendes nachfolgendes Objekt wird basierend auf einer Wissen betreffende Informationen speichernden Wissensbasis vorhergesagt.
In einem Schritt S800 wird das System gestartet. Daraufhin wird in einem Schritt S801 eine Anfangsvorhersage eingestellt. 16 zeigt ein Flussdiagramm, das die Prozedur des Einstellens der Anfangsvorhersage veranschaulicht. Da noch keine zu erkennenden Informationen eingegeben worden sind, wird bei dem Einstellen der Anfangsvorhersage eine nachfolgende Operation basierend auf der vorhergehenden Operation vorhergesagt, und eingegebene Informationen werden basierend auf der vorhergesagten Operation vorhergesagt.
In einem Schritt S1601 wird die vorhergehende Operation mit Bezug auf den vorhergehenden Verarbeitungszustand des Systems oder den Inhalt der Anforderung des Benutzers erhalten. Falls es in einem Schritt S1602 festgestellt wird, dass die vorhergehende Operation verursacht durch das Fehlen einer vorhergehenden Operation nicht erhalten werden kann, wobei diesem Zustand unmittelbar nachdem das System gerade gestartet hat begegnet wird, geht der Ablauf zu einem Schritt S1608 weiter, in dem eine Anfangsvorhersage in der Vorrichtung eingestellt wird. In diesem Flussdiagramm wird es in dem Schritt S1608 bestimmt, dass der Benutzer die Vorrichtung zum Ergreifen einer Maßnahme auffordern muss, und Verben werden als ein durch das Spracherkennungssystem zu erkennender Kontext aktiviert.
Falls es demgegenüber in dem Schritt S1602 bestimmt wird, dass die vorhergehende Operation erfolgreich erhalten worden ist, geht der Ablauf zu einem Schritt S1603 weiter, in dem die auf die vorhergehende Operation bezogenen Operationen mit Bezug auf das allgemeine Wissen oder das auf die Vorrichtung bezogene Domänenwissen, das in der Wissensbasis enthalten ist, überprüft werden. Daraufhin wird in einem Schritt S1604 unter den in dem Schritt S1603 überprüften Operationen die Operation, deren Durchführung am wahrscheinlichsten ist, vorhergesagt. Daraufhin wird in einem Schritt S1605 eine Bestimmung dahingehend ausgebildet, ob die nachfolgende Operation erfolgreich vorhergesagt worden ist. Falls das Ergebnis des Schritts S1605 ja ist, geht der Ablauf zu einem Schritt S1606 weiter. In dem Schritt S1606 werden auf die vorhergesagte Operation bezogene Informationen aus der Wissensbasis gewonnen, und in einem Schritt S1607 werden einzugebende Informationen basierend auf den in dem Schritt S1606 gewonnenen Informationen vorhergesagt.
Falls zum Beispiel die vorhergehende Operation "drucke drei Kopien eines Dokuments" ist, werden in dem Schritt S1603 die auf die "Druckoperation" bezogenen Operationen wie beispielsweise "überprüfe Druckstatus" und "drucke weitere Kopie" anhand der Wissensbasis überprüft. Daraufhin kann es in dem Schritt S1604 anhand der vorhergehenden Operation "drucke drei Kopien" vorhergesagt werden, dass es wahrscheinlicher ist, dass "überprüfe Druckstatus" als "drucke weitere Kopie" eingegeben wird. In dem Schritt S1606 können mit Bezug auf das Domänenwissen anhand der Operation "überprüfe Druckstatus" die sich darauf beziehenden Informationen wie beispielsweise ein Schlüsselwort, zum Beispiel "Druckerstatus", erhalten werden. Unter Verwendung der erhaltenen Informationen werden in dem Schritt S1607 nachfolgende eingegebene Informationen vorhergesagt.
Falls die vorhergehende Operation "lösche alle die Aufträge" ist, kann die nachfolgende Operation in dem Schritt S1603 und S1604 nicht erhalten werden, und eine Bestimmung des Schritts S1605 wird nein. Daraufhin wird in dem Schritt S1608 eine Anfangsvorhersage eingestellt.
Wieder mit Bezug auf 8 werden in einem Schritt S802 eingegebene Informationen gewonnen, und es wird in einem Schritt S803 bestimmt, ob die eingegebenen Informationen gültig sind. Falls sie gültig sind, geht der Prozess zu einem Schritt S804 weiter, in dem die Art der eingegebenen Informationen bestimmt wird. Die vorstellbaren Arten von Informationen können Sprache, Zeichen und Bilder sein. In einem Schritt S805 werden daraufhin die eingegebenen Informationen basierend auf der Vorhersage gemäß der in dem Schritt S804 bestimmten Art von Informationen erkannt. Genauer werden in dem Schritt S805 die eingegebenen Informationen in der folgenden Art und Weise erkannt. Es wird zuerst überprüft, ob die Informationen Sprachinformationen oder Nichtsprachinformationen sind, und falls sie Sprachinformationen sind, wird die Einheit der Informationen wie beispielsweise eine Silbe oder ein Phonem bestimmt.
Das erkannte Ergebnis in dem Schritt S805 wird zum Vorhersagen von zu erkennenden nachfolgenden Informationen verwendet, während das Prozessergebnis in einem Schritt S806 analysiert wird. 9 zeigt ein Flussdiagramm, das die Analyseprozedur des Prozessergebnisses veranschaulicht. Es wird in Betracht gezogen, dass eine Vorhersage (Schritt S904) nicht nur anhand des Erkennungsergebnisses, sondern auch anhand einer Analyse des Erkennungsergebnisses (Schritt S901), einer Bestimmung der Richtigkeit des Ergebnisses (Schritt S902) und einer Berichtigung des Ergebnisses (Schritt S903) ausgebildet wird. Es ist nicht wesentlich, dass die ganze Verarbeitung in den Schritten S901 bis S903 durchgeführt wird. Alternativ kann nur eine Analyse des Erkennungsergebnisses oder nur eine Berichtigung des Ergebnisses durchgeführt werden. Alternativ kann eine Kombination einer Bestimmung der Richtigkeit des Ergebnisses und einer Berichtigung des Ergebnisses oder eine Kombination einer Analyse des Erkennungsergebnisses und einer Bestimmung der Richtigkeit des Ergebnisses durchgeführt werden. In einem Schritt S905 wird die Vorhersage für zu erkennende nachfolgende Informationen gemäß der in dem Schritt S904 erzeugten Vorhersage aktualisiert.
In dem ganzen Block des Analysierens des Erkennungsergebnisses in dem Schritt S806 wird die Verarbeitung mit Bezug auf verschiedene Arten von Wissen ausgeführt. Bei dem Nutzen des Sprachwissens kann zum Beispiel ein allgemeines Wörterbuch bzw. Verzeichnis verwendet werden. Somit kann selbst dann, wenn "flint" als ein Eingabesignalverlauf erkannt wird, bei einem Durchführen der Analyseverarbeitung "print" bestimmt werden, da "flint" nicht in dem allgemeinen Wörterbuch gefunden werden kann.
Bei dem Nutzen des Domänenwissens kann es unter der Annahme, dass die Domäne eine mit einer Postsendefunktion versehene Anwendung ist, vorhergesagt werden, dass es wahrscheinlicher ist, dass "mail" als "male" eingegeben wird. Unter Nutzung des gesunden Menschenverstands (allgemeinen Wissens) kann es auch dann, wenn zum Beispiel als der vorhergehende Befehl ein Drucken durchgeführt wurde, vorhergesagt werden, dass die nachfolgende Operation dazu dienen kann, den Druckerstatus anzugeben.
Nach dem Vorrückenlassen des Prozesses unter Verwendung des Wissens wird es in einem Schritt S807 bestimmt, ob das System die Verarbeitung ausführen sollte. Bei einem Abschließen der Erkennung eines eingegebenen Satzes wird es zum Beispiel dann, wenn der erkannte Satz eine Anweisung für das System zum Ausführen der Verarbeitung angibt, in dem Schritt S807 bestimmt, dass die entsprechende Verarbeitung ausgeführt werden sollte. Daraufhin wird in einem Schritt S808 die Verarbeitung ausgeführt, und in einem Schritt S809 wird eine Antwort für den Benutzer bereitgestellt, falls es notwendig ist. Falls es in dem Schritt S807 bestimmt wird, dass eine weitere Eingabe auszubilden ist, kehrt der Ablauf zu dem Schritt S802 zurück, da die Vorhersage für die nachfolgende Eingabe bereits aktualisiert worden ist. In dem Schritt S802 wird die nachfolgende Eingabe erhalten. Bei einem Abschließen einer Verarbeitungsreihe wird in einem Schritt S810 eine Bestimmung dahingehend ausgebildet, ob das System zu schließen oder fortzusetzen ist. Falls die Verwendung des Systems fortgesetzt wird, kehrt der Prozess zu dem Schritt S801 zurück, in dem eine Anfangsvorhersage basierend auf der abgeschlossenen Operation eingestellt wird. Falls das System zu schließen ist, wird es in einem Schritt S811 ausgeschaltet.
Es wird nachstehend in Betracht gezogen, in welcher Prozedur eingegebene Sprache in dem Spracherkennungssystem dieses ersten Ausführungsbeispiels gemäß der vorstehend beschriebenen Verarbeitung, die in 8 veranschaulicht ist, tatsächlich verarbeitet wird. Der schematische Ablauf des Prozesses des Systems im Ansprechen auf Sprache des Benutzers ist in 7 gezeigt.
Bei dieser Art von System wird es zuerst vorhergesagt, dass der Benutzer eine Maßnahme ergreifen kann, und das System wartet auf ein in die Spracherkennungseinheit einzugebendes Verb, da eine Maßnahme üblicherweise mit einem Verb angefangen wird. Wenn zum Beispiel "send" eingegeben wird, wird es vorhergesagt, dass ein Objekt von "send" einzugeben ist, und das System wartet somit auf ein einzugebendes Objekt.
In dieser Art und Weise versteht das System die Wörter, während es ein anschließend einzugebendes Wort vorhersagt. Falls es durch ein Durchführen von Konzeptanalysen bestimmt wird, dass die Ausführung möglich ist, wird die entsprechende Verarbeitung tatsächlich ausgeführt. Wenn es bei dem Ausführungsergebnis bestimmt wird, dass eine Antwort zu dem Benutzer zurückgegeben werden sollte, wird eine geeignete Antwort erzeugt, und der entsprechende Satz wird hervorgebracht. Der Satz wird daraufhin gemäß dem optimalen Verfahren zu dem Benutzer ausgegeben. Falls das optimale Verfahren darin besteht, Sprache zu synthetisieren, wird der hervorgebrachte Satz in Sprache gewandelt, die daraufhin zu dem Benutzer ausgegeben wird. Falls zum Beispiel Post erfolgreich an May gesendet worden ist, wird eine Antwort "Ich habe Post an may@xxx gesendet, erfolgreich!" ("I sent mail to may@xxx, Successfully!",) zurückgegeben.
Die Verarbeitungsprozedur der Informationsverarbeitungsvorrichtung dieses Ausführungsbeispiels ist nachstehend durch ein spezifisches Beispiel erörtert.
Bei diesem Beispiel wird eingegebene Sprache "Send mail to May" erkannt, indem eine Vorhersage eingestellt wird, und die entsprechende Verarbeitung wird angemessen durchgeführt, indem Konzeptanalysen durchgeführt werden. Es ist nachstehend angenommen, dass die Domäne der Vorrichtung dieses Ausführungsbeispiels in einem Senden von Post oder Dokumenten unter Verwendung von E-Mail bzw. elektronischer Post besteht.
Das System wird in dem Schritt S800 gestartet, und daraufhin wird in dem Schritt S801 zum Warten auf von dem Benutzer einzugebende Informationen eine Anfangsvorhersage eingestellt. Es wird in dem Schritt S801 bestimmt, dass der Benutzer die Vorrichtung zum Ergreifen einer Maßnahme auffordern muss, und daraufhin werden Verben als ein durch die Spracherkennungseinheit zu erkennender Kontext aktiviert. In dem Schritt S802 werden die durch den Benutzer eingegebenen Informationen gewonnen, wobei in diesem Fall die durch den Benutzer ausgegebene Sprache erkannt wird, und die Sprachinformationen werden erhalten.
Daraufhin wird in dem Schritt S803 eine Bestimmung dessen ausgebildet, ob die Sprachinformationen in Bezug auf die Referenz wie beispielsweise den Tonpegel gültig sind. Falls die Eingabe ungültig ist, wartet das System auf eine gültige Eingabe. Falls die Eingabe gültig ist, wird die Art der Eingabe, in diesem Fall Sprache, in dem Schritt S804 bestimmt.
Daraufhin wird bei der Erkennungsverarbeitung der eingegebenen Informationen in dem Schritt S805 eine in 10 gezeigte Spracherkennungsverarbeitung spezifisch durchgeführt. In einem Schritt S1001 wird zuerst eine Spracherkennung durchgeführt. Die Einzelheiten sind nachstehend unter Bezugnahme auf das Flussdiagramm gemäß 11 angegeben. Bei einem Eingeben von Sprache werden zuerst in einem Schritt S1101 Toninformationen verarbeitet. Daraufhin wird es in einem Schritt S1108 bestimmt, ob die Toninformationen Sprachinformationen oder Nichtsprachinformationen sind. Diese Bestimmung wird unter Verwendung einer Sprachinformationsdatenbank und einer Nichtsprachinformationsdatenbank der Wissensbasis oder durch ein Überprüfen der Frequenz der Toninformationen ausgebildet.
Ein spezifisches Beispiel für diese Bestimmung in dem Schritt S1108 ist in 12 gezeigt. In einem Schritt S1201 wird ein Referenzfrequenzbereich erhalten, der in der Vorrichtung zum Bestimmen, ob eingegebener Ton durch einen Menschen ausgegeben worden ist, eingestellt ist. Falls es in einem Schritt S1202 basierend auf dem in dem Schritt S1201 erhaltenen Referenzfrequenzbereich bestimmt wird, dass der eingegebene Ton durch einen Menschen ausgegeben worden ist, geht der Prozess zu einem Schritt S1208 weiter. In dem Schritt S1208 werden selbst dann, wenn der eingegebene Ton in dem Frequenzbereich der menschlichen Sprache enthalten ist, andere Elemente als eine Rede einer allgemeinen Sprache, zum Beispiel eine lachende Stimme und redundante Wörter, betreffende Informationen, das heißt einen "spezifischen Ton" betreffende Informationen, die als das Wissen der Vorrichtung registriert sind, gewonnen.
Danach wird in einem Schritt S1209 eine Bestimmung dessen ausgebildet, ob die derzeitige Eingabe ein spezifischer Ton ist. Falls das, Ergebnis des Schritts S1209 ja ist, wird in einem Schritt S1210 die Art der Eingabe bestimmt, und in einem Schritt S1211 wird ein Zustandsmerker eingestellt, um anzugeben, dass der eingegebene Ton Nichtsprachinformationen sind. Falls es in dem Schritt S1209 bestimmt wird, dass die derzeitige Eingabe kein spezifischer Ton ist, wird in einem Schritt S1212 ein Zustandsmerker eingestellt, um anzugeben, dass die eingegebene Sprache Sprachinformationen sind.
Falls es demgegenüber in dem Schritt S1202 bestimmt wird, dass der eingegebene Ton sich außerhalb des Frequenzbereichs der menschlichen Sprache befindet, wird in einem Schritt S1203 ein Zustandsmerker eingestellt, um anzugeben, dass der eingegebene Ton Nichtsprachinformationen sind. In einem Schritt S1204 werden den Ton, der unter den Nichtsprachinformationen spezifisch verarbeitet werden sollte, betreffende Informationen gewonnen. Es wird daraufhin in einem Schritt S1205 bestimmt, ob der eingegebene Ton unter den Nichtsprachinformationen spezifisch verarbeitet werden sollte. Falls das Ergebnis des Schritts S1205 ja ist, wird in einem Schritt S1206 die Art des Tons erhalten und eingestellt. Falls es in dem Schritt S1205 festgestellt wird, dass der eingegebene Ton nicht spezifisch verarbeitet werden muss, wird im Gegensatz dazu die Art des eingegebenen Tons in einem Schritt S1207 als Rauschen eingestellt.
Gemäß dem Bestimmungsprozess wie vorstehend beschrieben wird die Art der Sprache in dem Schritt S1102 gemäß 11 bestimmt. Falls die eingegebene Sprache "Send mail to May" ist, wird die Art der Sprache als Sprachinformationen bestimmt. Daraufhin wird die Einheit der Sprachinformationen in dem Schritt S1106 weiter bestimmt.
Falls die Geschwindigkeit der Sprache des Benutzers schnell ist, wird die Einheit der Sprachinformationen als eine längere Einheit, zum Beispiel eher ein Wort als ein Phonem, bestimmt. Falls eine Historie angibt, dass die Erkennung von Wörtern nicht sehr erfolgreich gewesen ist, kann eine kürzere Einheit, zum Beispiel ein Phonem, verwendet werden, solange es bestimmt wird, dass die Spracherkennung unter Verwendung von Einheiten der Phoneme mit der höchsten Genauigkeit durchgeführt werden kann. Diese Bestimmung kann automatisch durch die Vorrichtung ausgebildet werden, um die Erkennungsrate zu verbessern. Alternativ kann dann, wenn es durch den Benutzer gewünscht wird, dass die Erkennung in Einheiten von Wörtern ausgebildet wird, der Benutzer die Einheit für die Erkennung einstellen.
Falls es in dem Schritt S1106 bestimmt wird, dass die Einheit der Sprachinformationen zum Beispiel ein Wort ist, wird die Worterkennungsverarbeitung in einem Schritt S1103 durchgeführt. Das Flussdiagramm dieser Verarbeitung ist in 17 gezeigt. In einem Schritt S1701 wird unter Verwendung der Spracherkennungseinheit eine Spracherkennung in Einheiten von Wörtern durchgeführt. Genauer wird im Ansprechen auf die Eingabe "Send mail to May" die Worterkennung realisiert, indem das den eingegebenen Toninformationen nächste Wort "send" aus dem für die Spracherkennungseinheit bereitgestellten Wortverzeichnis ausgewählt wird. In einem Schritt S1702 wird das bei der Worterkennung in dem Schritt S1701 bestimmte Wort "send" zusammen mit der Ähnlichkeit zwischen dem in dem Verzeichnis enthaltenen "send" und der eingegebenen Sprache (zum Beispiel 92% Ähnlichkeit) erhalten. Es wird daraufhin in einem Schritt S1703 bestimmt, ob das Ergebnis der Worterkennung zu verwenden ist.
Wieder mit Bezug auf 11 wird dann, wenn es in dem Schritt S1106 bestimmt wird, dass die Art der Sprache eine Silbe ist, eine Silbenerkennungsverarbeitung in einem Schritt S1104 ausgeführt. Das Flussdiagramm dieser Verarbeitung ist in 18 gezeigt. In einem Schritt S1801 wird unter Verwendung der Spracherkennungseinheit eine Spracherkennung in Einheiten von Silben durchgeführt. Bei diesem Beispiel wird die Silbenerkennung in Einheiten von Silben realisiert, indem die den eingegebenen Toninformationen ähnelnden obersten N Silben aus dem für die Spracherkennungseinheit bereitgestellten Silbenverzeichnis ausgewählt werden. In einem Schritt S1802 wird das Ergebnis der in dem Schritt S1801 bestimmten Silbenerkennung zusammen mit der Ähnlichkeit zwischen den obersten N Silben und den in dem Verzeichnis enthaltenen Informationen gewonnen. In einem Schritt S1803 wird die in dem Schritt S1802 bestimmte Silbe daraufhin als das Wort "send" erkannt, das durch das System gehandhabt werden kann, und die Ähnlichkeit zwischen dem ganzen Wort und der eingegebenen Sprache wird ausgegeben. Die Einzelheiten dieser Verarbeitung sind durch das Flussdiagramm gemäß 19 angegeben. Bei einem Durchführen einer Erkennungsverarbeitung in Einheiten von Silben wird in einem Schritt S1901 "se" gewonnen. Daraufhin wird in einem Schritt S1902 ein geeignetes Wort, das zu der Silbe "se" passt, unter Verwendung des in dem Schritt S1901 erhaltenen Ergebnisses bestimmt. In dem Schritt S1902 wird es auch bestimmt, ob das Ergebnis der Worterkennung in dem Schritt S1901 zu verwenden ist.
Wieder mit Bezug auf 11 wird dann, wenn es in dem Schritt S1106 festgestellt wird, dass die Art der Sprache weder ein Wort noch eine Silbe ist, die für die entsprechende Art geeignete Spracherkennung in einem Schritt S1105 durchgeführt. Die Art der Sprache, die weder ein Wort noch eine Silbe ist, kann ein Phonem, das kürzer als eine Silbe ist, oder eine stereotypierte Phrase wie beispielsweise ein Satz, die länger als eine Silbe ist, sein. Eine Vielzahl von Arten von Einheiten kann zum Erkennen von eingegebenen Informationen verwendet werden, bis eine Folge von Operationen durch den Benutzer abgeschlossen worden ist. Alternativ kann nur eine Art von Einheit verwendet werden.
Wieder mit Bezug auf 10 wird das bei dem Erkennen der eingegebenen Informationen in dem Schritt S1001 erhaltene Ergebnis in einem Schritt S1002 verarbeitet. Genauer wird es in dem Schritt S1703 gemäß 17 und in dem Schritt S1902 gemäß 19 bestimmt, ob das Erkennungsergebnis schließlich als die Eingabe durch den Benutzer anzunehmen ist. Der ausführliche Prozess ist in 37 gezeigt.
In einem Schritt S3701 wird eine Verarbeitung zum Bestimmen des Erkennungsergebnisses ausgeführt. Genauer wird es in dem Schritt S3701 bestimmt, ob das Erkennungsergebnis anzunehmen ist, zum Beispiel durch ein Bereitstellen einer Schwelle für die Ähnlichkeit der Spracherkennung. Es ist nachstehend angenommen, dass die Schwellenähnlichkeit als 80% eingestellt ist. Falls das Erkennungsergebnis "send: 85% Ähnlichkeit" ist, wird es in einem Schritt S3702 bestimmt, dass das Erkennungsergebnis anzunehmen ist, und es wird in einem Schritt S3703 mitgeteilt, dass das Erkennungsergebnis "send" angenommen worden ist. Demgegenüber wird es dann, wenn das Erkennungsergebnis "send: 70% Ähnlichkeit" ist, in dem Schritt S3702 bestimmt, dass das Erkennungsergebnis abzulehnen ist, und es wird in einem Schritt S3704 gemeldet, dass das Erkennungsergebnis abgelehnt worden ist, so dass eine nachfolgende Eingabe des Benutzers zum Verarbeiten bereit ist.
Wieder mit Bezug auf 8 wird nach dem Erkennen verschiedener Arten von eingegebenen Informationen in dem Schritt S805 das Erkennungsergebnis "send" in dem Schritt S806 analysiert. In dem Schritt S806 wird die Verarbeitung ausgeführt, indem in erster Linie das Konzept des Worts "send" analysiert wird. Der Ablauf dieser Verarbeitung ist in 9 schematisch gezeigt. Das Erkennungsergebnis wird zum Vorhersagen eines zu erkennenden nachfolgenden Objekts in dem Schritt S904 verwendet. Die Vorhersage für das nachfolgende Objekt kann in dem Schritt S904 unter Verwendung nicht nur des Erkennungsergebnisses, sondern auch einer Analyse des Erkennungsergebnisses (Schritt S901), einer Bestimmung der Richtigkeit des Ergebnisses (Schritt S902) und einer Berichtigung des Ergebnisses (Schritt S903) ausgebildet werden. Es ist nicht wesentlich, dass die ganze Verarbeitung in den Schritten S901 bis S903 durchgeführt wird. Alternativ kann nur eine Analyse des Erkennungsergebnisses oder nur eine Berichtigung des Ergebnisses durchgeführt werden. Alternativ kann eine Kombination einer Bestimmung der Richtigkeit des Ergebnisses und einer Berichtigung des Ergebnisses oder eine Kombination einer Analyse des Erkennungsergebnisses und einer Bestimmung der Richtigkeit des Ergebnisses durchgeführt werden. In dem Schritt S905 wird gemäß der in dem Schritt S904 erzeugten Vorhersage die Vorhersage für zu erkennende nachfolgende Informationen aktualisiert.
Eine Analyse des Erkennungsergebnisses in dem Schritt S806 ist durch das Flussdiagramm gemäß 38 genauer gezeigt. In einem Schritt S3801 wird eine Kategoriesuche bei dem Erkennungsergebnis "send" durchgeführt, um Informationen wie beispielsweise die Eigenschaft des Worts "send" und den Kontext der derzeit aktivierten Wörter zu gewinnen. Anschließend wird in einem Schritt S3802 das Sprachwissen des Worts "send" aus dem Sprachverzeichnis wie beispielsweise dem in 29 gezeigten überprüft, und in einem Schritt S3803 wird das Konzeptwissen aus dem Konzeptverzeichnis wie beispielsweise dem in 30 gezeigten überprüft, wodurch die entsprechenden Informationen erhalten werden. In einem Schritt S3804 werden daraufhin die Operation und das Objekt des Worts "send" anhand der Domäne der Vorrichtung überprüft. Daraufhin werden in einem Schritt S3805 die die Eingabe des Worts "send" betreffenden Regeln des Systems anhand einer Regeltabelle wie beispielsweise der in 31 veranschaulichten überprüft. Als Folge werden in einem Schritt S3806 semantische Analysen umfassend durchgeführt, indem das vorstehende Wissen verwendet wird.
Genauer werden die semantischen Analysen in dem Schritt S3806 realisiert, indem Konzeptanalysen in einem Schritt S3901 gemäß 39 unter Nutzung des in den Schritten S3802 bis S3805 erhaltenen Wissens bezüglich des Worts "send" durchgeführt werden. In einem Schritt S3802 wird es mit Bezug auf das Sprachverzeichnis wie beispielsweise das in 29 gezeigte festgestellt, dass "send" ein Verb ist, dem ein Objekt oder der Name einer Vorrichtung folgt. In einem Schritt S3803 wird es mit Bezug auf das Konzeptverzeichnis wie beispielsweise das in 30 gezeigte festgestellt, dass "send" einen physikalischen Transfer darstellt. In einem Schritt S3805 wird es durch ein Überprüfen der Regeltabelle wie beispielsweise der in 31 gezeigten festgestellt, dass das Objekt von "send" Post oder ein Dokument ist. Bei dem Durchführen der Konzeptanalysen in dem Schritt S3901 wird es in dem Schritt S3902 bestimmt, ob das durch die Spracherkennung erhaltene Erkennungsergebnis "send" hinsichtlich der Semantik und des gesunden Menschenverstands richtig ist. In dem Schritt S3902 wird auch eine Bestimmung dahingehend ausgebildet, ob das Erkennungsergebnis "send" die im Ansprechen auf die derzeitige Eingabe eingestellte Vorhersage erfüllt.
Falls die Domäne durch einen Drucker dargestellt wird, kann das Verb "send" in der Anfangsvorhersage enthalten sein. Es wird somit in dem Schritt S3902 bestimmt, dass das Verb "send" die Anfangsvorhersage erfüllt. Daraufhin wird in einem Schritt S3903 eine Vorhersage über eine nachfolgende Eingabe, der "send" vorausgeht, durch ein Nutzen von verschiedenen Arten von Wissen in dem System ausgebildet. In diesem Fall wird es anhand des Worts "send" vorausgesagt, dass es wahrscheinlich ist, dass der Benutzer benennt, "was er sendet" ("sending what"), und dass es wahrscheinlich ist, dass eine nachfolgende Eingabe ein Objekt ist. Die wie vorstehend beschrieben eingestellte Vorhersage wird in einem Schritt S3904 aktualisiert.
Genauer kann in dem Schritt S3904 das für die Spracherkennungseinheit bereitgestellte Wortverzeichnis aktualisiert werden. Daraufhin wird bei den Konzeptanalysen die gemäß der Absicht des Benutzers durch das System auszuführende Verarbeitung in einem Schritt S3905 bestimmt. Da in diesem Fall das System die Verarbeitung nicht lediglich durch das Wort "send" ausführen kann, wartet es gemäß der in dem Schritt S807 ausgebildeten Bestimmung des Analyseergebnisses auf einzugebende nachfolgende Informationen.
Bei einem Empfangen der Sprache "mail" von dem Benutzer geht der Prozess in einer dem vorstehenden Prozess ähnelnden Art und Weise weiter. Es ist nachstehend angenommen, dass nach einem Durchführen der Spracherkennungsverarbeitung basierend auf der Vorhersage, dass eine nachfolgende Eingabe ein Objekt, das heißt ein Substantiv, sein kann, ein Erkennungsergebnis "mall" statt "mail" zurückgegeben wird. Bei der Verarbeitung zum Bestimmen des Erkennungsergebnisses in dem Schritt S3701 werden die semantischen Analysen in dem Schritt S3806 unter Verwendung des in den Schritten S3801 bis S3805 überprüften Wissens durchgeführt. Bei dem Überprüfen des Domänenwissens in dem Schritt S3804 kann es in Betracht gezogen werden, dass "mall" nicht als das eingegebene Wort geeignet ist. Daraufhin wird es in dem Schritt S3902 bestimmt, dass das Ergebnis "mall" berichtigt werden sollte. Der Ablauf geht daraufhin zu dem Schritt S3906 weiter.
Zum Neubestimmen des Erkennungsergebnisses wird eine Ergebnisneubestimmungsverarbeitung in einem Schritt S4001 gemäß 40 durchgeführt. Diese Verarbeitung ist durch das Flussdiagramm gemäß 41 genauer angegeben. In einem Schritt S4101 wird das bisher erhaltene Erkennungsergebnis neu bestimmt. Falls es in einem Schritt S4102 bestimmt wird, dass das Ergebnis berichtigt werden sollte, wird die Vorhersage für die vorhergehende Eingabe in einem Schritt S4103 neu erzeugt. In einem Schritt S4104 wird das erkannte Wort neu bestimmt. In diesem Fall werden keine Berichtigungen bei dem Erkennungsergebnis "send" ausgebildet, da es nicht notwendig ist. Somit wird eine Vorhersage für die derzeitige Eingabe in einem Schritt S4002 gemäß 40 neu erzeugt, während das Erkennungsergebnis "send" das Gleiche bleibt. Die neu erzeugte Vorhersage wird daraufhin in einem Schritt S4003 aktualisiert, und die derzeitige Eingabe wird durch ein Nutzen einer anderen Art von Wissen in einem Schritt S4004 wieder erkannt.
Das Aktualisieren der Vorhersage in dem Schritt S4003 dient dazu, die neu erzeugte Vorhersage mit der vorhergehenden Vorhersage zu verschmelzen. Entsprechend wird selbst nach einem Durchführen dieser Aktualisierungsoperation die Anzahl von Vorhersagen nicht erhöht, was andernfalls mehr Vergleiche erzeugen würde. Demgegenüber wird die Vorhersage genauer, um die Anzahl von möglichen Wörtern zu beschränken. Die derzeitige Vorhersage wird zum Beispiel in dem Schritt S4003 durch eine Vorhersage, dass es wahrscheinlicher ist, dass "mail" als "mall" eingegeben wird, aktualisiert, indem die Domäne des Systems berücksichtigt wird. Bei einem Neuuntersuchen des derzeitigen Erkennungsergebnisses in dem Schritt S4004 wird es bestimmt, dass "mail" geeigneter ist "male".
Wie vorstehend erörtert wird es bei einem Abschluss des Erkennens des Worts "Send mail to May" in dem Schritt S807 gemäß 8 bestimmt, dass das System die Verarbeitung ausführen sollte. Daraufhin wird in dem Schritt S808 ein "Send mail to May" angebender Befehl ausgeführt. Während der Ausführung wird Mays Mail-Adresse bzw. Postadresse in einem für das System bereitgestellten Adressbuch überprüft, um sicherzustellen, dass Mail bzw. Post angemessen gesendet wird. Falls es nach dem Durchführen des Schritts S808 bestimmt wird, dass eine Antwort an den Benutzer zurückgegeben werden sollte, wird eine Ausgabeverarbeitung in dem Schritt S809 ausgeführt. 28 zeigt ein Flussdiagramm, das den Prozess des Erzeugens einer Antwort für den Benutzer veranschaulicht. Genauer wird in einem Schritt S2801 der Status des Ausführungsergebnisses gewonnen. Daraufhin wird in einem Schritt S2802 die zu dem Benutzer auszugebende Antwort analysiert. In einem Schritt S2803 wird eine Antwort für den Benutzer durch ein Nutzen des Wissens des Systems tatsächlich erzeugt, und in einem Schritt S2804 wird ein tatsächlicher Satz hervorgebracht. In einem Schritt S2805 wird das optimale Ausgabeverfahren ausgewählt, und in einem Schritt S2806 wird die Antwort zu dem Benutzer ausgegeben. Es kann zum Beispiel eine Bestätigungsnachricht wie beispielsweise "Mail ist an May gesendet worden" ("Mail has been sent to May") in Ton zu dem Benutzer ausgegeben werden, indem eine Sprachsynthese durchgeführt wird.
Zweites Ausführungsbeispiel
Nachstehend ist eine Beschreibung des Ablaufs der bei einer Spracheingabe wie beispielsweise "Send mail to May" durchgeführten Verarbeitung, wenn ein Silbenverzeichnis, ein Wortverzeichnis, ein Sprachverzeichnis und ein Konzeptverzeichnis wie in 25, 26, 29 bzw. 30 veranschaulicht, bereitgestellt sind, angegeben. Eine Parametereinstellungsprozedur bei der Erkennungsverarbeitung ist ebenfalls erörtert. Es ist nachstehend angenommen, dass eine Anzahl M von Wörtern in dem Wortverzeichnis registriert ist und jedes Wort in eine Anzahl R[i] von Silben aufgeteilt ist wie in 32 gezeigt.
Bei dem Start des Systems erscheint die Bildschirmdarstellung wie beispielsweise die in 24 gezeigte. Die Parametereinstellungsprozedur ist durch das Flussdiagramm gemäß 23 angegeben. In einem Schritt S2301 werden Parameter zum Einstellen der Spracherkennungseinrichtung, des Ausschusspegels, der Ablehnungszeit und der minimalen Sprachdauer usw. angegeben. In einem Schritt S2302 wird eine Referenz für die Ähnlichkeit als eine Bedingung zum Bestimmen des Erkennungsergebnisses angegeben. Danach wird in einem Schritt S2303 der Inhalt des derzeit aktivierten Kontexts angegeben.
Wenn das Spracherkennungsverfahren verwendet wird, bei dem Wörter aus dem Ergebnis einer Silbenerkennung im Ansprechen auf eine Spracheingabe "Send mail to May" gefolgert werden, wird die folgende Verarbeitung durchgeführt. Bei einem Empfangen von Toninformationen "send" werden die Toninformationen zuerst in dem Schritt S1101 gemäß 11 verarbeitet. Falls es in dem Schritt S1102 bestimmt wird, dass die Art der verarbeiteten Informationen eine Silbe ist, wird in dem Schritt S1104 eine Silbenerkennungsverarbeitung durchgeführt. Daraufhin wird eine Spracherkennung in Einheiten von Silben unter Verwendung der Spracherkennungseinrichtung in dem Schritt S1801 gemäß 18 durchgeführt, wodurch die obersten N Silben als die Erkennungsergebnisse erhalten werden. Wieder mit Bezug auf 23 werden in einem Schritt S2304 die durch die Spracherkennungseinrichtung erhaltenen Erkennungsergebnisse und die Ähnlichkeit gewonnen, und in einem Schritt S2305 werden die erhaltenen Informationen, das heißt die Erkennungsergebnisse in Einheiten von Silben und die Ähnlichkeit, gemäß dem höchsten Grad angegeben. In einem Schritt S2306 werden die von der Spracherkennungseinrichtung ausgegebenen Erkennungsergebnisse bestimmt, und die Ergebnisse werden nach einem Ergebnis der Bestimmungsverarbeitung ausgegeben.
Bei der Bestimmungsverarbeitung in dem Schritt S2306 werden die Ergebnisse der Spracherkennungseinrichtung in dem Schritt S1802 gemäß 18 erhalten. Im Ansprechen auf eine Spracheingabe, das heißt "send", wird das Ergebnis wie beispielsweise das in 33 gezeigte erhalten. Unter Nutzung dieses Ergebnisses wird eine Silbe-zu-Wort-Vergleichsverarbeitung in dem Schritt S1803 durchgeführt. Genauer wird in dem Schritt S1901 eine Vergleichsverarbeitung zum Bestimmen eines geeigneten Worts aus den Silben durchgeführt. Bei diesem Ausführungsbeispiel wird ein Vergleichsverfahren mit dynamischer Programmierung (DP) als das Silbe-zu-Wort-Vergleichsverfahren verwendet. Bei diesem DP-Vergleichsverfahren wird ein Vergleich zwischen dem Wortverzeichnis und der eingegebenen Sprache gemäß dem in 34 veranschaulichten Algorithmus ausgebildet.
Der Ablauf der DP-Vergleichsverarbeitung ist in 20 gezeigt. In einem Schritt S2001 werden die Anzahl von obersten Silben N und die Anzahl von bisher erkannten Silben T (Erkennungszeit) gewonnen. 35 lässt erkennen, dass N 5 ist und T 0 ist. Daraufhin werden in einem Schritt S2002 die Anzahl M von in dem System registrierten Wörtern und die Anzahl R[i] von jedes Wort bildenden Silben gewonnen. 36 lässt erkennen, dass M 3 ist und R[1], R[2] und R[3] 2, 2 bzw. 4 sind. In einem Schritt S2003 wird i als 1 eingestellt. Daraufhin wird die folgende Verarbeitung wiederholt, während die in einem Schritt S2004 eingestellte Bedingung, das heißt i ≤ M, erfüllt ist. Wenn es in dem Schritt S2004 bestimmt wird, dass i 1 ist, geht der Prozess zu einem Schritt S2005 weiter, in dem das Verzeichniswort W[i], das heißt "send", erhalten wird. In einem Schritt S2006 wird j als 1 eingestellt. Daraufhin wird die Verarbeitung zum Erhalten von "send" bildenden Silben wiederholt, während die Bedingung, das heißt j < R[1](= 2), erfüllt ist. Daraufhin wird in einem Schritt S2008 S[1][1] = "se" erhalten.
Anschließend wird in einem Schritt S2101 gemäß 21 k als 1 eingestellt. Während die Bedingung, das heißt k 5 N(= 5), in einem Schritt S2102 erfüllt ist, wird es bestimmt, ob S[1][1] als eine Silbe, die zu den eingegebenen Informationen passen kann, zurückgegeben wird. Wenn es in dem Schritt S2102 bestimmt wird, dass k 1 ist, werden das Erkennungsergebnis C[k] und die Ähnlichkeit A[k] in einem Schritt S2103 gewonnen, was zu C[1] = "nd" und A[1] = 60,4 führt. Wenn es in einem Schritt S2105 bestimmt wird, dass S[1][1] ≠ C[1], wird in einem Schritt S2104 k um 1 erhöht, und eine nachfolgende Silbe, die zu den eingegebenen Informationen passen kann, wird erhalten und bestimmt. Wenn C[3] = "se" und A[3] = 38,9, ist das Ergebnis des Schritts S2105 ja. Somit geht der Prozess zu einem Schritt S2106 weiter, in dem die Ähnlichkeit D[1][1] der Silbe S[1][1] = A[3] als 38,9 eingestellt wird. Daraufhin wird in einem Schritt S2108 die Ähnlichkeit CD[1][1] des Worts W[1] = "send" berechnet.
Mit Bezug auf 22 wird es daraufhin in einem Schritt S2201 bestimmt, ob T 0 ist. In diesem Fall wird der optimale Weg in einem Schritt S2211 gemäß den in 34 veranschaulichten Gleichungen berechnet, da T 0 ist. Das heißt, es wird in dem Schritt S2211 eingestellt, dass P1 = 1, P2 = 2·60,4 = 120,8 und P3 = 0. Es wird somit in einem Schritt S2212 bestimmt, dass P2 = 120,8 'der optimale Weg ist. In einem Schritt S2213 werden die kumulative Ähnlichkeit und der kumulative Weg berechnet.
Da der optimale Weg 2 ist, ist in diesem Fall die kumulative Ähnlichkeit CD[1][1] 120,8, und der kumulative Weg ist 2. Wieder mit Bezug auf 21 wird in einem Schritt S2109 j um eins erhöht, d.h. j = 2. Daraufhin werden in einem Schritt S2103 das Erkennungsergebnis CD[1] = "nd" und die Ähnlichkeit A[1] = 61,0 gewonnen. Entsprechend wird die Bestimmung eines Schritts S2105 wahr. Daraufhin werden in einem Schritt S2108 die vorstehend beschriebenen Berechnungen ausgeführt, und das Ergebnis CD[1][2] = 122,0 wird erhalten. Danach wird in dem Schritt S2109 j um eins erhöht, das heißt j = 3, und die Bestimmung eines Schritts S2007 wird falsch. Entsprechend wird in einem Schritt S2009 i um eins erhöht, i = 2. In dieser Art und Weise wird die Verarbeitung wiederholt, bis i 3 wird. Als Ergebnis wird die Ähnlichkeit von Wörtern CD[1][1] = 120,8, CD[1][2] = 122,0, CD[2][1] = 107,4, CD[2][2] = 41,2, CD[3][1] = 58,2, CD[3][2] = 0, CD[3][3] = 0 und CD[3][4] = 0 erhalten. Wenn in dem Schritt S2009 i 4 wird, wird die Bestimmung des Schritts S2004 falsch. Somit ist die Verarbeitung abgeschlossen, und das Worterkennungsergebnis wird anschließend in dem Schritt S1902 gemäß 19 bestimmt.
In dem Schritt S1902 wird das Ergebnis des Silbe-zu-Wort-Vergleichs erhalten, wenn es bestimmt wird, dass T 0 ist. Gemäß den wie vorstehend beschrieben durchgeführten Berechnungen ist das genaue Wort, das zu dem eingegebenen Ton passen kann, noch nicht bestimmt worden, und das System wartet auf eine nachfolgende Eingabe. Bei einem Empfangen der nachfolgenden Eingabe wird die Art des Tons in dem Schritt S1102 gemäß 11 bestimmt. Da die vorhergehende Eingabe eine Silbe ist und noch nicht als ein Wort erkannt worden ist, wird es in diesem Fall bestimmt, dass die Art der nachfolgenden Eingabe wieder eine Silbe sein kann. Daraufhin wird die Silbenerkennungsverarbeitung in dem Schritt S1104 durchgeführt, und die Silbenerkennungsergebnisse wie beispielsweise die in 35 veranschaulichten werden in dem Schritt S1802 zurückgegeben.
Die Erkennungsergebnisse werden somit in dem Schritt S1802 erhalten, und der Silbe-zu-Wort-Vergleich wird in dem Schritt S1803 durchgeführt. In dem Schritt S2001 gemäß 20 werden die Anzahl N von als die Erkennungsergebnisse erhaltenen obersten Silben und die Erkennungszeit T gewonnen. Das heißt, N = 1 und T = 1 werden erhalten. Wie in dem Fall der dann, wenn T = 0, ausgeführten Verarbeitung werden die Schritte S2002 bis S2109 ausgeführt. Als Ergebnis werden die Berechnungsergebnisse CD[1][1] = 120,8, CD[1][2] = 322,0, CD[2][1] = 107,4, CD[2][2] = 41,2, CD[3][1] = 58,2, CD[3][2] = 0, CD[3][3] = 0 und CD[3][4] = 0 erhalten. Wenn in dem Schritt S2009 i 4 wird, wird die Bestimmung des Schritts S2004 falsch, und der Prozess geht zu dem Schritt S1902 weiter, in dem das Worterkennungsergebnis bestimmt wird.
Gemäß der Bestimmung in dem Schritt S1902 wird das Wort "send" als das durch ein Durchführen der Erkennungsverarbeitung in dem Schritt S805 gemäß 8 erhaltene Erkennungsergebnis eingestellt. Es wird daraufhin nach einem Analysieren des verarbeiteten Ergebnisses in dem Schritt S806 in dem Schritt S807 bestimmt, dass das Wort "send" anzunehmen ist.
Gemäß der vorhergehenden Beschreibung wird die Spracheingabe "Send mail to May" zuerst verarbeitet, und Post wird an May gesendet, und schließlich wird eine Antwort zu dem Benutzer ausgegeben. Die ganze Verarbeitung ist daraufhin abgeschlossen.
In Einheiten einer kurzen Spracheinheit, zum Beispiel einer Silbe, durchgeführte Vorhersagen sind besonders wirkungsvoll, wenn nur ein Teil der ganzen Sprache erkannt wurde. Zum Beispiel kann selbst dann, wenn ein Wort bildender eingegebener Ton nicht vollständig erkannt wurde, eine sehr genaue Erkennung erwartet werden, falls unter Nutzung der Wissensbasis ausgebildete Vorhersagen in Kombination mit einer Vorkommenswahrscheinlichkeit jeder Einheit und der Zwischenzustandsübergangswahrscheinlichkeit verwendet werden.
Bei einem Ausgeben des erkannten Ergebnisses wird die Bestimmung eines Schritts S2307 basierend auf der Analyse des verarbeiteten Ergebnisses in dem Schritt S806 ausgebildet. Falls es in dem Schritt S2307 bestimmt wird, dass das Erkennungsergebnis "send" angenommen wird, wird es in einem Schritt S2308 als das endgültige Erkennungsergebnis ausgegeben. Auf ähnliche Weise wird die vorstehend angeführte Verarbeitung bei einer nachfolgenden Eingabe durchgeführt. Falls eine Änderung der Parameter auf der in 24 gezeigten Bildschirmdarstellung vorhanden ist, werden die neu eingestellten Parameter gültig ausgebildet, und Bestimmungen werden unter Verwendung der neuen Parameter ausgebildet.
Drittes Ausführungsbeispiel
Gemäß dem ersten und zweiten Ausführungsbeispiel wird eine Spracherkennung von englischer Sprache durchgeführt. Es kann jedoch die japanische Sprache basierend auf Vorhersagen erkannt werden, und die entsprechende Verarbeitung kann durch ein Durchführen von Konzeptanalysen angemessen ausgeführt werden. In diesem Fall werden Sprachinformationen als ein Verzeichnis bereitgestellt, und Konzeptanalysen sind nicht von der Art der Sprache abhängig. Somit beeinflussen Unterschiede bei Sprachen wie beispielsweise Englisch und Japanisch die Spracherkennung unter Nutzung von Konzeptanalysen nicht.
Viertes Ausführungsbeispiel
Gemäß der in 13 gezeigten Vorhersagetechnik werden nicht nur Sprachinformationen, deren Eingabe wahrscheinlich ist, sondern auch Informationen, deren Eingabe unwahrscheinlich ist, vorhergesagt. Somit kann die Tatsache, dass genau die gleichen Informationen nicht fortlaufend eingegeben werden, für Vorhersagen verwendet werden, um Informationen, deren Eingabe unwahrscheinlich ist, zu beseitigen, wodurch die Erkennungseffizienz vergrößert wird.
Wie es aus der vorhergehenden Beschreibung ersichtlich ist, bietet die vorliegende Erfindung den Vorteil des Verbesserns der Erkennungsgenauigkeit durch ein Durchführen einer Spracherkennung basierend auf Vorhersagen.
Die vorliegende Erfindung kann auf eine einzelne Vorrichtung oder auf ein aus einer Vielzahl von Vorrichtungen gebildetes System angewendet werden.
Bei einem anderen Ausführungsbeispiel der vorliegenden Erfindung kann einer Vorrichtung oder einem System Softwareprogrammcode zum Realisieren der vorstehend beschriebenen Funktionen zugeführt werden, und ein Computer in der Vorrichtung oder dem System kann den in einem Speichermedium gespeicherten Programmcode lesen und ihn ausführen, so dass die vorstehend beschriebenen Funktionen realisiert werden können.
Die Funktion des vorhergehenden Ausführungsbeispiels kann nicht nur durch ein Ausführen des durch den Computer gelesenen Programmcodes realisiert werden, sondern auch durch ein Ausführen der Verarbeitung durch zum Beispiel ein in dem Computer laufendes Betriebssystem (OS) gemäß den Anweisungen des Programmcodes.
Gemäß den vorstehend beschriebenen Modifikationen bildet ein den Programmcode speicherndes Speichermedium die vorliegende Erfindung.
Obwohl die vorliegende Erfindung in ihrer bevorzugten Form mit einem bestimmten Grad von Besonderheit beschrieben worden ist, können viele offenbar weit verschiedene Ausführungsbeispiele der Erfindung ausgebildet werden, ohne von dem Schutzbereich der Patentansprüche abzuweichen. Es ist selbstverständlich, dass die Erfindung nicht auf die spezifischen Ausführungsbeispiele davon außer wie in den beiliegenden Patentansprüchen definiert beschränkt ist.

Claims

Sprachinformationsverarbeitungsvorrichtung mit: einer Kontextbasis (207) zum Speichern von eine Kategorie von anschließend zu erkennenden Wörtern darstellenden Vorhersageinformationen; einer Erkennungseinrichtung (601) zum Erkennen eines Worts basierend auf der durch die in der Kontextbasis (207) gespeicherten Vorhersageinformationen dargestellten Kategorie von Wörtern; einer Wissensbasis (208) zum Speichern von eine Kategorie von Sprachinformationen betreffendem Wissen; einer Vorhersageeinrichtung zum Vorhersagen der Kategorie von anschließend zu erkennenden Wörtern basierend auf zumindest einem vorher erkannten Wort mit Bezug auf das in der Wissensbasis (208) gespeicherte Wissen; und einer Aktualisierungseinrichtung zum Aktualisieren der in der Kontextbasis (207) gespeicherten Vorhersageinformationen basierend auf der durch die Vorhersageeinrichtung erhaltenen Kategorie von Wörtern; dadurch gekennzeichnet, dass: die Vorrichtung ferner eine Bestimmungseinrichtung zum Bestimmen, ob eingegebene Toninformationen Sprachinformationen sind oder nicht, mit Bezug auf das in der Wissensbasis (208) gespeicherte Wissen umfasst; und dass die Erkennungseinrichtung (601) zum Durchführen der Erkennung bei den eingegebenen Toninformationen, wenn die Bestimmungseinrichtung bestimmt, dass die eingegebenen Toninformationen Sprachinformationen sind, ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Vorhersageeinrichtung dazu betreibbar ist, ferner eine Kategorie von Wörtern, deren anschließende Erkennung weniger wahrscheinlich ist, vorherzusagen, und wobei die Erkennungseinrichtung (601) zum Ablehnen der Kategorie von Wörtern, deren anschließende Erkennung weniger wahrscheinlich ist, ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 1 oder 2, ferner mit einer Richtigkeitsbestimmungseinrichtung zum Bestimmen der Richtigkeit eines durch die Erkennungseinrichtung (601) erhaltenen Erkennungsergebnisses, und wobei die Vorhersageeinrichtung zum Durchführen einer Vorhersage basierend auf einem durch die Richtigkeitsbestimmungseinrichtung erhaltenen Bestimmungsergebnis ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 3, ferner mit einer Berichtigungseinrichtung zum Berichtigen des Erkennungsergebnisses basierend auf einem durch die Richtigkeitsbestimmungseinrichtung erhaltenen Bestimmungsergebnis, und wobei die Vorhersageinrichtung zum Durchführen einer Neuvorhersage basierend auf dem durch die Berichtigungseinrichtung berichtigten Erkennungsergebnis ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 4, wobei die Berichtigungseinrichtung zum Berichtigen eines neuen Erkennungsergebnisses mit Bezug auf das in der Wissensbasis (208) gespeicherte Wissen basierend auf einem vorhergehenden Erkennungsergebnis ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach einem der vorstehenden Ansprüche, ferner mit einer Tonbestimmungseinrichtung zum Bestimmen, ob Toninformationen durch einen Menschen erzeugte Sprachinformationen sind oder nicht, und wobei die Bestimmungseinrichtung zum Durchführen einer Bestimmung bei den durch die Tonbestimmungseinrichtung bestimmten eingegebenen Toninformationen ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 6, wobei die Tonbestimmungseinrichtung zum Unterscheiden von menschlicher Sprache von einem mechanischen Ton basierend auf einem Frequenzunterschied ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach einem der vorstehenden Ansprüche, wobei die Erkennungseinrichtung (601) zum Erkennen eines Worts in Einheiten von einem der Nachstehenden ausgelegt ist: Wörter, Silben und Phoneme.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 8, wobei die Vorhersageeinrichtung zum Vorhersagen eines Worts einschließlich einer Silbe oder eines Phonems, die oder das anschließend zu erkennen ist, ausgelegt ist, wenn die Erkennungseinrichtung (601) zum Erkennen von Wörtern in Einheiten eines der Nachstehenden ausgelegt ist: Silben bzw. Phoneme, und wobei die Vorhersageeinrichtung zum Vorhersagen eines der Nachstehenden ausgelegt ist: der Silbe oder des Phonems, die oder das anschließend basierend auf der durch die Vorhersageinformationen dargestellten Kategorie von Wörtern zu erkennen ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 8 oder 9, ferner mit einer Auswahleinrichtung zum Auswählen der Einheit zur Erkennung gemäß dem, ob ein vorhergehendes Erkennungsergebnis erfolgreich erhalten wurde oder nicht.
Sprachinformationsverarbeitungsvorrichtung nach einem der vorstehenden Ansprüche, wobei die Vorhersageeinrichtung zum Vorhersagen der Kategorie von anschließend zu erkennenden Wörtern basierend auf einer vorhergehenden Operation ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 11, wobei die Vorhersageeinrichtung zum Vorhersagen einer nachfolgenden Operation basierend auf der vorhergehenden Operation und zum Vorhersagen der Kategorie von anschließend zu erkennenden Wörtern basierend auf der vorhergesagten nachfolgenden Operation ausgelegt ist.
Sprachinformationsverarbeitungsvorrichtung nach Anspruch 11 oder 12, wobei die Vorhersageeinrichtung zum Vorhersagen der Kategorie von anfänglich zu erkennenden Wörtern basierend auf der vorhergehenden Operation ausgelegt ist.
Sprachinformationsverarbeitungsverfahren mit: einem Erkennungsschritt (S805) des Erkennens eines Worts basierend auf einer Kategorie von anschließend zu erkennenden Wörtern, die durch in einer Kontextbasis (207) gespeicherte Vorhersageinformationen dargestellt wird; einem Vorhersageschritt (S904) des Vorhersagens der Kategorie von anschließend zu erkennenden Wörtern basierend auf zumindest einem vorher erkannten Wort mit Bezug auf eine, Kategorie von Sprachinformationen betreffendes Wissen, das in einer Wissensbasis (208) gespeichert ist; und einem Aktualisierungsschritt (S905) des Aktualisierens der in der Kontextbasis (207) gespeicherten Vorhersageinformationen basierend auf der in dem Vorhersageschritt erhaltenen Kategorie von Wörtern; gekennzeichnet durch einen Bestimmungsschritt (S1108) des Bestimmens, ob eingegebene Toninformationen Sprachinformationen sind oder nicht, mit Bezug auf das in der Wissensbasis (208) gespeicherte Wissen; und dadurch, dass der Erkennungsschritt (S805) die Erkennung bei den eingegebenen Toninformationen durchführt, wenn in dem Bestimmungsschritt (S1108) bestimmt wird, dass die eingegebenen Toninformationen Sprachinformationen sind.
Sprachinformationsverarbeitungsverfahren nach Anspruch 14, wobei der Vorhersageschritt (S904) ferner eine Kategorie von Wörtern, deren anschließende Erkennung weniger wahrscheinlich ist, vorhersagt, und wobei der Erkennungsschritt (S805) die Kategorie von Wörtern, deren anschließende Erkennung weniger wahrscheinlich ist, ablehnt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 14 oder 15, ferner mit einem Richtigkeitsbestimmungsschritt (S902) des Bestimmens der Richtigkeit eines in dem Erkennungsschritt (S805) erhaltenen Erkennungsergebnisses, und wobei der Vorhersageschritt (S904) eine Vorhersage basierend auf einem in dem Richtigkeitsbestimmungsschritt erhaltenen Bestimmungsergebnis durchführt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 16, ferner mit einem Berichtigungsschritt (S903) des Berichtigens des Erkennungsergebnisses basierend auf einem in dem Richtigkeitsbestimmungsschritt (S902) erhaltenen Bestimmungsergebnis, und wobei der Vorhersageschritt (S904) eine Neuvorhersage basierend auf dem in dem Berichtigungsschritt (S903) berichtigten Erkennungsergebnis durchführt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 17, wobei der Berichtigungsschritt (S903) ein neues Erkennungsergebnis mit Bezug auf das in der Wissensbasis (208) gespeicherte Wissen basierend auf einem vorhergehenden Erkennungsergebnis berichtigt.
Sprachinformationsverarbeitungsverfahren nach einem der Ansprüche 14 bis 18, ferner mit einem Tonbestimmungsschritt (S1202) des Bestimmens, ob Toninformationen durch einen Menschen erzeugte Sprachinformationen sind oder nicht, und wobei der Bestimmungsschritt eine Bestimmung bei den in dem Tonbestimmungsschritt bestimmten eingegebenen Toninformationen durchführt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 19, wobei der Tonbestimmungsschritt (S1108) basierend auf einem Frequenzunterschied menschliche Sprache von einem mechanischen Ton unterscheidet.
Sprachinformationsverarbeitungsverfahren nach einem der Ansprüche 14 bis 20, wobei der Erkennungsschritt (S805) ein Wort in Einheiten eines der Nachstehenden erkennt: Wörter, Silben und Phoneme.
Sprachinformationsverarbeitungsverfahren nach Anspruch 21, wobei der Vorhersageschritt (S904) ein Wort einschließlich eines der Nachstehenden vorhersagt: einer Silbe und eines Phonems, die oder das anschließend zu erkennen ist, wenn der Erkennungsschritt (S805) eines der Nachstehenden verwendet: Silben bzw. Phoneme als eine Einheit der Erkennung, und die Silbe oder das Phonem, die oder das anschließend zu erkennen ist, basierend auf der durch die Vorhersageinformationen dargestellten Kategorie von Wörtern vorhersagt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 21 oder 22, ferner mit einem Auswahlschritt des Auswählens der Einheit der Erkennung gemäß dem, ob ein vorhergehendes Erkennungsergebnis erfolgreich erhalten wurde oder nicht.
Sprachinformationsverarbeitungsverfahren nach einem der Ansprüche 14 bis 23, wobei der Vorhersageschritt (S904) die Kategorie von anschließend zu erkennenden Wörtern basierend auf einer vorhergehenden Operation vorhersagt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 24, wobei der Vorhersageschritt (S904) eine nachfolgende Operation basierend auf der vorhergehenden Operation vorhersagt und die Kategorie von anschließend zu erkennenden Wörtern basierend auf der vorhergesagten nachfolgenden Operation vorhersagt.
Sprachinformationsverarbeitungsverfahren nach Anspruch 24 oder 25, wobei der Vorhersageschritt die Kategorie von anfänglich zu erkennenden Wörtern basierend auf der vorhergehenden Operation vorhersagt.
Speichermedium, das durch eine Verarbeitungseinrichtung ausführbare Anweisungen zum Steuern einer Verarbeitungseinrichtung zum Ausführen des Verfahrens nach einem der Ansprüche 14 bis 26 speichert.
Durch eine Verarbeitungseinrichtung ausführbare Anweisungen zum Steuern einer Verarbeitungseinrichtung zum Ausführen des Verfahrens nach einem der Ansprüche 14 bis 26.