-
HINTERGRUND
DER ERFINDUNG Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich allgemein auf eine Spracherkennung
und insbesondere auf ein Verfahren und eine Vorrichtung zum Erkennen
von Sprachinformationen basierend auf einer ein zu erkennendes Objekt
betreffenden Prädiktion
bzw. Vorhersage. Die Erfindung bezieht sich auf ein Speichermedium
zum Speichern eines das vorstehende Verfahren realisierenden Programms.
-
Beschreibung
des relevanten Stands der Technik
-
Die
Spracherkennung ist in erster Linie in zwei Arten von Verfahren
aufgeteilt, das heißt
ein Wortspracherkennungsverfahren und ein Satzgliedspracherkennungsverfahren.
Gemäß dem Wortspracherkennungsverfahren
wird ein Eingabesprachsignalverlauf analysiert, und es werden Merkmale
aus dem Signalverlauf extrahiert, um eine Merkmalszeitreihe zu erzeugen.
Daraufhin wird die Ähnlichkeit
der Merkmale in Bezug zu dem durch die Merkmalszeitreihe, die auf ähnliche
Weise erhalten worden ist, dargestellten Wortverzeichnis berechnet,
und das berechnete Wort wird als ein Erkennungsergebnis ausgegeben.
Bei dem Satzgliedspracherkennungsverfahren wird eingegebene Rede
bzw. Sprache in Phonemfolgen gewandelt, die durch Wortfolgen ersetzt
werden. Wortfolgen werden daraufhin geparst und in Zeichenfolgen
gewandelt. Daraufhin werden logische Analysen und semantische Analysen
bei den Zeichenfolgen ausgebildet, so dass ein Satz erzeugt und
ausgegeben wird. Es wird weitere Forschung an einem Verfahren zum
Bereitstellen von Wortklasseninformationen für Homonyme und einem Verfahren
zum Wandeln von eingegebener Sprache in zusammengesetzte Hauptwörter oder
in ein einzelnes Satzglied durchgeführt. Es ist jedoch schwierig, derartige
Verfahren zu realisieren.
-
In
den meisten Fällen
erkennen Menschen während
eines Gesprächs
die Stimme bzw. Äußerung des
Sprechers, indem sie sie als eine Bedeutung verstehen. Während der
Sprecher spricht unterstützt
der Zuhörer
sein/ihr Verständnis
durch ein Vorhersagen des Inhalts der Sprache in gewissem Maße gemäß dem vorhergehenden
Thema und dem gesunden Menschenverstand. Folglich versteht der Zuhörer selbst
dann, wenn der Sprecher einige Wörter falsch
auswählt
oder ausspricht, ihn/sie ohne ein Problem. Selbst wenn viele Homonyme
in einem Gespräch
vorhanden sind, kann der Zuhörer
bestimmen, welches Wort der Sprecher meint.
-
Im
Gegensatz dazu führen
bekannte Spracherkennungssysteme eine Spracherkennung gemäß einem
Mustervergleich durch. Genauer wird ein für ein System bereitgestelltes
Verzeichnis nach möglichen
Wörtern
durchsucht, die zu einem bestimmten Abschnitt eines Eingabesprachsignalverlaufs
passen, und die gesuchten Wörter
werden ausgegeben. Unter den ausgegebenen Wörtern wird das optimale Wort
ausgewählt.
Mit dieser Anordnung wird die nachfolgende Verarbeitung verdorben,
falls die Spracherkennung fehlschlägt, während sie durchgeführt wird.
-
Zusätzlich wird
es bei den meisten bekannten Spracherkennungssystemen angenommen,
dass eine zu erkennende eingegebene Rede die Syntax einer bestimmten
Sprache erfüllt.
Somit werden in einem Spracherkennungsmodul verschiedene Bestimmungen
ausgebildet, und das Bestimmungsergebnis wird zu einem anderen Prozess
(anderen Modul) transferiert. Genauer werden in einem Spracherkennungsmodul
Sprachinformationen eindeutig als ein Systembefehl bestimmt, indem
sie gefiltert (geparst) werden. Nicht nur eine Verarbeitung für grammatikalisch
richtige Sprache, sondern auch eine Verarbeitung für unnötige Wörter wie
beispielsweise Interjektionen und neu formulierte Wörter und
für nicht
grammatikalische Sprache wie beispielsweise eine Anastrophe (Inversion)
und ein Partikelabwurf werden durch eine Sprachverarbeitung (die
derartige Wörter gegen
eine Wortdatenbank oder eine Grammatikdatenbank verifiziert) gehandhabt.
-
Da
jedoch das Parsen zum Analysieren der Struktur der Syntax durchgeführt wird,
werden andere Elemente als Syntaxinformationen abgelehnt. Selbst
wenn nach einem Parsen ein Wort als ein bedeutsames Wort bestimmt
wird, werden ein allgemeines Wissen oder ein Wissen eines spezifischen Felds
nicht berücksichtigt.
-
Ein
Beispiel für
bekannte Spracherkennungssysteme ist in 42 gezeigt.
Da der Ablauf der bei eingegebener Sprache ausgeführten Verarbeitung
unidirektional ist, fährt
die Systemverarbeitung selbst dann fort, in der gleichen Richtung
weiterzugehen, wenn das Verarbeitungsergebnis eines Spracherkennungsmoduls
unrichtig ist. Eine Eingabe, die als syntaktisch richtig bestimmt
wird, aber bei einem Durchführen
der Spracherkennung nicht durch das gesamte System verarbeitet werden
kann, wird zum Beispiel nachteiligerweise empfangen und kommt als
ein Fehler zurück.
Das heißt,
eine Spracherkennungseinheit und das ganze System führen eine
Verarbeitung getrennt durch, ohne zusammenzuarbeiten, wodurch sie
es nicht schaffen, eine komplizierte Verarbeitung zu realisieren.
Als Folge wird die Leistungsfähigkeit
des gesamten Systems ernstlich durch das Ergebnis der Spracherkennung
beeinflusst.
-
Die
JP-A-05080793 beschreibt eine interaktive Verständnisvorrichtung, die eine
Spracherkennungsvorrichtung und einen Wortprädiktor, der zum Beschränken eines
durch die Spracherkennungsvorrichtung verwendeten Vokabulars zum
Verbessern einer Erkennungseffizienz arbeitet, einschließt.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Gemäß einer
Ausgestaltung stellt die Erfindung eine Sprachinformationsverarbeitungsvorrichtung
bereit, die umfasst:
eine Kontextbasis zum Speichern von eine
Kategorie von anschließend
zu erkennenden Wörtern
darstellenden Vorhersageinformationen;
eine Erkennungseinrichtung
zum Erkennen eines Worts basierend auf der durch die in der Kontextbasis
gespeicherten Vorhersageinformationen dargestellten Kategorie von
Wörtern;
eine
Wissensbasis zum Speichern von eine Kategorie von Sprachinformationen
betreffendem Wissen;
eine Vorhersageeinrichtung zum Vorhersagen
der Kategorie von anschließend
zu erkennenden Wörtern
basierend auf zumindest einem vorher erkannten Wort mit Bezug auf
das in der Wissensbasis gespeicherte Wissen; und
eine Aktualisierungseinrichtung
zum Aktualisieren der in der Kontextbasis gespeicherten Vorhersageinformationen
basierend auf der durch die Vorhersageeinrichtung erhaltenen Kategorie
von Wörtern;
dadurch
gekennzeichnet, dass:
die Vorrichtung ferner eine Bestimmungseinrichtung zum
Bestimmen, ob eingegebene Toninformationen Sprachinformationen sind
oder nicht, mit Bezug auf das in der Wissensbasis gespeicherte Wissen
umfasst; und dass
die Erkennungseinrichtung zum Durchführen der
Erkennung bei den eingegebenen Toninformationen, wenn die Bestimmungseinrichtung
bestimmt, dass die eingegebenen Toninformationen Sprachinformationen
sind, ausgelegt ist.
-
Gemäß einer
anderen Ausgestaltung stellt die vorliegende Erfindung ein Sprachinformationsverarbeitungsverfahren
bereit, das umfasst:
einen Erkennungsschritt des Erkennens
eines Worts basierend auf einer Kategorie von anschließend zu erkennenden
Wörtern,
die durch in einer Kontextbasis gespeicherte Vorhersageinformationen
dargestellt wird;
einen Vorhersageschritt des Vorhersagens
der Kategorie von anschließend
zu erkennenden Wörtern
basierend auf zumindest einem vorher erkannten Wort mit Bezug auf
eine Kategorie von Sprachinformationen betreffendes Wissen, das
in einer eine Kategorie von Sprachinformationen betreffenden Wissensbasis gespeichert
ist; und
einen Aktualisierungsschritt des Aktualisierens der
in der Kontextbasis gespeicherten Vorhersageinformationen basierend
auf der in dem Vorhersageschritt erhaltenen Kategorie von Wörtern;
gekennzeichnet
durch einen Bestimmungsschritt des Bestimmens, ob eingegebene Toninformationen Sprachinformationen
sind oder nicht, mit Bezug auf das in der Wissensbasis gespeicherte
Wissen; und dadurch, dass der Erkennungsschritt die Erkennung bei
den eingegebenen Toninformationen durchführt, wenn in dem Bestimmungsschritt
bestimmt wird, dass die eingegebenen Toninformationen Sprachinformationen
sind.
-
Andere
Ziele und Vorteile neben den vorstehend erörterten werden für den Fachmann
aus der Beschreibung eines bevorzugten Ausführungsbeispiels der Erfindung
ersichtlich, die folgt. In der Beschreibung ist auf beigefügte Zeichnungen
Bezug genommen, die einen Teil davon bilden und die ein Beispiel
für die
Erfindung veranschaulichen. Ein derartiges Beispiel ist jedoch nicht
erschöpfend
für die verschiedenen
Ausführungsbeispiele
der Erfindung.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 veranschaulicht
den Aufbau der Hardware einer Verarbeitungsvorrichtung für natürliche Sprache
gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung;
-
2 veranschaulicht
eine Systemarchitektur;
-
3 veranschaulicht
eine Realisierungsbetriebsart bei der Spracherkennung;
-
4 veranschaulicht
den Überblick
des Verstehens von durch Menschen ausgegebener Sprache;
-
5 veranschaulicht
eine Eingabeverarbeitung;
-
6 veranschaulicht
den Aufbau eines Systems;
-
7 veranschaulicht
einen schematischen Ablauf der Systemverarbeitung;
-
8 zeigt
ein Flussdiagramm, das die durch die gesamte Vorrichtung durchgeführte Verarbeitung
schematisch veranschaulicht;
-
9 zeigt
ein Flussdiagramm, das eine Analyseprozedur des Prozessergebnisses
veranschaulicht;
-
10 zeigt
ein Flussdiagramm, das die Vorhersageinformationen widerspiegelnde
Erkennungsverarbeitung veranschaulicht;
-
11 zeigt
ein Flussdiagramm, das den Ablauf der Spracherkennungsverarbeitung
veranschaulicht;
-
12 zeigt
ein Flussdiagramm, das den Ablauf des Bestimmens der Art von eingegebenem Ton
veranschaulicht;
-
13 veranschaulicht
zwei Vorhersagetechniken;
-
14 und 15 veranschaulichen
die Klassifizierung der Kategorien von Wörtern;
-
16 zeigt
ein Flussdiagramm, das die Prozedur des Einstellens der Anfangsvorhersage veranschaulicht;
-
17 zeigt
ein Flussdiagramm, das die Worterkennungsverarbeitung veranschaulicht;
-
18 zeigt
ein Flussdiagramm, das die Silbenerkennungsverarbeitung veranschaulicht;
-
19 zeigt
ein Flussdiagramm, das eine Vergleichsverarbeitung zwischen dem
Silbenerkennungsergebnis und dem für das System bereitgestellten
Wort veranschaulicht;
-
20 und 21 zeigen
Flussdiagramme, die die Verarbeitung des Bestimmens der Ähnlichkeit von
Silben veranschaulichen;
-
22 zeigt
ein Flussdiagramm, das die Verarbeitung des Berechnens der Ähnlichkeit
des entsprechenden Worts durch ein Nutzen der Ähnlichkeit von Silben und der
Erkennungszeit veranschaulicht;
-
23 zeigt
ein Flussdiagramm, das die Angabeverarbeitung veranschaulicht;
-
24 veranschaulicht
die Parametereinstellungs-/ Ergebnisangabebildschirmdarstellung;
-
25 veranschaulicht
ein Beispiel für
ein Silbenverzeichnis;
-
26 veranschaulicht
ein Beispiel für
ein Wortverzeichnis;
-
27 veranschaulicht
den Zustandsübergang
des Kontexts für
eine Vorhersage einer nachfolgenden Eingabe;
-
28 zeigt
ein Flussdiagramm, das die Verarbeitung des Erzeugens einer Antwort
an den Benutzer veranschaulicht;
-
29 veranschaulicht
ein Beispiel für
ein Sprachverzeichnis;
-
30 veranschaulicht
ein Beispiel für
ein Konzeptverzeichnis;
-
31 veranschaulicht
ein Beispiel für
Regeln;
-
32 veranschaulicht
ein Beispiel für
ein Wortverzeichnis;
-
33 veranschaulicht
ein Beispiel für
Silbenerkennungsergebnisse;
-
34 veranschaulicht
einen Vergleichsalgorithmus mit dynamischer Programmierung (DP);
-
35 veranschaulicht
ein Beispiel für
ein Wortverzeichnis;
-
36 veranschaulicht
ein Beispiel für
Silbenerkennungsergebnisse;
-
37 zeigt
ein Flussdiagramm, das die Verarbeitung des Bestimmens eines Erkennungsergebnisses
und des Bestimmens, ob das Erkennungsergebnis anzunehmen ist, veranschaulicht;
-
38 zeigt
ein Flussdiagramm, das die Erkennungsergebnisanalyseverarbeitung
veranschaulicht;
-
39 zeigt
ein Flussdiagramm, das eine Konzeptanalyse und die Verarbeitung
des Bestimmens eines Analyseergebnisses veranschaulicht;
-
40 zeigt
ein Flussdiagramm, das die Ergebnisberichtigungsverarbeitung veranschaulicht;
-
41 zeigt
ein Flussdiagramm, das die Verarbeitung des Neubestimmens des vorhergehenden
Erkennungsergebnisses veranschaulicht; und
-
42 veranschaulicht
eine bekannte Eingabeverarbeitung.
-
BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung sind nachstehend unter Bezugnahme auf
die beigefügten
Zeichnungen ausführlich beschrieben.
-
Erstes Ausführungsbeispiel
-
Nachstehend
ist eine ausführliche
Beschreibung eines ersten Ausführungsbeispiels
der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen
angegeben.
-
Es
wird zuerst eine Erörterung
des Aufbaus der Hardware zur Verwendung in einer Verarbeitungsvorrichtung
für natürliche Sprache
gemäß dem ersten
Ausführungsbeispiel
der vorliegenden Erfindung angegeben. Mit Bezug auf das in 1 gezeigte
Blockschaltbild, das den Aufbau der Hardware veranschaulicht, gibt
eine Eingabeeinheit 101 Informationen durch die Verwendung
einer natürlichen
Sprache ein. Es ist nicht wesentlich, dass die eingegebenen Informationen
ein grammatikalisch vollständiger Satz
sind, solange sie eine reguläre
Struktur aufweisen.
-
Die
Eingabeeinheit 101 ist nicht auf ein Spracherkennungssystem
zum Eingeben und Erkennen von Sprache begrenzt und kann eine Tastatur
zum Eingeben von Zeichen durch Tasten, eine Zeichenerkennungsleseeinrichtung
zum optischen Lesen von Zeichen aus einem Dokument und Erkennen
derselben, eine Online-/Offline-Erkennungsleseeinrichtung für handgeschriebene
Zeichen oder eine Empfangseinheit zum Empfangen von Informationen
von einem anderen System, zum Beispiel von einem Zeichenerkennungssystem,
sein. Alternativ können
zwei der vorstehenden Eingabeeinheiten kombiniert und selektiv als
die Eingabeeinheit 101 genutzt werden.
-
Eine
CPU 102 führt
Berechnungen und Boole'sche
Operationen für
verschiedenartige Verarbeitung durch und steuert die einzelnen mit
einem Bus 106 verbundenen Elemente. Eine Ausgabeeinheit 103 gibt
analysierte Dateninformationen aus und kann eine Sprachsyntheseeinheit
zum Synthetisieren von Sprache aus Zeicheninformationen und Ausgeben
derselben, eine Anzeigeeinheit wie beispielsweise eine Kathodenstrahlröhre (CRT)
oder eine Flüssigkristallanzeigeeinheit,
ein Drucker zum Drucken von Zeichen auf ein Dokument oder eine Übertragungseinrichtung
zum Übertragen
von Informationen zu einer anderen Einheit wie beispielsweise einer
Datenbank sein. Die Ausgabe von der Ausgabeeinheit 103 kann
in eine andere Ausgabeeinheit innerhalb der gleichen Vorrichtung,
zum Beispiel in eine Konzeptanalyseeinheit, eingegeben werden. Alternativ können zwei
der vorstehend beschriebenen Einheiten kombiniert und selektiv als
die Ausgabeeinheit 103 genutzt werden.
-
Ein
Programmspeicher 104 speichert ein Programm einschließlich der
durch die CPU 102 gesteuerten Verarbeitungsprozedur, die
nachstehend unter Bezugnahme auf ein Flussdiagramm beschrieben wird.
Der Programmspeicher 104 kann ein Nur-Lese-Speicher (ROM)
oder ein Schreib-Lese-Speicher mit wahlfreiem Zugriff (RAM), in
den das Programm von einer externen Speichervorrichtung geladen
wird, sein.
-
Ein
Datenspeicher 105 speichert nicht nur durch verschiedenartige
Verarbeitung erzeugte Daten, sondern auch eine Wissensbasis, die
nachstehend erörtert
wird. Der Datenspeicher 105 kann ein RAM sein, aber in
der Wissensbasis enthaltenes Wissen wird aus einem nichtflüchtigen
externen Speichermedium in den Datenspeicher 105 geladen, bevor
die Verarbeitung ausgeführt
wird, oder wird jedes Mal überprüft, wenn
der Bedarf entsteht. Der Bus 106 wird zum Übertragen
von Adresssignalen, die den einzelnen durch die CPU 102 gesteuerten
Elementen eine Anweisung zuweisen, und zum Transferieren von zwischen
den einzelnen Einheiten auszutauschenden Daten verwendet.
-
2 zeigt
ein Blockschaltbild, das den grundlegenden Aufbau einer Informationsverarbeitungsvorrichtung
gemäß dem ersten
Ausführungsbeispiel
veranschaulicht. Die Informationsverarbeitungsvorrichtung führt eine
Verarbeitung unter Verwendung von Wissen der Wissensbasis durch. 2 veranschaulicht
den Ablauf der unter Verwendung dieses Wissens ausgeführten Verarbeitung.
-
Die
Informationsverarbeitungsvorrichtung umfasst eine Eingabeverarbeitungseinheit 201 zum Ausführen einer
Verarbeitung bei den einzelnen eingegebenen Signalen zum Erhalten
von eingegebenen Informationen. Eine Kontextaufbau-/Zielfolgerungseinheit 202 führt Konzeptanalysen
bei dem Inhalt von von der Eingabeeinheit 101 eingegebenen Informationen
von natürlicher
Sprache unter Nutzung des Wissens einer Wissensbasis 208 durch,
wodurch die Bedeutung verstanden wird.
-
Eine
Planungseinheit 203 bildet eine Planung unter Verwendung
einer Kontextbasis 207 und des Wissens der Wissensbasis 208 aus,
um ein durch die Kontextaufbau-/ Zielfolgerungseinheit 202 gefolgertes
Ziel zu erreichen.
-
Eine
Ausführungseinheit 204 fordert
basierend auf dem Verarbeitungsergebnis der Planungseinheit 203 eine
Hauptanwendungseinheit 205 zum Ausführen einer Verarbeitung unter
Verwendung einer Anwendung, einer Datenbank oder eines mit einem
System verbundenen Druckers auf. Die Hauptanwendungseinheit 205 führt daraufhin
eine Verarbeitung unter Verwendung einer Anwendung, einer Datenbank
oder eines mit dem System verbundenen Druckers aus.
-
Eine
Antwortbestimmungseinheit 206 empfängt das Verarbeitungsergebnis
der Ausführungseinheit 204 und
bestimmt eine zu einem Benutzer auszugebende Antwort. Bei diesem
Ausführungsbeispiel
analysiert die Antwortbestimmungseinheit 206 die Ausgabe
unter Verwendung der Kontextbasis 207 und des Wissens der
Wissensbasis 208 und erzeugt eine Antwort, falls es erforderlich
ist, und wählt schließlich ein
Verfahren zum Ausgeben der Antwort aus.
-
Die
Kontextbasis 207 stellt das für die Kontextaufbau-/ Zielfolgerungseinheit 202,
die Planungseinheit 203 und die Antwortbestimmungseinheit 206 erforderliche
Wissen bereit und speichert auch neues Wissen, das erzeugt wird,
während
die vorstehenden Einheiten eine Verarbeitung ausführen.
-
Die
Wissensbasis 208 stellt das für die Kontextaufbau-/ Zielfolgerungseinheit 202,
die Planungseinheit 203 und die Antwortbestimmungseinheit 206 erforderliche
Wissen bereit und speichert auch neues Wissen, das erzeugt wird,
während
die vorstehenden Einheiten eine Verarbeitung ausführen.
-
3 veranschaulicht
den Ablauf der durch die Informationsverarbeitungsvorrichtung des
ersten Ausführungsbeispiels
durchgeführten
Verarbeitung. Eine Eingabeerkennungseinheit 301, die der
in 2 gezeigten Eingabeverarbeitungseinheit 201 entspricht,
erkennt die eingegebenen Informationen.
-
Eine
Konzeptanalyseeinheit 302, die der Kontextaufbau-/Zielfolgerungseinheit 202,
der Planungseinheit 203 und der Ausführungseinheit 204 entspricht,
analysiert die Bedeutung der eingegebenen Informationen unter Nutzung
einer in dem System enthaltenen Wissensbasis/Kontextbasis 306 gemäß dem Erkennungsergebnis
der Eingabeerkennungseinheit 301. Bei Analysen sagt die
Konzeptanalyseeinheit 302 anschließend einzugebende Informationen
vorher oder fordert eine Hauptanwendungseinheit 303 zum
Ausführen
einer Verarbeitung auf.
-
Die
Hauptanwendungseinheit 303, die der Hauptanwendungseinheit 205 entspricht,
führt eine durch die
Konzeptanalyseeinheit 302 angeforderte Verarbeitung aus
und transferiert das Ausführungsergebnis
zu einer Antworterzeugungseinheit 304.
-
Die
Antworterzeugungseinheit 304, die eine Verarbeitung bei
dem Ergebnis der Antwortbestimmungseinheit 206 durchführt, analysiert
das Ausführungsergebnis
der Hauptanwendung 303 und erzeugt eine zu dem Benutzer
auszugebende Antwort und wählt
auch das optimale Ausgabeverfahren aus.
-
Die
Antworterzeugungseinheit 304 fordert eine Ausgabesyntheseeinheit 305 zum
Ausgeben der Antwort auf. Die Ausgabesyntheseeinheit 305 gibt
die durch die Antworterzeugungseinheit 304 erzeugte Antwort
gemäß dem ausgewählten Verfahren aus.
Die Wissensbasis/Kontextbasis 306 des Systems wird zum
Durchführen
einer Verarbeitung durch die Antworterzeugungseinheit 304 und
die Ausgabesyntheseeinheit 305 verwendet.
-
Durch
ein Anwenden des Aufbaus der Informationsverarbeitungsvorrichtung
des ersten Ausführungsbeispiels
auf eine Spracherkennung werden die Vorteile der Erkennungsverarbeitung
für menschliche Sprache
in dieser Vorrichtung realisiert. Ein Beispiel für einen Mechanismus des Erkennens
von durch Menschen ausgegebener Sprache ist nachstehend angegeben.
Bei diesem Beispiel ist es angenommen, dass eingegebene Sprache "Send mail to May" verarbeitet wird.
-
4 veranschaulicht
den Überblick
des Verstehens der Sprache "Send
mail to May" durch Menschen.
In den meisten Fällen
erkennen Menschen die Sprache, indem sie sie eher als eine Bedeutung
verstehen als sequentiell einem bestimmten Abschnitt des Eingabesprachsignalverlaufs ähnelnde mögliche Wörter auszuwählen, wie
es in derzeitigen Spracherkennungssystemen durchgeführt wird.
Dies liegt daran, dass Menschen Sprache nicht nur durch Sprachinformationen
erkennen und verstehen, sondern auch durch ein Vorhersagen des vor
und nach der Sprache verwendeten Kontexts und in gewissem Grade
gesunden Menschenverstand.
-
Zum
Realisieren der Erkennungsoperation des Menschen in einem System
können
im Voraus Vorhersagen über
die eingegebenen Informationen ausgebildet werden. Genauer können dann,
wenn "Send mail
to May!" als Sprache
eingegeben wird, die folgenden Vorhersagen ausgebildet werden. Bei
einem Erkennen des Worts "send" wird das nachfolgende
Objekt unter Verwendung des Sprachwissens vorhergesagt, und ein
Wort "mail" wird ferner unter Verwendung
des Domänenwissens
vorhergesagt.
-
Im
Allgemeinen kann bei einer Spracherkennung nach möglichen
Wörtern "male", "mai", "may" und "mate" gesucht werden.
Unter diesen Wörtern kann "mai" anhand des Sprachwissens
als ein Personenname vorhergesagt werden, von dem unwahrscheinlich
ist, dass er in einem gewöhnlichen
Verzeichnis enthalten ist. Da es jedoch nicht wahrscheinlich ist,
dass Personennamen unmittelbar nach "send" kommen,
wird "mai" abgelehnt. Eine
stereotypierte Phrase "send
to" wird auch anhand
des Sprachwissens vorhergesagt, und es ist nicht wahrscheinlich,
dass "mate" ausgewählt wird.
Ferner wird "too", das ein Homonym
von "to" ist, nicht anhand
der Wissensbasis vorhergesagt. Schließlich wird es anhand des Konzeptwissens
vorhergesagt, dass XXX in "send
to XXX" ein Objekt
sein kann, und anhand des Domänenwissens,
dass das Ziel von "send
to" ein Mensch (Personenname)
sein kann. Es wird somit in Betracht gezogen, dass "May" anhand eines Adressbuchs
oder eines biographischen Verzeichnisses vorhergesagt werden kann.
-
Daraufhin
wird ein Vergleich zwischen der in 4 gezeigten
Spracherkennungsverarbeitung und der durch das in 42 gezeigte
bekannte Spracherkennungssystem durchgeführten Verarbeitung ausgebildet.
-
Gemäß bekannten
Eingabeverarbeitungsverfahren werden in einem Erkennungsmodul im
Allgemeinen verschiedene Bestimmungen ausgebildet, und das Ergebnis
wird zu einem anderen Modul transferiert. Die eingegebenen Informationen
werden durch ein Ausführen
der Erkennungsverarbeitung erkannt und werden in eine durch eine
Anwendung empfangbare Form geformt. Der Ablauf der Verarbeitung
ist unidirektional, und die einzelnen Einheiten führen die
Verarbeitung eher getrennt durch als zusammenzuarbeiten.
-
Besonders
für die
Verarbeitung von eingegebener Sprache wird üblicherweise das folgende Verfahren
verwendet, wie es in 42 veranschaulicht ist. Das
durch ein Erkennen der Sprache in einer Spracherkennungseinheit 4201 erhaltene
Ergebnis wird eindeutig als ein Systembefehl bestimmt, indem es
in einer Sprachverarbeitungseinheit 4202 gefiltert (geparst)
wird. Nicht nur eine Verarbeitung für grammatikalisch richtige
Sprache, sondern auch eine Verarbeitung für unnötige Wörter wie beispielsweise Interjektionen
und neu formulierte Wörter
und für
nicht grammatikalische Sprache wie beispielsweise eine Anastrophe
(Inversion) und ein Partikelabwurf werden durch eine Sprachverarbeitung
(wobei derartige Wörter
gegen eine Wortdatenbank oder eine Grammatikdatenbank verifiziert
werden) in der Sprachverarbeitungseinheit 4202 gehandhabt.
Ein Parsen wird zum Analysieren der Struktur der Syntax durchgeführt, und
entsprechend werden andere Elemente als Syntaxinformationen, die
auch verwendbar sein können,
abgelehnt. Zusätzlich
ist der Ablauf der Verarbeitung unidirektional, und selbst dann,
wenn das Verarbeitungsergebnis des Spracherkennungsmoduls unrichtig
ist, schließt
das System die durch eine Spracheingabeeinheit 4203 durchgeführte Verarbeitung
ab und geht zu einer nachfolgenden Stufe, das heißt einer
Anwendungseinheit 4207, weiter. Die Verarbeitung wird bei
einer Tastatureingabe und einer Bildeingabeeinheit 4206 (einer
optischer Zeichenleseeinrichtung (OCR) 4204 und einer Bildverarbeitungseinheit 4205)
auf ähnliche
Weise durchgeführt.
-
Gemäß dem vorstehend
angeführten
Verfahren wird selbst eine Eingabe, die nicht durch das gesamte
System verarbeitet werden kann, angenommen und wird von der Anwendungseinheit 4207 als ein
Fehler zurückgegeben.
Das heißt,
die durch die Eingabeeinheiten 4203 und 4206 durchgeführte Verarbeitung
bei Sprache und Bildern wird nicht zusammen mit der Verarbeitung
des gesamten Systems betrieben, wodurch lediglich eine einfache
Operation realisiert wird. Als Ergebnis wird die Leistungsfähigkeit
des gesamten Systems ernstlich durch das Ergebnis der Spracherkennung
beeinflusst.
-
Im
Gegensatz dazu ist ein Eingabeverarbeitungsverfahren gemäß dem ersten
Ausführungsbeispiel
in 5 gezeigt. Eingegebene Informationen werden dann,
wenn sie Ton angeben, in einer Spracherkennungseinheit 501 erkannt,
und wenn sie ein Bild darstellen, werden sie in einer OCR 502 erkannt. Das
Ergebnis wird daraufhin in einer Analyseeinheit 503 basierend
auf dem gesunden Menschenverstand und Wissen analysiert, und eine
nachfolgende Eingabe wird ferner vorhergesagt, oder das Ergebnis von
Analysen wird zu einer Anwendungseinheit 504 des Systems
transferiert.
-
Besonders
zur Verarbeitung von eingegebener Sprache wird die Spracherkennung
Idealerweise durchgeführt,
indem eher Sprachinformationen und anderes Wissen umfassend verwendet
werden als allein eine Spracherkennung wie in einer bekannten Art
und Weise durchzuführen.
Das durch die Verarbeitung von Sprache erhaltene Ergebnis wird als
das Wissen des ganzen Systems gespeichert und wird zusammen mit
dem anderen in dem System enthaltenen Wissen verwendet, wodurch
es ermöglicht wird,
eher die Bedeutung der Sprache als die Struktur der Sprache zu erkennen.
Das heißt,
gemäß dem durch
die in 5 gezeigten Pfeile 505 und 506 angegebenen
Ablauf der Verarbeitung werden die Ergebnisse von Analysen zu der
Spracherkennungseinheit 501 und der OCR 502 zurückgeführt, so
dass das Erkennungsergebnis und die Analyseergebnisse zusammen gehandhabt
werden, wodurch die Leistungsfähigkeit
der Eingabeverarbeitung verbessert wird. Gemäß dem durch die in 5 veranschaulichten
Pfeile 507 und 508 angegebenen Ablauf der Verarbeitung
werden das Analyseergebnis und die Verarbeitung der Anwendungseinheit 504 zusammen gehandhabt,
wodurch die Leistungsfähigkeit
der Ausführungsverarbeitung
vergrößert wird.
Als Folge kann die Leistungsfähigkeit
des gesamten Systems verbessert werden.
-
Bei
diesem Ausführungsbeispiel
sind die in 5 veranschaulichte Eingabeverarbeitung
und die in 2 gezeigte Systemarchitektur
realisiert. Als Ergebnis kann eine der durch Menschen durchgeführten Spracherkennungsverarbeitung ähnelnde
Verarbeitung erreicht werden. Genauer zeigt 6 ein Gesamtdiagramm,
das ein gemäß einem
Realisierungsverfahren wie beispielsweise dem in 3 gezeigten aufgebautes
Spracherkennungssystem veranschaulicht.
-
Wenn
Sprache eingegeben wird, wird durch eine Spracherkennungseinheit 601 eine
Spracherkennung gemäß den vorher
ausgebildeten Vorhersagen und in einer Wissensbasis/Kontextbasis 606 enthaltenen
Informationen durchgeführt.
Für die
Verarbeitung von Sprachinformationen enthält die Wissensbasis/Kontextbasis 606 nicht
nur ohne Rücksicht
auf die Art des Wissens für
die Verarbeitung wirksames gemeinsames Wissen, sondern auch Sprachinformationen
betreffendes Wissen. Das Konzept des Erkennungsergebnisses wird
durch eine Konzeptanalyseeinheit 602 unter Nutzung des
gesunden Menschenverstands und des in der Wissensbasis/Kontextbasis 606 enthaltenen
Wissens des Systems analysiert, wodurch die Bedeutung des Erkennungsergebnisses
analysiert wird.
-
Eine
Hauptanwendungseinheit 603 sagt eine nachfolgende Spracheingabe
vorher oder führt
eine Verarbeitung gemäß dem Zweck
durch. Bei einem Ausführen
der Verarbeitung durch die Hauptanwendungseinheit 603 kann
eine Antwort an den Benutzer erforderlich sein, wobei in diesem
Fall eine Antwort in einer Antworterzeugungseinheit 604 erzeugt
wird. Falls es bestimmt wird, dass dem Benutzer eine Antwort am
geeignetsten in Sprache gegeben wird, wird eine Antwort in einer
Sprachsyntheseeinheit 605 in Sprache gewandelt und wird
ausgegeben. Die Wissensbasis/Kontextbasis 606 des Systems
wird auch für
die vorstehende Verarbeitung verwendet.
-
Es
sind in erster Linie zwei Techniken zum Vorhersagen von Sprache
vorhanden, und die Einzelheiten sind in 13 gezeigt.
Vorhersagen können
in zwei Stufen ausgebildet werden. Wenn Sprache erkannt wird, kann
ein nachfolgendes eingegebenes Signal vorhergesagt werden. Alternativ
kann dann, wenn das ausgegebene Ergebnis einer Spracherkennungseinrichtung
für eine
interne Verarbeitung verwendet wird, ein anschließend einzugebendes
Ergebnis vorhergesagt werden.
-
Gemäß der ersten
Technik wird ein anschließend
einzugebendes Wort anhand vorher eingegebener Wörter und des gesunden Menschenverstands unter
Nutzung einer Wissensbasis vorhergesagt. Anschließend einzugebende
Sprache (Phoneme oder Silben) wird ferner anhand des vorhergesagten Worts
vorhergesagt und wird zum Vergrößern der Spracherkennungsrate
genutzt. Gemäß der zweiten Technik
wird ein anschließend
einzugebendes Wort auch anhand von vorher eingegebener Sprache und dem
gesunden Menschenverstand unter Nutzung der Wissensbasis vorhergesagt
und wird zum reibungslosen Durchführen einer nachfolgenden Verarbeitung
verwendet.
-
Falls
zum Beispiel eine Domäne
eine Vorrichtung zum Übertragen
von Dokumenten oder Mail bzw. Post darstellt, wird der in 27 veranschaulichte
Zustandsübergang
des Kontexts vorhergesagt. Eine Anfangsvorhersage wird in der Vorrichtung
ausgebildet wie folgt. Zuerst wird anhand des allgemeinen Wissens
wie beispielsweise "ein
Benutzer kann eine Maßnahme
zum Betreiben der Vorrichtung ergreifen" eine Vorhersage ausgebildet, dass es
wahrscheinlich ist, dass ein Verb eingegeben wird. Daraufhin werden
Verben, die durch diese Vorrichtung angenommen werden können, als
Handlung kategorisiert, und die Vorrichtung wartet auf eine Eingabe von
Sprache, indem sie vorhersagt, dass ein zu der Kategorie Handlung
gehörendes
Verb einzugeben ist.
-
Nach
einem Erkennen der Eingabe eines zu der Kategorie Handlung gehörenden Verbs
tritt der Zustandsübergang
der Vorhersagekategorie auf. Das heißt, daraufhin wird eine Vorhersage über zu einer
Kategorie Objekt gehörende
Sprache ausgebildet. Die Klassifizierung der Kategorien wie beispielsweise
Handlung und Objekt ist zum Beispiel in 14 und 15 gezeigt.
Die in dieser Vorrichtung gehandhabte Kategorie Objekt umfasst zum
Beispiel Post, Dokument usw.
-
8 zeigt
ein Flussdiagramm, das die durch die gesamte Vorrichtung durchgeführte Verarbeitung
schematisch veranschaulicht. Ein zu erkennendes nachfolgendes Objekt
wird basierend auf einer Wissen betreffende Informationen speichernden Wissensbasis
vorhergesagt.
-
In
einem Schritt S800 wird das System gestartet. Daraufhin wird in
einem Schritt S801 eine Anfangsvorhersage eingestellt. 16 zeigt
ein Flussdiagramm, das die Prozedur des Einstellens der Anfangsvorhersage
veranschaulicht. Da noch keine zu erkennenden Informationen eingegeben
worden sind, wird bei dem Einstellen der Anfangsvorhersage eine
nachfolgende Operation basierend auf der vorhergehenden Operation
vorhergesagt, und eingegebene Informationen werden basierend auf
der vorhergesagten Operation vorhergesagt.
-
In
einem Schritt S1601 wird die vorhergehende Operation mit Bezug auf
den vorhergehenden Verarbeitungszustand des Systems oder den Inhalt der
Anforderung des Benutzers erhalten. Falls es in einem Schritt S1602
festgestellt wird, dass die vorhergehende Operation verursacht durch
das Fehlen einer vorhergehenden Operation nicht erhalten werden
kann, wobei diesem Zustand unmittelbar nachdem das System gerade
gestartet hat begegnet wird, geht der Ablauf zu einem Schritt S1608
weiter, in dem eine Anfangsvorhersage in der Vorrichtung eingestellt
wird. In diesem Flussdiagramm wird es in dem Schritt S1608 bestimmt,
dass der Benutzer die Vorrichtung zum Ergreifen einer Maßnahme auffordern muss,
und Verben werden als ein durch das Spracherkennungssystem zu erkennender
Kontext aktiviert.
-
Falls
es demgegenüber
in dem Schritt S1602 bestimmt wird, dass die vorhergehende Operation
erfolgreich erhalten worden ist, geht der Ablauf zu einem Schritt
S1603 weiter, in dem die auf die vorhergehende Operation bezogenen
Operationen mit Bezug auf das allgemeine Wissen oder das auf die
Vorrichtung bezogene Domänenwissen,
das in der Wissensbasis enthalten ist, überprüft werden. Daraufhin wird in
einem Schritt S1604 unter den in dem Schritt S1603 überprüften Operationen
die Operation, deren Durchführung
am wahrscheinlichsten ist, vorhergesagt. Daraufhin wird in einem
Schritt S1605 eine Bestimmung dahingehend ausgebildet, ob die nachfolgende
Operation erfolgreich vorhergesagt worden ist. Falls das Ergebnis
des Schritts S1605 ja ist, geht der Ablauf zu einem Schritt S1606
weiter. In dem Schritt S1606 werden auf die vorhergesagte Operation
bezogene Informationen aus der Wissensbasis gewonnen, und in einem
Schritt S1607 werden einzugebende Informationen basierend auf den
in dem Schritt S1606 gewonnenen Informationen vorhergesagt.
-
Falls
zum Beispiel die vorhergehende Operation "drucke drei Kopien eines Dokuments" ist, werden in dem
Schritt S1603 die auf die "Druckoperation" bezogenen Operationen
wie beispielsweise "überprüfe Druckstatus" und "drucke weitere Kopie" anhand der Wissensbasis überprüft. Daraufhin
kann es in dem Schritt S1604 anhand der vorhergehenden Operation "drucke drei Kopien" vorhergesagt werden,
dass es wahrscheinlicher ist, dass "überprüfe Druckstatus" als "drucke weitere Kopie" eingegeben wird.
In dem Schritt S1606 können
mit Bezug auf das Domänenwissen
anhand der Operation "überprüfe Druckstatus" die sich darauf
beziehenden Informationen wie beispielsweise ein Schlüsselwort,
zum Beispiel "Druckerstatus", erhalten werden.
Unter Verwendung der erhaltenen Informationen werden in dem Schritt
S1607 nachfolgende eingegebene Informationen vorhergesagt.
-
Falls
die vorhergehende Operation "lösche alle
die Aufträge" ist, kann die nachfolgende
Operation in dem Schritt S1603 und S1604 nicht erhalten werden,
und eine Bestimmung des Schritts S1605 wird nein. Daraufhin wird
in dem Schritt S1608 eine Anfangsvorhersage eingestellt.
-
Wieder
mit Bezug auf 8 werden in einem Schritt S802
eingegebene Informationen gewonnen, und es wird in einem Schritt
S803 bestimmt, ob die eingegebenen Informationen gültig sind.
Falls sie gültig
sind, geht der Prozess zu einem Schritt S804 weiter, in dem die
Art der eingegebenen Informationen bestimmt wird. Die vorstellbaren
Arten von Informationen können
Sprache, Zeichen und Bilder sein. In einem Schritt S805 werden daraufhin
die eingegebenen Informationen basierend auf der Vorhersage gemäß der in
dem Schritt S804 bestimmten Art von Informationen erkannt. Genauer
werden in dem Schritt S805 die eingegebenen Informationen in der folgenden
Art und Weise erkannt. Es wird zuerst überprüft, ob die Informationen Sprachinformationen oder
Nichtsprachinformationen sind, und falls sie Sprachinformationen
sind, wird die Einheit der Informationen wie beispielsweise eine
Silbe oder ein Phonem bestimmt.
-
Das
erkannte Ergebnis in dem Schritt S805 wird zum Vorhersagen von zu
erkennenden nachfolgenden Informationen verwendet, während das
Prozessergebnis in einem Schritt S806 analysiert wird. 9 zeigt
ein Flussdiagramm, das die Analyseprozedur des Prozessergebnisses
veranschaulicht. Es wird in Betracht gezogen, dass eine Vorhersage (Schritt
S904) nicht nur anhand des Erkennungsergebnisses, sondern auch anhand
einer Analyse des Erkennungsergebnisses (Schritt S901), einer Bestimmung
der Richtigkeit des Ergebnisses (Schritt S902) und einer Berichtigung
des Ergebnisses (Schritt S903) ausgebildet wird. Es ist nicht wesentlich,
dass die ganze Verarbeitung in den Schritten S901 bis S903 durchgeführt wird.
Alternativ kann nur eine Analyse des Erkennungsergebnisses oder
nur eine Berichtigung des Ergebnisses durchgeführt werden. Alternativ kann
eine Kombination einer Bestimmung der Richtigkeit des Ergebnisses
und einer Berichtigung des Ergebnisses oder eine Kombination einer
Analyse des Erkennungsergebnisses und einer Bestimmung der Richtigkeit
des Ergebnisses durchgeführt
werden. In einem Schritt S905 wird die Vorhersage für zu erkennende
nachfolgende Informationen gemäß der in
dem Schritt S904 erzeugten Vorhersage aktualisiert.
-
In
dem ganzen Block des Analysierens des Erkennungsergebnisses in dem
Schritt S806 wird die Verarbeitung mit Bezug auf verschiedene Arten
von Wissen ausgeführt.
Bei dem Nutzen des Sprachwissens kann zum Beispiel ein allgemeines
Wörterbuch bzw.
Verzeichnis verwendet werden. Somit kann selbst dann, wenn "flint" als ein Eingabesignalverlauf erkannt
wird, bei einem Durchführen
der Analyseverarbeitung "print" bestimmt werden,
da "flint" nicht in dem allgemeinen
Wörterbuch
gefunden werden kann.
-
Bei
dem Nutzen des Domänenwissens
kann es unter der Annahme, dass die Domäne eine mit einer Postsendefunktion
versehene Anwendung ist, vorhergesagt werden, dass es wahrscheinlicher
ist, dass "mail" als "male" eingegeben wird.
Unter Nutzung des gesunden Menschenverstands (allgemeinen Wissens)
kann es auch dann, wenn zum Beispiel als der vorhergehende Befehl
ein Drucken durchgeführt
wurde, vorhergesagt werden, dass die nachfolgende Operation dazu
dienen kann, den Druckerstatus anzugeben.
-
Nach
dem Vorrückenlassen
des Prozesses unter Verwendung des Wissens wird es in einem Schritt
S807 bestimmt, ob das System die Verarbeitung ausführen sollte.
Bei einem Abschließen
der Erkennung eines eingegebenen Satzes wird es zum Beispiel dann,
wenn der erkannte Satz eine Anweisung für das System zum Ausführen der
Verarbeitung angibt, in dem Schritt S807 bestimmt, dass die entsprechende
Verarbeitung ausgeführt
werden sollte. Daraufhin wird in einem Schritt S808 die Verarbeitung
ausgeführt,
und in einem Schritt S809 wird eine Antwort für den Benutzer bereitgestellt,
falls es notwendig ist. Falls es in dem Schritt S807 bestimmt wird,
dass eine weitere Eingabe auszubilden ist, kehrt der Ablauf zu dem
Schritt S802 zurück,
da die Vorhersage für
die nachfolgende Eingabe bereits aktualisiert worden ist. In dem
Schritt S802 wird die nachfolgende Eingabe erhalten. Bei einem Abschließen einer
Verarbeitungsreihe wird in einem Schritt S810 eine Bestimmung dahingehend
ausgebildet, ob das System zu schließen oder fortzusetzen ist.
Falls die Verwendung des Systems fortgesetzt wird, kehrt der Prozess
zu dem Schritt S801 zurück,
in dem eine Anfangsvorhersage basierend auf der abgeschlossenen
Operation eingestellt wird. Falls das System zu schließen ist,
wird es in einem Schritt S811 ausgeschaltet.
-
Es
wird nachstehend in Betracht gezogen, in welcher Prozedur eingegebene
Sprache in dem Spracherkennungssystem dieses ersten Ausführungsbeispiels
gemäß der vorstehend
beschriebenen Verarbeitung, die in 8 veranschaulicht
ist, tatsächlich
verarbeitet wird. Der schematische Ablauf des Prozesses des Systems
im Ansprechen auf Sprache des Benutzers ist in 7 gezeigt.
-
Bei
dieser Art von System wird es zuerst vorhergesagt, dass der Benutzer
eine Maßnahme
ergreifen kann, und das System wartet auf ein in die Spracherkennungseinheit
einzugebendes Verb, da eine Maßnahme üblicherweise
mit einem Verb angefangen wird. Wenn zum Beispiel "send" eingegeben wird,
wird es vorhergesagt, dass ein Objekt von "send" einzugeben
ist, und das System wartet somit auf ein einzugebendes Objekt.
-
In
dieser Art und Weise versteht das System die Wörter, während es ein anschließend einzugebendes
Wort vorhersagt. Falls es durch ein Durchführen von Konzeptanalysen bestimmt
wird, dass die Ausführung
möglich
ist, wird die entsprechende Verarbeitung tatsächlich ausgeführt. Wenn
es bei dem Ausführungsergebnis
bestimmt wird, dass eine Antwort zu dem Benutzer zurückgegeben
werden sollte, wird eine geeignete Antwort erzeugt, und der entsprechende
Satz wird hervorgebracht. Der Satz wird daraufhin gemäß dem optimalen
Verfahren zu dem Benutzer ausgegeben. Falls das optimale Verfahren darin
besteht, Sprache zu synthetisieren, wird der hervorgebrachte Satz
in Sprache gewandelt, die daraufhin zu dem Benutzer ausgegeben wird.
Falls zum Beispiel Post erfolgreich an May gesendet worden ist,
wird eine Antwort "Ich
habe Post an may@xxx gesendet, erfolgreich!" ("I
sent mail to may@xxx, Successfully!",) zurückgegeben.
-
Die
Verarbeitungsprozedur der Informationsverarbeitungsvorrichtung dieses
Ausführungsbeispiels
ist nachstehend durch ein spezifisches Beispiel erörtert.
-
Bei
diesem Beispiel wird eingegebene Sprache "Send mail to May" erkannt, indem eine Vorhersage eingestellt
wird, und die entsprechende Verarbeitung wird angemessen durchgeführt, indem
Konzeptanalysen durchgeführt
werden. Es ist nachstehend angenommen, dass die Domäne der Vorrichtung
dieses Ausführungsbeispiels
in einem Senden von Post oder Dokumenten unter Verwendung von E-Mail
bzw. elektronischer Post besteht.
-
Das
System wird in dem Schritt S800 gestartet, und daraufhin wird in
dem Schritt S801 zum Warten auf von dem Benutzer einzugebende Informationen
eine Anfangsvorhersage eingestellt. Es wird in dem Schritt S801
bestimmt, dass der Benutzer die Vorrichtung zum Ergreifen einer
Maßnahme
auffordern muss, und daraufhin werden Verben als ein durch die Spracherkennungseinheit
zu erkennender Kontext aktiviert. In dem Schritt S802 werden die durch
den Benutzer eingegebenen Informationen gewonnen, wobei in diesem
Fall die durch den Benutzer ausgegebene Sprache erkannt wird, und
die Sprachinformationen werden erhalten.
-
Daraufhin
wird in dem Schritt S803 eine Bestimmung dessen ausgebildet, ob
die Sprachinformationen in Bezug auf die Referenz wie beispielsweise
den Tonpegel gültig
sind. Falls die Eingabe ungültig
ist, wartet das System auf eine gültige Eingabe. Falls die Eingabe
gültig
ist, wird die Art der Eingabe, in diesem Fall Sprache, in dem Schritt
S804 bestimmt.
-
Daraufhin
wird bei der Erkennungsverarbeitung der eingegebenen Informationen
in dem Schritt S805 eine in 10 gezeigte
Spracherkennungsverarbeitung spezifisch durchgeführt. In einem Schritt S1001
wird zuerst eine Spracherkennung durchgeführt. Die Einzelheiten sind
nachstehend unter Bezugnahme auf das Flussdiagramm gemäß 11 angegeben.
Bei einem Eingeben von Sprache werden zuerst in einem Schritt S1101
Toninformationen verarbeitet. Daraufhin wird es in einem Schritt
S1108 bestimmt, ob die Toninformationen Sprachinformationen oder
Nichtsprachinformationen sind. Diese Bestimmung wird unter Verwendung
einer Sprachinformationsdatenbank und einer Nichtsprachinformationsdatenbank
der Wissensbasis oder durch ein Überprüfen der
Frequenz der Toninformationen ausgebildet.
-
Ein
spezifisches Beispiel für
diese Bestimmung in dem Schritt S1108 ist in 12 gezeigt.
In einem Schritt S1201 wird ein Referenzfrequenzbereich erhalten,
der in der Vorrichtung zum Bestimmen, ob eingegebener Ton durch
einen Menschen ausgegeben worden ist, eingestellt ist. Falls es
in einem Schritt S1202 basierend auf dem in dem Schritt S1201 erhaltenen
Referenzfrequenzbereich bestimmt wird, dass der eingegebene Ton
durch einen Menschen ausgegeben worden ist, geht der Prozess zu
einem Schritt S1208 weiter. In dem Schritt S1208 werden selbst dann,
wenn der eingegebene Ton in dem Frequenzbereich der menschlichen
Sprache enthalten ist, andere Elemente als eine Rede einer allgemeinen
Sprache, zum Beispiel eine lachende Stimme und redundante Wörter, betreffende
Informationen, das heißt
einen "spezifischen
Ton" betreffende
Informationen, die als das Wissen der Vorrichtung registriert sind,
gewonnen.
-
Danach
wird in einem Schritt S1209 eine Bestimmung dessen ausgebildet,
ob die derzeitige Eingabe ein spezifischer Ton ist. Falls das, Ergebnis
des Schritts S1209 ja ist, wird in einem Schritt S1210 die Art der
Eingabe bestimmt, und in einem Schritt S1211 wird ein Zustandsmerker
eingestellt, um anzugeben, dass der eingegebene Ton Nichtsprachinformationen sind.
Falls es in dem Schritt S1209 bestimmt wird, dass die derzeitige
Eingabe kein spezifischer Ton ist, wird in einem Schritt S1212 ein
Zustandsmerker eingestellt, um anzugeben, dass die eingegebene Sprache
Sprachinformationen sind.
-
Falls
es demgegenüber
in dem Schritt S1202 bestimmt wird, dass der eingegebene Ton sich
außerhalb
des Frequenzbereichs der menschlichen Sprache befindet, wird in
einem Schritt S1203 ein Zustandsmerker eingestellt, um anzugeben,
dass der eingegebene Ton Nichtsprachinformationen sind. In einem
Schritt S1204 werden den Ton, der unter den Nichtsprachinformationen
spezifisch verarbeitet werden sollte, betreffende Informationen
gewonnen. Es wird daraufhin in einem Schritt S1205 bestimmt, ob der
eingegebene Ton unter den Nichtsprachinformationen spezifisch verarbeitet
werden sollte. Falls das Ergebnis des Schritts S1205 ja ist, wird
in einem Schritt S1206 die Art des Tons erhalten und eingestellt.
Falls es in dem Schritt S1205 festgestellt wird, dass der eingegebene
Ton nicht spezifisch verarbeitet werden muss, wird im Gegensatz
dazu die Art des eingegebenen Tons in einem Schritt S1207 als Rauschen
eingestellt.
-
Gemäß dem Bestimmungsprozess
wie vorstehend beschrieben wird die Art der Sprache in dem Schritt
S1102 gemäß 11 bestimmt.
Falls die eingegebene Sprache "Send
mail to May" ist,
wird die Art der Sprache als Sprachinformationen bestimmt. Daraufhin
wird die Einheit der Sprachinformationen in dem Schritt S1106 weiter
bestimmt.
-
Falls
die Geschwindigkeit der Sprache des Benutzers schnell ist, wird
die Einheit der Sprachinformationen als eine längere Einheit, zum Beispiel eher
ein Wort als ein Phonem, bestimmt. Falls eine Historie angibt, dass
die Erkennung von Wörtern nicht
sehr erfolgreich gewesen ist, kann eine kürzere Einheit, zum Beispiel
ein Phonem, verwendet werden, solange es bestimmt wird, dass die
Spracherkennung unter Verwendung von Einheiten der Phoneme mit der
höchsten
Genauigkeit durchgeführt werden
kann. Diese Bestimmung kann automatisch durch die Vorrichtung ausgebildet
werden, um die Erkennungsrate zu verbessern. Alternativ kann dann, wenn
es durch den Benutzer gewünscht
wird, dass die Erkennung in Einheiten von Wörtern ausgebildet wird, der
Benutzer die Einheit für
die Erkennung einstellen.
-
Falls
es in dem Schritt S1106 bestimmt wird, dass die Einheit der Sprachinformationen
zum Beispiel ein Wort ist, wird die Worterkennungsverarbeitung in
einem Schritt S1103 durchgeführt.
Das Flussdiagramm dieser Verarbeitung ist in 17 gezeigt. In
einem Schritt S1701 wird unter Verwendung der Spracherkennungseinheit
eine Spracherkennung in Einheiten von Wörtern durchgeführt. Genauer
wird im Ansprechen auf die Eingabe "Send mail to May" die Worterkennung realisiert, indem
das den eingegebenen Toninformationen nächste Wort "send" aus dem für die Spracherkennungseinheit
bereitgestellten Wortverzeichnis ausgewählt wird. In einem Schritt
S1702 wird das bei der Worterkennung in dem Schritt S1701 bestimmte
Wort "send" zusammen mit der Ähnlichkeit
zwischen dem in dem Verzeichnis enthaltenen "send" und
der eingegebenen Sprache (zum Beispiel 92% Ähnlichkeit) erhalten. Es wird
daraufhin in einem Schritt S1703 bestimmt, ob das Ergebnis der Worterkennung
zu verwenden ist.
-
Wieder
mit Bezug auf 11 wird dann, wenn es in dem
Schritt S1106 bestimmt wird, dass die Art der Sprache eine Silbe
ist, eine Silbenerkennungsverarbeitung in einem Schritt S1104 ausgeführt. Das
Flussdiagramm dieser Verarbeitung ist in 18 gezeigt.
In einem Schritt S1801 wird unter Verwendung der Spracherkennungseinheit
eine Spracherkennung in Einheiten von Silben durchgeführt. Bei
diesem Beispiel wird die Silbenerkennung in Einheiten von Silben
realisiert, indem die den eingegebenen Toninformationen ähnelnden
obersten N Silben aus dem für
die Spracherkennungseinheit bereitgestellten Silbenverzeichnis ausgewählt werden. In
einem Schritt S1802 wird das Ergebnis der in dem Schritt S1801 bestimmten
Silbenerkennung zusammen mit der Ähnlichkeit zwischen den obersten
N Silben und den in dem Verzeichnis enthaltenen Informationen gewonnen.
In einem Schritt S1803 wird die in dem Schritt S1802 bestimmte Silbe
daraufhin als das Wort "send" erkannt, das durch
das System gehandhabt werden kann, und die Ähnlichkeit zwischen dem ganzen
Wort und der eingegebenen Sprache wird ausgegeben. Die Einzelheiten
dieser Verarbeitung sind durch das Flussdiagramm gemäß 19 angegeben.
Bei einem Durchführen
einer Erkennungsverarbeitung in Einheiten von Silben wird in einem Schritt
S1901 "se" gewonnen. Daraufhin
wird in einem Schritt S1902 ein geeignetes Wort, das zu der Silbe "se" passt, unter Verwendung
des in dem Schritt S1901 erhaltenen Ergebnisses bestimmt. In dem
Schritt S1902 wird es auch bestimmt, ob das Ergebnis der Worterkennung
in dem Schritt S1901 zu verwenden ist.
-
Wieder
mit Bezug auf 11 wird dann, wenn es in dem
Schritt S1106 festgestellt wird, dass die Art der Sprache weder
ein Wort noch eine Silbe ist, die für die entsprechende Art geeignete
Spracherkennung in einem Schritt S1105 durchgeführt. Die Art der Sprache, die
weder ein Wort noch eine Silbe ist, kann ein Phonem, das kürzer als
eine Silbe ist, oder eine stereotypierte Phrase wie beispielsweise
ein Satz, die länger
als eine Silbe ist, sein. Eine Vielzahl von Arten von Einheiten
kann zum Erkennen von eingegebenen Informationen verwendet werden,
bis eine Folge von Operationen durch den Benutzer abgeschlossen
worden ist. Alternativ kann nur eine Art von Einheit verwendet werden.
-
Wieder
mit Bezug auf 10 wird das bei dem Erkennen
der eingegebenen Informationen in dem Schritt S1001 erhaltene Ergebnis
in einem Schritt S1002 verarbeitet. Genauer wird es in dem Schritt
S1703 gemäß 17 und
in dem Schritt S1902 gemäß 19 bestimmt,
ob das Erkennungsergebnis schließlich als die Eingabe durch
den Benutzer anzunehmen ist. Der ausführliche Prozess ist in 37 gezeigt.
-
In
einem Schritt S3701 wird eine Verarbeitung zum Bestimmen des Erkennungsergebnisses ausgeführt. Genauer
wird es in dem Schritt S3701 bestimmt, ob das Erkennungsergebnis
anzunehmen ist, zum Beispiel durch ein Bereitstellen einer Schwelle
für die Ähnlichkeit
der Spracherkennung. Es ist nachstehend angenommen, dass die Schwellenähnlichkeit
als 80% eingestellt ist. Falls das Erkennungsergebnis "send: 85% Ähnlichkeit" ist, wird es in
einem Schritt S3702 bestimmt, dass das Erkennungsergebnis anzunehmen
ist, und es wird in einem Schritt S3703 mitgeteilt, dass das Erkennungsergebnis "send" angenommen worden
ist. Demgegenüber wird
es dann, wenn das Erkennungsergebnis "send: 70% Ähnlichkeit" ist, in dem Schritt S3702 bestimmt, dass
das Erkennungsergebnis abzulehnen ist, und es wird in einem Schritt
S3704 gemeldet, dass das Erkennungsergebnis abgelehnt worden ist,
so dass eine nachfolgende Eingabe des Benutzers zum Verarbeiten
bereit ist.
-
Wieder
mit Bezug auf 8 wird nach dem Erkennen verschiedener
Arten von eingegebenen Informationen in dem Schritt S805 das Erkennungsergebnis "send" in dem Schritt S806
analysiert. In dem Schritt S806 wird die Verarbeitung ausgeführt, indem in
erster Linie das Konzept des Worts "send" analysiert
wird. Der Ablauf dieser Verarbeitung ist in 9 schematisch
gezeigt. Das Erkennungsergebnis wird zum Vorhersagen eines zu erkennenden
nachfolgenden Objekts in dem Schritt S904 verwendet. Die Vorhersage
für das
nachfolgende Objekt kann in dem Schritt S904 unter Verwendung nicht
nur des Erkennungsergebnisses, sondern auch einer Analyse des Erkennungsergebnisses
(Schritt S901), einer Bestimmung der Richtigkeit des Ergebnisses
(Schritt S902) und einer Berichtigung des Ergebnisses (Schritt S903)
ausgebildet werden. Es ist nicht wesentlich, dass die ganze Verarbeitung
in den Schritten S901 bis S903 durchgeführt wird. Alternativ kann nur
eine Analyse des Erkennungsergebnisses oder nur eine Berichtigung
des Ergebnisses durchgeführt werden.
Alternativ kann eine Kombination einer Bestimmung der Richtigkeit
des Ergebnisses und einer Berichtigung des Ergebnisses oder eine
Kombination einer Analyse des Erkennungsergebnisses und einer Bestimmung
der Richtigkeit des Ergebnisses durchgeführt werden. In dem Schritt
S905 wird gemäß der in
dem Schritt S904 erzeugten Vorhersage die Vorhersage für zu erkennende
nachfolgende Informationen aktualisiert.
-
Eine
Analyse des Erkennungsergebnisses in dem Schritt S806 ist durch
das Flussdiagramm gemäß 38 genauer
gezeigt. In einem Schritt S3801 wird eine Kategoriesuche bei dem
Erkennungsergebnis "send" durchgeführt, um
Informationen wie beispielsweise die Eigenschaft des Worts "send" und den Kontext
der derzeit aktivierten Wörter
zu gewinnen. Anschließend
wird in einem Schritt S3802 das Sprachwissen des Worts "send" aus dem Sprachverzeichnis
wie beispielsweise dem in 29 gezeigten überprüft, und
in einem Schritt S3803 wird das Konzeptwissen aus dem Konzeptverzeichnis
wie beispielsweise dem in 30 gezeigten überprüft, wodurch
die entsprechenden Informationen erhalten werden. In einem Schritt
S3804 werden daraufhin die Operation und das Objekt des Worts "send" anhand der Domäne der Vorrichtung überprüft. Daraufhin werden
in einem Schritt S3805 die die Eingabe des Worts "send" betreffenden Regeln
des Systems anhand einer Regeltabelle wie beispielsweise der in 31 veranschaulichten überprüft. Als
Folge werden in einem Schritt S3806 semantische Analysen umfassend
durchgeführt,
indem das vorstehende Wissen verwendet wird.
-
Genauer
werden die semantischen Analysen in dem Schritt S3806 realisiert,
indem Konzeptanalysen in einem Schritt S3901 gemäß 39 unter
Nutzung des in den Schritten S3802 bis S3805 erhaltenen Wissens
bezüglich
des Worts "send" durchgeführt werden.
In einem Schritt S3802 wird es mit Bezug auf das Sprachverzeichnis
wie beispielsweise das in 29 gezeigte
festgestellt, dass "send" ein Verb ist, dem
ein Objekt oder der Name einer Vorrichtung folgt. In einem Schritt
S3803 wird es mit Bezug auf das Konzeptverzeichnis wie beispielsweise
das in 30 gezeigte festgestellt, dass "send" einen physikalischen
Transfer darstellt. In einem Schritt S3805 wird es durch ein Überprüfen der
Regeltabelle wie beispielsweise der in 31 gezeigten
festgestellt, dass das Objekt von "send" Post
oder ein Dokument ist. Bei dem Durchführen der Konzeptanalysen in
dem Schritt S3901 wird es in dem Schritt S3902 bestimmt, ob das
durch die Spracherkennung erhaltene Erkennungsergebnis "send" hinsichtlich der
Semantik und des gesunden Menschenverstands richtig ist. In dem
Schritt S3902 wird auch eine Bestimmung dahingehend ausgebildet,
ob das Erkennungsergebnis "send" die im Ansprechen
auf die derzeitige Eingabe eingestellte Vorhersage erfüllt.
-
Falls
die Domäne
durch einen Drucker dargestellt wird, kann das Verb "send" in der Anfangsvorhersage
enthalten sein. Es wird somit in dem Schritt S3902 bestimmt, dass
das Verb "send" die Anfangsvorhersage
erfüllt.
Daraufhin wird in einem Schritt S3903 eine Vorhersage über eine
nachfolgende Eingabe, der "send" vorausgeht, durch
ein Nutzen von verschiedenen Arten von Wissen in dem System ausgebildet.
In diesem Fall wird es anhand des Worts "send" vorausgesagt,
dass es wahrscheinlich ist, dass der Benutzer benennt, "was er sendet" ("sending what"), und dass es wahrscheinlich
ist, dass eine nachfolgende Eingabe ein Objekt ist. Die wie vorstehend
beschrieben eingestellte Vorhersage wird in einem Schritt S3904
aktualisiert.
-
Genauer
kann in dem Schritt S3904 das für die
Spracherkennungseinheit bereitgestellte Wortverzeichnis aktualisiert
werden. Daraufhin wird bei den Konzeptanalysen die gemäß der Absicht
des Benutzers durch das System auszuführende Verarbeitung in einem
Schritt S3905 bestimmt. Da in diesem Fall das System die Verarbeitung
nicht lediglich durch das Wort "send" ausführen kann,
wartet es gemäß der in
dem Schritt S807 ausgebildeten Bestimmung des Analyseergebnisses
auf einzugebende nachfolgende Informationen.
-
Bei
einem Empfangen der Sprache "mail" von dem Benutzer
geht der Prozess in einer dem vorstehenden Prozess ähnelnden
Art und Weise weiter. Es ist nachstehend angenommen, dass nach einem Durchführen der
Spracherkennungsverarbeitung basierend auf der Vorhersage, dass
eine nachfolgende Eingabe ein Objekt, das heißt ein Substantiv, sein kann,
ein Erkennungsergebnis "mall" statt "mail" zurückgegeben
wird. Bei der Verarbeitung zum Bestimmen des Erkennungsergebnisses
in dem Schritt S3701 werden die semantischen Analysen in dem Schritt
S3806 unter Verwendung des in den Schritten S3801 bis S3805 überprüften Wissens
durchgeführt. Bei
dem Überprüfen des
Domänenwissens
in dem Schritt S3804 kann es in Betracht gezogen werden, dass "mall" nicht als das eingegebene
Wort geeignet ist. Daraufhin wird es in dem Schritt S3902 bestimmt, dass
das Ergebnis "mall" berichtigt werden
sollte. Der Ablauf geht daraufhin zu dem Schritt S3906 weiter.
-
Zum
Neubestimmen des Erkennungsergebnisses wird eine Ergebnisneubestimmungsverarbeitung
in einem Schritt S4001 gemäß 40 durchgeführt. Diese
Verarbeitung ist durch das Flussdiagramm gemäß 41 genauer
angegeben. In einem Schritt S4101 wird das bisher erhaltene Erkennungsergebnis
neu bestimmt. Falls es in einem Schritt S4102 bestimmt wird, dass
das Ergebnis berichtigt werden sollte, wird die Vorhersage für die vorhergehende
Eingabe in einem Schritt S4103 neu erzeugt. In einem Schritt S4104
wird das erkannte Wort neu bestimmt. In diesem Fall werden keine
Berichtigungen bei dem Erkennungsergebnis "send" ausgebildet,
da es nicht notwendig ist. Somit wird eine Vorhersage für die derzeitige
Eingabe in einem Schritt S4002 gemäß 40 neu
erzeugt, während
das Erkennungsergebnis "send" das Gleiche bleibt.
Die neu erzeugte Vorhersage wird daraufhin in einem Schritt S4003
aktualisiert, und die derzeitige Eingabe wird durch ein Nutzen einer
anderen Art von Wissen in einem Schritt S4004 wieder erkannt.
-
Das
Aktualisieren der Vorhersage in dem Schritt S4003 dient dazu, die
neu erzeugte Vorhersage mit der vorhergehenden Vorhersage zu verschmelzen.
Entsprechend wird selbst nach einem Durchführen dieser Aktualisierungsoperation
die Anzahl von Vorhersagen nicht erhöht, was andernfalls mehr Vergleiche
erzeugen würde.
Demgegenüber wird
die Vorhersage genauer, um die Anzahl von möglichen Wörtern zu beschränken. Die
derzeitige Vorhersage wird zum Beispiel in dem Schritt S4003 durch
eine Vorhersage, dass es wahrscheinlicher ist, dass "mail" als "mall" eingegeben wird,
aktualisiert, indem die Domäne
des Systems berücksichtigt
wird. Bei einem Neuuntersuchen des derzeitigen Erkennungsergebnisses
in dem Schritt S4004 wird es bestimmt, dass "mail" geeigneter
ist "male".
-
Wie
vorstehend erörtert
wird es bei einem Abschluss des Erkennens des Worts "Send mail to May" in dem Schritt S807
gemäß 8 bestimmt, dass
das System die Verarbeitung ausführen
sollte. Daraufhin wird in dem Schritt S808 ein "Send mail to May" angebender Befehl ausgeführt. Während der Ausführung wird
Mays Mail-Adresse bzw. Postadresse in einem für das System bereitgestellten
Adressbuch überprüft, um sicherzustellen,
dass Mail bzw. Post angemessen gesendet wird. Falls es nach dem Durchführen des
Schritts S808 bestimmt wird, dass eine Antwort an den Benutzer zurückgegeben
werden sollte, wird eine Ausgabeverarbeitung in dem Schritt S809
ausgeführt. 28 zeigt
ein Flussdiagramm, das den Prozess des Erzeugens einer Antwort für den Benutzer
veranschaulicht. Genauer wird in einem Schritt S2801 der Status
des Ausführungsergebnisses
gewonnen. Daraufhin wird in einem Schritt S2802 die zu dem Benutzer
auszugebende Antwort analysiert. In einem Schritt S2803 wird eine Antwort
für den
Benutzer durch ein Nutzen des Wissens des Systems tatsächlich erzeugt,
und in einem Schritt S2804 wird ein tatsächlicher Satz hervorgebracht.
In einem Schritt S2805 wird das optimale Ausgabeverfahren ausgewählt, und
in einem Schritt S2806 wird die Antwort zu dem Benutzer ausgegeben.
Es kann zum Beispiel eine Bestätigungsnachricht
wie beispielsweise "Mail
ist an May gesendet worden" ("Mail has been sent
to May") in Ton
zu dem Benutzer ausgegeben werden, indem eine Sprachsynthese durchgeführt wird.
-
Zweites Ausführungsbeispiel
-
Nachstehend
ist eine Beschreibung des Ablaufs der bei einer Spracheingabe wie
beispielsweise "Send
mail to May" durchgeführten Verarbeitung, wenn
ein Silbenverzeichnis, ein Wortverzeichnis, ein Sprachverzeichnis
und ein Konzeptverzeichnis wie in 25, 26, 29 bzw. 30 veranschaulicht,
bereitgestellt sind, angegeben. Eine Parametereinstellungsprozedur
bei der Erkennungsverarbeitung ist ebenfalls erörtert. Es ist nachstehend angenommen,
dass eine Anzahl M von Wörtern
in dem Wortverzeichnis registriert ist und jedes Wort in eine Anzahl
R[i] von Silben aufgeteilt ist wie in 32 gezeigt.
-
Bei
dem Start des Systems erscheint die Bildschirmdarstellung wie beispielsweise
die in 24 gezeigte. Die Parametereinstellungsprozedur ist
durch das Flussdiagramm gemäß 23 angegeben.
In einem Schritt S2301 werden Parameter zum Einstellen der Spracherkennungseinrichtung,
des Ausschusspegels, der Ablehnungszeit und der minimalen Sprachdauer
usw. angegeben. In einem Schritt S2302 wird eine Referenz für die Ähnlichkeit als
eine Bedingung zum Bestimmen des Erkennungsergebnisses angegeben.
Danach wird in einem Schritt S2303 der Inhalt des derzeit aktivierten
Kontexts angegeben.
-
Wenn
das Spracherkennungsverfahren verwendet wird, bei dem Wörter aus
dem Ergebnis einer Silbenerkennung im Ansprechen auf eine Spracheingabe "Send mail to May" gefolgert werden,
wird die folgende Verarbeitung durchgeführt. Bei einem Empfangen von
Toninformationen "send" werden die Toninformationen
zuerst in dem Schritt S1101 gemäß 11 verarbeitet.
Falls es in dem Schritt S1102 bestimmt wird, dass die Art der verarbeiteten
Informationen eine Silbe ist, wird in dem Schritt S1104 eine Silbenerkennungsverarbeitung
durchgeführt.
Daraufhin wird eine Spracherkennung in Einheiten von Silben unter
Verwendung der Spracherkennungseinrichtung in dem Schritt S1801
gemäß 18 durchgeführt, wodurch
die obersten N Silben als die Erkennungsergebnisse erhalten werden.
Wieder mit Bezug auf 23 werden in einem Schritt S2304
die durch die Spracherkennungseinrichtung erhaltenen Erkennungsergebnisse
und die Ähnlichkeit
gewonnen, und in einem Schritt S2305 werden die erhaltenen Informationen,
das heißt
die Erkennungsergebnisse in Einheiten von Silben und die Ähnlichkeit,
gemäß dem höchsten Grad
angegeben. In einem Schritt S2306 werden die von der Spracherkennungseinrichtung ausgegebenen
Erkennungsergebnisse bestimmt, und die Ergebnisse werden nach einem
Ergebnis der Bestimmungsverarbeitung ausgegeben.
-
Bei
der Bestimmungsverarbeitung in dem Schritt S2306 werden die Ergebnisse
der Spracherkennungseinrichtung in dem Schritt S1802 gemäß 18 erhalten.
Im Ansprechen auf eine Spracheingabe, das heißt "send",
wird das Ergebnis wie beispielsweise das in 33 gezeigte
erhalten. Unter Nutzung dieses Ergebnisses wird eine Silbe-zu-Wort-Vergleichsverarbeitung
in dem Schritt S1803 durchgeführt.
Genauer wird in dem Schritt S1901 eine Vergleichsverarbeitung zum
Bestimmen eines geeigneten Worts aus den Silben durchgeführt. Bei
diesem Ausführungsbeispiel
wird ein Vergleichsverfahren mit dynamischer Programmierung (DP)
als das Silbe-zu-Wort-Vergleichsverfahren
verwendet. Bei diesem DP-Vergleichsverfahren
wird ein Vergleich zwischen dem Wortverzeichnis und der eingegebenen
Sprache gemäß dem in 34 veranschaulichten
Algorithmus ausgebildet.
-
Der
Ablauf der DP-Vergleichsverarbeitung ist in 20 gezeigt.
In einem Schritt S2001 werden die Anzahl von obersten Silben N und
die Anzahl von bisher erkannten Silben T (Erkennungszeit) gewonnen. 35 lässt erkennen,
dass N 5 ist und T 0 ist. Daraufhin werden in einem Schritt S2002
die Anzahl M von in dem System registrierten Wörtern und die Anzahl R[i] von
jedes Wort bildenden Silben gewonnen. 36 lässt erkennen,
dass M 3 ist und R[1], R[2] und R[3] 2, 2 bzw. 4 sind. In einem
Schritt S2003 wird i als 1 eingestellt. Daraufhin wird die folgende
Verarbeitung wiederholt, während
die in einem Schritt S2004 eingestellte Bedingung, das heißt i ≤ M, erfüllt ist.
Wenn es in dem Schritt S2004 bestimmt wird, dass i 1 ist, geht der
Prozess zu einem Schritt S2005 weiter, in dem das Verzeichniswort
W[i], das heißt "send", erhalten wird.
In einem Schritt S2006 wird j als 1 eingestellt. Daraufhin wird
die Verarbeitung zum Erhalten von "send" bildenden
Silben wiederholt, während
die Bedingung, das heißt
j < R[1](= 2),
erfüllt ist.
Daraufhin wird in einem Schritt S2008 S[1][1] = "se" erhalten.
-
Anschließend wird
in einem Schritt S2101 gemäß 21 k
als 1 eingestellt. Während
die Bedingung, das heißt
k 5 N(= 5), in einem Schritt S2102 erfüllt ist, wird es bestimmt,
ob S[1][1] als eine Silbe, die zu den eingegebenen Informationen
passen kann, zurückgegeben
wird. Wenn es in dem Schritt S2102 bestimmt wird, dass k 1 ist,
werden das Erkennungsergebnis C[k] und die Ähnlichkeit A[k] in einem Schritt
S2103 gewonnen, was zu C[1] = "nd" und A[1] = 60,4
führt.
Wenn es in einem Schritt S2105 bestimmt wird, dass S[1][1] ≠ C[1], wird
in einem Schritt S2104 k um 1 erhöht, und eine nachfolgende Silbe, die
zu den eingegebenen Informationen passen kann, wird erhalten und
bestimmt. Wenn C[3] = "se" und A[3] = 38,9,
ist das Ergebnis des Schritts S2105 ja. Somit geht der Prozess zu
einem Schritt S2106 weiter, in dem die Ähnlichkeit D[1][1] der Silbe
S[1][1] = A[3] als 38,9 eingestellt wird. Daraufhin wird in einem
Schritt S2108 die Ähnlichkeit
CD[1][1] des Worts W[1] = "send" berechnet.
-
Mit
Bezug auf 22 wird es daraufhin in einem
Schritt S2201 bestimmt, ob T 0 ist. In diesem Fall wird der optimale
Weg in einem Schritt S2211 gemäß den in 34 veranschaulichten
Gleichungen berechnet, da T 0 ist. Das heißt, es wird in dem Schritt
S2211 eingestellt, dass P1 = 1, P2 = 2·60,4 = 120,8 und P3 = 0.
Es wird somit in einem Schritt S2212 bestimmt, dass P2 = 120,8 'der optimale Weg ist.
In einem Schritt S2213 werden die kumulative Ähnlichkeit und der kumulative
Weg berechnet.
-
Da
der optimale Weg 2 ist, ist in diesem Fall die kumulative Ähnlichkeit
CD[1][1] 120,8, und der kumulative Weg ist 2. Wieder mit Bezug auf 21 wird
in einem Schritt S2109 j um eins erhöht, d.h. j = 2. Daraufhin werden
in einem Schritt S2103 das Erkennungsergebnis CD[1] = "nd" und die Ähnlichkeit A[1]
= 61,0 gewonnen. Entsprechend wird die Bestimmung eines Schritts
S2105 wahr. Daraufhin werden in einem Schritt S2108 die vorstehend
beschriebenen Berechnungen ausgeführt, und das Ergebnis CD[1][2]
= 122,0 wird erhalten. Danach wird in dem Schritt S2109 j um eins
erhöht,
das heißt
j = 3, und die Bestimmung eines Schritts S2007 wird falsch. Entsprechend
wird in einem Schritt S2009 i um eins erhöht, i = 2. In dieser Art und
Weise wird die Verarbeitung wiederholt, bis i 3 wird. Als Ergebnis
wird die Ähnlichkeit
von Wörtern
CD[1][1] = 120,8, CD[1][2] = 122,0, CD[2][1] = 107,4, CD[2][2] =
41,2, CD[3][1] = 58,2, CD[3][2] = 0, CD[3][3] = 0 und CD[3][4] =
0 erhalten. Wenn in dem Schritt S2009 i 4 wird, wird die Bestimmung
des Schritts S2004 falsch. Somit ist die Verarbeitung abgeschlossen,
und das Worterkennungsergebnis wird anschließend in dem Schritt S1902 gemäß 19 bestimmt.
-
In
dem Schritt S1902 wird das Ergebnis des Silbe-zu-Wort-Vergleichs erhalten,
wenn es bestimmt wird, dass T 0 ist. Gemäß den wie vorstehend beschrieben
durchgeführten
Berechnungen ist das genaue Wort, das zu dem eingegebenen Ton passen kann,
noch nicht bestimmt worden, und das System wartet auf eine nachfolgende
Eingabe. Bei einem Empfangen der nachfolgenden Eingabe wird die
Art des Tons in dem Schritt S1102 gemäß 11 bestimmt.
Da die vorhergehende Eingabe eine Silbe ist und noch nicht als ein
Wort erkannt worden ist, wird es in diesem Fall bestimmt, dass die
Art der nachfolgenden Eingabe wieder eine Silbe sein kann. Daraufhin
wird die Silbenerkennungsverarbeitung in dem Schritt S1104 durchgeführt, und
die Silbenerkennungsergebnisse wie beispielsweise die in 35 veranschaulichten
werden in dem Schritt S1802 zurückgegeben.
-
Die
Erkennungsergebnisse werden somit in dem Schritt S1802 erhalten,
und der Silbe-zu-Wort-Vergleich wird in dem Schritt S1803 durchgeführt. In
dem Schritt S2001 gemäß 20 werden
die Anzahl N von als die Erkennungsergebnisse erhaltenen obersten
Silben und die Erkennungszeit T gewonnen. Das heißt, N =
1 und T = 1 werden erhalten. Wie in dem Fall der dann, wenn T = 0,
ausgeführten
Verarbeitung werden die Schritte S2002 bis S2109 ausgeführt. Als
Ergebnis werden die Berechnungsergebnisse CD[1][1] = 120,8, CD[1][2]
= 322,0, CD[2][1] = 107,4, CD[2][2] = 41,2, CD[3][1] = 58,2, CD[3][2]
= 0, CD[3][3] = 0 und CD[3][4] = 0 erhalten. Wenn in dem Schritt
S2009 i 4 wird, wird die Bestimmung des Schritts S2004 falsch, und
der Prozess geht zu dem Schritt S1902 weiter, in dem das Worterkennungsergebnis
bestimmt wird.
-
Gemäß der Bestimmung
in dem Schritt S1902 wird das Wort "send" als
das durch ein Durchführen
der Erkennungsverarbeitung in dem Schritt S805 gemäß 8 erhaltene
Erkennungsergebnis eingestellt. Es wird daraufhin nach einem Analysieren
des verarbeiteten Ergebnisses in dem Schritt S806 in dem Schritt
S807 bestimmt, dass das Wort "send" anzunehmen ist.
-
Gemäß der vorhergehenden
Beschreibung wird die Spracheingabe "Send mail to May" zuerst verarbeitet, und Post wird an
May gesendet, und schließlich
wird eine Antwort zu dem Benutzer ausgegeben. Die ganze Verarbeitung
ist daraufhin abgeschlossen.
-
In
Einheiten einer kurzen Spracheinheit, zum Beispiel einer Silbe,
durchgeführte
Vorhersagen sind besonders wirkungsvoll, wenn nur ein Teil der ganzen Sprache
erkannt wurde. Zum Beispiel kann selbst dann, wenn ein Wort bildender
eingegebener Ton nicht vollständig
erkannt wurde, eine sehr genaue Erkennung erwartet werden, falls
unter Nutzung der Wissensbasis ausgebildete Vorhersagen in Kombination
mit einer Vorkommenswahrscheinlichkeit jeder Einheit und der Zwischenzustandsübergangswahrscheinlichkeit
verwendet werden.
-
Bei
einem Ausgeben des erkannten Ergebnisses wird die Bestimmung eines
Schritts S2307 basierend auf der Analyse des verarbeiteten Ergebnisses
in dem Schritt S806 ausgebildet. Falls es in dem Schritt S2307 bestimmt
wird, dass das Erkennungsergebnis "send" angenommen
wird, wird es in einem Schritt S2308 als das endgültige Erkennungsergebnis
ausgegeben. Auf ähnliche
Weise wird die vorstehend angeführte
Verarbeitung bei einer nachfolgenden Eingabe durchgeführt. Falls
eine Änderung der Parameter
auf der in 24 gezeigten Bildschirmdarstellung
vorhanden ist, werden die neu eingestellten Parameter gültig ausgebildet,
und Bestimmungen werden unter Verwendung der neuen Parameter ausgebildet.
-
Drittes Ausführungsbeispiel
-
Gemäß dem ersten
und zweiten Ausführungsbeispiel
wird eine Spracherkennung von englischer Sprache durchgeführt. Es
kann jedoch die japanische Sprache basierend auf Vorhersagen erkannt
werden, und die entsprechende Verarbeitung kann durch ein Durchführen von
Konzeptanalysen angemessen ausgeführt werden. In diesem Fall
werden Sprachinformationen als ein Verzeichnis bereitgestellt, und
Konzeptanalysen sind nicht von der Art der Sprache abhängig. Somit
beeinflussen Unterschiede bei Sprachen wie beispielsweise Englisch und
Japanisch die Spracherkennung unter Nutzung von Konzeptanalysen
nicht.
-
Viertes Ausführungsbeispiel
-
Gemäß der in 13 gezeigten
Vorhersagetechnik werden nicht nur Sprachinformationen, deren Eingabe
wahrscheinlich ist, sondern auch Informationen, deren Eingabe unwahrscheinlich
ist, vorhergesagt. Somit kann die Tatsache, dass genau die gleichen
Informationen nicht fortlaufend eingegeben werden, für Vorhersagen
verwendet werden, um Informationen, deren Eingabe unwahrscheinlich
ist, zu beseitigen, wodurch die Erkennungseffizienz vergrößert wird.
-
Wie
es aus der vorhergehenden Beschreibung ersichtlich ist, bietet die
vorliegende Erfindung den Vorteil des Verbesserns der Erkennungsgenauigkeit
durch ein Durchführen
einer Spracherkennung basierend auf Vorhersagen.
-
Die
vorliegende Erfindung kann auf eine einzelne Vorrichtung oder auf
ein aus einer Vielzahl von Vorrichtungen gebildetes System angewendet
werden.
-
Bei
einem anderen Ausführungsbeispiel
der vorliegenden Erfindung kann einer Vorrichtung oder einem System
Softwareprogrammcode zum Realisieren der vorstehend beschriebenen
Funktionen zugeführt
werden, und ein Computer in der Vorrichtung oder dem System kann
den in einem Speichermedium gespeicherten Programmcode lesen und
ihn ausführen,
so dass die vorstehend beschriebenen Funktionen realisiert werden
können.
-
Die
Funktion des vorhergehenden Ausführungsbeispiels
kann nicht nur durch ein Ausführen des
durch den Computer gelesenen Programmcodes realisiert werden, sondern
auch durch ein Ausführen der
Verarbeitung durch zum Beispiel ein in dem Computer laufendes Betriebssystem
(OS) gemäß den Anweisungen
des Programmcodes.
-
Gemäß den vorstehend
beschriebenen Modifikationen bildet ein den Programmcode speicherndes
Speichermedium die vorliegende Erfindung.
-
Obwohl
die vorliegende Erfindung in ihrer bevorzugten Form mit einem bestimmten
Grad von Besonderheit beschrieben worden ist, können viele offenbar weit verschiedene
Ausführungsbeispiele
der Erfindung ausgebildet werden, ohne von dem Schutzbereich der
Patentansprüche
abzuweichen. Es ist selbstverständlich,
dass die Erfindung nicht auf die spezifischen Ausführungsbeispiele
davon außer wie
in den beiliegenden Patentansprüchen
definiert beschränkt
ist.