-
Technisches Gebiet
-
Die
vorliegende Erfindung betrifft ein Informationsverarbeitungsgerät, eine
tragbare Einrichtung, ein Elektronikhaustiergerät, ein Informationsverarbeitungsprozeduren
speicherndes Aufzeichnungsmedium und ein Informationsverarbeitungsverfahren
und kann auf unterschiedliche Arten einer Informationseinrichtung
wie beispielsweise Mobiltelefone und Personalcomputer angewendet
werden. Durch Austausch unterschiedlicher Arten von Daten, die bei
einer Erzeugung einer Antwort über
ein Netzwerk erforderlich sind, und durch Benutzung von Sprache
zu einer Katalogisierung von Wörtern
realisiert die vorliegende Erfindung ein zutraulicheres Elektronikhaustiergerät, ein Informationsverarbeitungsgerät mit einem
elektrischen Haustier, eine tragbare Einrichtung und ein Informationsverarbeitungsprozeduren
speicherndes Aufzeichnungsmedium.
-
Hintergrundtechnik
-
Für herkömmliche
Personalcomputer ist eine sogenannte Erziehungs-Simulationsspielsoftware vorgeschlagen
worden. Die Erziehungs-Simulationsspielsoftware
ist ein Spiel zum Erziehen eines Haustiers (das heißt eines
elektronischen Haustiers) in einem von einem Computer bereitgestellten
Virtuellrealitätsraum.
Die Haustiererziehungs-Stimulationsspielsoftware ermöglicht im
Vergleich zum wirklichen Erziehen eines Haustiers leichte bzw. einfache
Kommunikationen mit einem elektronischen Haustier.
-
Nebenbei
bemerkt führt
ein wirkliches Haustier abhängig
von seinem physischen Zustand, den umgebenden äußeren Umständen usw. unterschiedliche
Arten von Aktion aus. Außerdem
erkennt das Haustier den Eigentümer
und führt
Aktionen aus, die sich von Aktionen bezüglich anderer unterscheiden. Außerdem kann
das Verhalten durch Lernen geändert
werden.
-
Wenn
ein elektronisches Haustier zum Imitieren unterschiedlicher Verhalten
eines wirklichen Haustiers fähig
ist, kann das elektronische Haustier als zutraulicher angesehen
werden.
-
US 5 367 454 beschreibt
eine interaktive Mensch-Maschine-Schnittstelle, die ein animiertes Gesicht
anzeigt, das Emotionen zeigt. Das System speichert Daten, die unterschiedliche
Emotionen darstellen, und die von einem animierten Gesicht zu einem
gegebenen Zeitpunkt gezeigte Emotion hängt von den Emotionsdaten (die
in Reaktion auf unterschiedliche Stimuli, darunter Spracherkennungsdaten,
variieren) ab.
-
Die
vorliegende Erfindung ist an die oben beschriebenen Probleme gerichtet
und durch das Gerät nach
Anspruch 1 definiert.
-
Demgemäss ist die
Kommunikationseinrichtung zur Ausgabe unterschiedlicher Arten von
Daten fähig,
die bei der Erzeugung einer Reaktion bzw. Antwort erforderlich sind.
Infolgedessen ist eine mit dem Netzwerk verbundene Einrichtung des
gleichen Typs zur Erzeugung fast der gleichen Antwort wie eine Antwort
auf eine Spracheingabe in dieses Informationsverarbeitungsgerät, die tragbare
Einrichtung oder das Elektronikhaustiergerät fähig. Als ein Resultat kann
ein elektronisches Haustier so behandelt werden, wie wenn das elektronische
Haustier in die mit dem Netzwerk verbundene externe Einrichtung
herausgenommen wäre,
und überdies
kann das elektronische Haustier im Lauf eines tatsächlichen
Trainings auch leicht zu einem sich Kennenlernen gebracht werden,
wie wenn das elektronische Haustier ein wirkliches Haustier wäre.
-
Die
vorliegende Erfindung stellt außerdem ein
Informationsverarbeitungsverfahren bereit, wie es im Anspruch 4
definiert ist.
-
Die
vorliegende Erfindung stellt außerdem noch
ein Aufzeichnungsmedium bereit, das von einem Informationsverarbeitungsgerät lesbar
ist und Informationsverarbeitungsprozeduren zur Ausführung des
obigen Verfahrens speichert, wenn das Aufzeichnungsmedium auf einem
Informationsverarbeitungsgerät
läuft.
-
Kurze Beschreibung der Zeichnungen
-
1 ist
ein funktionelles Blockdiagramm, das ein Elektronikhaustiergerät zeigt.
wie es durch eine Ausführungsform
der vorliegenden Erfindung implementiert ist;
-
2 ist
eine schematische Darstellung, die eine Vorderansicht des in 1 gezeigten
Elektronikhaustiergeräts
zeigt;
-
3 ist
ein Hardwareblockdiagramm, welches das Elektronikhaustiergerät der 1 zeigt;
-
4 zeigt
eine Tabelle von den physischen Zustand darstellenden Daten;
-
5 zeigt
eine Tabelle von eine Emotion darstellenden Daten;
-
6 zeigt
eine Tabelle von Zeichendaten;
-
7 zeigt
eine Tabelle von eine geänderte Emotion
darstellenden Daten;
-
8 zeigt
in Musterdaten beschriebene Regeln;
-
9 zeigt
eine Tabelle von jeweils Sprachdaten aufweisenden Dateien;
-
10 zeigt
eine Tabelle von jeweils Bilddaten aufweisenden Dateien;
-
11 zeigt
ein Flussdiagramm, das eine Verbindungsverarbeitungsprozedur zur
Verbindung des Elektronikhaustiergeräts mit einem Netzwerk darstellt;
-
12 ist
eine schematische Darstellung, die das Format einer Datenausgabe
an das Netzwerk zeigt;
-
13 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei einer
Operation bezüglich
Katalogerkennungsdaten detaillierter zeigt;
-
14 ist
eine schematische Darstellung, die eine Syntax einer Spracheingabe
zeigt, die einem Spracherkennungsprozess unterworfen wird;
-
15 zeigt
ein Flussdiagramm, das eine Verarbeitungsprozedur für Katalogerkennungsdaten darstellt;
-
16 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei einer
Operation zum Authentisieren des Benutzers detaillierter zeigt;
-
17 zeigt
Regeln von Musterdaten;
-
18 zeigt
einen später
bei einer Authentisierung des Benutzers zu benutzenden typischen
Dialog zur Erkennung eines Favoriten des Benutzers;
-
19 zeigt
einen typischen Dialog zum Authentisieren des Benutzers durch Benutzung
des während
der in 18 gezeigten Konversation erhaltenen
Favoriten;
-
20 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei einer
Verarbeitung zur Klassifizierung eines Worts oder eines Satzes detaillierter
zeigt;
-
21 zeigt
Regeln von Musterdaten zur Erzeugung von Antworten auf unterschiedliche
Kategorien, deren jede als ein Resultat der in 20 gezeigten
Verarbeitung zur Klassifizierung eines Worts oder eines Satzes erhalten
wird;
-
22 zeigt
eine typische Konversationshistorie;
-
23 zeigt
eine andere typische Konversationshistorie;
-
24 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei der
Ausführung
einer Emotionssteuerung detaillierter zeigt;
-
25 ist
eine Tabelle von Variationen bei Emotionen (Zeichendaten) für unterschiedliche Schlüsselwörter, deren
jedes in einer Benutzerspracheingabe enthalten ist;
-
26 ist
eine Tabelle, welche die in 25 gezeigten
Variationen bei Emotionen (Zeichendaten) zusammenfasst;
-
27 ist
eine Tabelle, welche geänderte Variationen
bei Emotionen (Zeichendaten) zusammenfasst.
-
28 ist
ein Hardwareblockdiagramm, das ein Elektronikhaustiergerät, wie es
durch eine andere Ausführungsform
der vorliegenden Erfindung implementiert ist, zeigt;
-
29 ist
eine schematische Darstellung, die eine Vorderansicht eines tragbaren
Telefons zeigt.
-
Beste Ausführungsform der Erfindung
-
1. Erste Ausführungsform
-
1-1. Gesamtkonfiguration der ersten Ausführungsform
-
2 ist
eine schematische Darstellung, die eine Vorderansicht eines Elektronikhaustiergeräts 1 zeigt,
das durch eine erste Ausführungsform
der vorliegenden Erfindung implementiert ist. Wie in der Figur gezeigt
weist das Elektronikhaustiergerät 1 eine Antenne 2,
die nach oben herausgezogen werden kann, und auf dem oberen Abschnitt
der Vorderfläche eine
Flüssigkristallanzeigeplatte 3 auf.
Die beim Elektronikhaustiergerät 1 angewendete
Flüssigkristallanzeigeplatte 3 zeigt
die Figur eines elektronischen Haustiers und eine vom elektronischen
Haustier abgegebene Mitteilung an. Unter der Flüssigkristallanzeigeplatte 3 weist
das Elektronikhaustiergerät 1 einen
Bestätigungsoperator 4A,
einen Beseitigungsoperator 4B und einen Zeiger- bzw. Cursoroperator 5 auf.
Diese Operatoren werden zur Änderung
des Betriebsmodus und Ausführung
anderer Zwecke betätigt.
-
Das
Elektronikhaustiergerät 1 weist
außerdem
unter dem Bestätigungsoperator 4A und
denn Beseitigungsoperator 4B einen Lautsprecher 6 bzw. ein
Mikrofon 7 auf. Eine Konversation kann mit dem elektronischen
Haustier durch den Lautsprecher 6 und das Mikrofon 7 gehalten
werden. Außerdem weist
das Elektronikhaustiergerät 1 auf
der Rückfläche eine
Fassung auf. Die Fassung ermöglicht
die Befestigung einer IC-Karte 8 am elektronischen Haustiergerät 1.
-
3 ist
ein Blockdiagramm, das eine Hardware des Elektronikhaustiergeräts 1 zeigt.
Wie in der Figur gezeigt weist das Elektronikhaustiergerät 1 eine
Analog-zu-Digital-Umsetzungsschaltung (A/D-Umsetzungsschaltung) 10 zur
Umsetzung eines vom Mikrofon 7 kommenden analogen Audiosignals
mittels einer in der Figur nicht gezeigten Verstärkerschaltung in digitale Audiodaten
DA auf. Die Analog-zu-Digital-Umsetzungsschaltung 10 gibt
die digitalen Audiodaten DA an eine zentrale Verarbeitungseinheit
(CPU (central processing unit)) 11 aus. Auf diese Weise
ist das Elektronikhaustiergerät 1 zur
Verarbeitung einer vom Benutzer durch Benutzung der zentralen Verarbeitungseinheit 11 eingegebenen Sprache
fähig.
-
Andererseits
setzt eine Digital-zu-Analog-Umsetzungsschaltung (D/A-Umsetzungsschaltung) 12 digitale
Audiodaten DB, die von der zentralen Verarbeitungseinheit 11 erzeugt
werden, in ein analoges Audiosignal um, das an den Lautsprecher 6 ausgegeben
wird. Auf diese Weise ist der Benutzer zur Verifikation einer Sprache
des elektronischen Haustiers, die vom Elektronikhaustiergerät 1 zum Ausdrücken einer
vom elektronischen Haustier erzeugten Antwort erzeugt wird, fähig. Von
der zentralen Verarbeitungseinheit 11 gesteuert betreibt
eine Monitorschnittstelle (Monitor-I/F) 13 die Flüssigkristallanzeigeplatte 3 zum
Anzeigen eines Bildes des elektronischen Haustiers auf der Flüssigkristallanzeigeplatte 3 entsprechend
Bilddaten DV, die mittels eines Busses von der zentralen Verarbeitungseinheit 11 kommen.
-
Eine
Tastenschnittstelle (Tasten-I/F) 14 detektiert eine vom
Benutzer beim Operator 4A, 4B oder 5 ausgeführte Operation,
die der zentralen Verarbeitungseinheit 11 ein Detektionssignal
zuführt. Zum
Speichern von Information wie beispielsweise eines Verarbeitungsprogramms,
das von der zentralen Verarbeitungseinheit 11 auszuführen wird,
und unterschiedlicher Arten von Daten, die für eine Analyse einer durch
das Mikrofon 7 erfassten Sprache notwendig sind, wird ein
Nurlesespeicher (ROM (read-only memory)) 15 benutzt. Die
zentrale Verarbeitungseinheit 11 liest vom Nurlesespeicher 15 Information
aus, die auch unter einer von der zentralen Verarbeitungseinheit 11 auszuführenden
Steuerung auszugeben ist. Ein Direktzugriffsspeicher (RAM (random-access
memory)) 16 dient als ein Arbeitsbereich der zentralen
Verarbeitungseinheit 11. Der Direktzugriffsspeicher 16 wird
zum zeitweiligen Speichern unterschiedlicher Arten von Daten benutzt,
die zu einer von der zentralen Verarbeitungseinheit 11 ausgeführten Verarbeitung
notwendig sind.
-
Gesteuert
von der zentralen Verarbeitungseinheit 11 verbindet eine
Netzwerkverbindungseinheit 17 das Elektronikhaustiergerät 1 durch
eine Telefonleitung mit einem vorbestimmten Netzwerk 18. Das
Elektronikhaustiergerät 1 tauscht
unterschiedliche Arten von Daten DT mit dem Netzwerk 18 aus und
aktualisiert, wenn notwendig, Information wie beispielsweise Inhalte
des Direktzugriffsspeichers 16 durch Benutzung der ausgetauschten
Daten. Um ins Detail zu gehen ist das Elektronikhaustiergerät 1 auf diese
Weise zu einer Erfassung unterschiedlicher Arten von Daten, die
wenn notwendig, zum Trainieren und Erziehen des elektronischen Haustiers
vom Netzwerk 18 erforderlich sind. Außerdem können im Direktzugriffsspeicher 16 gespeicherte
Daten mittels des Netzwerks 18 zu einem gewünschten
Endgerät übertragen
werden. Als ein Resultat kann das elektronische Haustier so behandelt
werden, wie wenn das Haustier durch Exportieren von Daten zu mit
dem Netzwerk 18 verbundenen Endgeräten in verschiedene Umgebungen
herausgenommen würde.
Im Gegensatz dazu kann ein elektronisches Haustier eines anderen
Geräts
mit dem Endgerät 18 durch
Benutzung dieses Elektronikhaustiergeräts trainiert werden.
-
Die
IC-Karte 8 ist eine externe Aufzeichnungseinrichtung, die
montiert und abmontiert werden kann. Wenn notwendig werden in der
IC-Karte gespeicherte Daten zu einer Aktualisierung von Information
wie beispielsweise der Inhalte des Direktzugriffsspeichers 16 benutzt,
oder im Direktzugriffsspeicher 16 gespeicherte Daten können zur
IC-Karte 8 übertragen
werden. Auf diese Weise ist das Elektronikhaustiergerät zu einem
Austausch unterschiedlicher Arten von Daten mit einer anderen Einrichtung durch
die IC-Karte 8 fähig,
wodurch es möglich
gemacht ist, unterschiedliche Arten von Daten zu erfassen, die zum
Trainieren und Erziehen des elektronischen Haustiers notwendig sind.
Außerdem
kann das elektronische Haustier behandelt werden, wie wenn das Haustier
in unterschiedliche Umgebungen herausgenommen wäre, und, im Gegensatz dazu, kann
ein elektronisches Haustier eines anderen Geräts durch Benutzung dieses Elektronikhaustiergeräts 1 trainiert
werden.
-
1 ist
ein Blockdiagramm, das eine grundlegende Konfiguration des Elektronikhaustiergeräts 1 in
Form von funktionellen Blöcken
zeigt. Es sei darauf hingewiesen, dass in 1 gezeigte
rechteckige funktionelle Blöcke
jeweils ein im Nurlesespeicher 15 gespeichertes Verarbeitungsprogramm
darstellen, das von der zentralen Verarbeitungseinheit 11 auszuführen ist.
Andererseits stellt ein als ein Symbol einer magnetischen Platte
gezeichneter funktioneller Block Daten dar, die im Nurlesespeicher 15,
im Direktzugriffsspeicher 16 oder in der IC-Karte 8 gespeichert
sind.
-
Ein
beim Elektronikhaustiergerät 1 angewendetes
Spracherkennungsmodul 11A führt eine Spracherkennungsverarbeitung
an Audiodaten DA konform mit einer vorbestimmten Erkennungsregel
aus, wobei es ein Resultat der Spracherkennung als ein Ausgangssignal
erzeugt. Um ins Detail zu gehen begrenzt das Spracherkennungsmodul 11A eine
durch sequentiell empfangene Audiodaten DA dargestellte Sprache
durch Phoneme entsprechend einem HMM-Verfahren (HMM = Hidden Marcov
Model (verdecktes Marcov-Modell)). Das Spracherkennungsmodul 11A bezieht
sich auf Erkennungsdaten 16A für eine Reihe von solchen Phonemen.
Das Spracherkennungsmodul 11A erzeugt Wörter der Audiodaten DA, Wörter eines
im Voraus katalogisierten Satzes und, im Fall eines Satzes, Wörter des
Satzes oder von Textdaten, welche den Satz auf Basis von Resultaten
der Bezugnahme auf die Erkennungsdaten 16A als Resultate
der Erkennung darstellen. Die Erkennungsdaten 16A sind
eine Datenbank, die Textdaten von Wörtern und Sätzen mit einer Reihe von Phonemen
assoziiert, die vom HMM-Verfahren ausgegeben werden. Das heißt die Erkennungsdaten 16A sind
eine Datenbank, die zum Speichern von Paaren benutzt wird, deren
jedes Textdaten und ein Phonem aufweist. Eine solche Datenbank ermöglicht dem Elektronikhaustiergerät 1 eine
Sprache von „A
Good kid (ein gutes Kind)" die
vom Benutzer vor dem Mikrofon 7 gesagt wird, in ein Array
von Zeichen umzusetzen, die einen Text von „A Good kid" darstellen. Als
ein Resultat wird eine Spracheingabe in ein Array von Zeichen umsetzt.
-
Ein
Zeitgeber 11B ruft Komponenten wie beispielsweise ein Physischzustands-Änderungsmodul 11C und
ein Emotionsänderungsmodul 11D in
vorbestimmten Intervallen auf.
-
Wenn
vom Zeitgeber 11B aktiviert aktualisiert das Physischzustands-Änderungsmodul 11C Physischzustandsdaten 16B entsprechend
einem Resultat einer Spracherkennung. Die Physischzustandsdaten 16B weisen
Parameter auf, die den gegenwärtigen
physischen Zustand des elektronischen Haustiers darstellen. Es sei
darauf hingewiesen, dass im Fall dieser Ausführungsform die Physischzustandsdaten 16B fünf Parameter
aufweisen, die wie in 4 gezeigt, mit „fatigue
(Ermüdung)", „hunger (Hunger)”, „thirstness
(Durstigkeit)", „sickness (Krankheit)" bzw. „sleepiness
(Schläfrigkeit)" benannt sind. Je
größer der
Wert eines Parameters ist, desto größer ist der Anteil des Parameters
beim physischen Zustand des elektronischen Haustiers. Die in 4 gezeigten
typischen Werte zeigen infolgedessen an, dass gegenwärtig das
elektronische Haustier extrem ermüdet und sehr hungrig ist.
-
Wie
oben beschrieben aktualisiert das Physischzustands-Änderungsmodul 11C die
Physischzustandsdaten 16B entsprechend einem Resultat der
Spracherkennung, wie es vom Zeitgeber 11B aktiviert wird.
Beispielsweise werden die Parameter „hunger", „thirstiness" und „sleepiness" in Übereinstimmung
mit der Regel der Natur, wie sie im Lauf einer typischen Erziehung
eines wirklichen Haustiers generell gesehen wird, graduell erhöht. Als
ein Resultat bekommt das elektronische Haustier im Laufe der Zeit
Hunger. Ein anderes Beispiel einer Operation zur Aktualisierung
der Physischzustandsdaten 16B entsprechend einem Resultat
einer Spracherkennung ist eine Operation zur Erniedrigung des „hunger"-Parameters, wenn
ein Resultat der Spracherkennung anzeigt, dass dem elektronischen
Haustier Nahrung gegeben worden ist. Noch ein anderes Beispiel einer Operation
zur Aktualisierung der Physischzustandsdaten 16B entsprechend
einem Resultat einer Spracherkennung ist eine Operation zur Erniedrigung
des „thirstiness"-Parameters, wenn
ein Resultat der Spracherkennung anzeigt, dass dem elektronischem Haustier
zu trinken gegeben worden ist. Ein weiteres Beispiel einer Operation
zur Aktualisierung der Physischzustandsdaten 16B entsprechend
einem Resultat der Spracherkennung ist eine Operation zu einer graduellen
Erhöhung
des „fatigue"-Parameters", wenn ein Resultat
der Spracherkennung anzeigt, dass der Eigentümer mit dem elektronischem
Haustier spielt. Ein noch anderes Beispiel einer Operation zur Aktualisierung
der Physischzustandsdaten 16B entsprechend einem Resultat
der Spracherkennung ist eine Operation zu einer graduellen Erniedrigung des „sleepiness"-Parameters synchron
mit einem Zeitgeber, wenn ein Resultat der Spracherkennung anzeigt,
dass der Eigentümer
dem elektronischem Haustier sagt, es solle schlafen.
-
Andererseits
aktualisiert das Emotionsänderungsmodul 11D die
gegenwärtigen
Emotionsdaten 16C entsprechend einem Resultat einer Spracherkennung,
wie sie vom Zeitgeber 11B aktiviert wird. Die gegenwärtigen Emotionsdaten 16C weisen
Variable auf, welche die Emotionen des derzeitigen elektronischen
Haustiers in einer künstlichen
Weise darstellen. Solche Variablen werden jeweils als auch künstliche
Emotionsparameter bezeichnet. Es sei darauf hingewiesen, dass es
im Fall dieser Ausführungsform
sechs künstliche
Emotionsparameter gibt, die, wie in 5 gezeigt,
die Emotionen „anger
(Ärger)", „sadness
(Traurigkeit)", „joy (Freude)". „fear (Furcht)", „surprise
(Überraschung)" bzw. „hatred (Abscheu)" darstellen. Je größer der
Wert eines künstlichen
Emotionsparameters ist, desto größer ist die
vom Parameter dargestellte Emotion. Ein typischer Satz von Werten
von in 5 gezeigten künstlichen
Emotionsparametern zeigen, dass das elektronische Haustier zur gegenwärtigen Zeit
freudvoll aber voll von Ärger
ist.
-
Wie
oben beschrieben aktualisiert das Emotionsänderungsmodul 11D die
Emotionsdaten 16C in Übereinstimmung
mit der Regel der Natur, wie sie generell im Lauf einer typischen
Erziehung eines wirklichen Haustiers gesehen wird. Das heißt, wenn
das Emotionsänderungsmodul 11D die
Emotionsdaten 16C wie sie vom Zeitgeber 11B aktiviert
werden aktualisiert, werden die sechs Variablen, das heißt die Emotionsparameter „anger", „sadness", „joy", „fear", „surprise" und „hatred" jeweils graduell
aktualisiert, um sich dem vorbestimmten Referenzwert anzunähern. Infolgedessen
werden im Fall des in 5 gezeigten Beispiels die Emotionen „anger", „sadness" und die anderen
Emotionen graduell befriedigt.
-
Wenn
das Emotionsänderungsmodul 11D die
Emotionsdaten 16C entsprechend einem Resultat einer Spracherkennung
aktualisiert, werden andererseits Zeichendaten 16D für eine Information
gesucht, die vom Resultat der Spracherkennung angezeigt wird, und
die Information wird dann als eine Basis zur Aktualisierung der
Emotionsdaten 16C benutzt.
-
Wie
in 6 gezeigt weisen die Zeichendaten 16D bei
Emotionsdaten 16C Änderungen
auf, die durch einen Satz (oder ein Wort), der (das) in einem Resultat
der Spracherkennung enthalten ist, klassifiziert werden. Das heißt durch
Benutzung eines in einem Resultat einer Spracherkennung enthaltenen Satzes
als ein Schlüsselwort
können
die Zeichendaten 16D für
Variationen bei Emotionsdaten 16C gesucht werden, die für den Satz
(oder das Wort) richtig sind. Es sei beispielsweise angenommen,
dass der Benutzer zum elektronischen Haustier „Good" sagt. In diesem Fall werden die Emotionsarameter "anger", „sadness", „joy", „fear", „surprise" und „hatred" wie in
-
6 gezeigt
um –1,
+2, +20, –5,
+5 bzw. –1 geändert. In
anderen Worten Variationen bei den Emotionsdaten 16C von –1, +2,
+20, –5,
+5 und –1 werden
dem Wort „Good" zugeordnet.
-
Wenn
infolgedessen der Benutzer beispielsweise „A Good kid" sagt, aktualisiert
das Emotionsänderungsmodul 11D die
in 5 gezeigten Emotionsdaten 16C in die
in 7 gezeigten. Auf diese Weise dient das Emotionsänderungsmodul 11D als eine
Emotionserzeugungseinrichtung, die künstliche Emotionsparameter
erzeugt, deren jeder eine Emotion in einer künstlichen Weise simuliert,
und die Emotionsdaten auf der Basis einer vorbestimmten Emotionsparametererzeugungsregel
wenigstens entsprechend einem Resultat einer Spracherkennung aktualisiert.
Außerdem
variieren die künstlichen
Emotionsparameter auch mit dem Ablauf der Zeit.
-
Ein
Antwortsatz-Erzeugungsmodul 11E erzeugt eine Antwort auf
ein Resultat einer Spracherkennung entsprechend vorbestimmten Antworterzeugungsregeln
auf Basis der Physischzustandsdaten 16B und der Emotionsdaten 16C.
Musterdaten 16E sind ein Satz von Regeln einer solchen
Antwort. Wie in 8 gezeigt beschreibt jede der
Regeln eine Antwort auf einen eingegebenen Schlüsselsatz, der ein als ein Resultat
der Spracherkennung erhaltenes Wort aufweist. Von einem Schlüsselsatz
bestimmt variiert eine von einer Regel beschriebene Antwort entsprechend
den Emotionsdaten 16C und den Physischzustandsdaten 16B.
Es sei darauf hingewiesen, dass in 8 nur minimal
erforderliche Regeln gezeigt sind, um die Erläuterung einfach zu machen. Tatsächliche
Regeln beschreiben Zustände
(darunter später
zu beschreibende Attribute) anders als die in 8 gezeigten
Zustände.
Die in 8 gezeigte Regel 2 ist ein Beispiel einer Regel
auf Basis nur von Emotionsdaten 16C. Es sei darauf hingewiesen, dass
eine Regel auf einer Kombination aus den Emotionsdaten 16C und
den Physischzustandsdaten 16B basieren kann.
-
Die
in 8 gezeigte Regel 1 beschreibt Antwortsätze auf
den eingegebenen Satz „I
love you (ich liebe dich)" oder
I like you (ich mag dich)".
Entsprechend Regel 1 wird, wenn der eingegebene Satz eine Sprache
eines authentisierten Benutzers ist, ein Antwortsatz, der „I love
you, too (ich liebe dich auch)" oder „Wow, I
am a male though (Oh, ich bin aber männlich)" sagt, zufällig ausgegeben. Wenn der eingegebene
Satz keine Sprache eines authentisierten Benutzers ist, wird andererseits
ein Antwortsatz, der „A
strange Person (eine fremde Person)" oder „Who are you? (wer sind sie?)" sagt, zufällig ausgegeben.
-
Regel
2 in 8 beschreibt Antwortsätze auf einen eingegebenen
Satz „Good
day (guten Tag)" oder „Hello
(Hallo)". Wie oben
beschrieben basieren die Antwortsätze auf den Emotionen „anger", „sadness", „joy", „fear", „surprise" und „hatred" der Emotionsdaten.
Um spezifischer zu sein wird ein „Shut up (sei still)", „What?
(was?)", „Howdy
(grüßen)", „I am surprised
(ich bin überrascht)", „Hi (he
da)" oder „Did you
call me? (riefen sie mich an?) sgender Antwortsatz als eine Ausgabe
ausgewählt,
wenn der größte unter
den Emotionsparametern „anger", „sadness", „joy", „fear", „surprise" bzw. „hatred" einen vorbestimmten
Wert überschreitet.
-
Die
in 8 gezeigte Aussage ,authenticated (A); (B) (autentisiert
(A); (B))’ in
Regel 1 bedeutet, dass, wenn ein später zu beschreibendes Resultat
einer Benutzerauthentisierung oder dgl. auf den Booleschen Wert „TRUE (wahr)" gesetzt ist, der
Satz (A) ausgewählt
wird, und wenn das Resultat der Benutzerauthentisierung oder dgl.
nicht auf „TRUE" gesetzt ist, andererseits
der Satz (B) ausgewählt
wird. Die Aussage „random
(„A", „B") (zufällig („A", „B"))" bedeutet, dass entweder
der Satz „A" oder „B" zufällig ausgewählt wird.
-
Nebenbei
bemerkt weist der Emotionsparameter „joy" bei den in 7 gezeigten
Emotionsdaten 16C den größten Wert unter den Variablen
auf. Infolgedessen wird gemäß Regel
2 das Wort „Howdy" für die Freudeemotion
ausgewählt.
-
Wenn
das Antwortsatz-Erzeugungsmodul 11E eine Antwort auf Basis
der oben beschriebenen Emotionsdaten 16C erzeugt, erzeugt
das Antwortsatz-Erzeugungsmodul 11E, wie früher erwähnt, abhängig vom
eingegebenen Schlüsselsatz
auch eine Antwort auf Basis der Physischzustandsdaten 16B oder
einer Kombination aus den Emotionsdaten 16C und den Physischzustandsdaten 16B.
Mit einem solchen Antwortsatz-Erzeugungsmodul 11E erzeugt das
Elektronikhaustiergerät 1,
wenn das elektronische Haustier in einem unbefriedigenden physischen Zustand
ist, infolgedessen eine mit dem Zustand korrespondierende Antwort.
-
Das
Antwortsatz-Erzeugungsmodul 11E zeichnet eine erzeugte
Antwort bezüglich
eines solchen Resultats einer Spracherkennung in einer Konversationshistorie 16F auf.
Wenn notwendig erzeugt das Antwortsatz-Erzeugungsmodul 11E eine Antwort durch
sich beziehen auf die Konversationshistorie 16F. Auf diese
Weise kann eine unnatürliche
Konversation zwischen dem elektronischen Haustier und dem Benutzer
vermieden werden. Zusätzlich
erzeugt das Antwortsatz-Erzeugungsmodul 11E auch eine Antwort
durch sich beziehen auf eine Wissensbank 16G. Als ein Resultat
ist das Elektronikhaustiergerät 1 zu
einer Änderung
der Antwort in Abhängigkeit
von dem Benutzer, der durch Ausführen
einer Verarbeitung zur Authentisierung des Benutzers typischerweise
identifiziert wird, fähig.
-
Ein
Sprachsynthesemodul 11F sucht Sprachdaten 16H für mit einer
vom Antwortsatz-Erzeugungsmodul 11 ausgegebenen Antwort
korrespondierende Sprachdaten DB, wobei die Sprachdaten DB als ein
Suchresultat ausgegeben werden. Wie in 9 gezeigt
sind die Sprachdaten 16H eine Sammlung aus Sprachdateien,
deren jede mit einer Antwort korrespondiert. Wenn beispielsweise
die Antwort „Howdy" ausgegeben wird,
wird eine mit ,voice0005.wav’ bezeichnete
Sprachdatei ausgewählt
und werden in dieser Sprachdatei aufgezeichnete Sprachdaten DB ausgegeben.
-
Ein
Bildsynthesemodul 11G sucht Bilddaten 16I für mit einer
vom Antwortsatz-Erzeugungsmodul 11E ausgegebenen Antwort
korrespondierende Bilddaten DV, wobei die Bilddaten DV als ein Suchresultat
ausgegeben werden. Wie in 10 gezeigt
sind die Bilddaten 16I eine Kollektion von Bilddatendateien,
deren jede mit einer Antwort korrespondiert. Wenn beispielsweise
die Antwort „Howdy" ausgegeben wird,
wird eine mit ,fig0005.bmp’ bezeichnete Bilddatendatei
ausgewählt
und werden in dieser Bilddatendatei aufgezeichnete Bilddaten DV
ausgegeben.
-
1-2. Verbindung mit dem Netzwerk
-
Die
zentrale Verarbeitungseinheit 11 führt eine in 11 gezeigte
Verarbeitungsprozedur aus, um das Elektronikhaustiergerät 1 durch
die Netzwerkverbindungseinheit 17 mit dem Netzwerk 18 zu verbinden.
Verbunden mit dem Netzwerk 18 ist das Elektronikhaustiergerät 1 zu
einer Übertragung
der Physischzustandsdaten 16B, der Emotionsdaten 16C und
der Konversationshistorie 16F mittels des Netzwerks 18 zu
einer gewünschten
Einrichtung fähig.
Die vom Elektronikhaustiergerät 1 solche
Daten empfangende Einrichtung ist zu einer Wiedergabe des elektronischen
Haustiers des Elektronikhaustiergeräts 1 fähig. Auf
diese Weise kann das elektronische Haustier in unterschiedliche
Umgebungen herausgenommen werden.
-
Im
Gegensatz dazu ist die zentrale Verarbeitungseinheit 11 zu
einer Erfassung von Physischzustandsdaten 16B, Emotionsdaten 16C und
einer Konversationshistorie 16F vom Netzwerk 18 fähig, was
einem in ein anderes Elektronikhaustiergerät erhobenen Elektronikhaustier
ermöglicht,
aus diesem Elektronikhaustiergerät
gebracht zu werden. In diesem Fall sind die funktionellen Blöcke des
Elektronikhaustiergeräts 1 zu
einer Ausführung
der Verarbeitung auf Basis der ursprünglichen Physischzustandsdaten 16B,
der ursprünglichen
Emotionsdaten 16C und der ursprünglichen Konversationshistorie 16F fähig, um
sein durch sich selbst erhobenes elektronisches Haustier parallel
zur Verarbeitung auf Basis der Physischzustandsdaten 16B,
der Emotionsdaten 16C und der Konversationshistorie 16F,
die vom anderen Elektronikgerät
durch das Netzwerk 18 importiert werden, zu emulieren,
um ein in das andere Elektronikgerät erhobenes elektronisches
Haustier zur Erzeugung von Antworten, wie wenn das andere elektronische
Haustier dieses Elektronikhaustiergerät 1 besuchen würde, zu
emulieren. Es sei darauf hingewiesen, dass bei den in 1 gezeigten
funktionellen Blöcke
Flüsse
von Daten bei der Verarbeitung auf Basis der Physischzustandsdaten 16B,
der Emotionsdaten 16C und der Konversationshistorie 16F die
vom anderen Elektronikgerät
durch das Netzwerk 18 erfasst werden, nicht gezeigt sind.
-
Die
Elektronikhaustiereinheit 1 ist auch zu einer Erfassung
von Erkennungsdaten 16A, Musterdaten 16E, einer
Wissensbank 16G, von Sprachdaten 16H und Bilddaten 16I vom
Netzwerk 18 zur Erhöhung
der Größe des Vokabulars
gesprochener Wörter,
die vom sogenannten elektronischen Haustier erkannt werden können, und
zur Erhöhung
der Anzahl von Antworttypen fähig.
Als ein Resultat ist das Elektronikhaustiergerät 1 zu einem Erziehen
des elektronischen Haustiers und ihm etwas Beibringen fähig.
-
Wie
in 11 gezeigt beginnt die Prozedur mit einem Schritt
SP1. In Reaktion auf eine Anforderung zu einer Verbindung geht der
Fluss der Prozedur zu einem Schritt SP2, bei dem die zentrale Verarbeitungseinheit 11 die
Anforderung akzeptiert. Es sei darauf hingewiesen, dass solche Anforderungen
zu einer Verbindung vom Zeitgeber 11B in festen Intervallen
periodisch erzeugt werden. Außerdem
kann eine Anforderung zu einer Verbindung vom Benutzer durch Bedienung
eines Operators gemacht werden. Überdies
kann eine Verbindung auch in Reaktion auf einen ankommenden Anruf
vom Netzwerk hergestellt werden.
-
Der
Fluss der Prozedur geht dann zu einem Schritt SP3 weiter, bei dem
die zentrale Verarbeitungseinheit 11 eine Kommunikation
durch Ausführung
einer vorbestimmten Leitungsverbindungsverarbeitung herstellt. Dann
geht der Fluss der Prozedur zu einem Schritt SP4 weiter, bei dem
die zentrale Verarbeitungseinheit 11 unterschiedliche Arten
von Daten, die von der Substanz der Anforderung zur Verbindung mit
einem Kommunikationspartner abhängt,
austauscht. Danach geht der Fluss der Prozedur zu einem Schritt
SP5 weiter, bei dem die zentrale Verarbeitungseinheit die Kommunikation
unterbricht. Schließlich
geht der Fluss der Verarbeitung zu einem Schritt SP6 weiter, bei
dem die zentrale Verarbeitungseinheit 11 die Verarbeitungsprozedur
beendet.
-
12 ist
eine schematische Darstellung, die das Format von übertragenen
Daten zeigt. Das Elektronikhaustiergerät 1 tauscht Daten
mit einem Kommunikationspartner mittels einer in der Netzwerkverbindungseinheit 17 untergebrachten
Schnittstelle und einer Schnittstelle im Kommunikationspartner entsprechend
dem Format aus. Wie in der Figur gezeigt weist jedes Stück von Daten
DT einen Header zur Beschreibung von Information wie beispielsweise
der Adresse und des Typs der Daten DT auf. Typischerweise weisen
die Daten DT Musterdaten 16E, Erkennungsdaten 16A,
Sprachdaten 16H, Bilddaten 16I usw. auf, die wie
es notwendig ist sequentiell angeordnet sind.
-
1-3. Katalogisierung von Erkennungsdaten
-
13 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei
einer Operation zum Katalogisieren von Erkennungsdaten 16A detaillierter
zeigt. Bei diesem funktionellen Blockdiagramm katalogisiert ein
Katalogisierungsmodul 111 ein Resultat einer Spracherkennung
als Erkennungsdaten 16A. Auf diese Weise ist es möglich, dem
elektronischen Haustier unterschiedliche Wörter ohne Eingabe der Wörter über eine
Eingabeeinheit wie beispielsweise eine Tastatur oral beizubringen.
-
Um
das oben beschriebene Vorhaben auszuführen, verarbeitet das Spracherkennungsmodul 11A Sprachdaten
DA durch Annahme des HMM-Verfahrens, das eine Reihe von Phonemen
als ein Resultat der Spracherkennung ausgibt. Um ins Detail zu gehen
wird eine in der japanischen Sprache ausgedrückte Sprache analysiert, um
ihre Phoneme zu identifizieren, die jeweils durch einen Identifizierer angezeigt
werden. Infolgedessen kann eine Betonung in der japanischen Sprache
durch ein Array von Identifizierern ausgedrückt werden. Die Identifizierer werden
wie folgt aufgelistet: ’b’, ,d’, ,g’, ,p’, ,t’, ,k’, ,m’, ,n’, ,r’, ,z’, ,ch’, ,ts’, ,y’, ,w’, ,i’, ,e’, ,a’, ,o’, ,u’, ,N’, ,ei’, ,ou’, ,s’, ,sh’, ,xy’, ,j’, ,f’ und ,sil’. Das
Phonem ,sil’ ist tonlos.
-
Wenn
der Benutzer beispielsweise „mikan" (in deutsch „Orangen") als eine Eingabe
sagt, erkennt das Spracherkennungsmodul 11A die eingegebene
Sprache als eine Reihe von Phonemen, die durch die Identifizierer „sil m
i k a N sil" ausgedrückt sind.
Das Spracherkennungsmodul 11A verarbeitet sequentiell die
ihm auch sequentiell zugeführten Sprachdaten
DA, um ihre Phoneme zu identifizieren. Erkennungsresultate werden
dann entsprechend einer in 14 gezeigten
Syntax verarbeitet, um eine Reihe von Phonemen zu detektieren, die
durch eine Reihe von Identifiziern dargestellt sind. Es sei darauf hingewiesen,
dass die in 14 gezeigte Syntax eine Syntax
ist, die erlaubte Verbindungen aller oben aufgelisteten Phoneme
anzeigt.
-
Bei
einem normalen Operationsmodus sucht das Videoerkennungsmodul 11A die
Erkennungsdaten 16A für
Textdaten, die ein Wort oder einen Satz aufweisen, das bzw. der
als ein mit einem Array aus auf diese Weise detektierten Identifizierern
korrespondierendes Suchresultat erhalten wird, wobei die Textdaten
als Erkennungsresultat ausgegeben werden. Wenn infolgedessen bei
dieser Ausführungsform
vom Benutzer in den Erkennungsdaten 16A ein nicht katalogisiertes
Wort als eine Spracheingabe empfangen wird, ist es schwierig, Textdaten
zu erzeugen, und es ist folglich schwer, einer vom Benutzer gegebenen
eingegebenen Sprache eine korrekte Antwort zu geben.
-
Um
dieses Problem zu lösen
wird das durch diese Ausführungsform
implementierte Elektronikhaustiergerät 1 mit dem Netzwerk 18 durch
die Netzwerkverbindungseinheit 17 verbunden, die zu einem Herunterladen
von Erkennungsdaten 16A vom Netzwerk 18 fähig ist.
Auf diese Weise werden die heruntergeladenen Erkennungsdaten 16A dem
elektronischen Haustier beigebracht, so dass das elektronische Haustier
zum Geben von Antworten auf unterschiedliche Äußerungen fähig ist.
-
Außerdem führt bei
dieser Ausführungsform die
zentrale Verarbeitungseinheit 11 eine in 15 gezeigte
Verarbeitungsprozedur aus, wenn vom Benutzer ein Katalogmodus ausgewählt wird.
Während der
Ausführung
der Verarbeitungsprozedur wird der Benutzer aufgefordert, den Bestätigungsoperator 4A und
den Beseitigungsoperator 4B wie unten beschrieben zu betätigen. Die
Prozedur wird zum Katalogisieren eines vom Benutzer gesagten Worts
in den Erkennungsdaten 16A ausgeführt.
-
Wie
in 15 gezeigt beginnt die Prozedur mit einem Schritt
SP11. Wenn ein vorbestimmter Operator betätigt wird, geht der Fluss der
Prozedur zu einem Schritt SP12, um einen Katalogmodus einzugeben,
bei dem die zentrale Verarbeitungseinheit 11 das Bildsynthesemodul 11G ausführt, um
eine vorbestimmte Mitteilung auf der Flüssigkristallanzeigeplatte 3 anzuzeigen.
Die Mitteilung fordert den Benutzer auf, ein Wort auszusprechen.
-
Dann
geht der Fluss der Prozedur zu einem Schritt SP14, bei dem die zentrale
Verarbeitungseinheit 11 bei den sequentiell empfangenen
Sprachdaten DA eine Spracherkennung ausführt, welche die Daten DA sequentiell
als eine Reihe von Phonemen identifiziert. Wenn der Benutzer einen
vorbestimmten Operator betätigt,
um die Spracheingabe zu beenden, geht der Fluss der Prozedur zu
einem Schritt SP15.
-
Beim
Schritt SP15 führt
die zentrale Verarbeitungseinheit 11 das Sprachsynthesemodul 11F entsprechend
der als ein Resultat der Spracherkennung erhaltenen Reihe von Phonemen
aus, um die vom Benutzer empfangene Sprache wiederzugeben. Auf diese
Weise kann das Resultat der Spracherkennung dem Benutzer präsentiert
werden. Es sei angenommen, dass der Benutzer das Wort „mikan" sagt. In diesem
Fall erzeugt die zentrale Verarbeitungseinheit 11 das Phonemarray
,sil m i k a N sil’ als
ein Resultat der Spracherkennung, und das Sprachsynthesemodul 11F erzeugt
eine „Is
it a mikan? (ist es eine Orange?)" sagende akustische Äußerung. Der Fluss der Prozedur
geht dann weiter zu einem Schritt SP16, bei dem die zentrale Verarbeitungseinheit 11 ein
vom Benutzer durch Betätigung
des Bestätigungsoperators 4A oder
des Beseitigungsoperators 4B in Reaktion auf die erzeugte
akustische Frageäußerung eingegebenes
Signal akzeptiert.
-
Der
Fluss der Prozedur geht dann zu einem Schritt SP17 weiter, bei dem
die zentrale Verarbeitungseinheit 11 eine Entscheidung
darüber
trifft, ob der Bestätigungsoperator 4A oder
der Beseitigungsoperator 4B vom Benutzer betätigt worden
ist. Wenn vom Benutzer der Beseitigungsoperator 4B betätigt worden
ist, bestimmt die zentrale Verarbeitungseinheit 11, dass
das Resultat der dem Benutzer präsentierten
Spracherkennung dementiert worden ist. In diesem Fall geht der Fluss
der Prozedur zum Schritt SP13 zurück, um die Spracheingabe wieder
zu akzeptieren. Wenn vom Benutzer der Beseitigungsoperator 4B betätigt worden
ist, bestimmt andererseits die zentrale Verarbeitungseinheit 11,
dass das dem Benutzer präsentierte
Resultat der Spracherkennung akzeptiert worden ist. In diesem Fall
geht der Fluss der Prozedur weiter zu einem Schritt SP18.
-
Beim
Schritt SP18 führt
die zentrale Verarbeitungseinheit 11 wieder das Bildsynthesemodul 11G aus,
um auf der Flüssigkristallanzeigeplatte 3 eine
vorbestimmte Mitteilung anzuzeigen. Die Mitteilung fordert den Benutzer
auf, ein Attribut für
das früher
als eine Spracheingabe gesagte Wort zu sagen. Ein Attribut ist ein
Schlüsselwort,
das die Eigenschaft eines von einem Wort identifizierten Objekts
zeigt. Ein Attribut wird zur Klassifizierung eines Objekts benutzt.
Im Fall beispielsweise des Worts „mikan" wird vom Benutzer das Attribut „fruit
(Frucht)" gesagt,
um die Kategorie des Worts „mikan" zu bestimmen.
-
Der
Fluss der Prozedur geht dann zu einem Schritt SP19 weiter, bei dem
die zentrale Verarbeitungseinheit 11 bei den sequentiell
empfangenen Sprachdaten DA eine Spracherkennung ausführt, welche
die Daten DA sequentiell als eine Reihe von Phonemen identifiziert.
Wenn der Benutzer einen vorbestimmten Operator betätigt, um
die Spracheingabe zu beenden, geht der Fluss der Prozedur weiter zu
einem Schritt SP20.
-
Beim
Schritt SP20 führt
die zentrale Verarbeitungseinheit 11 das Sprachsynthesemodul 11F entsprechend
der als ein Resultat der Spracherkennung erhaltenen Reihe von Phonemen
aus, um die vom Benutzer empfangene Sprache wiederzugeben. Auf diese
Weise kann das Resultat der bezüglich
des Attributs ausgeführten
Spracherkennung dem Benutzer präsentiert
werden. Es sei angenommen, dass der Benutzer nach einem Sagen des
Worts „mikan" das Wort „fruit" als ein Attribut
sagt. In diesem Fall erzeugt das Sprachsynthesemodul 11F eine „Is it
a fruit? (ist es eine Frucht?)" sagende
akustische Äußerung.
Der Fluss der Prozedur geht dann weiter zu einem Schritt SP21, bei
dem die zentrale Verarbeitungseinheit 11 ein vom Benutzer
durch Betätigung des
Bestätigungsoperators 4A oder
des Beseitigungsoperators 4B eingegebenes Signal in Reaktion auf
die erzeugte akustische Frageäußerung akzeptiert.
-
Der
Fluss der Prozedur geht dann zu einem Schritt SP22 weiter, bei dem
die zentrale Verarbeitungseinheit 11 eine Entscheidung
darüber
trifft, ob der Bestätigungsoperator 4A oder
der Beseitigungsoperator 4B vom Benutzer betätigt worden
ist. Wenn vom Benutzer der Beseitigungsoperator 4B betätigt worden
ist, stellt die zentrale Verarbeitungseinheit 11 fest,
dass das Resultat der dem Benutzer präsentierten Spracherkennung
dementiert worden ist. In diesem Fall geht der Fluss der Prozedur
zurück
zum Schritt SP18, um wieder eine Spracheingabe zu akzeptieren. Wenn
vom Benutzer der Bestätigungsoperator 4A betätigt worden
ist, stellt andererseits die zentrale Verarbeitungseinheit 11 fest,
dass das Resultat der dem Benutzer präsentierten Spracherkennung
akzeptiert worden ist. In diesem Fall geht der Fluss der Prozedur
zu einem Schritt SP23 weiter.
-
Beim
Schritt SP23 katalogisiert die zentrale Verarbeitungseinheit 11 das
Wort ,mikan’ in
den Erkennungsdaten 16A und das Attribut ,fruit’ in der
Wissensbank 16G.
-
Der
Fluss der Prozedur geht dann zu einem Schritt SP24 weiter, um die
ganze Verarbeitung zu beenden.
-
In
der Wissensbank 16G sind Attribute wie beispielsweise das
Wort ,fruit’ und
das Wort ,drink (Getränk)’ aufgezeichnet,
welche die Klassifikation von Wörtern
und Sätzen
zeigen, die in den Erkennungsdaten 16A katalogisiert sind.
Musterdaten 16E sind auch aufgezeichnete Attribute, welche
die zentrale Verarbeitungseinheit 11 dazu fähig macht,
dass der Benutzer zum Beispiel der Frage „What food do you like? (welche
Nahrung magst du?)" stellt.
In Reaktion auf diese Frage kann der Benutzer antworten „I like
mikan (ich mag Organgen)".
Dann macht die zentrale Verarbeitungseinheit 11 in Reaktion
auf die vom Benutzer gegebene Antwort beispielsweise die Bemerkung „I don't like mikan (ich
mag keine Organgen)".
-
Zusätzliche
zu Attributen umfasst die Wissensbank 16G auch den Namen
und Favoriten des Halters oder des Eigentümers des Elektronikhaustiergeräts 1 sowie
unterschiedliche Arten von Daten wie beispielsweise eine vom Netzwerk 18 empfangene
Wettervorhersage. Wenn notwendig können diese Daten bei einer
Konversation mit dem Benutzer benutzt werden. Wenn der Benutzer
beispielsweise die Frage stellt „What is today's weather forecast?
(wie ist die heutige Wettervorhersage?)" ist das Elektronikhaustiergerät 1 zum
Geben der Antwort „A
clear weather (klares Wetter)" in Übereinstimmung
mit einer die Wörter
,today (heute)’ und
,weather (wetter)’ als
Schlüsselsätze benutzenden
vorbestimmten Regel fähig.
-
Bei
einer Operation zur Katalogisierung einer Spracheingabe in den Erkennungsdaten 16A bei dem
wie oben beschriebenen Elektronikhaustiergerät 1 muss ein korrekter
Text für
die Spracheingabe verifiziert werden, der nicht schon in den Erkennungsdaten
existiert. Bei dem obigen Beispiel ist der korrekte Text ein das
Wort „mikan" beschreibender Text.
Als ein Resultat einer Spracherkennung erhaltene Textdaten sind
ein Array aus alphabetischen Marken oder ein Array aus Identifizierern,
das eine Reihe von Phonemen darstellt, die ein Wort oder einen Satz,
das bzw. der vom Benutzer als eine Spracheingabe eingegeben wird,
darstellt. Bei dem obigen Beispiel besteht das Array aus alphabetischen Marken
aus ,sil m i k a N sil’,
das ein Wort oder einen Satz beschreibt, das bzw. der in den Erkennungsdaten 16A zu
katalogisieren ist. Wenn notwendig kann auch ein vom Netzwerk 18 heruntergeladener
Text in den Erkennungsdaten 16A katalogisiert werden. Mit einem
solchen in den Erkennungsdaten 16A katalogisierten Text
kann von einem aufgezeichneten Text anstelle von mit einer als ein
Resultat der Spracherkennung erhaltenen Reihe von Phonemen korrespondierenden
Identifizierern eine Antwort erzeugt werden.
-
Im
Elektronikhaustiergerät 1 werden
Erkennungsdaten 16A eines Worts oder eines Satzes, das bzw.
der als ein Resultat der Erkennung einer Spracheingabe katalogisiert
ist, in der gleichen Weise wie Erkennungsdaten 16A eines
Worts oder eines Satzes, das bzw. der vom Netzwerk 18 heruntergeladen wird,
und Erkennungsdaten 16A eines Worts oder eines Satzes,
das bzw. der im Voraus katalogisiert wird, verarbeitet, was ermöglicht,
dass eine Konversation mit dem Benutzer beibehalten werden kann.
-
1-4. Benutzerauthentisierung
-
16 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei
einer Operation zur Authentisierung des Benutzers detaillierter zeigt.
Bei diesem funktionellen Blockdiagramm weisen Authentisierungsdaten 16K einen
im Voraus aufgezeichneten Benutzernamen auf. Es sei darauf hingewiesen,
dass der Benutzername als ein Resultat der Spracherkennung aufgezeichnet
ist. Anstelle eines Erhaltens des Benutzernamens als ein Resultat einer
Spracherkennung kann der Benutzername über die Tastatur eines externen
Geräts
bei einer anfänglichen
Einstellungsverarbeitung, die typischerweise ausgeführt wird,
wenn das Elektronikhaustiergerät 1 gekauft
wird, eingegeben werden.
-
Das
Antwortsatz-Erzeugungsmodul 11E erwidert in Reaktion auf
einen „Gao" sagenden Schlüsselsatz
entsprechend der in 17 gezeigten Regel 1 der Musterdaten 16E beispielsweise
eine „Are
you realiy the master? (sind sie wirklich der Meister?)" sagende Antwort.
-
Entsprechend
Regel 2 setzt ein Sprachauthentisierungsmodul 11J einen
Booleschen Wert von ,authentisiert’ auf „TRUE" (in Regel 2 als ,set authenticated
(TRUE)(setze_authentisiert (WAHR))’, wenn die folgenden zwei
Bedingungen erfüllt
sind: ein Schlüsselsatz
,$USER ($Benutzer)’,
der als Benutzername definiert und im Voraus katalogisiert ist,
wird als eine Spracheingabe eingegeben, und eine den „Are you
really the master?" sagenden
Satz aufweisende Antwort wird vom Antwortsatzerzeugungsmodus 11E unmittelbar
vor der Spracheingabe ,$USER’ als
myLastUtter (meine letzte Äußerung)
erzeugt.
-
Es
sei darauf hingewiesen, dass die oben genannte Funktion set authenticated
(TRUE) den Booleschen Wert von ,authenticated (authentisiert)’ auf TRUE
setzt.
-
Um
ins Detail zu gehen, sucht das Spracherkennungsmodul 11J die
Authentisierungsdaten 16K für einen zu einem Erkennungsresultat
der Spracheingabe passenden Benutzernamen. Wenn bei der Suche ein
solcher Name gefunden wird, wird eine die Spracheingabe eingebende
Person als der Benutzer authentisiert, und bei einem authentisierten Benutzerzustand
wird ein Authentisiertzustand 16J gesetzt. Wenn andererseits
bei der Suche ein solcher Name nicht gefunden wird, wird eine die
Spracheingabe eingebende Person nicht als der Benutzer authentisiert,
und der Authentisiertzustand 16J wird auf einen nicht authentisierten
Benutzerzustand gesetzt.
-
Wenn
der Benutzer authentisiert ist, erzeugt das Antwortsatz-Erzeugungsmodul 11E entsprechend
Regel 2 eine „yes,
you are the master (ja, sie sind der Meister)" sagende Antwort.
-
Wie
oben beschrieben ist das Elektronikhaustiergerät 1, wie in 8 gezeigt,
zu einer Authentisierung eines Benutzers auf der Basis einer Spracheingabe
und Geben dem Eigentümer
eine von einer einem Benutzer anders als der Eigentümer unterschiedlichen
Antwort fähig.
Generell zeigt das elektronische Haustier typischerweise ein Verhalten speziell
für den
Eigentümeran,
so wie es ein tatsächliches
Haustier tut.
-
Wie
oben beschrieben wird ein Benutzer durch Vergleichen einer Spracheingabe
mit einem im Voraus katalogisierten Wort authentisiert.
-
Zusätzlich zum
Namen des authentisierten Benutzers kann das Spracherkennungsmodul 11J auch
das Antwortsatz-Erzeugungsmodul 11E auffordern, eine Antwort
auszugeben, die wie in 18 gezeigt eine Frage bezüglich des
Favoriten oder Hobbys (Steckenpferd) des Benutzers stellt, die bei
einer Konversation mit dem als der Eigentümer authentisierten Benutzer
aufzuzeichnen ist. Bei dem in der Figur gezeigten Beispiel sagt
die eine Frage stellende Antwort: „What is your favorite food,
master? (was ist ihre favorisierte Nahrung, Meister?)". Diese Frage fragt
nach der favorisierten Nahrung des Spracherzeugers, der als der
Eigentümer
authentisiert worden ist.
-
Als
Antwort auf diese Frage sagt der Benutzer wie in 18 gezeigt „Peanuts
(Erdnüsse)". Das Wort „Peanuts" wird einem Spracherkennungsprozess
im Spracherkennungsmodul 11J unterworfen und wie in 17 gezeigt
in der gleichen Weise wie Regel 2 verarbeitet, um durch die Spracheingabe
des Benutzers eine Antwort auf die Frage über einen Favoriten zu entscheiden.
Das Wort „Peanuts" wird dann in den
Authentisierungsdaten 16K katalogisiert.
-
Während einer
Konversation mit einer eine Spracheingabe eingebenden Person erzeugt
das Antwortsatz-Erzeugungsmodul 11E eine Frage bezüglich eines
Favoriten, eines Hobbys oder dgl., die wie eine in 19 gezeigte
im Voraus in den Authentisierungsdaten 16K katalogisiert
wird, wenn sie vom Zeitgeber 11B gefragt wird. Im Fall
des wie in 18 gezeigt in den Authentisierungsdaten 16K katalogisierten
Favoriten „food" beispielsweise erzeugt
das Antwortsatz-Erzeugungsmodul 11E wie
in 19 gezeigt die Frage „Are you really the master?
What is your favorite food? (sind sie wirklich der Meister? Was
ist ihre favorisierte Nahrung?)".
-
Das
Spracherkennungsmodul 11J stellt fest, ob eine vom Benutzer
in Reaktion auf die Frage über die
favorisierte Nahrung durch Ausführen
der gleichen Verarbeitung wie der früher anhand der 17 erläuterten
einen entsprechend Regel 2 gegebene Spracheingabe wahr (true) ist
oder nicht. Da der Benutzer in diesem Fall der Eigentümer ist,
wird die Spracheingabeantwort „Peanuts" erhalten. Aus einem
Spracherkennungsresultat dieser Antwort wird bei einem Booleschen
Wert „TRUE" ein Authentisierungszustand
gesetzt. Außerdem
erzeugt das Antwortsatz-Erzeugungsmodul 11E die
Antwort „You
are really my master! (sie sind wirklich mein Meister!)".
-
Auf
diese Weise ist das Elektronikhaustiergerät 1 zum Treffen einer
Entscheidung über
ein Spracherkennungsresultat auf Basis eines in der Vergangenheit
erhaltenen Spracherkennungsresultats fähig. Um ins Detail zu gehen
ist das Elektronikhaustiergerät 1 zur
zum Stellen einer Frage über
ein in der Vergangenheit erhaltenes Spracherkennungsresultat in
Reaktion auf die Eingabe eines Benutzers während einer Konversation mit
dem Benutzer und treffen einer Entscheidung bezüglich eines Spracherkennungsresultats
einer in Reaktion auf die Frage zum Authentisieren des Benutzers
gegebenen anderen Spracheingabe fähig.
-
Wenn
außerdem
der Benutzer in Reaktion auf eine von dem vom Zeitgeber 11B getriggerten Antwortsatz-Erzeugungsmodul 11E gestellte
Frage keine Spracheingabe gibt, nimmt auch, nachdem eine vorbestimmte
Zeitperiode vergangen ist, das Spracherkennungsmodul 11J an,
dass der Benutzer Operationen des Elektronikhaustiergeräts 1 typischerweise
beendet hat, wobei der Authentisierungszustand zurückgesetzt
wird.
-
1-5. Verarbeitung zum Klassifizieren von
Konversationen
-
20 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei
einer Verarbeitung zur Klassifikation von Konversationen detaillierter
zeigt. Bei diesem funktionellen Blockdiagramm identifiziert ein
Wort/Satz-Klassifikationsmodul 11M ein Spracherkennungsresultat
zur Klassifikation von als Spracheingabe eingegebenen Konversationen
in Übereinstimmung
mit einer vorbestimmten Klassifikationsregel 16M, wobei
ein Klassifikationscode an das Antwortsatz-Erzeugungsmodul 11E als ein
Klassifikationsresultat ausgegeben wird.
-
Beispielsweise
klassifiziert das Wort/Satz-Klassifikationsmodul 11M Spracheingaben
von generell „greetings
(Grüße)" wie beispielsweise „Good morning
(guten Morgen)" und „Good day
(guten Tag)" in
einer „Greeting
(Gruß)"-Kategorie. Spracheingaben
von Fragen wie beispielsweise „How
are you? (wie geht es ihnen?)" und „What do you
like? (was mögen
sie?)" werden in
einer „Inquiry (Frage)"-Kategorie klassifiziert. Spracheingaben
von Eindrücken
wie beispielsweise „I
am fine (mit geht es gut)" und „Bored
(gelangweilt)" werden
in einer „Impression
(Eindruck)"-Kategorie klassifiziert.
-
Bei
einer Operation zum Erzeugen eines Antwortsatzes entsprechend den
Musterdaten 16E bildet das Antwortsatz-Erzeugungsmodul 11E eine Antwort
entsprechend in den Musterdaten 16E aufgezeichneten Antwortsatzkategorien
und einem vom Wort/Satz-Klassifikationsmodul 11M klassifizierten Kategoriemuster.
Außerdem
wird auch entsprechend vergangenen Konversationsaufzeichnungen,
die in der Konversationshistorie 16F gespeichert sind,
eine Antwort erzeugt.
-
Die
Musterdaten 16E umfassen wie in 21 gezeigt
Regeln, denen bei einer Klassifikation von Antwortsätzen zu
folgen ist. Die Regeln weisen die gleiche Vergleichssyntax wie die
in 8 gezeigten Regeln auf. Es sei darauf hingewiesen,
dass die in 21 gezeigten Klassifikationsregeln
zu einer Klassifikation gesetzt sind, die vom Wort/Satz-Klassifikationsmodul 11M auszuführen ist.
-
Gemäß der in 21 gezeigten
Regel 1 werden die „I
love you too" und „Wow, i
am male though" sagenden
Sätze in
einer „State
(Zustand)"-Kategorie klassifiziert,
wird der „A
strange Person" sagende Satz
in der „Impression"-Kategorie klassifiziert
und ein „Who
are you?" sagender
Satz in der „Query
(Frage)"-Kategorie
klassifiziert. Gemäß Regel
2 wird ein „Shut
up" sagender Satz
in der „Impression"-Kategorie, ein „What?" sagender Satz in der „Query" Kategorie klassifiziert,
ein „Howdy" sagender Satz in
der „Greeting
(Gruß)"-Kategorie klassifiziert
und ein „I
am surprised" sagender
Satz in der „Impression"-Kategorie klassifiziert,
ein „Hi" sagender Satz in
der „Greeting"-Kategorie klassifiziert
und ein „Did
you call me?" sagender
Satz in der „Query"-Kategorie klassifiziert.
-
Außerdem beschreiben
die Musterdaten 16E auch eine Art von Einschränkung, die
verhindert, dass eine Konversation aufeinanderfolgende spezifische
Kategorien aufweist. Um Konkret zu sein wird die Einschränkung so
gesetzt, dass in Reaktion auf eine von einem Benutzer gestellte
Frage keine Frage erwidert werden soll. Außerdem soll, nachdem zwischen
dem Elektronikhaustiergerät 1 und
dem Benutzer zwei aufeinanderfolgende „greetings" ausgetauscht sind, das Elektronikhaustiergerät 1 nicht
wieder ein „greeting" ausgeben, wie es
bei einer am Boden der 21 gezeigten Einschränkung stipuliert ist.
-
Eine
in 22 oder 23 gezeigte
Konversationshistorie 16F wird vom Antwortsatz-Erzeugungsmodul 11E zum
Aufzeichnen einer Konversation zwischen dem elektronischem Haustier
und dem Benutzer hergestellt. Wie in den Figuren gezeigt weist eine
Historie eine Aktionspartei bzw. einen Aktor (Partei, die eine Aktion
macht), der eine Sprache erzeugt, die Kategorie der Sprache und
die Inhalte der Sprache auf. Die in 22 gezeigte
Historie beschreibt den Benutzer als eine Erstaktionspartei (Partei,
die eine erste Aktion macht), die „Greeting"-Kategorie als einen Typ der von der
Erstaktionspartei erzeugten Sprache und einen „Good day" sagenden Satz der „Greeting"-Kategorie als Inhalte der von der die
Erstaktionspartei erzeugten Sprache. Auf den Benutzer folgt das
elektronische Haustier als eine Zweitaktionspartei (Partei, die
eine zweite Aktion macht). Der Typ der von der Zweitaktionspartei
erzeugten Sprache ist auch die „Greeting"-Kategorie, und die Inhalte der von
der die Erstaktionspartei erzeugten Sprache sind ein „Hi" sagender Satz. Auf das
elektronische Haustier folgt der Benutzer als eine Drittaktionspartei
(Partei, die eine dritte Aktion macht). Der Typ der von der Drittaktionspartei
erzeugten Sprache ist die „Query"-Kategorie, und die Inhalte
der von der Drittaktionspartei erzeugten Sprache sind ein „How are
you doing (wie geht es ihnen)" sagender
Satz. Auf den Benutzer folgt das elektronische Haustier als eine
Viertaktionspartei (Partei, die eine vierte Aktion macht). Der Typ
der von der Viertaktionspartei erzeugten Sprache ist die „State"-Kategorie, und die
Inhalte der von der die Viertaktionspartei erzeugten Sprache sind
ein „I
am fine" sagender Satz.
-
Wenn
das Antwortsatz-Erzeugungsmodul 11E eine Antwort entsprechend
den Musterdaten E und auf der Basis der Emotionsdaten 16C erzeugt, wird
eine Konversationshistorie 16F als eine Referenz benutzt,
und in den Musterdaten 16E vorgeschriebene Einschränkungen
werden beibehalten. Beispielsweise soll, nachdem zwischen dem Elektronikhaustiergerät 1 und
dem Benutzer zwei aufeinanderfolgende „greetings" ausgetauscht sind, das Antwortsatz-Erzeugungsmodul 11E,
gerade nachdem die zwei in der in 21 gezeigten
aufeinanderfolgenden Einschränkung
stipuliert sind, nicht wieder durch Anwenden von Regel 2 ein „greeting" ausgeben, selbst
wenn der „Joy
(Freude)"-Emotionsparameter
unter den Emotionsvariablen einen größten Wert aufweist. Außerdem soll
in Reaktion auf eine vom Benutzer gestellte „inquiry (Frage)" keine „inquiry" erwidert werden.
-
Durch
Beibehalten der Einschränkung
bezüglich
der oben beschriebenen „greetings" ist es, selbst wenn
eine erste Regel stipuliert, dass in Reaktion auf ein „greeting" ein „greeting" erwidert wird, und
eine zweite Regel stipuliert, dass in Reaktion auf eine Anzahl von „inquiries
(Fragen)" ein „greeting" erwidert werden
soll, möglich,
aufgrund einer wiederholten Anwendung der oben beschriebenen ersten und
zweiten Regel eine unnatürliche
Konversation zu vermeiden, die zwischen dem Benutzer und dem elektronischen
Haustier eine Anzahl von Malen wiederholt ausgetauschte „greetings" aufweist.
-
24 ist
ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei
der Ausführung
einer Emotionssteuerung detaillierter zeigt. Bei diesem funktionellen
Blockdiagramm wird vom früher
beschriebenen Zeitgeber 11B ein Emotionsänderungsmodul 11D aktiviert,
um die Zeichendaten 16D durch Benutzung eines Worts zu
suchen, das in einem Spracherkennungsresultat als ein Schlüsselwort
für mit
dem Wort korrespondierende Varianzen enthalten ist, und es aktualisiert
die Emotionsdaten 16C durch Benutzung der bei der Suche
gefundenen Varianzen.
-
Bei
dieser Verarbeitung zeichnet das Emotionsänderungsmodul 11D auf: Änderungen
von Variablen, welche die Emotionsdaten 16C zusammensetzen,
Textdaten, die als ein Spracherkennungsresultat der Eingaben des
Benutzers erhalten werden, und Schlüsselwörter, deren jedes in den Textdaten enthalten
ist und zu einer Suche der Zeichendaten 16D für die Änderungen
als eine Emotionsänderungshistorie 16N wie
die in 25 gezeigte eine benutzt werden.
Außerdem
wird mit einem vorbestimmten Timing (Zeitsteuerung), typischerweise
nachdem eine Antwort ausgegeben worden ist, die Emotionsänderungshistorie 16N nach
einem bei Benutzereingaben in Verbindung mit einem Schlüsselwort
häufig benutzten
Wort gesucht. Wenn ein solches Wort gefunden wird, wird wie in 26 gezeigt
das Wort in den Zeichendaten 16D als ein neues Schlüsselwort katalogisiert.
Die in 26 gezeigten Zeichendaten 16D werden
durch Katalogisierung eines neuen Schlüsselworts in den in 6 gezeigten
Zeichendaten 16D erhalten. Durch Katalogisierung dieses Worts
in den Zeichendaten 16D als ein neues Schlüsselwort
können
die Variablen der Emotionsdaten 16C aktualisiert werden,
selbst wenn dieses Wort in der gleichen Weise wie die anderen Schlüsselwörter alleine
eingegeben wird.
-
Es
sei beispielsweise angenommen, dass der in 25 gezeigte
Satz „curry
bread (Currybrot)" bei
Benutzereingaben in Verbindung mit dem Schlüsselwort „dirty (schmutzig)" mit Änderungen
der Variablen der Emotionsdaten 16A eine Anzahl von Malen benutzt
wird, die einen vorbestimmten Wert überschreitet. In diesem Fall
katalogisiert das Emotionsänderungsmodul 11D den
Satz „curry
bread" in den Zeichendaten 16D als
ein in 26 gezeigtes neues Schlüsselwort.
Wie in 26 gezeigt werden die Variablen
der Emotionsdaten 16C durch Benutzung der gleichen Änderungen
wie das Schlüsselwort „dirty" aktualisiert, selbst
wenn nur dieser Satz „curry
bread" eingegeben
wird.
-
Als
ein Resultat stellt das Elektronikhaustiergerät 1 eine Anzahl unterschiedlicher
Parameter und Variablen so ein, dass durch die sogenannte assoziative
Information eine spezifische Emotion resultiert, und es folglich
zur Erzeugung einer Antwort auf Basis der resultierenden Emotion
fähig ist.
-
Wenn
außerdem
das Emotionsänderungsmodul 11D wie
oben beschrieben die Emotionsänderungshistorie 16N mit
dem vorbestimmten Timing absucht, wird auch die Häufigkeit
einer Benutzung jedes Schlüsselworts
zu einer Änderung
der Variablen der Emotionsdaten 16C ebenso herausgefunden. Wenn
gefunden wird, dass wie in 27 gezeigt
die Häufigkeit
der Benutzung eines Schlüsselworts
größer als
ein vorbestimmter Wert ist, reduziert das Emotionsänderungsmodul 11D die
absoluten Werte der Variationen in den Zeichendaten 16D für das Schlüsselwort
von den in 6 gezeigten originalen Werten.
Bei der in 27 gezeigten Emotionsänderungshistorie 16N wird
beispielsweise das Schlüsselwort „dirty" häufig benutzt.
Infolgedessen werden die Variationen in sechs Variablen, das heißt den Emotionsparametern „anger", „sadness", „joy", „fear", „surprise" und „hatred" in den Zeichendaten 16D für das Schlüsselwort „dirty" um –1, –1, +2,
+1, –1
bzw. –4 geändert.
-
Auf
diese Weise ist das Elektronikhaustiergerät 1 zur Bildung des
sogenannten Gewöhnungsgefühls (sense
of accustoming) fähig.
-
Wenn
die Häufigkeit
der Benutzung eines Schlüsselworts
der Zeichendaten 16D in Spracheingaben niedriger wird,
eliminiert andererseits das Emotionsänderungsmodul 11D das
bei Spracheingaben benutzte Schlüsselwort
aus den Zeichendaten 16D. Wie oben beschrieben reduziert,
wenn gefunden wird, dass die Häufigkeit
der Benutzung eines Schlüsselworts
größer als
ein vorbestimmter Wert ist, das Emotionsänderungsmodul 11D die
absoluten Werte der Variationen der Zeichendaten 16D für das Schlüsselwort.
Wenn jedoch die Häufigkeit
einer Benutzung des Schlüsselworts
wieder abnimmt, werden die Variationen in ihren originalen Werten
graduell wiederhergestellt.
-
Auf
diese Weise ist das Elektronikhaustiergerät 1 zu einer Erzeugung
des sogenannten Zustands des etwas Vergessens fähig.
-
1-7. Operation der ersten Ausführungsform
-
Bei
der oben beschriebenen Konfiguration führt das bei dem in den 1 bis 3 gezeigten Elektronikhaustiergerät 1 angewendete
Spracherkennungsmodul 11A bei einer von einem Benutzer über das
Mikrofon 7 eingegebenen Spracheingabe unter einen Spracherkennungsprozess
Benutzung des HMM-Verfahrens aus. Wie oben beschrieben ist das Spracherkennungsmodul 11A ein
funktioneller Block, dessen Verarbeitung von der zentralen Verarbeitungseinheit 11 ausgeführt wird.
Bei der Spracherkennungsverarbeitung wird eine Sprache zuerst in eine
Reihe von Phonemen umgesetzt, die dann durch sich Beziehen auf die
Erkennungsdaten 16A in Textdaten transformiert werden.
-
Beim
Elektronikhaustiergerät 1 werden
Textdaten, die als ein Resultat einer auf diese Weise ausgeführten Spracherkennung
erhalten werden, dem Physischzustands-Änderungsmodul 11C zugeführt, der
die fünf
Elemente des gegenwärtigen
physikalischen Zustands, das heißt die Parameter „fatigue", „hunger", „thirstiness", „sickness" und „sleepiness" der in 4 gezeigten
Physischzustandsdaten 16B entsprechend einem in einer Spracheingabe
enthaltenen Wort ändert.
Wenn wie durch ein Resultat einer Spracherkennung angezeigt beispielsweise
Nahrung (food) gegeben worden ist, wird der Parameter „hunger" erniedrigt, und
wenn wie durch ein Resultat einer Spracherkennung angezeigt beispielsweise „drink" empfangen wird,
wird der Parameter „thirstiness" erniedrigt.
-
Auf
diese Weise ist das Elektronikhaustiergerät 1 zu einer Änderung
des physischen Zustands durch eine vom Benutzer eingegebene Spracheingabe
fähig.
Außerdem
können
die fünf
Parameter auch durch eine vom Physischzustands-Änderungsmodul 11C auf
Basis des Zeitgebers 11B ausgeführte Verarbeitung graduell
geändert
werden. Infolgedessen wird beim Elektronikhaustiergerät 1 der
in Form dieser Parameter ausgedrückte
physische Zustand durch eine vom Benutzer eingegebene Spracheingabe
modifiziert und ändert
sich mit dem Ablauf der Zeit. Als ein Resultat wird durch Erzeugung
einer Antwort auf Basis der fünf
Parameter auf eine Spracheingabe der physische Zustand des elektronischen Haustiers
in Reaktion auf die Spracheingabe reflektiert.
-
Außerdem wird
das Spracherkennungsresultat auch dem Informationsänderungsmodul 11D zugeführt, der
die in 5 gezeigten Emotionsdaten 16C entsprechend
einem in einem Spracherkennungsresultat enthaltene Wort ändert. Änderungen
in den Emotionsdaten 16C werden in Zeichendaten 16D beschrieben.
Die sechs Variablen, welche die Emotion ausdrücken, werden entsprechend Schlüsselwörtern und
den Zeichendaten 16D aktualisiert. Um ins Detail zu gehen
sind Schlüsselwörter die Wörter zur Änderung
von Emotionen des elektronischen Haustiers, während die Zeichendaten 16D wie in 6 gezeigt
für unterschiedliche
Schlüsselwörter das
heißt
in Spracheingaben enthaltene Wörter
Variationen in die Emotion ausdrückenden
6 Variablen, das heißt
den Parameter „anger", „sadness", „joy", „fear", „surprise" und „hatred" aufweisen. Das heißt die Emotion
wird entsprechend einer vom Benutzer eingegebenen Spracheingabe
geändert.
-
Auf
diese Weise ändert
das Elektronikhaustiergerät 1 die
Emotion des elektronischen Haustiers entsprechend einer vom Benutzer
gegebenen Spracheingabe. Da außerdem
das Elektronikhaustiergerät 1 eine
Antwort auf eine Spracheingabe entsprechend einem Erkennungsresultat
der Spracheingabe auf der Basis der Physischzustandsdaten 16B und der
Emotionsdaten 16C erzeugt, reflektiert die Antwort des
elektronischen Haustiers den physischen Zustand und die Emotion
des elektronischen Haustiers.
-
Um
ins Detail zu gehen wird bei dem Elektronikhaustiergerät 1 ein
Spracherkennungsresultat dem Antwortsatz-Erzeugungsmodul 11E zugeführt, der
für das
Spracherkennungsresultat entsprechend den in den Musterdaten 16E wie
in 8 gezeigt beschriebenen Regeln einen Antwortsatz
erzeugt. Um ins Detail zu gehen beschreiben bei dem Elektronischmustergerät 1 die
Musterdaten 16E einen Antwortsatz für jeden in der Spracheingabe
enthaltenen Schlüsselsatz.
Das Antwortsatz-Erzeugungsmodul 11E sucht die Musterdaten 16E für einen
mit dem als ein Spracherkennungsresultat erhaltenen Schlüsselsatz
assoziierten Antwortsatz, wobei der Antwortsatz als ein Suchresultat
ausgegeben wird.
-
Bei
dem Elektronikhaustiergerät 1 wird
eine mit dem Antwortsatz korrespondierende tatsächliche Antwort vom Sprachsynthesemodul 11F erzeugt
und an den Lautsprecher 6 ausgegeben. Dateien, deren jede
die Sprache für
jede Antwort enthält,
sind in 9 gezeigt. Andererseits wird
ein mit der tatsächlichen
Antwort assoziiertes Bild vom Bildsynthesemodul 11G erzeugt,
um auf der Flüssigkristallanzeigeplatte 3 angezeigt
zu werden. Dateien, deren jede das Bild für jede Antwort enthält, sind
in 10 gezeigt. Auf diese Weise wird auf eine vom
Benutzer eingegebene Spracheingabe dem Benutzer eine tatsächliche
Antwort als eine Sprache und ein Bild präsentiert.
-
Da
im Elektronikhaustiergerät 1 eine
Antwort aus den Regeln zur Erzeugung unterschiedlicher Antworten
entsprechend den Physischzustandsdaten 16B und den Emotionsdaten 16C aufweisenden Musterdaten 16E erzeugt
wird, reflektiert die Antwort dem Benutzer den physischen Zustand
und die Emotion des elektronischen Haustiers.
-
Bei
der oben beschriebenen Verarbeitungssequenz ist das Elektronikhaustiergerät 1 zu
einem Schalten der Operation in einen Katalogisierungsoperationsmodus
in Übereinstimmung
mit einem vom Benutzer ausgeführten
vorbestimmten Operator fähig.
In diesem Modus werden ein Wort und ein Satz, die bei einem Spracherkennungsprozess
erkannt werden können,
in den Erkennungsdaten 16A katalogisiert.
-
Um
ins Detail zu gehen führt
das Elektronikhaustiergerät 1,
wenn eine ein zu katalogisierendes Wort oder dgl. darstellende Sprache
vom Benutzer in diesem Katalogisierungsmodus als eine Eingabe empfangen
wird, die gleiche Verarbeitung wie die bei dem in den 13 bis 15 gezeigten
normalen Operationsmodus aus, um die Spracheingabe entsprechend
der in 14 gezeigten Syntax in eine Reihe
von Phonemen umzusetzen. Eine durch diese Reihe von Phonemen dargestellte
Sprache wird dann vom Sprachsynthesemodul 11F erzeugt,
um vom Benutzer bestätigt
zu werden. Nachdem der Benutzer bestätigt, dass das Spracherkennungsresultat korrekt
ist, gibt der Benutzer eine andere Spracheingabe ein, die das Attribut
des bestätigten
Worts oder dgl. darstellt.
-
Das
Elektronikhaustiergerät 1 setzt
auch die das Attribut darstellende Spracheingabe in eine Reihe von
Phonemen um. Wenn eine von dieser Reihe von Phonemen erzeugte Sprache
auch vom Benutzer bestätigt
wird, wird die das früher
eingegebene Wort oder dgl. darstellende Reihe von Phonemen in den
Erkennungsdaten katalogisiert, wobei die Daten des Attributs in
der Wissensbank 16G, die dem in den Erkennungsdaten 16A katalogisierten
Wort oder dgl. zugeordnet ist, katalogisiert werden.
-
Wie
oben beschrieben ist das Elektronikhaustiergerät 1 zu einer Katalogisierung
von als eine Spracheingabe eingegebenen Wörtern und dgl. ohne Ausführung schwieriger
Operationen an einer Eingabeeinheit wie beispielsweise einer Tastatur
fähig, was
ermöglicht,
dass der Grad von Freiheit zum Benutzen des Geräts 1 entsprechend
angehoben wird. Außerdem
ist es möglich,
das Wortvokabular größer zu machen,
um das elektronische Haustier zu erziehen, wie wenn der Benutzer
ein wirkliches Haustier tatsächlich
trainieren würde.
Als ein Resultat kann das elektronische Haustier zutraulich gemacht
und entsprechend leicht zu einem sich Kennenlernen gebracht werden.
-
Wie
oben beschrieben werden bei einem normalen Spracherkennungsprozess
die Erkennungsdaten 16A nach Textdaten abgesucht, die mit einer
Reihe von Phonemen korrespondieren, die als ein Resultat einer Sprachumsetzung
erhalten werden, und werden die Textdaten als ein bei einer Erzeugung
eines Antwortsatzes benutzten Spracherkennungsresultat ausgegeben.
Die bei der Suche gefundenen Textdaten können ein Wort oder dgl. sein, das
im oben beschriebenen Katalogisierungsmodus katalogisiert wird.
Solche durch eine Reihe von Phonemen beschriebene Textdaten können auch
bei einer Erzeugung eines Antwortsatzes anstelle von bei einem normalen
Spracherkennungsprozess üblicherweise
gefundenen Textdaten benutzt werden. Die Erzeugung eines Antwortsatzes
basiert auch auf einem in der Wissensbank 16G aufgezeichneten
Attribut. Infolgedessen ist, wenn die Physischzustandsdaten 16B beispielsweise
anzeigen, dass das elektronische Haustier hungrig (hungry) ist und
die vom Benutzer empfangene Eingabe ein Nahrungsattribut (food attribute)
aufweist, das Elektronikhaustiergerät 1 zur Erzeugung
einer Antwort fähig,
die typischerweise „I
want to eat (ich will essen)" oder „I want some
food (ich möchte
Nahrung)" besagt.
-
Wie
oben beschrieben werden ein Wort und das Attribut des Worts als
separate Spracheingaben empfangen und nach Bestätigung der Resultate einer
Spracherkennung der Spracheingaben durch den Benutzer werden das
Wort und das Attribut katalogisiert. Auf diese Weise ist es, da
ein Wort und das Attribut des Worts vom Benutzer separat als Spracheingaben
eingegeben werden und ihre Spracherkennungsresultate vom Benutzer
bestätigt
werden, möglich,
das Wort und das Attribut leicht und mit einem hohen Grad von Zuverlässigkeit
zu katalogisieren.
-
Wenn
andererseits der Benutzer eine „Gao" sagende Spracheingabe eingibt, führt das
Elektronikhaustiergerät 1 die
durch das in 16 gezeigte funktionelle Blockdiagramm
dargestellte Verarbeitung unter Benutzung der eingegebenen Sprache
als ein Schlüsselwort
zur Erzeugung eines auf der in 17 gezeigten
Regel 1 basierenden Sprache aus, um den Benutzer aufzufordern, im
Voraus katalogisierte Information wie beispielsweise den Namen des Benutzers
einzugeben. Eine vom Benutzer in Reaktion auf diese Aufforderung
eingegebene Spracheingabe wird einem Spracherkennungsprozess unterworfen.
Das im Elektronikhaustiergerät 1 angewendete
Spracherkennungsmodul 11J vergleicht ein Resultat des Spracherkennungsprozesses
mit den Erkennungsdaten 16K. Wenn das Ergebnis des Vergleichs
den Benutzer authentisiert, wird der Authentisierungszustand 16J gesetzt,
um anzuzeigen, dass die Person, welche die Sprache eingibt, der
Eigentümer
ist.
-
Das
Antwortsatz-Erzeugungsmodul 11A des Elektronikhaustiergeräts 1 erzeugt
auf Basis einer Regel der Musterdaten 16E oder der Regel
1 nach 8 einen Antwortsatz, der eine Person anders als der
eine Spracheingabe eingebende Eigentümer vom Eigentümer unterscheidet.
Um spezifischer zu sein bezieht sich das Antwortsatz-Erzeugungsmodul 11E auf
den Authentisierungszustand 16J und erzeugt abhängig von
dem Wert des Authentisierungszustands 16J unterschiedliche
Antworten.
-
Infolgedessen
ist das Elektronikhaustiergerät 1 zu
einer Antwort durch Anzeigen eines speziellen Verhaltens bezüglich des
Benutzers, wie es ein wirkliches Haustier tut, was dem elektronischem Haustier
ermöglicht,
entsprechend leicht zu einem sich Kennenlernen gebracht zu werden.
-
Außerdem aktiviert
bei dem Elektronikhaustiergerät 1 der
Zeitgeber 11B das Sprachauthentisierungsmodul 11J,
um eine Verarbeitung einer Benutzerauthentisierung in vorbestimmten
Intervallen auszuführen.
Bei der Benutzerauthentisierungsverarbeitung, die in vorbestimmten
Intervallen ausgeführt wird,
trifft das Sprachauthentisierungsmodul 11J eine Entscheidung
darüber,
ob der Benutzer der Eigentümer
ist oder nicht. Wie durch eine typische Konversation der 19 gezeigt
basiert die Entscheidung auf einer vom Benutzer in Reaktion auf
eine Frage nach dem Favoriten, dem Hobby oder dgl. des Benutzers eingegebenen
Spracheingabe, die in der Wissensbank 16G wie durch eine
typische Konversation der 18 gezeigt
aufgezeichnet wurde. Auf diese Weise kann eine Verarbeitung zur
Authentisierung des Benutzers ausgeführt werden.
-
Infolgedessen
ist das Elektronikhaustiergerät 1 zu
einer Erzeugung einer Antwort fähig,
die, wenn notwendig, im Lauf der Konversation durch Verifikation,
dass der Konversationspartner der Benutzer ist, dem Eigentümer ein
spezielles Verhalten zeigt.
-
Im
Lauf einer Konversation klassifiziert das im Elektronikhaustiergerät 1 angewendete Wort/Satz-Klassifikationsmodul 11M,
wenn notwendig, bei der in 20 gezeigten
Verarbeitung entsprechend der Wort/Satz-Klassifikationsregel 16M durch
sich Beziehen auf eine Konversationshistorie wie die eine in 22 oder 23 gezeigte
eine Spracheingabe in eine „Greeting"- oder „Query"-Kategorie oder dgl.
Außerdem
wird eine Antwort auf eine vom Benutzer gesagte Spracheingabe durch Folgen
einer in den in 21 gezeigten Musterdaten 16E beschriebenen
Kategoriebeschränkung
erzeugt. Wenn eine vom Benutzer gesagte Spracheingabe beispielsweise
in die „Query"-Kategorie klassifiziert wird,
erlaubt die Klassifikationsbeschränkung nicht, dass eine Antwort
erzeugt wird, selbst wenn ein mit der Spracheingabe korrespondierender
Schlüsselsatz
in einer Regel stipuliert, dass eine Frage als eine Antwort auf
die Spracheingabe erzeugt wird.
-
Infolgedessen
ist das Elektronikhaustiergerät 1 zur
Vermeidung einer unnatürlichen
Konversation fähig,
bei der eine Frage in Reaktion auf eine vom Benutzer gestellte Frage
erwidert wird.
-
Außerdem zeichnet
das Elektronikhaustiergerät 1 Kategorien
aufeinanderfolgender Wörter
oder Sätze
in einer Kontinuierlichkonversationshistorie 16G auf. Eine
Antwort auf eine vom Benutzer gesagte Spracheingabe wird durch sich
Beziehen auf in der Kontinuierlichkonversationshistorie 16F aufgezeichnete
Kategorien und durch Berücksichtigung
einer in den in 21 gezeigten Musterdaten 16E beschriebenen
Kategoriebeschränkung
erzeugt. Als ein Resultat erzeugt, wenn der Benutzer ein auf ein
vom Elektronikhaustiergerät 1 gesagtes „greeting" folgendes greeting
eingibt, das Elektronikhaustiergerät 1 in Reaktion auf das „greeting" des Benutzers entsprechend
der Kategoriebeschränkung
kein anderes „greeting", selbst wenn eine „greeting-to-greeting (Gruß zu Gruß)"-Regel anregt, dass
in Reaktion auf ein „greeting" ein „greeting" erzeugt werden soll.
-
Infolgedessen
ist das Elektronikhaustiergerät 1 zu
einer Vermeidung einer unnatürlichen
Konversation fähig,
bei der ständig „greetings" eine Anzahl von
Malen ausgetauscht werden, was dem elektronischen Haustier ermöglicht,
zu einem zutraulichen Ding gemacht zu werden.
-
Außerdem führt das
Elektronikhaustiergerät 1 auch
eine in dem funktionellen Blockdiagramm der 24 gezeigte
Verarbeitung aus, um Änderungen in
Variablen, welche die Emotionsdaten 16C bilden, Textdaten,
die als ein Resultat einer Spracherkennung der Eingabe des Benutzers
erhalten werden, und Schlüsselwörter, deren
jedes in den Textdaten in der Emotionsänderungshistorie 16N wie
das eine in 25 gezeigte enthalten ist, aufzuzeichnen.
Beim Elektronikhaustiergerät 1 wird
in der Emotionsänderungshistorie 16N nach
einem Wort gesucht, das in Benutzereingaben in Verbindung mit einem
Schlüsselwort
in vorbestimmten Intervallen häufig
benutzt wird. Wenn ein solches Wort gefunden wird, wird das Wort
in den Zeichendaten 16D wie in 26 gezeigt als
ein zur Änderung
der Emotionsdaten 16C benutztes neues Schlüsselwort
katalogisiert.
-
Es
sei beispielsweise angenommen, dass beim Elektronikhaustiergerät 1 in
wie in 25 gezeigten Benutzereingaben
der Satz „curry
bread" in Verbindung
mit dem die Variablen der Emotionsdaten 16C ändernden
Schlüsselwort „dirty" eine Anzahl von Malen
benutzt wird, die einen vorbestimmten Wert überschreitet. In diesem Fall
katalogisiert das Emotionsänderungsmodul 11D den
Satz „curry
bread" in den Zeichendaten 16D als
ein wie in 26 gezeigtes neues Schlüsselwort.
Wie in 26 gezeigt werden die Variablen
der Emotionsdaten 16C aktualisiert und wird eine Antwort
erzeugt, selbst wenn dieser Satz „curry bread" durch Benutzung
der gleichen Änderungen
wie beim Schlüsselwort „dirty" alleine eingegeben
wird.
-
Infolgedessen
ist das Elektronikhaustiergerät 1 fähig zu einer Änderung
der Emotion des elektronischen Haustiers durch unterschiedliche
Variationen wie ein Tier in Abhängigkeit
von Zuständen
reagiert und wie ein menschliches Wesen seine Emotion als ein Resultat
eines Assoziationsprozesses ändert. Außerdem ist
das Elektronikhaustiergerät 1 zu
einem Reflektieren der Variationen in einer Emotion in einer dadurch
erzeugten Antwort fähig.
-
Wenn
außerdem
das beim Elektronikhaustiergerät 1 angewendete
Emotionsänderungsmodul 11D die
Emotionsänderungshistorie 16N absucht, wird
auch die Häufigkeit
einer Benutzung jedes Schlüsselworts
zur Änderung
der Variablen der Emotionsdaten 16C ebenso ausgeprüft. Wenn
gefunden wird, dass die Häufigkeit
einer Benutzung eines Schlüsselworts
wie in 27 gezeigt größer als
ein vorbestimmter Wert ist, reduziert das Emotionsänderungsmodul 11D die
absoluten Werte der Variationen in den Zeichendaten 16D für das Schlüsselwort.
Auf diese Weise ist das Elektronikhaustiergerät 1 zu einer Bildung
des sogenannten Gewöhnungsgefühls fähig, und
der Gewöhnungszustand
wird zur Antwort reflektiert.
-
Bei
dem auf diese Weise benutzten Elektronikhaustiergerät 1 kann
der Benutzer die Operatoren auf der in 2 gezeigten
Frontplatte betätigen,
um das Gerät 1 durch
die in 1 gezeigte Netzwerkkommunikationseinheit 17 mit
dem Netzwerk 18 zu verbinden. Mit der mit dem Netzwerk 18 verbundenen
Netzwerkkommunikationseinheit 17 ist das Elektronikhaustiergerät 1 zu
einem Herunterladen von Information wie beispielsweise Erkennungsdaten 16A, Wissensbankdaten 16G und
Musterdaten 16E vom Netzwerk 18 fähig. Wie
früher
beschrieben ist die heruntergeladene Information effektive Regeln,
die für die
Spracherkennungsverarbeitung und die Antworterzeugungsverarbeitung
notwendig sind. Die heruntergeladene Information wird auch zur Aktualisierung der
Erkennungsdaten 16A und der Wissensbank 16G benutzt,
was dem Benutzer ermöglicht,
sich Konversationen mit dem elektronischen Haustier auf einem höheren Niveau
zu erfreuen. Außerdem
ist es auch möglich,
Sprachdaten 16H und Bilddaten 16I herunterzuladen,
die als tatsächliche
Antwortausgaben benutzt werden können.
Auf diese Weise können Ausdrücke von
Antworten auch ebenso verbessert werden.
-
Durch
das gleiche Token bzw. Token-Verfahren ist es auch möglich, die
Physischzustandsdaten 16B, die Emotionsdaten 16C und
die Konversationshistorie 16F mittels des Netzwerks 18 zu
einem gewünschten
Gerät zu übertragen.
Auf diese Weise ist das Empfängergerät zu einer
Wiedergabe des elektronischen Haustiers des Elektronikhaustiergerät 1 fähig, was
dem elektronischen Haustier ermöglicht, aus
unterschiedlichen Umgebungen herausgenommen zu werden.
-
Im
Gegensatz dazu ist es auch möglich,
Physischzustandsdaten 16B, Emotionsdaten 16C und Konversationshistorie 16F vom
Netzwerk 18 zu empfangen, was dem Elektronikhaustiergerät 1 ermöglicht,
eine Antwort zu erzeugen, wie wenn ein anderes elektronisches Haustier
das Elektronikhaustiergerät 1 besuchen
würde oder wie
wenn ein elektronisches Haustier, das in ein anderes Elektronikhaustiergerät gehoben
ist, zu diesem Elektronikhaustiergerät 1 herausgebracht
worden wäre.
-
1-8. Effekte der ersten Ausführungsform
-
Gemäß der oben
beschriebenen Konfiguration können
die als Regeln von Spracherkennung benutzten Erkennungsdaten, die
als Regeln von Antworterzeugung benutzten Musterdaten, die als Regel von
Emotionserzeugung benutzten Emotionsdaten, die Physischzustandsdaten,
die Sprachdaten und die Bilddaten durch das Netzwerk aktualisiert
werden, was es möglich
macht, fast die gleichen Antworten wie die von anderen Gerät erzeugten
Antworten des mit dem Netzwerk verbundenen gleichen Typs zu erzeugen,
wie wenn ein elektronisches Haustier aus dem anderen Gerät in dieses
Elektronikhaustiergerät gebracht
worden wäre.
Außerdem
macht es das Elektronikhaustiergerät dem elektronischen Haustier leicht,
sich als ein in tatsächlichem
Training befindliches wirkliches Haustier kennen zu lernen. Überdies kann,
wenn notwendig, die Menge an Wissen auch durch typische Erhöhung der
Anzahl von Wörtern,
die vom elektronischen Haustier verstanden werden können, erhöht werden.
-
Außerdem können die
Erkennungsdaten durch periodische Verbindung mit dem Netzwerk aktualisiert
werden. Infolgedessen kann die Menge an Wissen erhöht werden,
ohne dass der Benutzer die Mühe
auf sich nehmen muss, es zu tun.
-
Im
Gegensatz dazu können
die Physischzustandsdaten, die Emotionsdaten und eine Konversationshistorie
mittels des Netzwerks zu einem anderen Gerät des gleichen Typs übertragen
werden. Auf diese Weise ist das andere Gerät zu einer Erzeugung fast der
gleichen Antworten wie die Antworten auf Spracheingaben, die in
dieses Informationsverarbeitungsgerät wie beispielsweise das Elektronikhaustiergerät eingegeben
werden, fähig,
was dem elektronischen Haustier ermöglicht, behandelt zu werden, wie
wenn das elektronische Haustier in das andere Gerät herausgenommen
wäre. Als
ein Resultat ist das Elektronikhaustiergerät zum dazu Bringen fähig, dass
sich das elektronische Haustier leicht als ein in tatsächlichem
Training befindliches wirkliches Haustier kennen lernt.
-
Außerdem können Daten
durch Benutzung einer IC-Karte, die ein austauschbares Aufzeichnungsmedium
ist, aktualisiert und übertragen
werden. Um spezifischer zu sein wird eine neue IC-Karte zur Aktualisierung
von Daten befestigt, und eine IC-Karte wird zu einem anderen Gerät gebracht,
um Daten zum anderen Gerät
zu übertragen.
Infolgedessen können
Daten auch mit unterschiedlichen Arten von Einrichtung ohne Kommunikationsfunktion
ausgetauscht werden.
-
Überdies
werden in einem Katalogisierungsoperationsmodus ein Spracherkennungsresultat
eines Worts und die Kategorie des Worts katalogisiert, was ermöglicht,
die Größe des Vokabulars
von Wörtern,
die vom elektronischen Haustier verstanden werden können, leicht
durch Spracheingaben zu erhöhen.
Als ein Resultat kann das elektronische Haustier in der gleichen
Weise behandelt werden, wie wenn ein wirkliches Haustier in tatsächlichem
Training erhoben wird, und ganz leicht dazu gebracht werden, sich
kennen zu lernen.
-
Außerdem werden
zu dieser Zeit auf Basis einer Reihe von Phonemen, die als ein Spracherkennungsresultat
erhalten werden, das Spracherkennungsresultat des Worts und die
Kategorie des Worts katalogisiert. Infolgedessen können ein
Wort und seine Kategorie nur durch Eingabe einer Spracheingabe ohne
Ausführung
anderer Operationen katalogisiert werden.
-
Darüber hinaus
wird bei einer normalen Verarbeitung ein Spracherkennungsresultat
als Textdaten ausgegeben, und bei einer Katalogisierungsoperation
wird eine Beschreibung einer Reihe von Phonemen aufgezeichnet. Als
ein Resultat kann eine Beschreibung von Daten wie beispielsweise
Regeln vereinfacht werden.
-
Außerdem werden
ein Wort und ein Attribut als Eingaben behandelt, die bei der Katalogisierungsoperation
voneinander unterschieden sind. Als ein Resultat kann der Katalogisierungsprozess
leicht ausgeführt
werden.
-
Außerdem wird
ein Resultat einer Benutzerauthentisierung auf Basis einer Spracheingabe
als eine Basis zur Erzeugung unterschiedlicher Antworten für unterschiedliche
Personen, die Spracheingaben eingeben, benutzt. Infolgedessen kann
eine Antwort des elektronischen Haustiers des Eigentümers verschieden
von einer Antwort für
eine Person anders als der Eigentümer gemacht werden. Als ein
Resultat ist das elektronische Haustier zum Zeigen eines Verhaltens
wie wenn ein wirkliches Haustier zutraulicher wird sowie sich leichter
kennen lernt fähig.
-
Überdies
wird durch Benutzung von Resultaten einer in der Vergangenheit erhaltenen
Spracherkennung ein Resultat einer derzeit erhaltenen Spracherkennung
geprüft,
um den Benutzer zu authentisieren. Auf diese Weise kann der Benutzer
durch eine Konversation ohne Eingabe eines Passworts authentisiert
werden. Als ein Resultat kann der Freiheitsgrad zur Benutzung des
Elektronikhaustiergeräts
erhöht
werden.
-
Darüber hinaus
wird durch Benutzung von in der Vergangenheit erhaltenen Resultaten
einer Spracherkennung die derzeit erhaltene Antwort eines Benutzers
auf eine Frage geprüft,
um den Benutzer zu authentisieren, oder wird der Benutzer durch
Sagen eines vorbestimmten Worts durch den Benutzer authentisiert.
Auf diese Weise kann der Benutzer durch eine natürliche Konversation authentisiert
werden. Als ein Resultat kann der Freiheitsgrad zur Benutzung des
Elektronikhaustiergeräts
entsprechend erhöht
werden.
-
Außerdem ist
es durch Identifikation des Typs einer Spracheingabe und durch Erzeugung
einer Antwort anders als eine Antwort eines vorbestimmten Typs oder
Erzeugung einer Antwort einer mit dem identifizierten Typ der Spracheingabe
korrespondierenden Kategorie möglich,
eine unnatürliche Konversation
wie eine, bei der eine Frage als Antwort auf eine Frage gestellt
wird, zu vermeiden. Auf diese Weise kann eine vom elektronischen
Haustier gegebene Antwort ebenso natürlich wie lebendig gemacht werden.
Als ein Resultat kann das elektronische Haustier zutraulicher gemacht
werden und leichter zu einem sich Kennenlernen gebracht werden.
-
Außerdem kann
zu dieser Zeit eine Erzeugung einer Antwort durch sich Beziehen
auf eine die Typen von Eingabe und Antworten aufweisenden Historie
eine unnatürliche
Konversation wie eine, bei der Größe eine Anzahl von Malen wiederholt
ausgetauscht werden, vermieden werden. Auf diese Weise kann eine
vom elektronischen Haustier gegebene Antwort ebenso natürlich wie
lebendig gemacht werden. Als ein Resultat kann das elektronische
Haustier zutraulicher gemacht und leichter zu einem sich Kennenlernen
gebracht werden.
-
Überdies
können
Variationen bei Emotionsparametern entsprechend einer Resultathistorie
der Spracherkennung und entsprechend Emotionsparametern geändert werden.
Für eine
häufig
gehörte Stimme
ist es beispielsweise möglich,
eine Antwort voll von Intimitätsinformationen,
Zutraulichkeit und dgl. zu erzeugen. Auf diese Weise kann eine vom elektronischen
Haustier gegebene Antwort ebenso natürlich wie lebendig gemacht
werden. Als ein Resultat kann das elektronische Haustier zutraulicher gemacht
und leichter zu einem sich Kennenlernen gebracht werden.
-
Um
spezifischer zu sein, ändert,
wenn ein Wort anders als ein spezifische Wort, das eine Emotion
anregt, zu den gleichen Zeiten wie das spezifische Wort oder so
häufig
wie das spezifische Wort ist benutzt wird, dieses häufig benutzte
Wort auch die Emotionsparameter. Das heißt es ist möglich, eine Antwort auf Basis
einer durch ein wiederholt benutztes Wort in Kombination mit dem
spezifischen Wort geänderten
Emotion zu erzeugen.
-
Darüber hinaus
werden, wenn ein spezifisches Wort unter Wörtern, die eine Emotion erregen, häufig benutzt
wird, Variationen bei Emotionsparametern erniedrigt. Als ein Resultat
kann das sogenannte Gewöhnungsgefühl gebildet
werden.
-
2. Effekte anderer Ausführungsformen
-
Bei
der oben beschriebenen Ausführungsform
kann das Elektronikhaustiergerät
mit einem Netzwerk verbunden werden, um das elektronische Haustier
aus dem Elektronikhaustiergerät
herauszunehmen, um eine Antwort eines in ein anderes Gerät gehobenen
elektronischen Haustiers zu erzeugen und dem bei diesem elektronischem
Gerät erzogenen
elektronischen Haustier unterschiedliche Regeln und unterschiedliche
Arten von Information beizubringen. Es sei jedoch darauf hingewiesen,
dass der Schutzbereich der vorliegenden Erfindung nicht auf diese
Ausführungsform
beschränkt
ist. Beispielsweise kann bewirkt werden, dass, wenn notwendig, nur eine
gewisse der oben beschriebenen Verarbeitung ausgeführt wird.
Außerdem
macht das Elektronikhaustiergerät
einen Zugriff auf das Netzwerk periodisch, wenn der Benutzer eine
vorbestimmte Operation ausführt
oder wenn vom anderen Gerät
ein Anruf empfangen wird.
-
Überdies
ist gemäß der oben
beschriebenen Ausführungsform
das Elektronikhaustiergerät
durch eine Telefonleitung mit einem Netzwerk verbunden. Es ist jedoch
beachtenswert, dass die Erfindung auch auf Anwendungen angewendet
werden kann, bei denen das Elektronikhaustiergerät durch eine andere Einrichtung
wie beispielsweise ein Modem oder ein Personalcomputer mit einem
Netzwerk verbunden ist.
-
Außerdem lernt
bei der oben beschriebenen Ausführungsform
das sogenannte elektronische Haustier Erkennungsdaten, Musterdaten,
Sprachdaten und Bilddaten, die von einem Netzwerk heruntergeladen
werden. Es sei jedoch darauf hingewiesen, dass der Schutzbereich
der Erfindung nicht auf diese Ausführungsform beschränkt ist.
Beispielsweise können
elektronische Haustiere auch nur gewisse notwendige der heruntergeladenen
Daten lernen. Außerdem
können
die Technik zum Erkennen einer Sprache selbst, die Technik zur Erzeugung
von Sprachdaten selbst und die Technik zur Erzeugung von Bilddaten
selbst durch heruntergeladene Steuerungsprogramme, welche die Techniken
beschreiben, modifiziert werden. Durch das gleiche Token können auch
die Technik zur Erzeugung von Emotionsdaten und die Verarbeitung
des Antwortsatz-Erzeugungsmoduls und eine andere Verarbeitung geändert werden.
-
Darüber hinaus
können
gemäß der oben
beschriebenen Ausführungsform
Physischzustandsdaten, Emotionsdaten und eine Konversationshistorie zu
einem anderen Gerät übertragen
werden, um das elektronische Haustier in dieses herauszunehmen. Es
ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden
Erfindung nicht auf eine solche Ausführungsform beschränkt ist.
Beispielsweise kann, wenn nur gewisse der Daten übertragen werden oder die Daten
zusammen mit Information wie beispielsweise Wissen übertragen
werden, ein anderes Gerät eine
Verarbeitung zum Emulieren des elektronischen Haustiers dieses Elektronikhaustiergeräts auszuführen. Außerdem kann
anstelle einer Übertragung
solcher Daten eine Antwort auf eine als ein Resultat einer von einem
anderen Gerät
ausgeführten
Spracherkennung erhaltene Eingabe zum anderen Gerät übertragen
werden.
-
Außerdem können gemäß der oben
beschriebenen Ausführungsform
unterschiedliche Arten von Daten vom anderen Gerät eingegeben werden, um das
elektronische Haustier des anderen Geräts zu diesem Elektronikhaustiergerät herauszubringen.
Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden
Erfindung nicht auf eine solche Ausführungsform beschränkt ist.
Beispielweise kann, wenn nur gewisse der Daten empfangen werden
oder die Daten zusammen mit Information wie beispielsweise Wissen
empfangen werden, eine Verarbeitung zum Emulieren des elektronischen
Haustiers des anderen Geräts
ausgeführt
werden. Außerdem
kann anstelle einer internen Verarbeitung von beispielsweise solchen
Daten, die von der anderen Einrichtung empfangen werden, dieses Elektronikhaustiergerät ein Spracherkennungsresultat
zum anderen Gerät
senden und dann eine Antwort auf das Spracherzeugungsresultat vom
anderen Gerät
empfangen.
-
Überdies
wird bei der oben beschriebenen Ausführungsform eine Spracheingabe
einem Spracherkennungsprozess unterworfen, um die Eingabe in eine
Reihe von Phonemen umzusetzen. Es ist jedoch beachtenswert, dass
der Schutzbereich der vorliegenden Erfindung nicht auf eine solche
Ausführungsform
beschränkt
ist. Beispielsweise können auch
unterschiedliche Spracherkennungstechniken, die für Verarbeitungserfordernisse
richtig sind, angenommen werden.
-
Darüber hinaus
werden bei der oben beschriebenen Ausfürungsform ein Wort und das
Attribut des Worts jeweils als eine zu katalogisierende Spracheingabe
in das Elektronikhaustiergerät
eingegeben. Es sei jedoch darauf hingewiesen, dass der Schutzbereich
der Erfindung nicht auf eine solche Ausführungsform beschränkt ist.
Beispielsweise kann ein Attribut vom Benutzer durch Betätigung eines
Operators ausgewählt
und in das Elektronikhaustiergerät
eingegeben werden. In diesem Fall gibt es eine vorstellbare Technik,
bei welcher der Benutzer aufgefordert wird, ein Attribut durch Auswählen einer
Einzelheit auf einem angezeigten Menü einzugeben.
-
Außerdem wird
gemäß der oben
beschriebenen Ausführungsform
für eine
in Authentisierungsdaten zu katalogisierende Spracheingabe als Textdaten aus
einer Reihe von Phonemen, welche die Spracheingabe darstellen, ein
Spracherkennungsresultat als eine Reihe von Phonemen ausgegeben.
Was ein gewöhnliches
Spracherkennungsresultat betrifft, so werden nur gewöhnliche
Textdaten erzeugt. Es ist jedoch beachtenswert, dass der Schutzbereich
der vorliegenden Erfindung nicht auf eine solche Ausführungsform
beschränkt
ist. Beispielsweise kann auch für
ein gewöhnliches
Spracherkennungsresultat das Spracherkennungsresultat als eine Reihe
von Phonemen ausgegeben werden.
-
Überdies
wird bei der oben beschriebenen Ausführungsform der Benutzer durch
Identifikation des Namens oder des Favoriten des Benutzers authentisiert.
Es sei jedoch darauf hingewiesen, dass der Schutzbereich der Erfindung
nicht auf eine solche Ausführungsform
beschränkt
ist. Beispielsweise kann die vorliegende Erfindung auch auf einem
weiten Bereich von Anwendungen angewendet werden, bei denen der
Benutzer durch Verifikation eines Passworts, Daten einer vergangenen
Konversation oder eines vergangenen Spracherkennungsresultats authentisiert
wird.
-
Darüber hinaus
wird bei der oben beschriebenen Ausführungsform der Benutzer durch
Prüfen eines
speziellen Satzes, der vom Benutzer in Reaktion auf eine vom Elektronikhaustiergerät gestellte
vorbestimmte Frage gesagt wird, authentisiert wird und der Benutzer
periodisch authentisiert wird. Es ist jedoch beachtenswert, dass
der Schutzbereich der vorliegenden Erfindung nicht auf eine solche
Ausführungsform
beschränkt
ist. Beispielsweise kann der Benutzer auch entweder durch Verifikation
eines speziellen Satzes oder periodisch wie notwendig authentisiert
werden.
-
Außerdem wird
gemäß der oben
beschriebenen Ausführungsform
bei einem Prozess zur Erkennung einer Spracheingabe durch Aufspalten
der Eingabe in eine Reihe von Phonemen der Benutzer durch Verifikation
einer ein spezielles Wort darstellenden Sprache authentisiert. Es
sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden
Erfindung nicht auf eine solche Ausführungsform beschränkt ist.
Beispielsweise kann der Benutzer auch durch Verifikation unterschiedlicher
charakteristischer Quantitäten,
welche die Charakteristiken der Sprache des Benutzers darstellen,
authentisiert werden, um den gleichen Effekt wie bei der oben beschriebenen
Ausführungsform
zu ergeben. Beispiele der charakteristischen Quantitäten sind
der Ton und das Frequenzspektrum der Sprache.
-
Überdies
kann bei der oben beschriebenen Ausführungsform eine Antwort des
elektronischen Haustiers für
den Eigentümer
verschieden von einer Antwort für
eine Person anders als der Eigentümer gemacht werden. Es ist
beachtenswert, dass der Schutzbereich der vorliegenden Erfindung
nicht auf eine solche Ausführungsform
beschränkt
ist. Beispielsweise können
mehrere unterschiedliche Antworten für mehrere unterschiedliche
Personen, die Spracheingaben bereitstellen, wie beispielsweise Mitglieder
der Familie oder des Eigentümers
und Personen anders als Familienmitglieder erzeugt werden.
-
Darüber hinaus
wird bei der oben beschriebenen Ausführungsform auf einfache Weise
verhindert, dass eine Frage als Antwort auf eine Frage auf Basis
des Typs der Frageeingabe und des Typs der Frageantwort ausgegeben
wird. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der
vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist.
Beispielsweise kann eine Frage als Antwort auf eine Frage aufgrund
von Gründen
wie beispielsweise der Emotion ausgegeben werden. In diesem Fall
zeigt es, dass das elektronische Haustier schlecht gelaunt ist.
-
Außerdem wird
gemäß der oben
beschriebenen Ausführungsform
die Emotion durch Manipulation von Zeichendaten gesteuert. Es ist
jedoch beachtenswert, dass der Schutzbereich der Erfindung nicht auf
eine solche Ausführungsform
beschränkt
ist. Beispielsweise können
die Emotionsdaten anstelle einer Manipulation der Zeichendaten auch
direkt geändert werden.
-
Überdies
gibt die oben beschriebene Ausführungsform
Sprachdaten und Bilddaten aus. Es sei jedoch darauf hingewiesen,
dass der Schutzbereich der vorliegenden Erfindung nicht auf eine
solche Ausführungsform
beschränkt
ist. Beispielsweise werden Sprachen und Bilder als ein Resultat
von Audio- und Videosynthesen ausgegeben.
-
Darüber hinaus
werden bei der oben beschriebnen Ausführungsform die Spracherkennungsverarbeitung
und die Bildsyntheseverarbeitung durch die in 3 gezeigte
zentrale Verarbeitungseinheit ausgeführt. Es ist jedoch beachtenswert,
dass der Schutzbereich der vorliegenden Erfindung nicht durch eine
solche Ausführungsform
beschränkt
ist. Beispielsweise können
die Spracherkennungsverarbeitung und die Bildsyntheseverarbeitung
auch durch dedizierte Schaltungen wie in 28 gezeigt
ausgeführt
werden.
-
Außerdem wendet
die oben beschriebene Ausführungsform
die vorliegende Erfindung auf ein Elektronikhaustiergerät, das eine
Sprache und ein Bild als eine Antwort ausgibt, an. Es sei jedoch
darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung
nicht durch eine solche Ausführungsform
beschränkt
ist. Beispielsweise kann die vorliegende Erfindung auch zum Beispiel
bei einem Roboter, das sich wie ein Tier bewegt, ein Elektronikhaustiergerät, das sich
bei Ausgabe einer Antwort bewegt und schreit, und ein Elektronikhaustiergerät, das Antworten
in unterschiedlichen Formen ausgibt, angewendet werden.
-
Überdies
wendet die oben beschriebene Ausführungsform die vorliegende
Erfindung auf ein Elektronikhaustiergerät an, das ein Spezialzweckgerät zum Emulieren
eines elektronischen Haustiers mit seiner in 2 gezeigten
Frontplatte ist. Es ist jedoch beachtenswert, dass der Schutzbereich
der vorliegenden Erfindung nicht auf eine solche Ausführungsform
beschränkt
ist. Beispielsweise kann die vorliegende Erfindung auch bei unterschiedlichen tragbaren
Einrichtungen wie beispielsweise einem tragbaren Telefon, einem
tragbaren GPS, einem tragbaren Bandrekorder und einem tragbaren
Optikplattenlaufwerk mit einer in 28 gezeigten
Frontplatte angewendet werden. Zusätzlich zu solchen tragbaren
Einrichtungen kann die vorliegende Erfindung auch auf Informationsverarbeitungsgeräte wie beispielsweise
einen Personalcomputer, bei dem sich unterschiedliche Animationszeichen
oder dgl. bewegen, angewendet werden.
-
Industrielle Anwendbarkeit
-
Die
vorliegende Erfindung kann für
einen Unterhaltungsroboter benutzt werden.
-
- 1
- Elektronikhaustiergerät;
- 11A
- Spracherkennungsmodul;
- 11B
- Zeitgeber;
- 11C
- Physischzustands-Änderungsmodul;
- 11D
- Emotionsänderungsmodul;
- 11E
- Antwortsatz-Erzeugungsmodul;
- 11F
- Sprachsynthesemodul;
- 11G
- Bildsynthesemodul;
- 11I
- Katalogisierungsmodul;
- 11J
- Spracherkennungsmodul;
- 11M
- Wort/Satz-Klassifikationsmodul;
- 16A
- Erkennungsdaten;
- 16B
- Physischzustandsdaten;
- 16C
- Emotionsdaten;
- 16D
- Zeichendaten;
- 16E
- Musterdaten;
- 16F
- Konversationshistorie;
- 16G
- Wissenbank;
- 16H
- Sprachdaten;
- 16I
- Bilddaten;
- 16J
- Authentisierungszustand;
- 16K
- Authentisierungsdaten;
- 16M
- Klassifikationsregel;
- 16N
- Emotionsänderungshistorie;
- 17
- Netzwerkverbindungseinheit.