DE69935909T2

DE69935909T2 - Vorrichtung zur Informationsverarbeitung

Info

Publication number: DE69935909T2
Application number: DE69935909T
Authority: DE
Inventors: Satoshi Fujimura; Naohiro Yokoo; Yasuhiko Kato
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-12-24
Filing date: 1999-12-24
Publication date: 2008-01-10
Anticipated expiration: 2019-12-25
Also published as: WO2000038808A1; JP2000187435A; EP1750252A2; CN1202511C; CN1252620C; EP1072297A1; KR20060086457A; EP1748421A3; CN1549201A; KR100702645B1; CN1253811C; KR20010040942A; CN1549200A; CN1549202A; EP1072297B1; EP1748421B1; EP1748421A2; EP1072297A4; US6792406B1; KR100751957B1

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft ein Informationsverarbeitungsgerät, eine tragbare Einrichtung, ein Elektronikhaustiergerät, ein Informationsverarbeitungsprozeduren speicherndes Aufzeichnungsmedium und ein Informationsverarbeitungsverfahren und kann auf unterschiedliche Arten einer Informationseinrichtung wie beispielsweise Mobiltelefone und Personalcomputer angewendet werden. Durch Austausch unterschiedlicher Arten von Daten, die bei einer Erzeugung einer Antwort über ein Netzwerk erforderlich sind, und durch Benutzung von Sprache zu einer Katalogisierung von Wörtern realisiert die vorliegende Erfindung ein zutraulicheres Elektronikhaustiergerät, ein Informationsverarbeitungsgerät mit einem elektrischen Haustier, eine tragbare Einrichtung und ein Informationsverarbeitungsprozeduren speicherndes Aufzeichnungsmedium.
Hintergrundtechnik
Für herkömmliche Personalcomputer ist eine sogenannte Erziehungs-Simulationsspielsoftware vorgeschlagen worden. Die Erziehungs-Simulationsspielsoftware ist ein Spiel zum Erziehen eines Haustiers (das heißt eines elektronischen Haustiers) in einem von einem Computer bereitgestellten Virtuellrealitätsraum. Die Haustiererziehungs-Stimulationsspielsoftware ermöglicht im Vergleich zum wirklichen Erziehen eines Haustiers leichte bzw. einfache Kommunikationen mit einem elektronischen Haustier.
Nebenbei bemerkt führt ein wirkliches Haustier abhängig von seinem physischen Zustand, den umgebenden äußeren Umständen usw. unterschiedliche Arten von Aktion aus. Außerdem erkennt das Haustier den Eigentümer und führt Aktionen aus, die sich von Aktionen bezüglich anderer unterscheiden. Außerdem kann das Verhalten durch Lernen geändert werden.
Wenn ein elektronisches Haustier zum Imitieren unterschiedlicher Verhalten eines wirklichen Haustiers fähig ist, kann das elektronische Haustier als zutraulicher angesehen werden.
US 5 367 454 beschreibt eine interaktive Mensch-Maschine-Schnittstelle, die ein animiertes Gesicht anzeigt, das Emotionen zeigt. Das System speichert Daten, die unterschiedliche Emotionen darstellen, und die von einem animierten Gesicht zu einem gegebenen Zeitpunkt gezeigte Emotion hängt von den Emotionsdaten (die in Reaktion auf unterschiedliche Stimuli, darunter Spracherkennungsdaten, variieren) ab.
Die vorliegende Erfindung ist an die oben beschriebenen Probleme gerichtet und durch das Gerät nach Anspruch 1 definiert.
Demgemäss ist die Kommunikationseinrichtung zur Ausgabe unterschiedlicher Arten von Daten fähig, die bei der Erzeugung einer Reaktion bzw. Antwort erforderlich sind. Infolgedessen ist eine mit dem Netzwerk verbundene Einrichtung des gleichen Typs zur Erzeugung fast der gleichen Antwort wie eine Antwort auf eine Spracheingabe in dieses Informationsverarbeitungsgerät, die tragbare Einrichtung oder das Elektronikhaustiergerät fähig. Als ein Resultat kann ein elektronisches Haustier so behandelt werden, wie wenn das elektronische Haustier in die mit dem Netzwerk verbundene externe Einrichtung herausgenommen wäre, und überdies kann das elektronische Haustier im Lauf eines tatsächlichen Trainings auch leicht zu einem sich Kennenlernen gebracht werden, wie wenn das elektronische Haustier ein wirkliches Haustier wäre.
Die vorliegende Erfindung stellt außerdem ein Informationsverarbeitungsverfahren bereit, wie es im Anspruch 4 definiert ist.
Die vorliegende Erfindung stellt außerdem noch ein Aufzeichnungsmedium bereit, das von einem Informationsverarbeitungsgerät lesbar ist und Informationsverarbeitungsprozeduren zur Ausführung des obigen Verfahrens speichert, wenn das Aufzeichnungsmedium auf einem Informationsverarbeitungsgerät läuft.
Kurze Beschreibung der Zeichnungen
1 ist ein funktionelles Blockdiagramm, das ein Elektronikhaustiergerät zeigt. wie es durch eine Ausführungsform der vorliegenden Erfindung implementiert ist;
2 ist eine schematische Darstellung, die eine Vorderansicht des in 1 gezeigten Elektronikhaustiergeräts zeigt;
3 ist ein Hardwareblockdiagramm, welches das Elektronikhaustiergerät der 1 zeigt;
4 zeigt eine Tabelle von den physischen Zustand darstellenden Daten;
5 zeigt eine Tabelle von eine Emotion darstellenden Daten;
6 zeigt eine Tabelle von Zeichendaten;
7 zeigt eine Tabelle von eine geänderte Emotion darstellenden Daten;
8 zeigt in Musterdaten beschriebene Regeln;
9 zeigt eine Tabelle von jeweils Sprachdaten aufweisenden Dateien;
10 zeigt eine Tabelle von jeweils Bilddaten aufweisenden Dateien;
11 zeigt ein Flussdiagramm, das eine Verbindungsverarbeitungsprozedur zur Verbindung des Elektronikhaustiergeräts mit einem Netzwerk darstellt;
12 ist eine schematische Darstellung, die das Format einer Datenausgabe an das Netzwerk zeigt;
13 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei einer Operation bezüglich Katalogerkennungsdaten detaillierter zeigt;
14 ist eine schematische Darstellung, die eine Syntax einer Spracheingabe zeigt, die einem Spracherkennungsprozess unterworfen wird;
15 zeigt ein Flussdiagramm, das eine Verarbeitungsprozedur für Katalogerkennungsdaten darstellt;
16 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei einer Operation zum Authentisieren des Benutzers detaillierter zeigt;
17 zeigt Regeln von Musterdaten;
18 zeigt einen später bei einer Authentisierung des Benutzers zu benutzenden typischen Dialog zur Erkennung eines Favoriten des Benutzers;
19 zeigt einen typischen Dialog zum Authentisieren des Benutzers durch Benutzung des während der in 18 gezeigten Konversation erhaltenen Favoriten;
20 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei einer Verarbeitung zur Klassifizierung eines Worts oder eines Satzes detaillierter zeigt;
21 zeigt Regeln von Musterdaten zur Erzeugung von Antworten auf unterschiedliche Kategorien, deren jede als ein Resultat der in 20 gezeigten Verarbeitung zur Klassifizierung eines Worts oder eines Satzes erhalten wird;
22 zeigt eine typische Konversationshistorie;
23 zeigt eine andere typische Konversationshistorie;
24 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät bei der Ausführung einer Emotionssteuerung detaillierter zeigt;
25 ist eine Tabelle von Variationen bei Emotionen (Zeichendaten) für unterschiedliche Schlüsselwörter, deren jedes in einer Benutzerspracheingabe enthalten ist;
26 ist eine Tabelle, welche die in 25 gezeigten Variationen bei Emotionen (Zeichendaten) zusammenfasst;
27 ist eine Tabelle, welche geänderte Variationen bei Emotionen (Zeichendaten) zusammenfasst.
28 ist ein Hardwareblockdiagramm, das ein Elektronikhaustiergerät, wie es durch eine andere Ausführungsform der vorliegenden Erfindung implementiert ist, zeigt;
29 ist eine schematische Darstellung, die eine Vorderansicht eines tragbaren Telefons zeigt.
Beste Ausführungsform der Erfindung
1. Erste Ausführungsform
1-1. Gesamtkonfiguration der ersten Ausführungsform
2 ist eine schematische Darstellung, die eine Vorderansicht eines Elektronikhaustiergeräts 1 zeigt, das durch eine erste Ausführungsform der vorliegenden Erfindung implementiert ist. Wie in der Figur gezeigt weist das Elektronikhaustiergerät 1 eine Antenne 2, die nach oben herausgezogen werden kann, und auf dem oberen Abschnitt der Vorderfläche eine Flüssigkristallanzeigeplatte 3 auf. Die beim Elektronikhaustiergerät 1 angewendete Flüssigkristallanzeigeplatte 3 zeigt die Figur eines elektronischen Haustiers und eine vom elektronischen Haustier abgegebene Mitteilung an. Unter der Flüssigkristallanzeigeplatte 3 weist das Elektronikhaustiergerät 1 einen Bestätigungsoperator 4A, einen Beseitigungsoperator 4B und einen Zeiger- bzw. Cursoroperator 5 auf. Diese Operatoren werden zur Änderung des Betriebsmodus und Ausführung anderer Zwecke betätigt.
Das Elektronikhaustiergerät 1 weist außerdem unter dem Bestätigungsoperator 4A und denn Beseitigungsoperator 4B einen Lautsprecher 6 bzw. ein Mikrofon 7 auf. Eine Konversation kann mit dem elektronischen Haustier durch den Lautsprecher 6 und das Mikrofon 7 gehalten werden. Außerdem weist das Elektronikhaustiergerät 1 auf der Rückfläche eine Fassung auf. Die Fassung ermöglicht die Befestigung einer IC-Karte 8 am elektronischen Haustiergerät 1.
3 ist ein Blockdiagramm, das eine Hardware des Elektronikhaustiergeräts 1 zeigt. Wie in der Figur gezeigt weist das Elektronikhaustiergerät 1 eine Analog-zu-Digital-Umsetzungsschaltung (A/D-Umsetzungsschaltung) 10 zur Umsetzung eines vom Mikrofon 7 kommenden analogen Audiosignals mittels einer in der Figur nicht gezeigten Verstärkerschaltung in digitale Audiodaten DA auf. Die Analog-zu-Digital-Umsetzungsschaltung 10 gibt die digitalen Audiodaten DA an eine zentrale Verarbeitungseinheit (CPU (central processing unit)) 11 aus. Auf diese Weise ist das Elektronikhaustiergerät 1 zur Verarbeitung einer vom Benutzer durch Benutzung der zentralen Verarbeitungseinheit 11 eingegebenen Sprache fähig.
Andererseits setzt eine Digital-zu-Analog-Umsetzungsschaltung (D/A-Umsetzungsschaltung) 12 digitale Audiodaten DB, die von der zentralen Verarbeitungseinheit 11 erzeugt werden, in ein analoges Audiosignal um, das an den Lautsprecher 6 ausgegeben wird. Auf diese Weise ist der Benutzer zur Verifikation einer Sprache des elektronischen Haustiers, die vom Elektronikhaustiergerät 1 zum Ausdrücken einer vom elektronischen Haustier erzeugten Antwort erzeugt wird, fähig. Von der zentralen Verarbeitungseinheit 11 gesteuert betreibt eine Monitorschnittstelle (Monitor-I/F) 13 die Flüssigkristallanzeigeplatte 3 zum Anzeigen eines Bildes des elektronischen Haustiers auf der Flüssigkristallanzeigeplatte 3 entsprechend Bilddaten DV, die mittels eines Busses von der zentralen Verarbeitungseinheit 11 kommen.
Eine Tastenschnittstelle (Tasten-I/F) 14 detektiert eine vom Benutzer beim Operator 4A, 4B oder 5 ausgeführte Operation, die der zentralen Verarbeitungseinheit 11 ein Detektionssignal zuführt. Zum Speichern von Information wie beispielsweise eines Verarbeitungsprogramms, das von der zentralen Verarbeitungseinheit 11 auszuführen wird, und unterschiedlicher Arten von Daten, die für eine Analyse einer durch das Mikrofon 7 erfassten Sprache notwendig sind, wird ein Nurlesespeicher (ROM (read-only memory)) 15 benutzt. Die zentrale Verarbeitungseinheit 11 liest vom Nurlesespeicher 15 Information aus, die auch unter einer von der zentralen Verarbeitungseinheit 11 auszuführenden Steuerung auszugeben ist. Ein Direktzugriffsspeicher (RAM (random-access memory)) 16 dient als ein Arbeitsbereich der zentralen Verarbeitungseinheit 11. Der Direktzugriffsspeicher 16 wird zum zeitweiligen Speichern unterschiedlicher Arten von Daten benutzt, die zu einer von der zentralen Verarbeitungseinheit 11 ausgeführten Verarbeitung notwendig sind.
Gesteuert von der zentralen Verarbeitungseinheit 11 verbindet eine Netzwerkverbindungseinheit 17 das Elektronikhaustiergerät 1 durch eine Telefonleitung mit einem vorbestimmten Netzwerk 18. Das Elektronikhaustiergerät 1 tauscht unterschiedliche Arten von Daten DT mit dem Netzwerk 18 aus und aktualisiert, wenn notwendig, Information wie beispielsweise Inhalte des Direktzugriffsspeichers 16 durch Benutzung der ausgetauschten Daten. Um ins Detail zu gehen ist das Elektronikhaustiergerät 1 auf diese Weise zu einer Erfassung unterschiedlicher Arten von Daten, die wenn notwendig, zum Trainieren und Erziehen des elektronischen Haustiers vom Netzwerk 18 erforderlich sind. Außerdem können im Direktzugriffsspeicher 16 gespeicherte Daten mittels des Netzwerks 18 zu einem gewünschten Endgerät übertragen werden. Als ein Resultat kann das elektronische Haustier so behandelt werden, wie wenn das Haustier durch Exportieren von Daten zu mit dem Netzwerk 18 verbundenen Endgeräten in verschiedene Umgebungen herausgenommen würde. Im Gegensatz dazu kann ein elektronisches Haustier eines anderen Geräts mit dem Endgerät 18 durch Benutzung dieses Elektronikhaustiergeräts trainiert werden.
Die IC-Karte 8 ist eine externe Aufzeichnungseinrichtung, die montiert und abmontiert werden kann. Wenn notwendig werden in der IC-Karte gespeicherte Daten zu einer Aktualisierung von Information wie beispielsweise der Inhalte des Direktzugriffsspeichers 16 benutzt, oder im Direktzugriffsspeicher 16 gespeicherte Daten können zur IC-Karte 8 übertragen werden. Auf diese Weise ist das Elektronikhaustiergerät zu einem Austausch unterschiedlicher Arten von Daten mit einer anderen Einrichtung durch die IC-Karte 8 fähig, wodurch es möglich gemacht ist, unterschiedliche Arten von Daten zu erfassen, die zum Trainieren und Erziehen des elektronischen Haustiers notwendig sind. Außerdem kann das elektronische Haustier behandelt werden, wie wenn das Haustier in unterschiedliche Umgebungen herausgenommen wäre, und, im Gegensatz dazu, kann ein elektronisches Haustier eines anderen Geräts durch Benutzung dieses Elektronikhaustiergeräts 1 trainiert werden.
1 ist ein Blockdiagramm, das eine grundlegende Konfiguration des Elektronikhaustiergeräts 1 in Form von funktionellen Blöcken zeigt. Es sei darauf hingewiesen, dass in 1 gezeigte rechteckige funktionelle Blöcke jeweils ein im Nurlesespeicher 15 gespeichertes Verarbeitungsprogramm darstellen, das von der zentralen Verarbeitungseinheit 11 auszuführen ist. Andererseits stellt ein als ein Symbol einer magnetischen Platte gezeichneter funktioneller Block Daten dar, die im Nurlesespeicher 15, im Direktzugriffsspeicher 16 oder in der IC-Karte 8 gespeichert sind.
Ein beim Elektronikhaustiergerät 1 angewendetes Spracherkennungsmodul 11A führt eine Spracherkennungsverarbeitung an Audiodaten DA konform mit einer vorbestimmten Erkennungsregel aus, wobei es ein Resultat der Spracherkennung als ein Ausgangssignal erzeugt. Um ins Detail zu gehen begrenzt das Spracherkennungsmodul 11A eine durch sequentiell empfangene Audiodaten DA dargestellte Sprache durch Phoneme entsprechend einem HMM-Verfahren (HMM = Hidden Marcov Model (verdecktes Marcov-Modell)). Das Spracherkennungsmodul 11A bezieht sich auf Erkennungsdaten 16A für eine Reihe von solchen Phonemen. Das Spracherkennungsmodul 11A erzeugt Wörter der Audiodaten DA, Wörter eines im Voraus katalogisierten Satzes und, im Fall eines Satzes, Wörter des Satzes oder von Textdaten, welche den Satz auf Basis von Resultaten der Bezugnahme auf die Erkennungsdaten 16A als Resultate der Erkennung darstellen. Die Erkennungsdaten 16A sind eine Datenbank, die Textdaten von Wörtern und Sätzen mit einer Reihe von Phonemen assoziiert, die vom HMM-Verfahren ausgegeben werden. Das heißt die Erkennungsdaten 16A sind eine Datenbank, die zum Speichern von Paaren benutzt wird, deren jedes Textdaten und ein Phonem aufweist. Eine solche Datenbank ermöglicht dem Elektronikhaustiergerät 1 eine Sprache von „A Good kid (ein gutes Kind)" die vom Benutzer vor dem Mikrofon 7 gesagt wird, in ein Array von Zeichen umzusetzen, die einen Text von „A Good kid" darstellen. Als ein Resultat wird eine Spracheingabe in ein Array von Zeichen umsetzt.
Ein Zeitgeber 11B ruft Komponenten wie beispielsweise ein Physischzustands-Änderungsmodul 11C und ein Emotionsänderungsmodul 11D in vorbestimmten Intervallen auf.
Wenn vom Zeitgeber 11B aktiviert aktualisiert das Physischzustands-Änderungsmodul 11C Physischzustandsdaten 16B entsprechend einem Resultat einer Spracherkennung. Die Physischzustandsdaten 16B weisen Parameter auf, die den gegenwärtigen physischen Zustand des elektronischen Haustiers darstellen. Es sei darauf hingewiesen, dass im Fall dieser Ausführungsform die Physischzustandsdaten 16B fünf Parameter aufweisen, die wie in 4 gezeigt, mit „fatigue (Ermüdung)", „hunger (Hunger)”, „thirstness (Durstigkeit)", „sickness (Krankheit)" bzw. „sleepiness (Schläfrigkeit)" benannt sind. Je größer der Wert eines Parameters ist, desto größer ist der Anteil des Parameters beim physischen Zustand des elektronischen Haustiers. Die in 4 gezeigten typischen Werte zeigen infolgedessen an, dass gegenwärtig das elektronische Haustier extrem ermüdet und sehr hungrig ist.
Wie oben beschrieben aktualisiert das Physischzustands-Änderungsmodul 11C die Physischzustandsdaten 16B entsprechend einem Resultat der Spracherkennung, wie es vom Zeitgeber 11B aktiviert wird. Beispielsweise werden die Parameter „hunger", „thirstiness" und „sleepiness" in Übereinstimmung mit der Regel der Natur, wie sie im Lauf einer typischen Erziehung eines wirklichen Haustiers generell gesehen wird, graduell erhöht. Als ein Resultat bekommt das elektronische Haustier im Laufe der Zeit Hunger. Ein anderes Beispiel einer Operation zur Aktualisierung der Physischzustandsdaten 16B entsprechend einem Resultat einer Spracherkennung ist eine Operation zur Erniedrigung des „hunger"-Parameters, wenn ein Resultat der Spracherkennung anzeigt, dass dem elektronischen Haustier Nahrung gegeben worden ist. Noch ein anderes Beispiel einer Operation zur Aktualisierung der Physischzustandsdaten 16B entsprechend einem Resultat einer Spracherkennung ist eine Operation zur Erniedrigung des „thirstiness"-Parameters, wenn ein Resultat der Spracherkennung anzeigt, dass dem elektronischem Haustier zu trinken gegeben worden ist. Ein weiteres Beispiel einer Operation zur Aktualisierung der Physischzustandsdaten 16B entsprechend einem Resultat der Spracherkennung ist eine Operation zu einer graduellen Erhöhung des „fatigue"-Parameters", wenn ein Resultat der Spracherkennung anzeigt, dass der Eigentümer mit dem elektronischem Haustier spielt. Ein noch anderes Beispiel einer Operation zur Aktualisierung der Physischzustandsdaten 16B entsprechend einem Resultat der Spracherkennung ist eine Operation zu einer graduellen Erniedrigung des „sleepiness"-Parameters synchron mit einem Zeitgeber, wenn ein Resultat der Spracherkennung anzeigt, dass der Eigentümer dem elektronischem Haustier sagt, es solle schlafen.
Andererseits aktualisiert das Emotionsänderungsmodul 11D die gegenwärtigen Emotionsdaten 16C entsprechend einem Resultat einer Spracherkennung, wie sie vom Zeitgeber 11B aktiviert wird. Die gegenwärtigen Emotionsdaten 16C weisen Variable auf, welche die Emotionen des derzeitigen elektronischen Haustiers in einer künstlichen Weise darstellen. Solche Variablen werden jeweils als auch künstliche Emotionsparameter bezeichnet. Es sei darauf hingewiesen, dass es im Fall dieser Ausführungsform sechs künstliche Emotionsparameter gibt, die, wie in 5 gezeigt, die Emotionen „anger (Ärger)", „sadness (Traurigkeit)", „joy (Freude)". „fear (Furcht)", „surprise (Überraschung)" bzw. „hatred (Abscheu)" darstellen. Je größer der Wert eines künstlichen Emotionsparameters ist, desto größer ist die vom Parameter dargestellte Emotion. Ein typischer Satz von Werten von in 5 gezeigten künstlichen Emotionsparametern zeigen, dass das elektronische Haustier zur gegenwärtigen Zeit freudvoll aber voll von Ärger ist.
Wie oben beschrieben aktualisiert das Emotionsänderungsmodul 11D die Emotionsdaten 16C in Übereinstimmung mit der Regel der Natur, wie sie generell im Lauf einer typischen Erziehung eines wirklichen Haustiers gesehen wird. Das heißt, wenn das Emotionsänderungsmodul 11D die Emotionsdaten 16C wie sie vom Zeitgeber 11B aktiviert werden aktualisiert, werden die sechs Variablen, das heißt die Emotionsparameter „anger", „sadness", „joy", „fear", „surprise" und „hatred" jeweils graduell aktualisiert, um sich dem vorbestimmten Referenzwert anzunähern. Infolgedessen werden im Fall des in 5 gezeigten Beispiels die Emotionen „anger", „sadness" und die anderen Emotionen graduell befriedigt.
Wenn das Emotionsänderungsmodul 11D die Emotionsdaten 16C entsprechend einem Resultat einer Spracherkennung aktualisiert, werden andererseits Zeichendaten 16D für eine Information gesucht, die vom Resultat der Spracherkennung angezeigt wird, und die Information wird dann als eine Basis zur Aktualisierung der Emotionsdaten 16C benutzt.
Wie in 6 gezeigt weisen die Zeichendaten 16D bei Emotionsdaten 16C Änderungen auf, die durch einen Satz (oder ein Wort), der (das) in einem Resultat der Spracherkennung enthalten ist, klassifiziert werden. Das heißt durch Benutzung eines in einem Resultat einer Spracherkennung enthaltenen Satzes als ein Schlüsselwort können die Zeichendaten 16D für Variationen bei Emotionsdaten 16C gesucht werden, die für den Satz (oder das Wort) richtig sind. Es sei beispielsweise angenommen, dass der Benutzer zum elektronischen Haustier „Good" sagt. In diesem Fall werden die Emotionsarameter "anger", „sadness", „joy", „fear", „surprise" und „hatred" wie in
6 gezeigt um –1, +2, +20, –5, +5 bzw. –1 geändert. In anderen Worten Variationen bei den Emotionsdaten 16C von –1, +2, +20, –5, +5 und –1 werden dem Wort „Good" zugeordnet.
Wenn infolgedessen der Benutzer beispielsweise „A Good kid" sagt, aktualisiert das Emotionsänderungsmodul 11D die in 5 gezeigten Emotionsdaten 16C in die in 7 gezeigten. Auf diese Weise dient das Emotionsänderungsmodul 11D als eine Emotionserzeugungseinrichtung, die künstliche Emotionsparameter erzeugt, deren jeder eine Emotion in einer künstlichen Weise simuliert, und die Emotionsdaten auf der Basis einer vorbestimmten Emotionsparametererzeugungsregel wenigstens entsprechend einem Resultat einer Spracherkennung aktualisiert. Außerdem variieren die künstlichen Emotionsparameter auch mit dem Ablauf der Zeit.
Ein Antwortsatz-Erzeugungsmodul 11E erzeugt eine Antwort auf ein Resultat einer Spracherkennung entsprechend vorbestimmten Antworterzeugungsregeln auf Basis der Physischzustandsdaten 16B und der Emotionsdaten 16C. Musterdaten 16E sind ein Satz von Regeln einer solchen Antwort. Wie in 8 gezeigt beschreibt jede der Regeln eine Antwort auf einen eingegebenen Schlüsselsatz, der ein als ein Resultat der Spracherkennung erhaltenes Wort aufweist. Von einem Schlüsselsatz bestimmt variiert eine von einer Regel beschriebene Antwort entsprechend den Emotionsdaten 16C und den Physischzustandsdaten 16B. Es sei darauf hingewiesen, dass in 8 nur minimal erforderliche Regeln gezeigt sind, um die Erläuterung einfach zu machen. Tatsächliche Regeln beschreiben Zustände (darunter später zu beschreibende Attribute) anders als die in 8 gezeigten Zustände. Die in 8 gezeigte Regel 2 ist ein Beispiel einer Regel auf Basis nur von Emotionsdaten 16C. Es sei darauf hingewiesen, dass eine Regel auf einer Kombination aus den Emotionsdaten 16C und den Physischzustandsdaten 16B basieren kann.
Die in 8 gezeigte Regel 1 beschreibt Antwortsätze auf den eingegebenen Satz „I love you (ich liebe dich)" oder I like you (ich mag dich)". Entsprechend Regel 1 wird, wenn der eingegebene Satz eine Sprache eines authentisierten Benutzers ist, ein Antwortsatz, der „I love you, too (ich liebe dich auch)" oder „Wow, I am a male though (Oh, ich bin aber männlich)" sagt, zufällig ausgegeben. Wenn der eingegebene Satz keine Sprache eines authentisierten Benutzers ist, wird andererseits ein Antwortsatz, der „A strange Person (eine fremde Person)" oder „Who are you? (wer sind sie?)" sagt, zufällig ausgegeben.
Regel 2 in 8 beschreibt Antwortsätze auf einen eingegebenen Satz „Good day (guten Tag)" oder „Hello (Hallo)". Wie oben beschrieben basieren die Antwortsätze auf den Emotionen „anger", „sadness", „joy", „fear", „surprise" und „hatred" der Emotionsdaten. Um spezifischer zu sein wird ein „Shut up (sei still)", „What? (was?)", „Howdy (grüßen)", „I am surprised (ich bin überrascht)", „Hi (he da)" oder „Did you call me? (riefen sie mich an?) sgender Antwortsatz als eine Ausgabe ausgewählt, wenn der größte unter den Emotionsparametern „anger", „sadness", „joy", „fear", „surprise" bzw. „hatred" einen vorbestimmten Wert überschreitet.
Die in 8 gezeigte Aussage ,authenticated (A); (B) (autentisiert (A); (B))’ in Regel 1 bedeutet, dass, wenn ein später zu beschreibendes Resultat einer Benutzerauthentisierung oder dgl. auf den Booleschen Wert „TRUE (wahr)" gesetzt ist, der Satz (A) ausgewählt wird, und wenn das Resultat der Benutzerauthentisierung oder dgl. nicht auf „TRUE" gesetzt ist, andererseits der Satz (B) ausgewählt wird. Die Aussage „random („A", „B") (zufällig („A", „B"))" bedeutet, dass entweder der Satz „A" oder „B" zufällig ausgewählt wird.
Nebenbei bemerkt weist der Emotionsparameter „joy" bei den in 7 gezeigten Emotionsdaten 16C den größten Wert unter den Variablen auf. Infolgedessen wird gemäß Regel 2 das Wort „Howdy" für die Freudeemotion ausgewählt.
Wenn das Antwortsatz-Erzeugungsmodul 11E eine Antwort auf Basis der oben beschriebenen Emotionsdaten 16C erzeugt, erzeugt das Antwortsatz-Erzeugungsmodul 11E, wie früher erwähnt, abhängig vom eingegebenen Schlüsselsatz auch eine Antwort auf Basis der Physischzustandsdaten 16B oder einer Kombination aus den Emotionsdaten 16C und den Physischzustandsdaten 16B. Mit einem solchen Antwortsatz-Erzeugungsmodul 11E erzeugt das Elektronikhaustiergerät 1, wenn das elektronische Haustier in einem unbefriedigenden physischen Zustand ist, infolgedessen eine mit dem Zustand korrespondierende Antwort.
Das Antwortsatz-Erzeugungsmodul 11E zeichnet eine erzeugte Antwort bezüglich eines solchen Resultats einer Spracherkennung in einer Konversationshistorie 16F auf. Wenn notwendig erzeugt das Antwortsatz-Erzeugungsmodul 11E eine Antwort durch sich beziehen auf die Konversationshistorie 16F. Auf diese Weise kann eine unnatürliche Konversation zwischen dem elektronischen Haustier und dem Benutzer vermieden werden. Zusätzlich erzeugt das Antwortsatz-Erzeugungsmodul 11E auch eine Antwort durch sich beziehen auf eine Wissensbank 16G. Als ein Resultat ist das Elektronikhaustiergerät 1 zu einer Änderung der Antwort in Abhängigkeit von dem Benutzer, der durch Ausführen einer Verarbeitung zur Authentisierung des Benutzers typischerweise identifiziert wird, fähig.
Ein Sprachsynthesemodul 11F sucht Sprachdaten 16H für mit einer vom Antwortsatz-Erzeugungsmodul 11 ausgegebenen Antwort korrespondierende Sprachdaten DB, wobei die Sprachdaten DB als ein Suchresultat ausgegeben werden. Wie in 9 gezeigt sind die Sprachdaten 16H eine Sammlung aus Sprachdateien, deren jede mit einer Antwort korrespondiert. Wenn beispielsweise die Antwort „Howdy" ausgegeben wird, wird eine mit ,voice0005.wav’ bezeichnete Sprachdatei ausgewählt und werden in dieser Sprachdatei aufgezeichnete Sprachdaten DB ausgegeben.
Ein Bildsynthesemodul 11G sucht Bilddaten 16I für mit einer vom Antwortsatz-Erzeugungsmodul 11E ausgegebenen Antwort korrespondierende Bilddaten DV, wobei die Bilddaten DV als ein Suchresultat ausgegeben werden. Wie in 10 gezeigt sind die Bilddaten 16I eine Kollektion von Bilddatendateien, deren jede mit einer Antwort korrespondiert. Wenn beispielsweise die Antwort „Howdy" ausgegeben wird, wird eine mit ,fig0005.bmp’ bezeichnete Bilddatendatei ausgewählt und werden in dieser Bilddatendatei aufgezeichnete Bilddaten DV ausgegeben.
1-2. Verbindung mit dem Netzwerk
Die zentrale Verarbeitungseinheit 11 führt eine in 11 gezeigte Verarbeitungsprozedur aus, um das Elektronikhaustiergerät 1 durch die Netzwerkverbindungseinheit 17 mit dem Netzwerk 18 zu verbinden. Verbunden mit dem Netzwerk 18 ist das Elektronikhaustiergerät 1 zu einer Übertragung der Physischzustandsdaten 16B, der Emotionsdaten 16C und der Konversationshistorie 16F mittels des Netzwerks 18 zu einer gewünschten Einrichtung fähig. Die vom Elektronikhaustiergerät 1 solche Daten empfangende Einrichtung ist zu einer Wiedergabe des elektronischen Haustiers des Elektronikhaustiergeräts 1 fähig. Auf diese Weise kann das elektronische Haustier in unterschiedliche Umgebungen herausgenommen werden.
Im Gegensatz dazu ist die zentrale Verarbeitungseinheit 11 zu einer Erfassung von Physischzustandsdaten 16B, Emotionsdaten 16C und einer Konversationshistorie 16F vom Netzwerk 18 fähig, was einem in ein anderes Elektronikhaustiergerät erhobenen Elektronikhaustier ermöglicht, aus diesem Elektronikhaustiergerät gebracht zu werden. In diesem Fall sind die funktionellen Blöcke des Elektronikhaustiergeräts 1 zu einer Ausführung der Verarbeitung auf Basis der ursprünglichen Physischzustandsdaten 16B, der ursprünglichen Emotionsdaten 16C und der ursprünglichen Konversationshistorie 16F fähig, um sein durch sich selbst erhobenes elektronisches Haustier parallel zur Verarbeitung auf Basis der Physischzustandsdaten 16B, der Emotionsdaten 16C und der Konversationshistorie 16F, die vom anderen Elektronikgerät durch das Netzwerk 18 importiert werden, zu emulieren, um ein in das andere Elektronikgerät erhobenes elektronisches Haustier zur Erzeugung von Antworten, wie wenn das andere elektronische Haustier dieses Elektronikhaustiergerät 1 besuchen würde, zu emulieren. Es sei darauf hingewiesen, dass bei den in 1 gezeigten funktionellen Blöcke Flüsse von Daten bei der Verarbeitung auf Basis der Physischzustandsdaten 16B, der Emotionsdaten 16C und der Konversationshistorie 16F die vom anderen Elektronikgerät durch das Netzwerk 18 erfasst werden, nicht gezeigt sind.
Die Elektronikhaustiereinheit 1 ist auch zu einer Erfassung von Erkennungsdaten 16A, Musterdaten 16E, einer Wissensbank 16G, von Sprachdaten 16H und Bilddaten 16I vom Netzwerk 18 zur Erhöhung der Größe des Vokabulars gesprochener Wörter, die vom sogenannten elektronischen Haustier erkannt werden können, und zur Erhöhung der Anzahl von Antworttypen fähig. Als ein Resultat ist das Elektronikhaustiergerät 1 zu einem Erziehen des elektronischen Haustiers und ihm etwas Beibringen fähig.
Wie in 11 gezeigt beginnt die Prozedur mit einem Schritt SP1. In Reaktion auf eine Anforderung zu einer Verbindung geht der Fluss der Prozedur zu einem Schritt SP2, bei dem die zentrale Verarbeitungseinheit 11 die Anforderung akzeptiert. Es sei darauf hingewiesen, dass solche Anforderungen zu einer Verbindung vom Zeitgeber 11B in festen Intervallen periodisch erzeugt werden. Außerdem kann eine Anforderung zu einer Verbindung vom Benutzer durch Bedienung eines Operators gemacht werden. Überdies kann eine Verbindung auch in Reaktion auf einen ankommenden Anruf vom Netzwerk hergestellt werden.
Der Fluss der Prozedur geht dann zu einem Schritt SP3 weiter, bei dem die zentrale Verarbeitungseinheit 11 eine Kommunikation durch Ausführung einer vorbestimmten Leitungsverbindungsverarbeitung herstellt. Dann geht der Fluss der Prozedur zu einem Schritt SP4 weiter, bei dem die zentrale Verarbeitungseinheit 11 unterschiedliche Arten von Daten, die von der Substanz der Anforderung zur Verbindung mit einem Kommunikationspartner abhängt, austauscht. Danach geht der Fluss der Prozedur zu einem Schritt SP5 weiter, bei dem die zentrale Verarbeitungseinheit die Kommunikation unterbricht. Schließlich geht der Fluss der Verarbeitung zu einem Schritt SP6 weiter, bei dem die zentrale Verarbeitungseinheit 11 die Verarbeitungsprozedur beendet.
12 ist eine schematische Darstellung, die das Format von übertragenen Daten zeigt. Das Elektronikhaustiergerät 1 tauscht Daten mit einem Kommunikationspartner mittels einer in der Netzwerkverbindungseinheit 17 untergebrachten Schnittstelle und einer Schnittstelle im Kommunikationspartner entsprechend dem Format aus. Wie in der Figur gezeigt weist jedes Stück von Daten DT einen Header zur Beschreibung von Information wie beispielsweise der Adresse und des Typs der Daten DT auf. Typischerweise weisen die Daten DT Musterdaten 16E, Erkennungsdaten 16A, Sprachdaten 16H, Bilddaten 16I usw. auf, die wie es notwendig ist sequentiell angeordnet sind.
1-3. Katalogisierung von Erkennungsdaten
13 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei einer Operation zum Katalogisieren von Erkennungsdaten 16A detaillierter zeigt. Bei diesem funktionellen Blockdiagramm katalogisiert ein Katalogisierungsmodul 111 ein Resultat einer Spracherkennung als Erkennungsdaten 16A. Auf diese Weise ist es möglich, dem elektronischen Haustier unterschiedliche Wörter ohne Eingabe der Wörter über eine Eingabeeinheit wie beispielsweise eine Tastatur oral beizubringen.
Um das oben beschriebene Vorhaben auszuführen, verarbeitet das Spracherkennungsmodul 11A Sprachdaten DA durch Annahme des HMM-Verfahrens, das eine Reihe von Phonemen als ein Resultat der Spracherkennung ausgibt. Um ins Detail zu gehen wird eine in der japanischen Sprache ausgedrückte Sprache analysiert, um ihre Phoneme zu identifizieren, die jeweils durch einen Identifizierer angezeigt werden. Infolgedessen kann eine Betonung in der japanischen Sprache durch ein Array von Identifizierern ausgedrückt werden. Die Identifizierer werden wie folgt aufgelistet: ’b’, ,d’, ,g’, ,p’, ,t’, ,k’, ,m’, ,n’, ,r’, ,z’, ,ch’, ,ts’, ,y’, ,w’, ,i’, ,e’, ,a’, ,o’, ,u’, ,N’, ,ei’, ,ou’, ,s’, ,sh’, ,xy’, ,j’, ,f’ und ,sil’. Das Phonem ,sil’ ist tonlos.
Wenn der Benutzer beispielsweise „mikan" (in deutsch „Orangen") als eine Eingabe sagt, erkennt das Spracherkennungsmodul 11A die eingegebene Sprache als eine Reihe von Phonemen, die durch die Identifizierer „sil m i k a N sil" ausgedrückt sind. Das Spracherkennungsmodul 11A verarbeitet sequentiell die ihm auch sequentiell zugeführten Sprachdaten DA, um ihre Phoneme zu identifizieren. Erkennungsresultate werden dann entsprechend einer in 14 gezeigten Syntax verarbeitet, um eine Reihe von Phonemen zu detektieren, die durch eine Reihe von Identifiziern dargestellt sind. Es sei darauf hingewiesen, dass die in 14 gezeigte Syntax eine Syntax ist, die erlaubte Verbindungen aller oben aufgelisteten Phoneme anzeigt.
Bei einem normalen Operationsmodus sucht das Videoerkennungsmodul 11A die Erkennungsdaten 16A für Textdaten, die ein Wort oder einen Satz aufweisen, das bzw. der als ein mit einem Array aus auf diese Weise detektierten Identifizierern korrespondierendes Suchresultat erhalten wird, wobei die Textdaten als Erkennungsresultat ausgegeben werden. Wenn infolgedessen bei dieser Ausführungsform vom Benutzer in den Erkennungsdaten 16A ein nicht katalogisiertes Wort als eine Spracheingabe empfangen wird, ist es schwierig, Textdaten zu erzeugen, und es ist folglich schwer, einer vom Benutzer gegebenen eingegebenen Sprache eine korrekte Antwort zu geben.
Um dieses Problem zu lösen wird das durch diese Ausführungsform implementierte Elektronikhaustiergerät 1 mit dem Netzwerk 18 durch die Netzwerkverbindungseinheit 17 verbunden, die zu einem Herunterladen von Erkennungsdaten 16A vom Netzwerk 18 fähig ist. Auf diese Weise werden die heruntergeladenen Erkennungsdaten 16A dem elektronischen Haustier beigebracht, so dass das elektronische Haustier zum Geben von Antworten auf unterschiedliche Äußerungen fähig ist.
Außerdem führt bei dieser Ausführungsform die zentrale Verarbeitungseinheit 11 eine in 15 gezeigte Verarbeitungsprozedur aus, wenn vom Benutzer ein Katalogmodus ausgewählt wird. Während der Ausführung der Verarbeitungsprozedur wird der Benutzer aufgefordert, den Bestätigungsoperator 4A und den Beseitigungsoperator 4B wie unten beschrieben zu betätigen. Die Prozedur wird zum Katalogisieren eines vom Benutzer gesagten Worts in den Erkennungsdaten 16A ausgeführt.
Wie in 15 gezeigt beginnt die Prozedur mit einem Schritt SP11. Wenn ein vorbestimmter Operator betätigt wird, geht der Fluss der Prozedur zu einem Schritt SP12, um einen Katalogmodus einzugeben, bei dem die zentrale Verarbeitungseinheit 11 das Bildsynthesemodul 11G ausführt, um eine vorbestimmte Mitteilung auf der Flüssigkristallanzeigeplatte 3 anzuzeigen. Die Mitteilung fordert den Benutzer auf, ein Wort auszusprechen.
Dann geht der Fluss der Prozedur zu einem Schritt SP14, bei dem die zentrale Verarbeitungseinheit 11 bei den sequentiell empfangenen Sprachdaten DA eine Spracherkennung ausführt, welche die Daten DA sequentiell als eine Reihe von Phonemen identifiziert. Wenn der Benutzer einen vorbestimmten Operator betätigt, um die Spracheingabe zu beenden, geht der Fluss der Prozedur zu einem Schritt SP15.
Beim Schritt SP15 führt die zentrale Verarbeitungseinheit 11 das Sprachsynthesemodul 11F entsprechend der als ein Resultat der Spracherkennung erhaltenen Reihe von Phonemen aus, um die vom Benutzer empfangene Sprache wiederzugeben. Auf diese Weise kann das Resultat der Spracherkennung dem Benutzer präsentiert werden. Es sei angenommen, dass der Benutzer das Wort „mikan" sagt. In diesem Fall erzeugt die zentrale Verarbeitungseinheit 11 das Phonemarray ,sil m i k a N sil’ als ein Resultat der Spracherkennung, und das Sprachsynthesemodul 11F erzeugt eine „Is it a mikan? (ist es eine Orange?)" sagende akustische Äußerung. Der Fluss der Prozedur geht dann weiter zu einem Schritt SP16, bei dem die zentrale Verarbeitungseinheit 11 ein vom Benutzer durch Betätigung des Bestätigungsoperators 4A oder des Beseitigungsoperators 4B in Reaktion auf die erzeugte akustische Frageäußerung eingegebenes Signal akzeptiert.
Der Fluss der Prozedur geht dann zu einem Schritt SP17 weiter, bei dem die zentrale Verarbeitungseinheit 11 eine Entscheidung darüber trifft, ob der Bestätigungsoperator 4A oder der Beseitigungsoperator 4B vom Benutzer betätigt worden ist. Wenn vom Benutzer der Beseitigungsoperator 4B betätigt worden ist, bestimmt die zentrale Verarbeitungseinheit 11, dass das Resultat der dem Benutzer präsentierten Spracherkennung dementiert worden ist. In diesem Fall geht der Fluss der Prozedur zum Schritt SP13 zurück, um die Spracheingabe wieder zu akzeptieren. Wenn vom Benutzer der Beseitigungsoperator 4B betätigt worden ist, bestimmt andererseits die zentrale Verarbeitungseinheit 11, dass das dem Benutzer präsentierte Resultat der Spracherkennung akzeptiert worden ist. In diesem Fall geht der Fluss der Prozedur weiter zu einem Schritt SP18.
Beim Schritt SP18 führt die zentrale Verarbeitungseinheit 11 wieder das Bildsynthesemodul 11G aus, um auf der Flüssigkristallanzeigeplatte 3 eine vorbestimmte Mitteilung anzuzeigen. Die Mitteilung fordert den Benutzer auf, ein Attribut für das früher als eine Spracheingabe gesagte Wort zu sagen. Ein Attribut ist ein Schlüsselwort, das die Eigenschaft eines von einem Wort identifizierten Objekts zeigt. Ein Attribut wird zur Klassifizierung eines Objekts benutzt. Im Fall beispielsweise des Worts „mikan" wird vom Benutzer das Attribut „fruit (Frucht)" gesagt, um die Kategorie des Worts „mikan" zu bestimmen.
Der Fluss der Prozedur geht dann zu einem Schritt SP19 weiter, bei dem die zentrale Verarbeitungseinheit 11 bei den sequentiell empfangenen Sprachdaten DA eine Spracherkennung ausführt, welche die Daten DA sequentiell als eine Reihe von Phonemen identifiziert. Wenn der Benutzer einen vorbestimmten Operator betätigt, um die Spracheingabe zu beenden, geht der Fluss der Prozedur weiter zu einem Schritt SP20.
Beim Schritt SP20 führt die zentrale Verarbeitungseinheit 11 das Sprachsynthesemodul 11F entsprechend der als ein Resultat der Spracherkennung erhaltenen Reihe von Phonemen aus, um die vom Benutzer empfangene Sprache wiederzugeben. Auf diese Weise kann das Resultat der bezüglich des Attributs ausgeführten Spracherkennung dem Benutzer präsentiert werden. Es sei angenommen, dass der Benutzer nach einem Sagen des Worts „mikan" das Wort „fruit" als ein Attribut sagt. In diesem Fall erzeugt das Sprachsynthesemodul 11F eine „Is it a fruit? (ist es eine Frucht?)" sagende akustische Äußerung. Der Fluss der Prozedur geht dann weiter zu einem Schritt SP21, bei dem die zentrale Verarbeitungseinheit 11 ein vom Benutzer durch Betätigung des Bestätigungsoperators 4A oder des Beseitigungsoperators 4B eingegebenes Signal in Reaktion auf die erzeugte akustische Frageäußerung akzeptiert.
Der Fluss der Prozedur geht dann zu einem Schritt SP22 weiter, bei dem die zentrale Verarbeitungseinheit 11 eine Entscheidung darüber trifft, ob der Bestätigungsoperator 4A oder der Beseitigungsoperator 4B vom Benutzer betätigt worden ist. Wenn vom Benutzer der Beseitigungsoperator 4B betätigt worden ist, stellt die zentrale Verarbeitungseinheit 11 fest, dass das Resultat der dem Benutzer präsentierten Spracherkennung dementiert worden ist. In diesem Fall geht der Fluss der Prozedur zurück zum Schritt SP18, um wieder eine Spracheingabe zu akzeptieren. Wenn vom Benutzer der Bestätigungsoperator 4A betätigt worden ist, stellt andererseits die zentrale Verarbeitungseinheit 11 fest, dass das Resultat der dem Benutzer präsentierten Spracherkennung akzeptiert worden ist. In diesem Fall geht der Fluss der Prozedur zu einem Schritt SP23 weiter.
Beim Schritt SP23 katalogisiert die zentrale Verarbeitungseinheit 11 das Wort ,mikan’ in den Erkennungsdaten 16A und das Attribut ,fruit’ in der Wissensbank 16G.
Der Fluss der Prozedur geht dann zu einem Schritt SP24 weiter, um die ganze Verarbeitung zu beenden.
In der Wissensbank 16G sind Attribute wie beispielsweise das Wort ,fruit’ und das Wort ,drink (Getränk)’ aufgezeichnet, welche die Klassifikation von Wörtern und Sätzen zeigen, die in den Erkennungsdaten 16A katalogisiert sind. Musterdaten 16E sind auch aufgezeichnete Attribute, welche die zentrale Verarbeitungseinheit 11 dazu fähig macht, dass der Benutzer zum Beispiel der Frage „What food do you like? (welche Nahrung magst du?)" stellt. In Reaktion auf diese Frage kann der Benutzer antworten „I like mikan (ich mag Organgen)". Dann macht die zentrale Verarbeitungseinheit 11 in Reaktion auf die vom Benutzer gegebene Antwort beispielsweise die Bemerkung „I don't like mikan (ich mag keine Organgen)".
Zusätzliche zu Attributen umfasst die Wissensbank 16G auch den Namen und Favoriten des Halters oder des Eigentümers des Elektronikhaustiergeräts 1 sowie unterschiedliche Arten von Daten wie beispielsweise eine vom Netzwerk 18 empfangene Wettervorhersage. Wenn notwendig können diese Daten bei einer Konversation mit dem Benutzer benutzt werden. Wenn der Benutzer beispielsweise die Frage stellt „What is today's weather forecast? (wie ist die heutige Wettervorhersage?)" ist das Elektronikhaustiergerät 1 zum Geben der Antwort „A clear weather (klares Wetter)" in Übereinstimmung mit einer die Wörter ,today (heute)’ und ,weather (wetter)’ als Schlüsselsätze benutzenden vorbestimmten Regel fähig.
Bei einer Operation zur Katalogisierung einer Spracheingabe in den Erkennungsdaten 16A bei dem wie oben beschriebenen Elektronikhaustiergerät 1 muss ein korrekter Text für die Spracheingabe verifiziert werden, der nicht schon in den Erkennungsdaten existiert. Bei dem obigen Beispiel ist der korrekte Text ein das Wort „mikan" beschreibender Text. Als ein Resultat einer Spracherkennung erhaltene Textdaten sind ein Array aus alphabetischen Marken oder ein Array aus Identifizierern, das eine Reihe von Phonemen darstellt, die ein Wort oder einen Satz, das bzw. der vom Benutzer als eine Spracheingabe eingegeben wird, darstellt. Bei dem obigen Beispiel besteht das Array aus alphabetischen Marken aus ,sil m i k a N sil’, das ein Wort oder einen Satz beschreibt, das bzw. der in den Erkennungsdaten 16A zu katalogisieren ist. Wenn notwendig kann auch ein vom Netzwerk 18 heruntergeladener Text in den Erkennungsdaten 16A katalogisiert werden. Mit einem solchen in den Erkennungsdaten 16A katalogisierten Text kann von einem aufgezeichneten Text anstelle von mit einer als ein Resultat der Spracherkennung erhaltenen Reihe von Phonemen korrespondierenden Identifizierern eine Antwort erzeugt werden.
Im Elektronikhaustiergerät 1 werden Erkennungsdaten 16A eines Worts oder eines Satzes, das bzw. der als ein Resultat der Erkennung einer Spracheingabe katalogisiert ist, in der gleichen Weise wie Erkennungsdaten 16A eines Worts oder eines Satzes, das bzw. der vom Netzwerk 18 heruntergeladen wird, und Erkennungsdaten 16A eines Worts oder eines Satzes, das bzw. der im Voraus katalogisiert wird, verarbeitet, was ermöglicht, dass eine Konversation mit dem Benutzer beibehalten werden kann.
1-4. Benutzerauthentisierung
16 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei einer Operation zur Authentisierung des Benutzers detaillierter zeigt. Bei diesem funktionellen Blockdiagramm weisen Authentisierungsdaten 16K einen im Voraus aufgezeichneten Benutzernamen auf. Es sei darauf hingewiesen, dass der Benutzername als ein Resultat der Spracherkennung aufgezeichnet ist. Anstelle eines Erhaltens des Benutzernamens als ein Resultat einer Spracherkennung kann der Benutzername über die Tastatur eines externen Geräts bei einer anfänglichen Einstellungsverarbeitung, die typischerweise ausgeführt wird, wenn das Elektronikhaustiergerät 1 gekauft wird, eingegeben werden.
Das Antwortsatz-Erzeugungsmodul 11E erwidert in Reaktion auf einen „Gao" sagenden Schlüsselsatz entsprechend der in 17 gezeigten Regel 1 der Musterdaten 16E beispielsweise eine „Are you realiy the master? (sind sie wirklich der Meister?)" sagende Antwort.
Entsprechend Regel 2 setzt ein Sprachauthentisierungsmodul 11J einen Booleschen Wert von ,authentisiert’ auf „TRUE" (in Regel 2 als ,set authenticated (TRUE)(setze_authentisiert (WAHR))’, wenn die folgenden zwei Bedingungen erfüllt sind: ein Schlüsselsatz ,$USER ($Benutzer)’, der als Benutzername definiert und im Voraus katalogisiert ist, wird als eine Spracheingabe eingegeben, und eine den „Are you really the master?" sagenden Satz aufweisende Antwort wird vom Antwortsatzerzeugungsmodus 11E unmittelbar vor der Spracheingabe ,$USER’ als myLastUtter (meine letzte Äußerung) erzeugt.
Es sei darauf hingewiesen, dass die oben genannte Funktion set authenticated (TRUE) den Booleschen Wert von ,authenticated (authentisiert)’ auf TRUE setzt.
Um ins Detail zu gehen, sucht das Spracherkennungsmodul 11J die Authentisierungsdaten 16K für einen zu einem Erkennungsresultat der Spracheingabe passenden Benutzernamen. Wenn bei der Suche ein solcher Name gefunden wird, wird eine die Spracheingabe eingebende Person als der Benutzer authentisiert, und bei einem authentisierten Benutzerzustand wird ein Authentisiertzustand 16J gesetzt. Wenn andererseits bei der Suche ein solcher Name nicht gefunden wird, wird eine die Spracheingabe eingebende Person nicht als der Benutzer authentisiert, und der Authentisiertzustand 16J wird auf einen nicht authentisierten Benutzerzustand gesetzt.
Wenn der Benutzer authentisiert ist, erzeugt das Antwortsatz-Erzeugungsmodul 11E entsprechend Regel 2 eine „yes, you are the master (ja, sie sind der Meister)" sagende Antwort.
Wie oben beschrieben ist das Elektronikhaustiergerät 1, wie in 8 gezeigt, zu einer Authentisierung eines Benutzers auf der Basis einer Spracheingabe und Geben dem Eigentümer eine von einer einem Benutzer anders als der Eigentümer unterschiedlichen Antwort fähig. Generell zeigt das elektronische Haustier typischerweise ein Verhalten speziell für den Eigentümeran, so wie es ein tatsächliches Haustier tut.
Wie oben beschrieben wird ein Benutzer durch Vergleichen einer Spracheingabe mit einem im Voraus katalogisierten Wort authentisiert.
Zusätzlich zum Namen des authentisierten Benutzers kann das Spracherkennungsmodul 11J auch das Antwortsatz-Erzeugungsmodul 11E auffordern, eine Antwort auszugeben, die wie in 18 gezeigt eine Frage bezüglich des Favoriten oder Hobbys (Steckenpferd) des Benutzers stellt, die bei einer Konversation mit dem als der Eigentümer authentisierten Benutzer aufzuzeichnen ist. Bei dem in der Figur gezeigten Beispiel sagt die eine Frage stellende Antwort: „What is your favorite food, master? (was ist ihre favorisierte Nahrung, Meister?)". Diese Frage fragt nach der favorisierten Nahrung des Spracherzeugers, der als der Eigentümer authentisiert worden ist.
Als Antwort auf diese Frage sagt der Benutzer wie in 18 gezeigt „Peanuts (Erdnüsse)". Das Wort „Peanuts" wird einem Spracherkennungsprozess im Spracherkennungsmodul 11J unterworfen und wie in 17 gezeigt in der gleichen Weise wie Regel 2 verarbeitet, um durch die Spracheingabe des Benutzers eine Antwort auf die Frage über einen Favoriten zu entscheiden. Das Wort „Peanuts" wird dann in den Authentisierungsdaten 16K katalogisiert.
Während einer Konversation mit einer eine Spracheingabe eingebenden Person erzeugt das Antwortsatz-Erzeugungsmodul 11E eine Frage bezüglich eines Favoriten, eines Hobbys oder dgl., die wie eine in 19 gezeigte im Voraus in den Authentisierungsdaten 16K katalogisiert wird, wenn sie vom Zeitgeber 11B gefragt wird. Im Fall des wie in 18 gezeigt in den Authentisierungsdaten 16K katalogisierten Favoriten „food" beispielsweise erzeugt das Antwortsatz-Erzeugungsmodul 11E wie in 19 gezeigt die Frage „Are you really the master? What is your favorite food? (sind sie wirklich der Meister? Was ist ihre favorisierte Nahrung?)".
Das Spracherkennungsmodul 11J stellt fest, ob eine vom Benutzer in Reaktion auf die Frage über die favorisierte Nahrung durch Ausführen der gleichen Verarbeitung wie der früher anhand der 17 erläuterten einen entsprechend Regel 2 gegebene Spracheingabe wahr (true) ist oder nicht. Da der Benutzer in diesem Fall der Eigentümer ist, wird die Spracheingabeantwort „Peanuts" erhalten. Aus einem Spracherkennungsresultat dieser Antwort wird bei einem Booleschen Wert „TRUE" ein Authentisierungszustand gesetzt. Außerdem erzeugt das Antwortsatz-Erzeugungsmodul 11E die Antwort „You are really my master! (sie sind wirklich mein Meister!)".
Auf diese Weise ist das Elektronikhaustiergerät 1 zum Treffen einer Entscheidung über ein Spracherkennungsresultat auf Basis eines in der Vergangenheit erhaltenen Spracherkennungsresultats fähig. Um ins Detail zu gehen ist das Elektronikhaustiergerät 1 zur zum Stellen einer Frage über ein in der Vergangenheit erhaltenes Spracherkennungsresultat in Reaktion auf die Eingabe eines Benutzers während einer Konversation mit dem Benutzer und treffen einer Entscheidung bezüglich eines Spracherkennungsresultats einer in Reaktion auf die Frage zum Authentisieren des Benutzers gegebenen anderen Spracheingabe fähig.
Wenn außerdem der Benutzer in Reaktion auf eine von dem vom Zeitgeber 11B getriggerten Antwortsatz-Erzeugungsmodul 11E gestellte Frage keine Spracheingabe gibt, nimmt auch, nachdem eine vorbestimmte Zeitperiode vergangen ist, das Spracherkennungsmodul 11J an, dass der Benutzer Operationen des Elektronikhaustiergeräts 1 typischerweise beendet hat, wobei der Authentisierungszustand zurückgesetzt wird.
1-5. Verarbeitung zum Klassifizieren von Konversationen
20 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei einer Verarbeitung zur Klassifikation von Konversationen detaillierter zeigt. Bei diesem funktionellen Blockdiagramm identifiziert ein Wort/Satz-Klassifikationsmodul 11M ein Spracherkennungsresultat zur Klassifikation von als Spracheingabe eingegebenen Konversationen in Übereinstimmung mit einer vorbestimmten Klassifikationsregel 16M, wobei ein Klassifikationscode an das Antwortsatz-Erzeugungsmodul 11E als ein Klassifikationsresultat ausgegeben wird.
Beispielsweise klassifiziert das Wort/Satz-Klassifikationsmodul 11M Spracheingaben von generell „greetings (Grüße)" wie beispielsweise „Good morning (guten Morgen)" und „Good day (guten Tag)" in einer „Greeting (Gruß)"-Kategorie. Spracheingaben von Fragen wie beispielsweise „How are you? (wie geht es ihnen?)" und „What do you like? (was mögen sie?)" werden in einer „Inquiry (Frage)"-Kategorie klassifiziert. Spracheingaben von Eindrücken wie beispielsweise „I am fine (mit geht es gut)" und „Bored (gelangweilt)" werden in einer „Impression (Eindruck)"-Kategorie klassifiziert.
Bei einer Operation zum Erzeugen eines Antwortsatzes entsprechend den Musterdaten 16E bildet das Antwortsatz-Erzeugungsmodul 11E eine Antwort entsprechend in den Musterdaten 16E aufgezeichneten Antwortsatzkategorien und einem vom Wort/Satz-Klassifikationsmodul 11M klassifizierten Kategoriemuster. Außerdem wird auch entsprechend vergangenen Konversationsaufzeichnungen, die in der Konversationshistorie 16F gespeichert sind, eine Antwort erzeugt.
Die Musterdaten 16E umfassen wie in 21 gezeigt Regeln, denen bei einer Klassifikation von Antwortsätzen zu folgen ist. Die Regeln weisen die gleiche Vergleichssyntax wie die in 8 gezeigten Regeln auf. Es sei darauf hingewiesen, dass die in 21 gezeigten Klassifikationsregeln zu einer Klassifikation gesetzt sind, die vom Wort/Satz-Klassifikationsmodul 11M auszuführen ist.
Gemäß der in 21 gezeigten Regel 1 werden die „I love you too" und „Wow, i am male though" sagenden Sätze in einer „State (Zustand)"-Kategorie klassifiziert, wird der „A strange Person" sagende Satz in der „Impression"-Kategorie klassifiziert und ein „Who are you?" sagender Satz in der „Query (Frage)"-Kategorie klassifiziert. Gemäß Regel 2 wird ein „Shut up" sagender Satz in der „Impression"-Kategorie, ein „What?" sagender Satz in der „Query" Kategorie klassifiziert, ein „Howdy" sagender Satz in der „Greeting (Gruß)"-Kategorie klassifiziert und ein „I am surprised" sagender Satz in der „Impression"-Kategorie klassifiziert, ein „Hi" sagender Satz in der „Greeting"-Kategorie klassifiziert und ein „Did you call me?" sagender Satz in der „Query"-Kategorie klassifiziert.
Außerdem beschreiben die Musterdaten 16E auch eine Art von Einschränkung, die verhindert, dass eine Konversation aufeinanderfolgende spezifische Kategorien aufweist. Um Konkret zu sein wird die Einschränkung so gesetzt, dass in Reaktion auf eine von einem Benutzer gestellte Frage keine Frage erwidert werden soll. Außerdem soll, nachdem zwischen dem Elektronikhaustiergerät 1 und dem Benutzer zwei aufeinanderfolgende „greetings" ausgetauscht sind, das Elektronikhaustiergerät 1 nicht wieder ein „greeting" ausgeben, wie es bei einer am Boden der 21 gezeigten Einschränkung stipuliert ist.
Eine in 22 oder 23 gezeigte Konversationshistorie 16F wird vom Antwortsatz-Erzeugungsmodul 11E zum Aufzeichnen einer Konversation zwischen dem elektronischem Haustier und dem Benutzer hergestellt. Wie in den Figuren gezeigt weist eine Historie eine Aktionspartei bzw. einen Aktor (Partei, die eine Aktion macht), der eine Sprache erzeugt, die Kategorie der Sprache und die Inhalte der Sprache auf. Die in 22 gezeigte Historie beschreibt den Benutzer als eine Erstaktionspartei (Partei, die eine erste Aktion macht), die „Greeting"-Kategorie als einen Typ der von der Erstaktionspartei erzeugten Sprache und einen „Good day" sagenden Satz der „Greeting"-Kategorie als Inhalte der von der die Erstaktionspartei erzeugten Sprache. Auf den Benutzer folgt das elektronische Haustier als eine Zweitaktionspartei (Partei, die eine zweite Aktion macht). Der Typ der von der Zweitaktionspartei erzeugten Sprache ist auch die „Greeting"-Kategorie, und die Inhalte der von der die Erstaktionspartei erzeugten Sprache sind ein „Hi" sagender Satz. Auf das elektronische Haustier folgt der Benutzer als eine Drittaktionspartei (Partei, die eine dritte Aktion macht). Der Typ der von der Drittaktionspartei erzeugten Sprache ist die „Query"-Kategorie, und die Inhalte der von der Drittaktionspartei erzeugten Sprache sind ein „How are you doing (wie geht es ihnen)" sagender Satz. Auf den Benutzer folgt das elektronische Haustier als eine Viertaktionspartei (Partei, die eine vierte Aktion macht). Der Typ der von der Viertaktionspartei erzeugten Sprache ist die „State"-Kategorie, und die Inhalte der von der die Viertaktionspartei erzeugten Sprache sind ein „I am fine" sagender Satz.
Wenn das Antwortsatz-Erzeugungsmodul 11E eine Antwort entsprechend den Musterdaten E und auf der Basis der Emotionsdaten 16C erzeugt, wird eine Konversationshistorie 16F als eine Referenz benutzt, und in den Musterdaten 16E vorgeschriebene Einschränkungen werden beibehalten. Beispielsweise soll, nachdem zwischen dem Elektronikhaustiergerät 1 und dem Benutzer zwei aufeinanderfolgende „greetings" ausgetauscht sind, das Antwortsatz-Erzeugungsmodul 11E, gerade nachdem die zwei in der in 21 gezeigten aufeinanderfolgenden Einschränkung stipuliert sind, nicht wieder durch Anwenden von Regel 2 ein „greeting" ausgeben, selbst wenn der „Joy (Freude)"-Emotionsparameter unter den Emotionsvariablen einen größten Wert aufweist. Außerdem soll in Reaktion auf eine vom Benutzer gestellte „inquiry (Frage)" keine „inquiry" erwidert werden.
Durch Beibehalten der Einschränkung bezüglich der oben beschriebenen „greetings" ist es, selbst wenn eine erste Regel stipuliert, dass in Reaktion auf ein „greeting" ein „greeting" erwidert wird, und eine zweite Regel stipuliert, dass in Reaktion auf eine Anzahl von „inquiries (Fragen)" ein „greeting" erwidert werden soll, möglich, aufgrund einer wiederholten Anwendung der oben beschriebenen ersten und zweiten Regel eine unnatürliche Konversation zu vermeiden, die zwischen dem Benutzer und dem elektronischen Haustier eine Anzahl von Malen wiederholt ausgetauschte „greetings" aufweist.
24 ist ein funktionelles Blockdiagramm, welches das Elektronikhaustiergerät 1 bei der Ausführung einer Emotionssteuerung detaillierter zeigt. Bei diesem funktionellen Blockdiagramm wird vom früher beschriebenen Zeitgeber 11B ein Emotionsänderungsmodul 11D aktiviert, um die Zeichendaten 16D durch Benutzung eines Worts zu suchen, das in einem Spracherkennungsresultat als ein Schlüsselwort für mit dem Wort korrespondierende Varianzen enthalten ist, und es aktualisiert die Emotionsdaten 16C durch Benutzung der bei der Suche gefundenen Varianzen.
Bei dieser Verarbeitung zeichnet das Emotionsänderungsmodul 11D auf: Änderungen von Variablen, welche die Emotionsdaten 16C zusammensetzen, Textdaten, die als ein Spracherkennungsresultat der Eingaben des Benutzers erhalten werden, und Schlüsselwörter, deren jedes in den Textdaten enthalten ist und zu einer Suche der Zeichendaten 16D für die Änderungen als eine Emotionsänderungshistorie 16N wie die in 25 gezeigte eine benutzt werden. Außerdem wird mit einem vorbestimmten Timing (Zeitsteuerung), typischerweise nachdem eine Antwort ausgegeben worden ist, die Emotionsänderungshistorie 16N nach einem bei Benutzereingaben in Verbindung mit einem Schlüsselwort häufig benutzten Wort gesucht. Wenn ein solches Wort gefunden wird, wird wie in 26 gezeigt das Wort in den Zeichendaten 16D als ein neues Schlüsselwort katalogisiert. Die in 26 gezeigten Zeichendaten 16D werden durch Katalogisierung eines neuen Schlüsselworts in den in 6 gezeigten Zeichendaten 16D erhalten. Durch Katalogisierung dieses Worts in den Zeichendaten 16D als ein neues Schlüsselwort können die Variablen der Emotionsdaten 16C aktualisiert werden, selbst wenn dieses Wort in der gleichen Weise wie die anderen Schlüsselwörter alleine eingegeben wird.
Es sei beispielsweise angenommen, dass der in 25 gezeigte Satz „curry bread (Currybrot)" bei Benutzereingaben in Verbindung mit dem Schlüsselwort „dirty (schmutzig)" mit Änderungen der Variablen der Emotionsdaten 16A eine Anzahl von Malen benutzt wird, die einen vorbestimmten Wert überschreitet. In diesem Fall katalogisiert das Emotionsänderungsmodul 11D den Satz „curry bread" in den Zeichendaten 16D als ein in 26 gezeigtes neues Schlüsselwort. Wie in 26 gezeigt werden die Variablen der Emotionsdaten 16C durch Benutzung der gleichen Änderungen wie das Schlüsselwort „dirty" aktualisiert, selbst wenn nur dieser Satz „curry bread" eingegeben wird.
Als ein Resultat stellt das Elektronikhaustiergerät 1 eine Anzahl unterschiedlicher Parameter und Variablen so ein, dass durch die sogenannte assoziative Information eine spezifische Emotion resultiert, und es folglich zur Erzeugung einer Antwort auf Basis der resultierenden Emotion fähig ist.
Wenn außerdem das Emotionsänderungsmodul 11D wie oben beschrieben die Emotionsänderungshistorie 16N mit dem vorbestimmten Timing absucht, wird auch die Häufigkeit einer Benutzung jedes Schlüsselworts zu einer Änderung der Variablen der Emotionsdaten 16C ebenso herausgefunden. Wenn gefunden wird, dass wie in 27 gezeigt die Häufigkeit der Benutzung eines Schlüsselworts größer als ein vorbestimmter Wert ist, reduziert das Emotionsänderungsmodul 11D die absoluten Werte der Variationen in den Zeichendaten 16D für das Schlüsselwort von den in 6 gezeigten originalen Werten. Bei der in 27 gezeigten Emotionsänderungshistorie 16N wird beispielsweise das Schlüsselwort „dirty" häufig benutzt. Infolgedessen werden die Variationen in sechs Variablen, das heißt den Emotionsparametern „anger", „sadness", „joy", „fear", „surprise" und „hatred" in den Zeichendaten 16D für das Schlüsselwort „dirty" um –1, –1, +2, +1, –1 bzw. –4 geändert.
Auf diese Weise ist das Elektronikhaustiergerät 1 zur Bildung des sogenannten Gewöhnungsgefühls (sense of accustoming) fähig.
Wenn die Häufigkeit der Benutzung eines Schlüsselworts der Zeichendaten 16D in Spracheingaben niedriger wird, eliminiert andererseits das Emotionsänderungsmodul 11D das bei Spracheingaben benutzte Schlüsselwort aus den Zeichendaten 16D. Wie oben beschrieben reduziert, wenn gefunden wird, dass die Häufigkeit der Benutzung eines Schlüsselworts größer als ein vorbestimmter Wert ist, das Emotionsänderungsmodul 11D die absoluten Werte der Variationen der Zeichendaten 16D für das Schlüsselwort. Wenn jedoch die Häufigkeit einer Benutzung des Schlüsselworts wieder abnimmt, werden die Variationen in ihren originalen Werten graduell wiederhergestellt.
Auf diese Weise ist das Elektronikhaustiergerät 1 zu einer Erzeugung des sogenannten Zustands des etwas Vergessens fähig.
1-7. Operation der ersten Ausführungsform
Bei der oben beschriebenen Konfiguration führt das bei dem in den 1 bis 3 gezeigten Elektronikhaustiergerät 1 angewendete Spracherkennungsmodul 11A bei einer von einem Benutzer über das Mikrofon 7 eingegebenen Spracheingabe unter einen Spracherkennungsprozess Benutzung des HMM-Verfahrens aus. Wie oben beschrieben ist das Spracherkennungsmodul 11A ein funktioneller Block, dessen Verarbeitung von der zentralen Verarbeitungseinheit 11 ausgeführt wird. Bei der Spracherkennungsverarbeitung wird eine Sprache zuerst in eine Reihe von Phonemen umgesetzt, die dann durch sich Beziehen auf die Erkennungsdaten 16A in Textdaten transformiert werden.
Beim Elektronikhaustiergerät 1 werden Textdaten, die als ein Resultat einer auf diese Weise ausgeführten Spracherkennung erhalten werden, dem Physischzustands-Änderungsmodul 11C zugeführt, der die fünf Elemente des gegenwärtigen physikalischen Zustands, das heißt die Parameter „fatigue", „hunger", „thirstiness", „sickness" und „sleepiness" der in 4 gezeigten Physischzustandsdaten 16B entsprechend einem in einer Spracheingabe enthaltenen Wort ändert. Wenn wie durch ein Resultat einer Spracherkennung angezeigt beispielsweise Nahrung (food) gegeben worden ist, wird der Parameter „hunger" erniedrigt, und wenn wie durch ein Resultat einer Spracherkennung angezeigt beispielsweise „drink" empfangen wird, wird der Parameter „thirstiness" erniedrigt.
Auf diese Weise ist das Elektronikhaustiergerät 1 zu einer Änderung des physischen Zustands durch eine vom Benutzer eingegebene Spracheingabe fähig. Außerdem können die fünf Parameter auch durch eine vom Physischzustands-Änderungsmodul 11C auf Basis des Zeitgebers 11B ausgeführte Verarbeitung graduell geändert werden. Infolgedessen wird beim Elektronikhaustiergerät 1 der in Form dieser Parameter ausgedrückte physische Zustand durch eine vom Benutzer eingegebene Spracheingabe modifiziert und ändert sich mit dem Ablauf der Zeit. Als ein Resultat wird durch Erzeugung einer Antwort auf Basis der fünf Parameter auf eine Spracheingabe der physische Zustand des elektronischen Haustiers in Reaktion auf die Spracheingabe reflektiert.
Außerdem wird das Spracherkennungsresultat auch dem Informationsänderungsmodul 11D zugeführt, der die in 5 gezeigten Emotionsdaten 16C entsprechend einem in einem Spracherkennungsresultat enthaltene Wort ändert. Änderungen in den Emotionsdaten 16C werden in Zeichendaten 16D beschrieben. Die sechs Variablen, welche die Emotion ausdrücken, werden entsprechend Schlüsselwörtern und den Zeichendaten 16D aktualisiert. Um ins Detail zu gehen sind Schlüsselwörter die Wörter zur Änderung von Emotionen des elektronischen Haustiers, während die Zeichendaten 16D wie in 6 gezeigt für unterschiedliche Schlüsselwörter das heißt in Spracheingaben enthaltene Wörter Variationen in die Emotion ausdrückenden 6 Variablen, das heißt den Parameter „anger", „sadness", „joy", „fear", „surprise" und „hatred" aufweisen. Das heißt die Emotion wird entsprechend einer vom Benutzer eingegebenen Spracheingabe geändert.
Auf diese Weise ändert das Elektronikhaustiergerät 1 die Emotion des elektronischen Haustiers entsprechend einer vom Benutzer gegebenen Spracheingabe. Da außerdem das Elektronikhaustiergerät 1 eine Antwort auf eine Spracheingabe entsprechend einem Erkennungsresultat der Spracheingabe auf der Basis der Physischzustandsdaten 16B und der Emotionsdaten 16C erzeugt, reflektiert die Antwort des elektronischen Haustiers den physischen Zustand und die Emotion des elektronischen Haustiers.
Um ins Detail zu gehen wird bei dem Elektronikhaustiergerät 1 ein Spracherkennungsresultat dem Antwortsatz-Erzeugungsmodul 11E zugeführt, der für das Spracherkennungsresultat entsprechend den in den Musterdaten 16E wie in 8 gezeigt beschriebenen Regeln einen Antwortsatz erzeugt. Um ins Detail zu gehen beschreiben bei dem Elektronischmustergerät 1 die Musterdaten 16E einen Antwortsatz für jeden in der Spracheingabe enthaltenen Schlüsselsatz. Das Antwortsatz-Erzeugungsmodul 11E sucht die Musterdaten 16E für einen mit dem als ein Spracherkennungsresultat erhaltenen Schlüsselsatz assoziierten Antwortsatz, wobei der Antwortsatz als ein Suchresultat ausgegeben wird.
Bei dem Elektronikhaustiergerät 1 wird eine mit dem Antwortsatz korrespondierende tatsächliche Antwort vom Sprachsynthesemodul 11F erzeugt und an den Lautsprecher 6 ausgegeben. Dateien, deren jede die Sprache für jede Antwort enthält, sind in 9 gezeigt. Andererseits wird ein mit der tatsächlichen Antwort assoziiertes Bild vom Bildsynthesemodul 11G erzeugt, um auf der Flüssigkristallanzeigeplatte 3 angezeigt zu werden. Dateien, deren jede das Bild für jede Antwort enthält, sind in 10 gezeigt. Auf diese Weise wird auf eine vom Benutzer eingegebene Spracheingabe dem Benutzer eine tatsächliche Antwort als eine Sprache und ein Bild präsentiert.
Da im Elektronikhaustiergerät 1 eine Antwort aus den Regeln zur Erzeugung unterschiedlicher Antworten entsprechend den Physischzustandsdaten 16B und den Emotionsdaten 16C aufweisenden Musterdaten 16E erzeugt wird, reflektiert die Antwort dem Benutzer den physischen Zustand und die Emotion des elektronischen Haustiers.
Bei der oben beschriebenen Verarbeitungssequenz ist das Elektronikhaustiergerät 1 zu einem Schalten der Operation in einen Katalogisierungsoperationsmodus in Übereinstimmung mit einem vom Benutzer ausgeführten vorbestimmten Operator fähig. In diesem Modus werden ein Wort und ein Satz, die bei einem Spracherkennungsprozess erkannt werden können, in den Erkennungsdaten 16A katalogisiert.
Um ins Detail zu gehen führt das Elektronikhaustiergerät 1, wenn eine ein zu katalogisierendes Wort oder dgl. darstellende Sprache vom Benutzer in diesem Katalogisierungsmodus als eine Eingabe empfangen wird, die gleiche Verarbeitung wie die bei dem in den 13 bis 15 gezeigten normalen Operationsmodus aus, um die Spracheingabe entsprechend der in 14 gezeigten Syntax in eine Reihe von Phonemen umzusetzen. Eine durch diese Reihe von Phonemen dargestellte Sprache wird dann vom Sprachsynthesemodul 11F erzeugt, um vom Benutzer bestätigt zu werden. Nachdem der Benutzer bestätigt, dass das Spracherkennungsresultat korrekt ist, gibt der Benutzer eine andere Spracheingabe ein, die das Attribut des bestätigten Worts oder dgl. darstellt.
Das Elektronikhaustiergerät 1 setzt auch die das Attribut darstellende Spracheingabe in eine Reihe von Phonemen um. Wenn eine von dieser Reihe von Phonemen erzeugte Sprache auch vom Benutzer bestätigt wird, wird die das früher eingegebene Wort oder dgl. darstellende Reihe von Phonemen in den Erkennungsdaten katalogisiert, wobei die Daten des Attributs in der Wissensbank 16G, die dem in den Erkennungsdaten 16A katalogisierten Wort oder dgl. zugeordnet ist, katalogisiert werden.
Wie oben beschrieben ist das Elektronikhaustiergerät 1 zu einer Katalogisierung von als eine Spracheingabe eingegebenen Wörtern und dgl. ohne Ausführung schwieriger Operationen an einer Eingabeeinheit wie beispielsweise einer Tastatur fähig, was ermöglicht, dass der Grad von Freiheit zum Benutzen des Geräts 1 entsprechend angehoben wird. Außerdem ist es möglich, das Wortvokabular größer zu machen, um das elektronische Haustier zu erziehen, wie wenn der Benutzer ein wirkliches Haustier tatsächlich trainieren würde. Als ein Resultat kann das elektronische Haustier zutraulich gemacht und entsprechend leicht zu einem sich Kennenlernen gebracht werden.
Wie oben beschrieben werden bei einem normalen Spracherkennungsprozess die Erkennungsdaten 16A nach Textdaten abgesucht, die mit einer Reihe von Phonemen korrespondieren, die als ein Resultat einer Sprachumsetzung erhalten werden, und werden die Textdaten als ein bei einer Erzeugung eines Antwortsatzes benutzten Spracherkennungsresultat ausgegeben. Die bei der Suche gefundenen Textdaten können ein Wort oder dgl. sein, das im oben beschriebenen Katalogisierungsmodus katalogisiert wird. Solche durch eine Reihe von Phonemen beschriebene Textdaten können auch bei einer Erzeugung eines Antwortsatzes anstelle von bei einem normalen Spracherkennungsprozess üblicherweise gefundenen Textdaten benutzt werden. Die Erzeugung eines Antwortsatzes basiert auch auf einem in der Wissensbank 16G aufgezeichneten Attribut. Infolgedessen ist, wenn die Physischzustandsdaten 16B beispielsweise anzeigen, dass das elektronische Haustier hungrig (hungry) ist und die vom Benutzer empfangene Eingabe ein Nahrungsattribut (food attribute) aufweist, das Elektronikhaustiergerät 1 zur Erzeugung einer Antwort fähig, die typischerweise „I want to eat (ich will essen)" oder „I want some food (ich möchte Nahrung)" besagt.
Wie oben beschrieben werden ein Wort und das Attribut des Worts als separate Spracheingaben empfangen und nach Bestätigung der Resultate einer Spracherkennung der Spracheingaben durch den Benutzer werden das Wort und das Attribut katalogisiert. Auf diese Weise ist es, da ein Wort und das Attribut des Worts vom Benutzer separat als Spracheingaben eingegeben werden und ihre Spracherkennungsresultate vom Benutzer bestätigt werden, möglich, das Wort und das Attribut leicht und mit einem hohen Grad von Zuverlässigkeit zu katalogisieren.
Wenn andererseits der Benutzer eine „Gao" sagende Spracheingabe eingibt, führt das Elektronikhaustiergerät 1 die durch das in 16 gezeigte funktionelle Blockdiagramm dargestellte Verarbeitung unter Benutzung der eingegebenen Sprache als ein Schlüsselwort zur Erzeugung eines auf der in 17 gezeigten Regel 1 basierenden Sprache aus, um den Benutzer aufzufordern, im Voraus katalogisierte Information wie beispielsweise den Namen des Benutzers einzugeben. Eine vom Benutzer in Reaktion auf diese Aufforderung eingegebene Spracheingabe wird einem Spracherkennungsprozess unterworfen. Das im Elektronikhaustiergerät 1 angewendete Spracherkennungsmodul 11J vergleicht ein Resultat des Spracherkennungsprozesses mit den Erkennungsdaten 16K. Wenn das Ergebnis des Vergleichs den Benutzer authentisiert, wird der Authentisierungszustand 16J gesetzt, um anzuzeigen, dass die Person, welche die Sprache eingibt, der Eigentümer ist.
Das Antwortsatz-Erzeugungsmodul 11A des Elektronikhaustiergeräts 1 erzeugt auf Basis einer Regel der Musterdaten 16E oder der Regel 1 nach 8 einen Antwortsatz, der eine Person anders als der eine Spracheingabe eingebende Eigentümer vom Eigentümer unterscheidet. Um spezifischer zu sein bezieht sich das Antwortsatz-Erzeugungsmodul 11E auf den Authentisierungszustand 16J und erzeugt abhängig von dem Wert des Authentisierungszustands 16J unterschiedliche Antworten.
Infolgedessen ist das Elektronikhaustiergerät 1 zu einer Antwort durch Anzeigen eines speziellen Verhaltens bezüglich des Benutzers, wie es ein wirkliches Haustier tut, was dem elektronischem Haustier ermöglicht, entsprechend leicht zu einem sich Kennenlernen gebracht zu werden.
Außerdem aktiviert bei dem Elektronikhaustiergerät 1 der Zeitgeber 11B das Sprachauthentisierungsmodul 11J, um eine Verarbeitung einer Benutzerauthentisierung in vorbestimmten Intervallen auszuführen. Bei der Benutzerauthentisierungsverarbeitung, die in vorbestimmten Intervallen ausgeführt wird, trifft das Sprachauthentisierungsmodul 11J eine Entscheidung darüber, ob der Benutzer der Eigentümer ist oder nicht. Wie durch eine typische Konversation der 19 gezeigt basiert die Entscheidung auf einer vom Benutzer in Reaktion auf eine Frage nach dem Favoriten, dem Hobby oder dgl. des Benutzers eingegebenen Spracheingabe, die in der Wissensbank 16G wie durch eine typische Konversation der 18 gezeigt aufgezeichnet wurde. Auf diese Weise kann eine Verarbeitung zur Authentisierung des Benutzers ausgeführt werden.
Infolgedessen ist das Elektronikhaustiergerät 1 zu einer Erzeugung einer Antwort fähig, die, wenn notwendig, im Lauf der Konversation durch Verifikation, dass der Konversationspartner der Benutzer ist, dem Eigentümer ein spezielles Verhalten zeigt.
Im Lauf einer Konversation klassifiziert das im Elektronikhaustiergerät 1 angewendete Wort/Satz-Klassifikationsmodul 11M, wenn notwendig, bei der in 20 gezeigten Verarbeitung entsprechend der Wort/Satz-Klassifikationsregel 16M durch sich Beziehen auf eine Konversationshistorie wie die eine in 22 oder 23 gezeigte eine Spracheingabe in eine „Greeting"- oder „Query"-Kategorie oder dgl. Außerdem wird eine Antwort auf eine vom Benutzer gesagte Spracheingabe durch Folgen einer in den in 21 gezeigten Musterdaten 16E beschriebenen Kategoriebeschränkung erzeugt. Wenn eine vom Benutzer gesagte Spracheingabe beispielsweise in die „Query"-Kategorie klassifiziert wird, erlaubt die Klassifikationsbeschränkung nicht, dass eine Antwort erzeugt wird, selbst wenn ein mit der Spracheingabe korrespondierender Schlüsselsatz in einer Regel stipuliert, dass eine Frage als eine Antwort auf die Spracheingabe erzeugt wird.
Infolgedessen ist das Elektronikhaustiergerät 1 zur Vermeidung einer unnatürlichen Konversation fähig, bei der eine Frage in Reaktion auf eine vom Benutzer gestellte Frage erwidert wird.
Außerdem zeichnet das Elektronikhaustiergerät 1 Kategorien aufeinanderfolgender Wörter oder Sätze in einer Kontinuierlichkonversationshistorie 16G auf. Eine Antwort auf eine vom Benutzer gesagte Spracheingabe wird durch sich Beziehen auf in der Kontinuierlichkonversationshistorie 16F aufgezeichnete Kategorien und durch Berücksichtigung einer in den in 21 gezeigten Musterdaten 16E beschriebenen Kategoriebeschränkung erzeugt. Als ein Resultat erzeugt, wenn der Benutzer ein auf ein vom Elektronikhaustiergerät 1 gesagtes „greeting" folgendes greeting eingibt, das Elektronikhaustiergerät 1 in Reaktion auf das „greeting" des Benutzers entsprechend der Kategoriebeschränkung kein anderes „greeting", selbst wenn eine „greeting-to-greeting (Gruß zu Gruß)"-Regel anregt, dass in Reaktion auf ein „greeting" ein „greeting" erzeugt werden soll.
Infolgedessen ist das Elektronikhaustiergerät 1 zu einer Vermeidung einer unnatürlichen Konversation fähig, bei der ständig „greetings" eine Anzahl von Malen ausgetauscht werden, was dem elektronischen Haustier ermöglicht, zu einem zutraulichen Ding gemacht zu werden.
Außerdem führt das Elektronikhaustiergerät 1 auch eine in dem funktionellen Blockdiagramm der 24 gezeigte Verarbeitung aus, um Änderungen in Variablen, welche die Emotionsdaten 16C bilden, Textdaten, die als ein Resultat einer Spracherkennung der Eingabe des Benutzers erhalten werden, und Schlüsselwörter, deren jedes in den Textdaten in der Emotionsänderungshistorie 16N wie das eine in 25 gezeigte enthalten ist, aufzuzeichnen. Beim Elektronikhaustiergerät 1 wird in der Emotionsänderungshistorie 16N nach einem Wort gesucht, das in Benutzereingaben in Verbindung mit einem Schlüsselwort in vorbestimmten Intervallen häufig benutzt wird. Wenn ein solches Wort gefunden wird, wird das Wort in den Zeichendaten 16D wie in 26 gezeigt als ein zur Änderung der Emotionsdaten 16C benutztes neues Schlüsselwort katalogisiert.
Es sei beispielsweise angenommen, dass beim Elektronikhaustiergerät 1 in wie in 25 gezeigten Benutzereingaben der Satz „curry bread" in Verbindung mit dem die Variablen der Emotionsdaten 16C ändernden Schlüsselwort „dirty" eine Anzahl von Malen benutzt wird, die einen vorbestimmten Wert überschreitet. In diesem Fall katalogisiert das Emotionsänderungsmodul 11D den Satz „curry bread" in den Zeichendaten 16D als ein wie in 26 gezeigtes neues Schlüsselwort. Wie in 26 gezeigt werden die Variablen der Emotionsdaten 16C aktualisiert und wird eine Antwort erzeugt, selbst wenn dieser Satz „curry bread" durch Benutzung der gleichen Änderungen wie beim Schlüsselwort „dirty" alleine eingegeben wird.
Infolgedessen ist das Elektronikhaustiergerät 1 fähig zu einer Änderung der Emotion des elektronischen Haustiers durch unterschiedliche Variationen wie ein Tier in Abhängigkeit von Zuständen reagiert und wie ein menschliches Wesen seine Emotion als ein Resultat eines Assoziationsprozesses ändert. Außerdem ist das Elektronikhaustiergerät 1 zu einem Reflektieren der Variationen in einer Emotion in einer dadurch erzeugten Antwort fähig.
Wenn außerdem das beim Elektronikhaustiergerät 1 angewendete Emotionsänderungsmodul 11D die Emotionsänderungshistorie 16N absucht, wird auch die Häufigkeit einer Benutzung jedes Schlüsselworts zur Änderung der Variablen der Emotionsdaten 16C ebenso ausgeprüft. Wenn gefunden wird, dass die Häufigkeit einer Benutzung eines Schlüsselworts wie in 27 gezeigt größer als ein vorbestimmter Wert ist, reduziert das Emotionsänderungsmodul 11D die absoluten Werte der Variationen in den Zeichendaten 16D für das Schlüsselwort. Auf diese Weise ist das Elektronikhaustiergerät 1 zu einer Bildung des sogenannten Gewöhnungsgefühls fähig, und der Gewöhnungszustand wird zur Antwort reflektiert.
Bei dem auf diese Weise benutzten Elektronikhaustiergerät 1 kann der Benutzer die Operatoren auf der in 2 gezeigten Frontplatte betätigen, um das Gerät 1 durch die in 1 gezeigte Netzwerkkommunikationseinheit 17 mit dem Netzwerk 18 zu verbinden. Mit der mit dem Netzwerk 18 verbundenen Netzwerkkommunikationseinheit 17 ist das Elektronikhaustiergerät 1 zu einem Herunterladen von Information wie beispielsweise Erkennungsdaten 16A, Wissensbankdaten 16G und Musterdaten 16E vom Netzwerk 18 fähig. Wie früher beschrieben ist die heruntergeladene Information effektive Regeln, die für die Spracherkennungsverarbeitung und die Antworterzeugungsverarbeitung notwendig sind. Die heruntergeladene Information wird auch zur Aktualisierung der Erkennungsdaten 16A und der Wissensbank 16G benutzt, was dem Benutzer ermöglicht, sich Konversationen mit dem elektronischen Haustier auf einem höheren Niveau zu erfreuen. Außerdem ist es auch möglich, Sprachdaten 16H und Bilddaten 16I herunterzuladen, die als tatsächliche Antwortausgaben benutzt werden können. Auf diese Weise können Ausdrücke von Antworten auch ebenso verbessert werden.
Durch das gleiche Token bzw. Token-Verfahren ist es auch möglich, die Physischzustandsdaten 16B, die Emotionsdaten 16C und die Konversationshistorie 16F mittels des Netzwerks 18 zu einem gewünschten Gerät zu übertragen. Auf diese Weise ist das Empfängergerät zu einer Wiedergabe des elektronischen Haustiers des Elektronikhaustiergerät 1 fähig, was dem elektronischen Haustier ermöglicht, aus unterschiedlichen Umgebungen herausgenommen zu werden.
Im Gegensatz dazu ist es auch möglich, Physischzustandsdaten 16B, Emotionsdaten 16C und Konversationshistorie 16F vom Netzwerk 18 zu empfangen, was dem Elektronikhaustiergerät 1 ermöglicht, eine Antwort zu erzeugen, wie wenn ein anderes elektronisches Haustier das Elektronikhaustiergerät 1 besuchen würde oder wie wenn ein elektronisches Haustier, das in ein anderes Elektronikhaustiergerät gehoben ist, zu diesem Elektronikhaustiergerät 1 herausgebracht worden wäre.
1-8. Effekte der ersten Ausführungsform
Gemäß der oben beschriebenen Konfiguration können die als Regeln von Spracherkennung benutzten Erkennungsdaten, die als Regeln von Antworterzeugung benutzten Musterdaten, die als Regel von Emotionserzeugung benutzten Emotionsdaten, die Physischzustandsdaten, die Sprachdaten und die Bilddaten durch das Netzwerk aktualisiert werden, was es möglich macht, fast die gleichen Antworten wie die von anderen Gerät erzeugten Antworten des mit dem Netzwerk verbundenen gleichen Typs zu erzeugen, wie wenn ein elektronisches Haustier aus dem anderen Gerät in dieses Elektronikhaustiergerät gebracht worden wäre. Außerdem macht es das Elektronikhaustiergerät dem elektronischen Haustier leicht, sich als ein in tatsächlichem Training befindliches wirkliches Haustier kennen zu lernen. Überdies kann, wenn notwendig, die Menge an Wissen auch durch typische Erhöhung der Anzahl von Wörtern, die vom elektronischen Haustier verstanden werden können, erhöht werden.
Außerdem können die Erkennungsdaten durch periodische Verbindung mit dem Netzwerk aktualisiert werden. Infolgedessen kann die Menge an Wissen erhöht werden, ohne dass der Benutzer die Mühe auf sich nehmen muss, es zu tun.
Im Gegensatz dazu können die Physischzustandsdaten, die Emotionsdaten und eine Konversationshistorie mittels des Netzwerks zu einem anderen Gerät des gleichen Typs übertragen werden. Auf diese Weise ist das andere Gerät zu einer Erzeugung fast der gleichen Antworten wie die Antworten auf Spracheingaben, die in dieses Informationsverarbeitungsgerät wie beispielsweise das Elektronikhaustiergerät eingegeben werden, fähig, was dem elektronischen Haustier ermöglicht, behandelt zu werden, wie wenn das elektronische Haustier in das andere Gerät herausgenommen wäre. Als ein Resultat ist das Elektronikhaustiergerät zum dazu Bringen fähig, dass sich das elektronische Haustier leicht als ein in tatsächlichem Training befindliches wirkliches Haustier kennen lernt.
Außerdem können Daten durch Benutzung einer IC-Karte, die ein austauschbares Aufzeichnungsmedium ist, aktualisiert und übertragen werden. Um spezifischer zu sein wird eine neue IC-Karte zur Aktualisierung von Daten befestigt, und eine IC-Karte wird zu einem anderen Gerät gebracht, um Daten zum anderen Gerät zu übertragen. Infolgedessen können Daten auch mit unterschiedlichen Arten von Einrichtung ohne Kommunikationsfunktion ausgetauscht werden.
Überdies werden in einem Katalogisierungsoperationsmodus ein Spracherkennungsresultat eines Worts und die Kategorie des Worts katalogisiert, was ermöglicht, die Größe des Vokabulars von Wörtern, die vom elektronischen Haustier verstanden werden können, leicht durch Spracheingaben zu erhöhen. Als ein Resultat kann das elektronische Haustier in der gleichen Weise behandelt werden, wie wenn ein wirkliches Haustier in tatsächlichem Training erhoben wird, und ganz leicht dazu gebracht werden, sich kennen zu lernen.
Außerdem werden zu dieser Zeit auf Basis einer Reihe von Phonemen, die als ein Spracherkennungsresultat erhalten werden, das Spracherkennungsresultat des Worts und die Kategorie des Worts katalogisiert. Infolgedessen können ein Wort und seine Kategorie nur durch Eingabe einer Spracheingabe ohne Ausführung anderer Operationen katalogisiert werden.
Darüber hinaus wird bei einer normalen Verarbeitung ein Spracherkennungsresultat als Textdaten ausgegeben, und bei einer Katalogisierungsoperation wird eine Beschreibung einer Reihe von Phonemen aufgezeichnet. Als ein Resultat kann eine Beschreibung von Daten wie beispielsweise Regeln vereinfacht werden.
Außerdem werden ein Wort und ein Attribut als Eingaben behandelt, die bei der Katalogisierungsoperation voneinander unterschieden sind. Als ein Resultat kann der Katalogisierungsprozess leicht ausgeführt werden.
Außerdem wird ein Resultat einer Benutzerauthentisierung auf Basis einer Spracheingabe als eine Basis zur Erzeugung unterschiedlicher Antworten für unterschiedliche Personen, die Spracheingaben eingeben, benutzt. Infolgedessen kann eine Antwort des elektronischen Haustiers des Eigentümers verschieden von einer Antwort für eine Person anders als der Eigentümer gemacht werden. Als ein Resultat ist das elektronische Haustier zum Zeigen eines Verhaltens wie wenn ein wirkliches Haustier zutraulicher wird sowie sich leichter kennen lernt fähig.
Überdies wird durch Benutzung von Resultaten einer in der Vergangenheit erhaltenen Spracherkennung ein Resultat einer derzeit erhaltenen Spracherkennung geprüft, um den Benutzer zu authentisieren. Auf diese Weise kann der Benutzer durch eine Konversation ohne Eingabe eines Passworts authentisiert werden. Als ein Resultat kann der Freiheitsgrad zur Benutzung des Elektronikhaustiergeräts erhöht werden.
Darüber hinaus wird durch Benutzung von in der Vergangenheit erhaltenen Resultaten einer Spracherkennung die derzeit erhaltene Antwort eines Benutzers auf eine Frage geprüft, um den Benutzer zu authentisieren, oder wird der Benutzer durch Sagen eines vorbestimmten Worts durch den Benutzer authentisiert. Auf diese Weise kann der Benutzer durch eine natürliche Konversation authentisiert werden. Als ein Resultat kann der Freiheitsgrad zur Benutzung des Elektronikhaustiergeräts entsprechend erhöht werden.
Außerdem ist es durch Identifikation des Typs einer Spracheingabe und durch Erzeugung einer Antwort anders als eine Antwort eines vorbestimmten Typs oder Erzeugung einer Antwort einer mit dem identifizierten Typ der Spracheingabe korrespondierenden Kategorie möglich, eine unnatürliche Konversation wie eine, bei der eine Frage als Antwort auf eine Frage gestellt wird, zu vermeiden. Auf diese Weise kann eine vom elektronischen Haustier gegebene Antwort ebenso natürlich wie lebendig gemacht werden. Als ein Resultat kann das elektronische Haustier zutraulicher gemacht werden und leichter zu einem sich Kennenlernen gebracht werden.
Außerdem kann zu dieser Zeit eine Erzeugung einer Antwort durch sich Beziehen auf eine die Typen von Eingabe und Antworten aufweisenden Historie eine unnatürliche Konversation wie eine, bei der Größe eine Anzahl von Malen wiederholt ausgetauscht werden, vermieden werden. Auf diese Weise kann eine vom elektronischen Haustier gegebene Antwort ebenso natürlich wie lebendig gemacht werden. Als ein Resultat kann das elektronische Haustier zutraulicher gemacht und leichter zu einem sich Kennenlernen gebracht werden.
Überdies können Variationen bei Emotionsparametern entsprechend einer Resultathistorie der Spracherkennung und entsprechend Emotionsparametern geändert werden. Für eine häufig gehörte Stimme ist es beispielsweise möglich, eine Antwort voll von Intimitätsinformationen, Zutraulichkeit und dgl. zu erzeugen. Auf diese Weise kann eine vom elektronischen Haustier gegebene Antwort ebenso natürlich wie lebendig gemacht werden. Als ein Resultat kann das elektronische Haustier zutraulicher gemacht und leichter zu einem sich Kennenlernen gebracht werden.
Um spezifischer zu sein, ändert, wenn ein Wort anders als ein spezifische Wort, das eine Emotion anregt, zu den gleichen Zeiten wie das spezifische Wort oder so häufig wie das spezifische Wort ist benutzt wird, dieses häufig benutzte Wort auch die Emotionsparameter. Das heißt es ist möglich, eine Antwort auf Basis einer durch ein wiederholt benutztes Wort in Kombination mit dem spezifischen Wort geänderten Emotion zu erzeugen.
Darüber hinaus werden, wenn ein spezifisches Wort unter Wörtern, die eine Emotion erregen, häufig benutzt wird, Variationen bei Emotionsparametern erniedrigt. Als ein Resultat kann das sogenannte Gewöhnungsgefühl gebildet werden.
2. Effekte anderer Ausführungsformen
Bei der oben beschriebenen Ausführungsform kann das Elektronikhaustiergerät mit einem Netzwerk verbunden werden, um das elektronische Haustier aus dem Elektronikhaustiergerät herauszunehmen, um eine Antwort eines in ein anderes Gerät gehobenen elektronischen Haustiers zu erzeugen und dem bei diesem elektronischem Gerät erzogenen elektronischen Haustier unterschiedliche Regeln und unterschiedliche Arten von Information beizubringen. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung nicht auf diese Ausführungsform beschränkt ist. Beispielsweise kann bewirkt werden, dass, wenn notwendig, nur eine gewisse der oben beschriebenen Verarbeitung ausgeführt wird. Außerdem macht das Elektronikhaustiergerät einen Zugriff auf das Netzwerk periodisch, wenn der Benutzer eine vorbestimmte Operation ausführt oder wenn vom anderen Gerät ein Anruf empfangen wird.
Überdies ist gemäß der oben beschriebenen Ausführungsform das Elektronikhaustiergerät durch eine Telefonleitung mit einem Netzwerk verbunden. Es ist jedoch beachtenswert, dass die Erfindung auch auf Anwendungen angewendet werden kann, bei denen das Elektronikhaustiergerät durch eine andere Einrichtung wie beispielsweise ein Modem oder ein Personalcomputer mit einem Netzwerk verbunden ist.
Außerdem lernt bei der oben beschriebenen Ausführungsform das sogenannte elektronische Haustier Erkennungsdaten, Musterdaten, Sprachdaten und Bilddaten, die von einem Netzwerk heruntergeladen werden. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der Erfindung nicht auf diese Ausführungsform beschränkt ist. Beispielsweise können elektronische Haustiere auch nur gewisse notwendige der heruntergeladenen Daten lernen. Außerdem können die Technik zum Erkennen einer Sprache selbst, die Technik zur Erzeugung von Sprachdaten selbst und die Technik zur Erzeugung von Bilddaten selbst durch heruntergeladene Steuerungsprogramme, welche die Techniken beschreiben, modifiziert werden. Durch das gleiche Token können auch die Technik zur Erzeugung von Emotionsdaten und die Verarbeitung des Antwortsatz-Erzeugungsmoduls und eine andere Verarbeitung geändert werden.
Darüber hinaus können gemäß der oben beschriebenen Ausführungsform Physischzustandsdaten, Emotionsdaten und eine Konversationshistorie zu einem anderen Gerät übertragen werden, um das elektronische Haustier in dieses herauszunehmen. Es ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann, wenn nur gewisse der Daten übertragen werden oder die Daten zusammen mit Information wie beispielsweise Wissen übertragen werden, ein anderes Gerät eine Verarbeitung zum Emulieren des elektronischen Haustiers dieses Elektronikhaustiergeräts auszuführen. Außerdem kann anstelle einer Übertragung solcher Daten eine Antwort auf eine als ein Resultat einer von einem anderen Gerät ausgeführten Spracherkennung erhaltene Eingabe zum anderen Gerät übertragen werden.
Außerdem können gemäß der oben beschriebenen Ausführungsform unterschiedliche Arten von Daten vom anderen Gerät eingegeben werden, um das elektronische Haustier des anderen Geräts zu diesem Elektronikhaustiergerät herauszubringen. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielweise kann, wenn nur gewisse der Daten empfangen werden oder die Daten zusammen mit Information wie beispielsweise Wissen empfangen werden, eine Verarbeitung zum Emulieren des elektronischen Haustiers des anderen Geräts ausgeführt werden. Außerdem kann anstelle einer internen Verarbeitung von beispielsweise solchen Daten, die von der anderen Einrichtung empfangen werden, dieses Elektronikhaustiergerät ein Spracherkennungsresultat zum anderen Gerät senden und dann eine Antwort auf das Spracherzeugungsresultat vom anderen Gerät empfangen.
Überdies wird bei der oben beschriebenen Ausführungsform eine Spracheingabe einem Spracherkennungsprozess unterworfen, um die Eingabe in eine Reihe von Phonemen umzusetzen. Es ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise können auch unterschiedliche Spracherkennungstechniken, die für Verarbeitungserfordernisse richtig sind, angenommen werden.
Darüber hinaus werden bei der oben beschriebenen Ausfürungsform ein Wort und das Attribut des Worts jeweils als eine zu katalogisierende Spracheingabe in das Elektronikhaustiergerät eingegeben. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann ein Attribut vom Benutzer durch Betätigung eines Operators ausgewählt und in das Elektronikhaustiergerät eingegeben werden. In diesem Fall gibt es eine vorstellbare Technik, bei welcher der Benutzer aufgefordert wird, ein Attribut durch Auswählen einer Einzelheit auf einem angezeigten Menü einzugeben.
Außerdem wird gemäß der oben beschriebenen Ausführungsform für eine in Authentisierungsdaten zu katalogisierende Spracheingabe als Textdaten aus einer Reihe von Phonemen, welche die Spracheingabe darstellen, ein Spracherkennungsresultat als eine Reihe von Phonemen ausgegeben. Was ein gewöhnliches Spracherkennungsresultat betrifft, so werden nur gewöhnliche Textdaten erzeugt. Es ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann auch für ein gewöhnliches Spracherkennungsresultat das Spracherkennungsresultat als eine Reihe von Phonemen ausgegeben werden.
Überdies wird bei der oben beschriebenen Ausführungsform der Benutzer durch Identifikation des Namens oder des Favoriten des Benutzers authentisiert. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann die vorliegende Erfindung auch auf einem weiten Bereich von Anwendungen angewendet werden, bei denen der Benutzer durch Verifikation eines Passworts, Daten einer vergangenen Konversation oder eines vergangenen Spracherkennungsresultats authentisiert wird.
Darüber hinaus wird bei der oben beschriebenen Ausführungsform der Benutzer durch Prüfen eines speziellen Satzes, der vom Benutzer in Reaktion auf eine vom Elektronikhaustiergerät gestellte vorbestimmte Frage gesagt wird, authentisiert wird und der Benutzer periodisch authentisiert wird. Es ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann der Benutzer auch entweder durch Verifikation eines speziellen Satzes oder periodisch wie notwendig authentisiert werden.
Außerdem wird gemäß der oben beschriebenen Ausführungsform bei einem Prozess zur Erkennung einer Spracheingabe durch Aufspalten der Eingabe in eine Reihe von Phonemen der Benutzer durch Verifikation einer ein spezielles Wort darstellenden Sprache authentisiert. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann der Benutzer auch durch Verifikation unterschiedlicher charakteristischer Quantitäten, welche die Charakteristiken der Sprache des Benutzers darstellen, authentisiert werden, um den gleichen Effekt wie bei der oben beschriebenen Ausführungsform zu ergeben. Beispiele der charakteristischen Quantitäten sind der Ton und das Frequenzspektrum der Sprache.
Überdies kann bei der oben beschriebenen Ausführungsform eine Antwort des elektronischen Haustiers für den Eigentümer verschieden von einer Antwort für eine Person anders als der Eigentümer gemacht werden. Es ist beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise können mehrere unterschiedliche Antworten für mehrere unterschiedliche Personen, die Spracheingaben bereitstellen, wie beispielsweise Mitglieder der Familie oder des Eigentümers und Personen anders als Familienmitglieder erzeugt werden.
Darüber hinaus wird bei der oben beschriebenen Ausführungsform auf einfache Weise verhindert, dass eine Frage als Antwort auf eine Frage auf Basis des Typs der Frageeingabe und des Typs der Frageantwort ausgegeben wird. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann eine Frage als Antwort auf eine Frage aufgrund von Gründen wie beispielsweise der Emotion ausgegeben werden. In diesem Fall zeigt es, dass das elektronische Haustier schlecht gelaunt ist.
Außerdem wird gemäß der oben beschriebenen Ausführungsform die Emotion durch Manipulation von Zeichendaten gesteuert. Es ist jedoch beachtenswert, dass der Schutzbereich der Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise können die Emotionsdaten anstelle einer Manipulation der Zeichendaten auch direkt geändert werden.
Überdies gibt die oben beschriebene Ausführungsform Sprachdaten und Bilddaten aus. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise werden Sprachen und Bilder als ein Resultat von Audio- und Videosynthesen ausgegeben.
Darüber hinaus werden bei der oben beschriebnen Ausführungsform die Spracherkennungsverarbeitung und die Bildsyntheseverarbeitung durch die in 3 gezeigte zentrale Verarbeitungseinheit ausgeführt. Es ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht durch eine solche Ausführungsform beschränkt ist. Beispielsweise können die Spracherkennungsverarbeitung und die Bildsyntheseverarbeitung auch durch dedizierte Schaltungen wie in 28 gezeigt ausgeführt werden.
Außerdem wendet die oben beschriebene Ausführungsform die vorliegende Erfindung auf ein Elektronikhaustiergerät, das eine Sprache und ein Bild als eine Antwort ausgibt, an. Es sei jedoch darauf hingewiesen, dass der Schutzbereich der vorliegenden Erfindung nicht durch eine solche Ausführungsform beschränkt ist. Beispielsweise kann die vorliegende Erfindung auch zum Beispiel bei einem Roboter, das sich wie ein Tier bewegt, ein Elektronikhaustiergerät, das sich bei Ausgabe einer Antwort bewegt und schreit, und ein Elektronikhaustiergerät, das Antworten in unterschiedlichen Formen ausgibt, angewendet werden.
Überdies wendet die oben beschriebene Ausführungsform die vorliegende Erfindung auf ein Elektronikhaustiergerät an, das ein Spezialzweckgerät zum Emulieren eines elektronischen Haustiers mit seiner in 2 gezeigten Frontplatte ist. Es ist jedoch beachtenswert, dass der Schutzbereich der vorliegenden Erfindung nicht auf eine solche Ausführungsform beschränkt ist. Beispielsweise kann die vorliegende Erfindung auch bei unterschiedlichen tragbaren Einrichtungen wie beispielsweise einem tragbaren Telefon, einem tragbaren GPS, einem tragbaren Bandrekorder und einem tragbaren Optikplattenlaufwerk mit einer in 28 gezeigten Frontplatte angewendet werden. Zusätzlich zu solchen tragbaren Einrichtungen kann die vorliegende Erfindung auch auf Informationsverarbeitungsgeräte wie beispielsweise einen Personalcomputer, bei dem sich unterschiedliche Animationszeichen oder dgl. bewegen, angewendet werden.
Industrielle Anwendbarkeit
Die vorliegende Erfindung kann für einen Unterhaltungsroboter benutzt werden.

1: Elektronikhaustiergerät;
11A: Spracherkennungsmodul;
11B: Zeitgeber;
11C: Physischzustands-Änderungsmodul;
11D: Emotionsänderungsmodul;
11E: Antwortsatz-Erzeugungsmodul;
11F: Sprachsynthesemodul;
11G: Bildsynthesemodul;
11I: Katalogisierungsmodul;
11J: Spracherkennungsmodul;
11M: Wort/Satz-Klassifikationsmodul;
16A: Erkennungsdaten;
16B: Physischzustandsdaten;
16C: Emotionsdaten;
16D: Zeichendaten;
16E: Musterdaten;
16F: Konversationshistorie;
16G: Wissenbank;
16H: Sprachdaten;
16I: Bilddaten;
16J: Authentisierungszustand;
16K: Authentisierungsdaten;
16M: Klassifikationsregel;
16N: Emotionsänderungshistorie;
17: Netzwerkverbindungseinheit.

Claims

Informationsverarbeitungsgerät, aufweisend: eine Spracheingabeeinrichtung zur Eingabe einer vom Benutzer ausgegebenen Sprache, eine Spracherkennungseinrichtung zur Erkennung der von der Spracheingabeeinrichtung empfangenen Sprache und zur Ausgabe eines Spracherkennungsresultats in Übereinstimmung mit einer vorbestimmten Erkennungsregel, eine Emotionserzeugungseinrichtung zur Erzeugung in Übereinstimmung mit einer vorbestimmten Emotionsparameter-Erzeugungsregel eines Emotionsparameters, der eine Emotion auf künstliche Weise simuliert sowie wenigstens entsprechend einem Spracherkennungsresultat variiert und mit dem Zeitablauf variiert, eine Reaktionserzeugungseinrichtung zur Erzeugung einer Reaktion auf ein Spracherkennungsresultat in Übereinstimmung mit einer vorbestimmten Reaktionserzeugungsregel auf Basis wenigstens des Emotionsparameters, eine Reaktionsausgabeeinrichtung zur Ausgabe der Reaktion, gekennzeichnet durch eine Kommunikationseinrichtung zur Ausführung einer Verarbeitung zu einer Aktualisierung der Erkennungsregel, der Emotionsparameter-Erzeugungsregel und der Reaktionserzeugungsregel durch eine Verbindung mit einem vorbestimmten Netzwerk oder eine Kommunikationseinrichtung zur Ausführung einer Verarbeitung zu einer Aktualisierung von Daten, die für die Erkennungsregel, die Emotionsparameter-Erzeugungsregel und die Antworterzeugungsregel notwendig sind, durch eine Verbindung mit dem vorbestimmten Netzwerk.
Informationsverarbeitungsgerät nach Anspruch 1, dadurch gekennzeichnet, dass die Kommunikationseinrichtung zur Ausführung der Aktualisierungsverarbeitung das Informationsverarbeitungsgerät periodisch mit dem Netzwerk verbindet.
Informationsverarbeitungsgerät nach Anspruch 1, dadurch gekennzeichnet, dass wenigstens der Emotionsparameter oder Daten, die zur Erzeugung des Emotionsparameters erforderlich sind, durch Benutzung von Daten aktualisiert werden kann oder können, die in austauschbaren Aufzeichnungsmedien gespeichert sind.
Informationsverarbeitungsverfahren, aufweisend die Schritte: Eingeben einer Sprachausgabe vom Benutzer, Erkennen einer beim Spracheingabeschritt empfangenen Sprache und Ausgeben eines Spracherkennungsresultats in Übereinstimmung mit einer vorbestimmten Erkennungsregel, Erzeugen in Übereinstimmung mit einer vorbestimmten Emotionsparameter-Erzeugungsregel eines Emotionsparameters, der eine Emotion auf künstliche Weise simuliert sowie wenigstens entsprechend einem Spracherkennungsresultat variiert und mit dem Zeitablauf variiert, Erzeugen einer Reaktion auf ein Spracherkennungsresultat in Übereinstimmung mit einer vorbestimmten Reaktionserzeugungsregel auf Basis wenigstens des Emotionsparameters, Ausgeben der Reaktion, gekennzeichnet durch den Schritt: Ausführen einer Kommunikationsverarbeitung zu einer Aktualisierung der Erkennungsregel, der Emotionsparameter-Erzeugungsregel und der Reaktionserzeugungsregel durch eine Verbindung mit einem vorbestimmten Netzwerk oder Ausführen einer Kommunikationsverarbeitung zu einer Aktualisierung von Daten, die für die Erkennungsregel, die Emotionsparameter-Erzeugungsregel und die Antworterzeugungsregel notwendig sind, durch eine Verbindung mit dem vorbestimmten Netzwerk.
Aufzeichnungsmedium, das Informationsverarbeitungsprozeduren zur Ausführung des Verfahrens nach Anspruch 4 speichert und von einem Informationsverarbeitungsgerät lesbar ist, wenn das Aufzeichnungsmedium auf dem Informationsverarbeitungsgerät läuft.